Alibaba ต่อยอด โมเดล QWQ-32B เน้นโหมด Reasoning เพื่อแก้ปัญหางานที่ซับซ้อน ผ่านการเรียนแบบ RL (Reinforcement Learning) เข้มงวดขึ้น

ย้อนเหตุการณ์

พฤศจิกายน 2024

QwQ-32B เปิดตัวเพื่อแข่งกับ o1-preview ของ OpenAI โดยใช้เทคนิค “การคิดซ้ำ-ปรับปรุง” (inference-time reasoning) เพื่อแก้โจทย์คณิตศาสตร์และ Coding ได้แม่นยำ และทำคะแนนสูงกว่า o1-preview แต่ยังมีข้อจำกัดในการเขียนโค้ดเชิงปฏิบัติ (LiveCodeBench)

20 มกราคม 2025

ก่อนหน้านี้ DeepSeek ปล่อยโมเดล R1 ขนาด 671 พันล้านพารามิเตอร์ ใช้ GPU A100 16 ตัว (VRAM 1500+ GB) กลายเป็นคู่แข่งสำคัญ

6 มีนาคม 2025

Alibaba ต่อยอดโมเดล QWQ-32B นี้ จากการเปิดตัวครั้งก่อน มีประสิทธิภาพใกล้เคียงกับ Deepseek-R1
การฝึกโมเดลนี้มีหลายขั้นตอน ตั้งแต่ ก่อนฝึกข้อมูล (Pre-training),ปรับแต่งโมเดล (fine-tuning) แบบมีผู้ควบคุม และ RL

ส่วนของ RL มีทั้งหมด 2 เฟสที่ใช้ในการ Train โมเดล เพื่อฝึก RL

  1. เฟสคณิตศาสตร์และ Coding: ใช้ “ตัวตรวจความถูกต้อง” (Verifier) ทดสอบคำตอบและ Code แบบเรียลไทม์
  2. เฟสพัฒนาทักษะทั่วไป: ฝึกด้วย Reward Models เพื่อปรับการสื่อสารให้เป็นมนุษย์มากขึ้น โดยไม่ทิ้งความสามารถเดิม

ความสามารถของโมเดลนี้

– การให้เหตุผลทางคณิตศาสตร์

– เชี่ยวชาญด้านการเขียนโค้ด

– แก้ปัญหาทั่วไป

– ปรับแต่งโหมด Reasoning จาก Feedback ด้วย Agent เพื่อปรับกระบวนการคิดตามผลตอบรับ ให้คิดวิเคราะห์เป็นขั้นตอนได้ดีกว่า ตอนเปิดตัวแรก ๆ

ด้วยเหตุนี้ QwQ-32B พิสูจน์แล้วว่า “ขนาดไม่ใช่ทุกอย่าง” ด้วยประสิทธิภาพเทียบเท่า R1 แม้ใช้ VRAM เพียง 24 GB

ผสมผสานกับการใช้งาน Agent เข้าไป เพื่อปูทางสู่การสร้าง AGI

ความยาวบริบท 131,072 Tokens สำหรับจัดการ Input ที่เป็นประโยคยาว ๆ ได้ดี

ผลคะแนน Benchmark ระหว่าง QWQ-32B, Deepseek R1 Series และ o1-mini

เหตุผลที่ผู้บริหารสนใจ QWQ-32B

  1. ใช้พลังการคำนวณน้อยมากครับ แต่ผลลัพธ์ใกล้เคียงโมเดลขนาดใหญ่
  2. ปรับแต่งได้อิสระ: โอเพนซอร์สภายใต้ Apache 2.0 สามารถปรับแต่ง (Fine-Tuning) และใช้งานในเชิงพาณิชย์ได้ครับ
  3. รองรับงานเชิงกลยุทธ์ เช่น การวิเคราะห์ข้อมูลอัตโนมัติ, การพัฒนาซอฟต์แวร์, พัฒนาระบบอัตโนมัติอัจฉริยะ

เสียงตอบรับ

  1. Vaibhav Srivastav จาก Hugging Face พูดว่า “โมเดลนี้เร็วและแม่นยำ แถมมี License ของ Apache 2.0 ช่วยเพิ่มความยืดหยุ่น”
  2. Chubby นักข่าวสาย AI แสดงความเห็นว่า “Alibaba พิสูจน์แล้วว่าโมเดลเล็กที่ใช้ Reinforcement Learning ได้ดี สามารถท้าชน AI ค่ายยักษ์ใหญ่ได้จริง”
  3. Yuchen Jin (Hyperbolic Labs) บอกว่า โมเดลเล็กแต่ เอาชนะ DeepSeek-R1 และ o1-mini ของ OpenAI ได้”

อนาคต

ทีม Qwen มองว่า QWQ-32B เป็นอนาคตของ AI ที่ทุกองค์กรต้องจับตา และเป็นหัวใจสำคัญของการพัฒนาโมเดล AI ในยุคถัดไป ที่เน้นความกะทัดรัด แสดงให้เห็นว่า AI ไม่จำเป็นต้องใหญ่เพื่อให้เก่ง ทำให้โมเดลนี้สามารถแข่งขันกับโมเดล AI ขนาดใหญ่ได้

ข้อสรุป:

QwQ-32B เป็น AI ขนาดเล็ก แต่ความสามารถของโมเดลนี้ ทรงพลังมาก แสดงให้เห็นว่า AI ไม่จำเป็นต้องใหญ่เพื่อให้เก่ง ทำให้โมเดลนี้สามารถแข่งขันกับโมเดล AI ขนาดใหญ่ได้

Source:

Venturebeat, Blog Qwen, Demo, Huggingface, Modelscope