Alibaba ต่อยอด โมเดล QWQ-32B เน้นโหมด Reasoning เพื่อแก้ปัญหางานที่ซับซ้อน ผ่านการเรียนแบบ RL (Reinforcement Learning) เข้มงวดขึ้น
ย้อนเหตุการณ์
พฤศจิกายน 2024
QwQ-32B เปิดตัวเพื่อแข่งกับ o1-preview ของ OpenAI โดยใช้เทคนิค “การคิดซ้ำ-ปรับปรุง” (inference-time reasoning) เพื่อแก้โจทย์คณิตศาสตร์และ Coding ได้แม่นยำ และทำคะแนนสูงกว่า o1-preview แต่ยังมีข้อจำกัดในการเขียนโค้ดเชิงปฏิบัติ (LiveCodeBench)
20 มกราคม 2025
ก่อนหน้านี้ DeepSeek ปล่อยโมเดล R1 ขนาด 671 พันล้านพารามิเตอร์ ใช้ GPU A100 16 ตัว (VRAM 1500+ GB) กลายเป็นคู่แข่งสำคัญ
6 มีนาคม 2025
Alibaba ต่อยอดโมเดล QWQ-32B นี้ จากการเปิดตัวครั้งก่อน มีประสิทธิภาพใกล้เคียงกับ Deepseek-R1
การฝึกโมเดลนี้มีหลายขั้นตอน ตั้งแต่ ก่อนฝึกข้อมูล (Pre-training),ปรับแต่งโมเดล (fine-tuning) แบบมีผู้ควบคุม และ RL
ส่วนของ RL มีทั้งหมด 2 เฟสที่ใช้ในการ Train โมเดล เพื่อฝึก RL
- เฟสคณิตศาสตร์และ Coding: ใช้ “ตัวตรวจความถูกต้อง” (Verifier) ทดสอบคำตอบและ Code แบบเรียลไทม์
- เฟสพัฒนาทักษะทั่วไป: ฝึกด้วย Reward Models เพื่อปรับการสื่อสารให้เป็นมนุษย์มากขึ้น โดยไม่ทิ้งความสามารถเดิม
ความสามารถของโมเดลนี้
– การให้เหตุผลทางคณิตศาสตร์
– เชี่ยวชาญด้านการเขียนโค้ด
– แก้ปัญหาทั่วไป
– ปรับแต่งโหมด Reasoning จาก Feedback ด้วย Agent เพื่อปรับกระบวนการคิดตามผลตอบรับ ให้คิดวิเคราะห์เป็นขั้นตอนได้ดีกว่า ตอนเปิดตัวแรก ๆ
ด้วยเหตุนี้ QwQ-32B พิสูจน์แล้วว่า “ขนาดไม่ใช่ทุกอย่าง” ด้วยประสิทธิภาพเทียบเท่า R1 แม้ใช้ VRAM เพียง 24 GB
ผสมผสานกับการใช้งาน Agent เข้าไป เพื่อปูทางสู่การสร้าง AGI
ความยาวบริบท 131,072 Tokens สำหรับจัดการ Input ที่เป็นประโยคยาว ๆ ได้ดี

เหตุผลที่ผู้บริหารสนใจ QWQ-32B
- ใช้พลังการคำนวณน้อยมากครับ แต่ผลลัพธ์ใกล้เคียงโมเดลขนาดใหญ่
- ปรับแต่งได้อิสระ: โอเพนซอร์สภายใต้ Apache 2.0 สามารถปรับแต่ง (Fine-Tuning) และใช้งานในเชิงพาณิชย์ได้ครับ
- รองรับงานเชิงกลยุทธ์ เช่น การวิเคราะห์ข้อมูลอัตโนมัติ, การพัฒนาซอฟต์แวร์, พัฒนาระบบอัตโนมัติอัจฉริยะ
เสียงตอบรับ
- Vaibhav Srivastav จาก Hugging Face พูดว่า “โมเดลนี้เร็วและแม่นยำ แถมมี License ของ Apache 2.0 ช่วยเพิ่มความยืดหยุ่น”
- Chubby นักข่าวสาย AI แสดงความเห็นว่า “Alibaba พิสูจน์แล้วว่าโมเดลเล็กที่ใช้ Reinforcement Learning ได้ดี สามารถท้าชน AI ค่ายยักษ์ใหญ่ได้จริง”
- Yuchen Jin (Hyperbolic Labs) บอกว่า โมเดลเล็กแต่ เอาชนะ DeepSeek-R1 และ o1-mini ของ OpenAI ได้”
อนาคต
ทีม Qwen มองว่า QWQ-32B เป็นอนาคตของ AI ที่ทุกองค์กรต้องจับตา และเป็นหัวใจสำคัญของการพัฒนาโมเดล AI ในยุคถัดไป ที่เน้นความกะทัดรัด แสดงให้เห็นว่า AI ไม่จำเป็นต้องใหญ่เพื่อให้เก่ง ทำให้โมเดลนี้สามารถแข่งขันกับโมเดล AI ขนาดใหญ่ได้
ข้อสรุป:
QwQ-32B เป็น AI ขนาดเล็ก แต่ความสามารถของโมเดลนี้ ทรงพลังมาก แสดงให้เห็นว่า AI ไม่จำเป็นต้องใหญ่เพื่อให้เก่ง ทำให้โมเดลนี้สามารถแข่งขันกับโมเดล AI ขนาดใหญ่ได้