DeepSeek เปิดตัว DeepSeekMath-V2 โมเดลคณิตศาสตร์เก่งระดับโลก เปิดตัวเงียบ บน HugggingFace แบบไม่มีการบอกกล่าวล่วงหน้าเลย
ภาพที่คนส่วนใหญ่ คิดถึงคือ ใส่โจทย์ → ได้คำตอบเลขออกมา จบ
แต่ข้อจำกัดสำคัญในการพัฒนา คือ การไล่คำตอบสุดท้ายให้ตอบแม่นยำสูงขึ้นเรื่อย ๆ มันไม่ได้ไปแตะปัญหาหลัก คือ คำตอบถูก ไม่ได้แปลว่าเหตุผลระหว่างทางถูก
แต่ DeepSeek ใช้วิธีพิสูจน์เอง ตรวจเอง แก้งานตัวเองได้ (Self-Verifiable Mathematical Reasoning) ว่า เดินเหตุผลมาถูกทางไหม ข้ามขั้นไหม มีหลุดตรรกะตรงไหนหรือเปล่า
โครงสร้างที่ฉลาดจนโลกต้องอึ้ง: นักเรียน–ครู–ผู้ตรวจ
- เบื้องหลัง DeepSeekMath-V2 ไม่ได้ฝึกแบบป้อนโจทย์–เช็กคำตอบเฉย แต่สร้าง 3 บทบาท ไว้ในระบบเดียวกัน
เด็กทำ → ครูตรวจ → ผู้ตรวจเช็กครู → เด็กเอา Feedback ไปแก้งาน
กลายเป็นวงจรที่ทุกตัว ฉลาดขึ้นพร้อมกัน
นักเรียน – ตัวเขียนพิสูจน์
- อ่านโจทย์ → เขียนวิธีทำเป็นขั้น ๆ
- จากนั้นต้อง ให้คะแนนตัวเอง + วิจารณ์ตัวเอง ว่าตรงไหนเสี่ยงพลาด
ครู – ตัวตรวจข้อสอบ
- อ่านพิสูจน์ทั้งชุด ไม่ได้ดูแค่คำตอบสุดท้ายให้คะแนนแบบ 3 ระดับ
- 1 = พิสูจน์ครบ แน่น
- 0.5 = แนวคิดถูก แต่หลวม ขาดดีเทล
- 0 = ตรรกะพัง หรือข้ามขั้นสำคัญ
ต้องเขียนคอมเมนต์ด้วยว่า ผิดเพราะอะไร ขาดตรงไหน
ผู้ตรวจ (Supervisor) – ตรวจครูอีกที
- ไม่ได้ไปตรวจพิสูจน์โดยตรง แต่เช็กว่า คอมเมนต์ของครู มีเหตุผลไหม
- ด่าผิดด่าเกินไปหรือเปล่า
- มองเห็นปัญหาที่ไม่มีจริงไหม
ชั้นนี้ช่วยกันไม่ให้ระบบมั่ว ทำให้การให้คะแนนและคำวิจารณ์ น่าเชื่อถือมากขึ้นเยอะ
ผลลัพธ์:
- IMO 2025 กับ CMO 2024 ทำคะแนนถึงระดับ เหรียญทอง เกือบ 99%
- Putnam 2024 ทำได้ 118/120 คะแนน สูงกว่ามนุษย์ที่ได้ 90 คะแนน
สิ่งที่ โหดจริง สำหรับคนทำงาน คือ พอฝึกแบบนี้แล้ว
- อาการ มั่วและหลอน แต่ทำเป็นมั่นใจ ลดลง
- วิธีคิดเป็นขั้น ๆ ดูมีเหตุมีผลมากขึ้น
เวลาให้ช่วยดูพิสูจน์ มันไม่ได้ให้คำตอบอย่างเดียว แต่บอกได้ด้วยว่า
- ตรงไหนโอเค
- ตรงไหนยังหลวม
- ตรงไหนอาจต้องกลับไปคิดใหม่
แนวคิดใหม่ของ DeepSeek
- AI ส่วนใหญ่เวลาฝึกกัน ใช้เกณฑ์ง่ายมาก
- ถ้าคำตอบถูก แต่ยอมรับว่าผิด ชี้ได้ด้วยว่าผิดตรงไหน = ได้รางวัล
- ถ้าคำตอบผิด ทำเนียนว่า ทุกอย่างดีหมด = โดนหักคะแนน
ปัญหา คือ มันทำให้ AI เรียนรู้แค่ว่า ทำยังไงให้ผลลัพธ์ตัวเลขออกมาตรง แต่ไม่ได้ถูกสอนให้แคร์ว่า
- เดินเหตุผลมาแบบมั่ว ๆ หรือเปล่า
- คิดระหว่างทำโจทย์ หรือตรรกะ มีตรงไหน Fail หรือ Flaw ไหม
สรุป คือ มันไม่ได้ถูกฝึกให้เก่งแค่หาคำตอบ แต่มันถูกฝึกให้เก่งใน การคิด และกล้ายอมรับข้อผิดพลาดของตัวเอง
ข้อสรุป:
แนวคิดแบบ DeepSeek Math V2 คือ ทิศทางที่น่าสนใจมาก เพราะมันไม่ได้ตอบว่า อะไรคือคำตอบที่ถูก แค่นั้น แต่ช่วยเราดูด้วยว่า เหตุผลเบื้องหลังคำตอบนั้น น่าไว้ใจแค่ไหน



