DeepSeek เปิดตัว DeepSeekMath-V2 โมเดลคณิตศาสตร์เก่งระดับโลก เปิดตัวเงียบ บน HugggingFace แบบไม่มีการบอกกล่าวล่วงหน้าเลย

ภาพที่คนส่วนใหญ่ คิดถึงคือ ใส่โจทย์ → ได้คำตอบเลขออกมา จบ

แต่ข้อจำกัดสำคัญในการพัฒนา คือ การไล่คำตอบสุดท้ายให้ตอบแม่นยำสูงขึ้นเรื่อย ๆ มันไม่ได้ไปแตะปัญหาหลัก คือ คำตอบถูก ไม่ได้แปลว่าเหตุผลระหว่างทางถูก

แต่ DeepSeek ใช้วิธีพิสูจน์เอง ตรวจเอง แก้งานตัวเองได้ (Self-Verifiable Mathematical Reasoning) ว่า เดินเหตุผลมาถูกทางไหม ข้ามขั้นไหม มีหลุดตรรกะตรงไหนหรือเปล่า

โครงสร้างที่ฉลาดจนโลกต้องอึ้ง: นักเรียน–ครู–ผู้ตรวจ

  • เบื้องหลัง DeepSeekMath-V2 ไม่ได้ฝึกแบบป้อนโจทย์–เช็กคำตอบเฉย แต่สร้าง 3 บทบาท ไว้ในระบบเดียวกัน

เด็กทำ → ครูตรวจ → ผู้ตรวจเช็กครู → เด็กเอา Feedback ไปแก้งาน

กลายเป็นวงจรที่ทุกตัว ฉลาดขึ้นพร้อมกัน

นักเรียน – ตัวเขียนพิสูจน์

  • อ่านโจทย์ → เขียนวิธีทำเป็นขั้น ๆ
  • จากนั้นต้อง ให้คะแนนตัวเอง + วิจารณ์ตัวเอง ว่าตรงไหนเสี่ยงพลาด

ครู – ตัวตรวจข้อสอบ

  • อ่านพิสูจน์ทั้งชุด ไม่ได้ดูแค่คำตอบสุดท้ายให้คะแนนแบบ 3 ระดับ
  • 1 = พิสูจน์ครบ แน่น
  • 0.5 = แนวคิดถูก แต่หลวม ขาดดีเทล
  • 0 = ตรรกะพัง หรือข้ามขั้นสำคัญ

ต้องเขียนคอมเมนต์ด้วยว่า ผิดเพราะอะไร ขาดตรงไหน

ผู้ตรวจ (Supervisor) – ตรวจครูอีกที

  • ไม่ได้ไปตรวจพิสูจน์โดยตรง แต่เช็กว่า คอมเมนต์ของครู มีเหตุผลไหม
  • ด่าผิดด่าเกินไปหรือเปล่า
  • มองเห็นปัญหาที่ไม่มีจริงไหม

ชั้นนี้ช่วยกันไม่ให้ระบบมั่ว ทำให้การให้คะแนนและคำวิจารณ์ น่าเชื่อถือมากขึ้นเยอะ

ผลลัพธ์:

  • IMO 2025 กับ CMO 2024 ทำคะแนนถึงระดับ เหรียญทอง เกือบ 99%
  • Putnam 2024 ทำได้ 118/120 คะแนน สูงกว่ามนุษย์ที่ได้ 90 คะแนน

สิ่งที่ โหดจริง สำหรับคนทำงาน คือ พอฝึกแบบนี้แล้ว

  • อาการ มั่วและหลอน แต่ทำเป็นมั่นใจ ลดลง
  • วิธีคิดเป็นขั้น ๆ ดูมีเหตุมีผลมากขึ้น

เวลาให้ช่วยดูพิสูจน์ มันไม่ได้ให้คำตอบอย่างเดียว แต่บอกได้ด้วยว่า

  • ตรงไหนโอเค
  • ตรงไหนยังหลวม
  • ตรงไหนอาจต้องกลับไปคิดใหม่

แนวคิดใหม่ของ DeepSeek

  • AI ส่วนใหญ่เวลาฝึกกัน ใช้เกณฑ์ง่ายมาก
  1. ถ้าคำตอบถูก แต่ยอมรับว่าผิด ชี้ได้ด้วยว่าผิดตรงไหน = ได้รางวัล
  2. ถ้าคำตอบผิด ทำเนียนว่า ทุกอย่างดีหมด = โดนหักคะแนน

ปัญหา คือ มันทำให้ AI เรียนรู้แค่ว่า ทำยังไงให้ผลลัพธ์ตัวเลขออกมาตรง แต่ไม่ได้ถูกสอนให้แคร์ว่า

  • เดินเหตุผลมาแบบมั่ว ๆ หรือเปล่า
  • คิดระหว่างทำโจทย์ หรือตรรกะ มีตรงไหน Fail หรือ Flaw ไหม

สรุป คือ มันไม่ได้ถูกฝึกให้เก่งแค่หาคำตอบ แต่มันถูกฝึกให้เก่งใน การคิด และกล้ายอมรับข้อผิดพลาดของตัวเอง

ข้อสรุป:

แนวคิดแบบ DeepSeek Math V2 คือ ทิศทางที่น่าสนใจมาก เพราะมันไม่ได้ตอบว่า อะไรคือคำตอบที่ถูก แค่นั้น แต่ช่วยเราดูด้วยว่า เหตุผลเบื้องหลังคำตอบนั้น น่าไว้ใจแค่ไหน

Source:

SCMP, AI Revolution, Github, HuggingFace