29 ตุลาคม 2568 Google Research ปล่อยงานวิจัยใหม่ชื่อว่า SRL (Supervised Reinforcement Learning) วิธีสอน AI (LLM) ให้คิดทีละ Steps เหมือนคนมีครูประกบ แทนที่จะให้ดูแต่คำตอบสุดท้าย หรือให้ท่องเฉลยยาว ๆ ออกแบบมาเพื่อโจทย์ reasoning ยากมาก ๆ โดยเฉพาะ

SRL จะเอาวิธีทำของครูมาแกะเป็น Steps ๆ แล้วให้โมเดลลองคิดเองทีละ Steps จากนั้นค่อยให้คะแนนว่าใกล้เคียงครูแค่ไหน เลยทำให้โมเดลเล็ก:

  • ฝึกให้คิดลึก
  • คิดเป็นลำดับ
  • จัดการโจทย์ยาก ๆ ได้ดีขึ้น
  • ได้ feedback หนา ๆ (dense)
  • ไม่ต้องลอกคำทุกคำของครู
  • Reasoning มีโครง มีการวางแผนและ self-check มากขึ้น

ข้อจำกัดของ SRL

  • โมเดลต้อง อ่านโจทย์รู้เรื่อง และทำตามคำสั่งพื้นฐานได้ก่อน ถ้าต่ำกว่านี้ SRL ก็ช่วยยาก เพราะนำไปใช้จริงแรก ๆ จะมั่ว จนให้ reward ไม่คุ้ม
  • คุณภาพของ expert trajectory (ตัวอย่างวิธีทำแบบเต็ม ๆ ที่คนเก่ง/ตั้งแต่ต้นจนจบ ทีละสเต็ป) กับ การแบ่ง step ต้องดีพอ ถ้า Step มันมั่ว หรือแทบไม่มีโอกาสให้ Model ทำได้ใกล้เคียง ก็จะไม่มี reward ดี ๆ ให้เรียน

ข้อสรุป:

SRL ของ Google วิธีสอน AI ให้ค่อยๆ คิดทีละ Step จากจุดเริ่มต้นไปถึงคำตอบ ทำให้โมเดลเล็ก ก็ยังรับมือโจทย์ยากๆ อย่างข้อสอบคิดเลขโหดๆ หรือการแก้โค้ดซับซ้อนได้ดีขึ้นและคิดเป็นระบบมากขึ้น และสามารถมองย้อนกลับไปดูวิธีคิดของมันทีละ Steps ได้ด้วย

Source:

Venturebeat, Arxiv