โมเดลเล็ก แก้ปัญหาไว Google Research ปล่อย SRL วิธีสอน AI ทีละ Steps แก้โจทย์โหดได้มากขึ้น 74%

29 ตุลาคม 2568 Google Research ปล่อยงานวิจัยใหม่ชื่อว่า SRL (Supervised Reinforcement Learning) วิธีสอน AI (LLM) ให้คิดทีละ Steps เหมือนคนมีครูประกบ แทนที่จะให้ดูแต่คำตอบสุดท้าย หรือให้ท่องเฉลยยาว ๆ ออกแบบมาเพื่อโจทย์ reasoning ยากมาก ๆ โดยเฉพาะ

SRL จะเอาวิธีทำของครูมาแกะเป็น Steps ๆ แล้วให้โมเดลลองคิดเองทีละ Steps จากนั้นค่อยให้คะแนนว่าใกล้เคียงครูแค่ไหน เลยทำให้โมเดลเล็ก:

ฝึกให้คิดลึก

คิดเป็นลำดับ

จัดการโจทย์ยาก ๆ ได้ดีขึ้น

ได้ feedback หนา ๆ (dense)

ไม่ต้องลอกคำทุกคำของครู

Reasoning มีโครง มีการวางแผนและ self-check มากขึ้น

ข้อจำกัดของ SRL

โมเดลต้อง อ่านโจทย์รู้เรื่อง และทำตามคำสั่งพื้นฐานได้ก่อน ถ้าต่ำกว่านี้ SRL ก็ช่วยยาก เพราะนำไปใช้จริงแรก ๆ จะมั่ว จนให้ reward ไม่คุ้ม

คุณภาพของ expert trajectory (ตัวอย่างวิธีทำแบบเต็ม ๆ ที่คนเก่ง/ตั้งแต่ต้นจนจบ ทีละสเต็ป) กับ การแบ่ง step ต้องดีพอ ถ้า Step มันมั่ว หรือแทบไม่มีโอกาสให้ Model ทำได้ใกล้เคียง ก็จะไม่มี reward ดี ๆ ให้เรียน

ข้อสรุป:

SRL ของ Google วิธีสอน AI ให้ค่อยๆ คิดทีละ Step จากจุดเริ่มต้นไปถึงคำตอบ ทำให้โมเดลเล็ก ก็ยังรับมือโจทย์ยากๆ อย่างข้อสอบคิดเลขโหดๆ หรือการแก้โค้ดซับซ้อนได้ดีขึ้นและคิดเป็นระบบมากขึ้น และสามารถมองย้อนกลับไปดูวิธีคิดของมันทีละ Steps ได้ด้วย

Source:

Venturebeat, Arxiv

โมเดลเล็ก แก้ปัญหาไว Google Research ปล่อย SRL วิธีสอน AI ทีละ Steps แก้โจทย์โหดได้มากขึ้น 74%

ข้อจำกัดของ SRL

ข้อสรุป:

Source:

Related Contents

12 เล่ม Google Books ขุมทรัพย์สุดขอบโลก AI

สั่งเล่นเกมครั้งเดียวด้วย Agent Google Deepmind เปิดตัว SIMA 2 AI เพื่อนเล่น คิด เรียนรู้เกม 3D รุ่นใหม่เอง

โมเดลเล็ก แก้ปัญหาไว Google Research ปล่อย SRL วิธีสอน AI ทีละ Steps แก้โจทย์โหดได้มากขึ้น 74%