13 พฤศจิกายน 2568 Alibaba เปิดตัว AgentEvolver ระบบฝึก AI ให้เก่งขึ้นเอง โดยไม่ต้องคอยป้อนตัวอย่างงานเยอะๆ มันจะเข้าไปลองเล่น, กดหรือใช้ระบบต่างๆ เอง แล้วสร้างโจทย์ฝึกของตัวเอง พร้อมทั้งดูว่าที่ทำไปแต่ละขั้นเวิร์กหรือไม่เวิร์ก แล้วเอามาปรับปรุงตัวเองให้เก่งขึ้นเรื่อยๆ โดยเฉพาะงานที่ต้องใช้เครื่องมือหรือ API เยอะๆ ในองค์กร

ลักษณะการทำงาน

  • เวลา AgentEvolver ทำงาน เขาคิดเป็น 3 ช่วงง่าย ๆ
  1. จากแอป/ระบบจริง → กลายเป็น โจทย์/งานที่ต้องทำ
  2. จากโจทย์ → กลายเป็นเส้นทางการลงมือทำทีละขั้น
  3. จากเส้นทางที่ลองทำ → กลายเป็นการปรับโมเดลให้ฉลาดขึ้น

ในภาพรวม จะมีกลไกหลัก 3 ตัว ที่หมุนวนกันไปเรื่อย ๆ:

  1. Self-Questioning ให้ Agent เดินสำรวจ + ตั้งคำถามเอง
  2. Self-Navigating ใช้ประสบการณ์เก่ามาช่วยนำทางไม่ให้ลองผิดซ้ำ
  3. Self-Attributing ไล่ดูทีละขั้นว่า ก้าวไหนช่วย ก้าวไหนทำเรื่องแย่ลง

ทั้งหมดนี้เอามารวมกันเป็น Loop ฝึกตัวเองแบบต่อเนื่อง

ความสามารถของ AgentEvolver

  • สร้างโจทย์ฝึกเองจากการเดินสำรวจระบบ
  • ใช้การเดินเล่นใน environment แล้วเอาเส้นทางที่เจอ มาสร้างเป็น โจทย์ + เฉลยอ้างอิง ด้วยตัวเอง (self-questioning)
  • กันหลอน และคัดโจทย์คุณภาพต่ำออก
  • มีขั้นตอนคัดกรอง–ลองรันจริงว่าโจทย์กับเฉลยใช้ได้จริงไหม ถ้าใช้ไม่ได้จะตัดทิ้ง
  • ดึงประสบการณ์เก่ามาแปลงเป็น คู่มือย่อย ๆ ให้ Agent
  • สรุปจากทั้งรอบที่ทำสำเร็จและรอบที่พังว่า เวลาเจอเคสแบบนี้ควรทำ/ไม่ควรทำอะไร แล้วเก็บไว้เป็น Experience เป็นประโยคภาษาธรรมดาให้เรียกใช้ในรอบต่อไป (self-navigating)
  • รองรับการใช้กับ tools จำนวนมากในโลกจริง
  • มี Context Manager และ Environment Service ช่วยจัดการ history ยาว ๆ, memory, และการคุยกับ environment จำนวนมากแบบขนานกัน ทำให้เอาไปต่อยอดกับ enterprise ที่มี API เยอะ ๆ ได้ง่ายขึ้น

ดัน Performance ได้จริงจากการทดลอง

  • ในการเทรนบน AppWorld กับ BFCL v3 ถ้าใส่ทั้ง 3 กลไกครบ ๆ
  1. โมเดล 7B ดีขึ้นเฉลี่ยประมาณ +29–30 จุดเปอร์เซ็นต์
  2. โมเดล 14B ดีขึ้นเฉลี่ยประมาณ +27–28 จุดเปอร์เซ็นต์

ข้อสรุป:

AgentEvolver ไม่ใช่ AI ตัวใหม่ เป็นระบบฝึก AI Agent แบบใหม่ ของ Alibaba ที่ทำให้ Agent เข้าไปลองใช้ระบบ/เครื่องมือต่าง ๆ เอง แล้วสร้างโจทย์ฝึกกับ Feedback ให้ตัวเองได้ แทนการให้คนมานั่งทำชุดตัวอย่างงานให้เยอะ ๆ แบบเดิม ผลที่ได้คือ AI ที่ใช้ tools / APIs ภายนอกเก่งขึ้นมาก ในขณะที่ใช้ data และ Compute คุ้มกว่าเดิมเยอะ

Source:

Arxiv, Github, Modelscope github io, Venturebeat