
13 พฤศจิกายน 2568 Alibaba เปิดตัว AgentEvolver ระบบฝึก AI ให้เก่งขึ้นเอง โดยไม่ต้องคอยป้อนตัวอย่างงานเยอะๆ มันจะเข้าไปลองเล่น, กดหรือใช้ระบบต่างๆ เอง แล้วสร้างโจทย์ฝึกของตัวเอง พร้อมทั้งดูว่าที่ทำไปแต่ละขั้นเวิร์กหรือไม่เวิร์ก แล้วเอามาปรับปรุงตัวเองให้เก่งขึ้นเรื่อยๆ โดยเฉพาะงานที่ต้องใช้เครื่องมือหรือ API เยอะๆ ในองค์กร

ลักษณะการทำงาน
- เวลา AgentEvolver ทำงาน เขาคิดเป็น 3 ช่วงง่าย ๆ
- จากแอป/ระบบจริง → กลายเป็น โจทย์/งานที่ต้องทำ
- จากโจทย์ → กลายเป็นเส้นทางการลงมือทำทีละขั้น
- จากเส้นทางที่ลองทำ → กลายเป็นการปรับโมเดลให้ฉลาดขึ้น
ในภาพรวม จะมีกลไกหลัก 3 ตัว ที่หมุนวนกันไปเรื่อย ๆ:
- Self-Questioning ให้ Agent เดินสำรวจ + ตั้งคำถามเอง
- Self-Navigating ใช้ประสบการณ์เก่ามาช่วยนำทางไม่ให้ลองผิดซ้ำ
- Self-Attributing ไล่ดูทีละขั้นว่า ก้าวไหนช่วย ก้าวไหนทำเรื่องแย่ลง
ทั้งหมดนี้เอามารวมกันเป็น Loop ฝึกตัวเองแบบต่อเนื่อง
ความสามารถของ AgentEvolver
- สร้างโจทย์ฝึกเองจากการเดินสำรวจระบบ
- ใช้การเดินเล่นใน environment แล้วเอาเส้นทางที่เจอ มาสร้างเป็น โจทย์ + เฉลยอ้างอิง ด้วยตัวเอง (self-questioning)
- กันหลอน และคัดโจทย์คุณภาพต่ำออก
- มีขั้นตอนคัดกรอง–ลองรันจริงว่าโจทย์กับเฉลยใช้ได้จริงไหม ถ้าใช้ไม่ได้จะตัดทิ้ง
- ดึงประสบการณ์เก่ามาแปลงเป็น คู่มือย่อย ๆ ให้ Agent
- สรุปจากทั้งรอบที่ทำสำเร็จและรอบที่พังว่า เวลาเจอเคสแบบนี้ควรทำ/ไม่ควรทำอะไร แล้วเก็บไว้เป็น Experience เป็นประโยคภาษาธรรมดาให้เรียกใช้ในรอบต่อไป (self-navigating)
- รองรับการใช้กับ tools จำนวนมากในโลกจริง
- มี Context Manager และ Environment Service ช่วยจัดการ history ยาว ๆ, memory, และการคุยกับ environment จำนวนมากแบบขนานกัน ทำให้เอาไปต่อยอดกับ enterprise ที่มี API เยอะ ๆ ได้ง่ายขึ้น
ดัน Performance ได้จริงจากการทดลอง
- ในการเทรนบน AppWorld กับ BFCL v3 ถ้าใส่ทั้ง 3 กลไกครบ ๆ
- โมเดล 7B ดีขึ้นเฉลี่ยประมาณ +29–30 จุดเปอร์เซ็นต์
- โมเดล 14B ดีขึ้นเฉลี่ยประมาณ +27–28 จุดเปอร์เซ็นต์
ข้อสรุป:
AgentEvolver ไม่ใช่ AI ตัวใหม่ เป็นระบบฝึก AI Agent แบบใหม่ ของ Alibaba ที่ทำให้ Agent เข้าไปลองใช้ระบบ/เครื่องมือต่าง ๆ เอง แล้วสร้างโจทย์ฝึกกับ Feedback ให้ตัวเองได้ แทนการให้คนมานั่งทำชุดตัวอย่างงานให้เยอะ ๆ แบบเดิม ผลที่ได้คือ AI ที่ใช้ tools / APIs ภายนอกเก่งขึ้นมาก ในขณะที่ใช้ data และ Compute คุ้มกว่าเดิมเยอะ




