Alibaba ท้าดวล AI ทั่วโลก DeepPlanning ผลสอบ AI มาตรฐานใหม่วัดกึ๋น Agent ตัว Top

ที่ผ่านมา เรามักประเมิน AI ว่า มันใช้เครื่องมือเป็นไหม หรือ ตอบคำถามสั้นๆ ได้หรือเปล่า แต่ในโลกความเป็นจริง การวางแผนมันยากกว่านั้นเยอะ

27 มกราคม 2569 Alibaba เปิดตัว DeepPlanning เป็นการวัดกึ๋น AI ครั้งใหญ่จากทีม Qwen ของ Alibaba เพื่อดูว่า Agent ในปัจจุบันเก่งแค่ไหนในการวางแผนระยะยาวที่ซับซ้อนเหมือนมนุษย์จริงๆ

ทำไมต้องมี DeepPlanning?

ปัญหาของ Benchmark เก่า คือ มักเน้นแค่การทำงานเป็นขั้นๆ (Step-level) เช่น จองโรงแรมนี้ให้หน่อย แต่ดันขาดการมองภาพรวม (Global Optimization) เช่น ถ้าจองโรงแรมนี้แล้ว งบจะเกินไหม? เวลาจะทับซ้อนกับที่อื่นหรือเปล่า?

DeepPlanning ถูกสร้างมา เพื่อทดสอบ AI กับงานที่ต้องคิดหลายตลบ และ มีข้อจำกัดเพียบ เช่น การวางแผนเที่ยวหลายวัน หรือการช้อปปิ้งของหลายชิ้นภายใต้งบและเงื่อนไขที่บีบคั้น

เจาะลึก Framework 3 พลังการวางแผน

หัวใจสำคัญของ DeepPlanning คือ Framework ที่ใช้ประเมินความสามารถของ AI ใน 3 ด้านหลักๆ ซึ่งเป็นเกณฑ์มาตรฐานใหม่เลยก็ว่าได้

ด้านที่ 1: การออกไปหาข้อมูลเอง (Proactive Information Acquisition) AI ต้องรู้จักใช้เครื่องมือ (API) ไปค้นข้อมูลที่จำเป็นมาให้ครบ ไม่ใช่แค่นั่งเทียนคิดเอง เช่น ต้องไปเช็กพิกัดสถานที่ก่อน แล้วค่อยหาเส้นทางเดินทางที่เหมาะสม
ด้านที่ 2: การคิดภายใต้เงื่อนไขเฉพาะหน้า (Local Constrained Reasoning) AI ต้องจัดการกับเงื่อนไขย่อยๆ ได้ เช่น อยากได้โรงแรม 3 ดาวที่มีเครื่องซักผ้า หรือ ถ้าร้านอาหารปิดวันนี้ ต้องหาที่ใหม่ที่ใกล้เคียงกัน
ด้านที่ 3: การคำนวณภาพรวมให้คุ้มที่สุด (Global Constrained Optimization) นี่คือส่วนที่ยากที่สุดครับ AI ต้องคุมทั้ง งบประมาณรวม, เวลาที่ไม่ทับซ้อนกัน, และระยะทางที่เดินทางได้จริง ทั้งแผนต้องรอด ไม่ใช่แค่รอดเป็นจุดๆ

เนื้อหาการทดสอบ (Benchmark Domains)

เขาแบ่งการทดสอบออกเป็น 2 สนามหลักที่จำลองโลกจริง:

Travel Planning (วางแผนเที่ยว): มี 120 โจทย์ (ทั้งจีนและอังกฤษ) AI ต้องจัดตารางเที่ยวแบบรายนาที คุมงบ จองตั๋วเครื่องบิน/รถไฟ เลือกโรงแรมและร้านอาหาร โดยข้อมูลทั้งหมดมาจากฐานข้อมูลจริง
Shopping Planning (วางแผนช้อปปิ้ง): มี 120 โจทย์ (ภาษาอังกฤษ) AI ต้องเลือกของใส่ตะกร้าให้ตรงสเปก (Sizes, สี, ยี่ห้อ) และต้องใช้คูปองส่วนลดให้คุ้มที่สุด เพื่อให้ราคารวมถูกที่สุดภายใต้งบที่กำหนด

Framework การสร้างโจทย์ (Construction Pipeline)

เขามีกระบวนการสร้างโจทย์ 3 ขั้นตอนเพื่อให้แน่ใจว่า AI จะเจอของจริง:

Step 1: ออกแบบฐานข้อมูลและเครื่องมือ (API) ที่เหมือนเว็บจองเที่ยวหรือเว็บช้อปปิ้งจริงๆ
Step 2: Layered Task Generation เริ่มจากวางโครงหลัก (เช่น เที่ยวเมืองไหน) -> ใส่ความต้องการส่วนตัว (เช่น ต้องไปที่นี่ตอนเช้า) -> ใส่ข้อจำกัดจากสภาพแวดล้อม (เช่น ตั๋วเครื่องบินเต็ม หรือร้านปิด) เพื่อให้เหลือ คำตอบที่ถูกต้องที่สุดเพียงคำตอบเดียว
Step 3: ใช้คนตรวจคุณภาพ (Manual Quality Control) เพื่อให้โจทย์อ่านรู้เรื่องและมีทางออกที่ทำได้จริง

จากผลการทดสอบ AI ตัวไหนรอด?

ผลทดสอบ Model ดังๆ หลายตัว (เช่น GPT-5, Claude 4.5, Gemini 3) พบ Insights ที่น่าสนใจมาก

AI ยังเปราะบาง (Planning Fragility): แม้ AI ตัว Top จะทำคะแนนรวมได้ดี แต่ Case Accuracy (ความถูกต้องแบบ 100% ทั้งแผน) กลับต่ำมาก อย่างตัวที่เก่งสุดทำแผนเที่ยวรอดแค่ 35% เท่านั้น เพราะถ้าพลาดจุดเดียว (เช่น งบเกินไป 1 บาท) แผนนั้น คือ พังทั้งแถบ
สาย Reason รอดกว่า: โมเดลที่มีระบบ Internal Reasoning หรือการคิดในใจก่อนตอบ (เช่น GPT-5-high, Claude-4.5-Opus w/ thinking) ทำผลงานได้ดีกว่าและมีประสิทธิภาพมากกว่า ใช้จำนวนครั้งในการถาม API น้อยกว่าแต่แม่นกว่า
ยิ่งงานยาก ยิ่งพัง: เมื่อจำนวนวันเที่ยวเพิ่มขึ้น หรือเงื่อนไขช้อปปิ้งซับซ้อนขึ้น คะแนน AI จะดิ่งลงทันที เพราะความผิดพลาดเล็กๆ มันจะลามไปจุดอื่น (Cascading errors)

สาเหตุที่ AI มักจะพลาด (Error Patterns)

เขาเจาะลึกความล้มเหลวออกมาเป็น 3 รูปแบบ:

A: พลาดเรื่องข้อมูล เช่น หาข้อมูลไม่ครบ หรือได้ข้อมูลมาถูกแต่เอาไปเขียนในแผนผิด (Fact Displacement)
B: พลาดเรื่องเหตุผลเฉพาะจุด เช่น เมินความต้องการของผู้ใช้ (สั่ง 3 ดาวแต่จอง 5 ดาว) หรือลืมดูว่าตั๋วเต็ม
C: พลาดเรื่องภาพรวม (พบบ่อยที่สุด) เช่น จัดตารางเวลาทับซ้อนกัน หรือคำนวณส่วนลดคูปองไม่คุ้มที่สุด

ข้อสรุป:

DeepPlanning บอกเราว่า AI วันนี้ยังไม่ได้เก่งระดับที่โยนเงินให้แล้วไปวางแผนเที่ยวให้จบได้แบบไว้ใจได้ 100% ครับ มันยังต้องการการพัฒนาเรื่องการมองภาพรวมและการตรวจสอบตัวเองอีกเยอะเลย

Source:

X (Alibaba Qwen), Papers, Github io

Alibaba ท้าดวล AI ทั่วโลก DeepPlanning ผลสอบ AI มาตรฐานใหม่วัดกึ๋น Agent ตัว Top

ทำไมต้องมี DeepPlanning?

เจาะลึก Framework 3 พลังการวางแผน

เนื้อหาการทดสอบ (Benchmark Domains)

Framework การสร้างโจทย์ (Construction Pipeline)

จากผลการทดสอบ AI ตัวไหนรอด?

สาเหตุที่ AI มักจะพลาด (Error Patterns)

ข้อสรุป:

Source:

Related Contents

ทลายขีดจำกัด แบบ Top 1% เคล็ดลับใช้ Claude MD ไฟล์เดียวที่ทำให้ AI จำโทนเสียงและสไตล์คุณแม่น

Google ปล่อยของฟรี โอกาสที่ไม่ควรพลาดกับเสก VDO ฟรี 10 คลิปต่อเดือน

Alibaba เปิดตัว Qwen3.6-Plus: โมเดล AI พัฒนาซอฟต์แวร์มาตรฐานใหม่สำหรับยุค Agentic Coding

Google เปิดตัว Gemini API Docs MCP & Agent Skills: โค้ดแม่น 96.3% ลด Token 63% ใน 1 คลิก