
ที่ผ่านมา เรามักประเมิน AI ว่า มันใช้เครื่องมือเป็นไหม หรือ ตอบคำถามสั้นๆ ได้หรือเปล่า แต่ในโลกความเป็นจริง การวางแผนมันยากกว่านั้นเยอะ
27 มกราคม 2569 Alibaba เปิดตัว DeepPlanning เป็นการวัดกึ๋น AI ครั้งใหญ่จากทีม Qwen ของ Alibaba เพื่อดูว่า Agent ในปัจจุบันเก่งแค่ไหนในการวางแผนระยะยาวที่ซับซ้อนเหมือนมนุษย์จริงๆ
ทำไมต้องมี DeepPlanning?
- ปัญหาของ Benchmark เก่า คือ มักเน้นแค่การทำงานเป็นขั้นๆ (Step-level) เช่น จองโรงแรมนี้ให้หน่อย แต่ดันขาดการมองภาพรวม (Global Optimization) เช่น ถ้าจองโรงแรมนี้แล้ว งบจะเกินไหม? เวลาจะทับซ้อนกับที่อื่นหรือเปล่า?
- DeepPlanning ถูกสร้างมา เพื่อทดสอบ AI กับงานที่ต้องคิดหลายตลบ และ มีข้อจำกัดเพียบ เช่น การวางแผนเที่ยวหลายวัน หรือการช้อปปิ้งของหลายชิ้นภายใต้งบและเงื่อนไขที่บีบคั้น
เจาะลึก Framework 3 พลังการวางแผน
- หัวใจสำคัญของ DeepPlanning คือ Framework ที่ใช้ประเมินความสามารถของ AI ใน 3 ด้านหลักๆ ซึ่งเป็นเกณฑ์มาตรฐานใหม่เลยก็ว่าได้
- ด้านที่ 1: การออกไปหาข้อมูลเอง (Proactive Information Acquisition) AI ต้องรู้จักใช้เครื่องมือ (API) ไปค้นข้อมูลที่จำเป็นมาให้ครบ ไม่ใช่แค่นั่งเทียนคิดเอง เช่น ต้องไปเช็กพิกัดสถานที่ก่อน แล้วค่อยหาเส้นทางเดินทางที่เหมาะสม
- ด้านที่ 2: การคิดภายใต้เงื่อนไขเฉพาะหน้า (Local Constrained Reasoning) AI ต้องจัดการกับเงื่อนไขย่อยๆ ได้ เช่น อยากได้โรงแรม 3 ดาวที่มีเครื่องซักผ้า หรือ ถ้าร้านอาหารปิดวันนี้ ต้องหาที่ใหม่ที่ใกล้เคียงกัน
- ด้านที่ 3: การคำนวณภาพรวมให้คุ้มที่สุด (Global Constrained Optimization) นี่คือส่วนที่ยากที่สุดครับ AI ต้องคุมทั้ง งบประมาณรวม, เวลาที่ไม่ทับซ้อนกัน, และระยะทางที่เดินทางได้จริง ทั้งแผนต้องรอด ไม่ใช่แค่รอดเป็นจุดๆ
เนื้อหาการทดสอบ (Benchmark Domains)
- เขาแบ่งการทดสอบออกเป็น 2 สนามหลักที่จำลองโลกจริง:
- Travel Planning (วางแผนเที่ยว): มี 120 โจทย์ (ทั้งจีนและอังกฤษ) AI ต้องจัดตารางเที่ยวแบบรายนาที คุมงบ จองตั๋วเครื่องบิน/รถไฟ เลือกโรงแรมและร้านอาหาร โดยข้อมูลทั้งหมดมาจากฐานข้อมูลจริง
- Shopping Planning (วางแผนช้อปปิ้ง): มี 120 โจทย์ (ภาษาอังกฤษ) AI ต้องเลือกของใส่ตะกร้าให้ตรงสเปก (Sizes, สี, ยี่ห้อ) และต้องใช้คูปองส่วนลดให้คุ้มที่สุด เพื่อให้ราคารวมถูกที่สุดภายใต้งบที่กำหนด
Framework การสร้างโจทย์ (Construction Pipeline)
- เขามีกระบวนการสร้างโจทย์ 3 ขั้นตอนเพื่อให้แน่ใจว่า AI จะเจอของจริง:
- Step 1: ออกแบบฐานข้อมูลและเครื่องมือ (API) ที่เหมือนเว็บจองเที่ยวหรือเว็บช้อปปิ้งจริงๆ
- Step 2: Layered Task Generation เริ่มจากวางโครงหลัก (เช่น เที่ยวเมืองไหน) -> ใส่ความต้องการส่วนตัว (เช่น ต้องไปที่นี่ตอนเช้า) -> ใส่ข้อจำกัดจากสภาพแวดล้อม (เช่น ตั๋วเครื่องบินเต็ม หรือร้านปิด) เพื่อให้เหลือ คำตอบที่ถูกต้องที่สุดเพียงคำตอบเดียว
- Step 3: ใช้คนตรวจคุณภาพ (Manual Quality Control) เพื่อให้โจทย์อ่านรู้เรื่องและมีทางออกที่ทำได้จริง
จากผลการทดสอบ AI ตัวไหนรอด?
ผลทดสอบ Model ดังๆ หลายตัว (เช่น GPT-5, Claude 4.5, Gemini 3) พบ Insights ที่น่าสนใจมาก
- AI ยังเปราะบาง (Planning Fragility): แม้ AI ตัว Top จะทำคะแนนรวมได้ดี แต่ Case Accuracy (ความถูกต้องแบบ 100% ทั้งแผน) กลับต่ำมาก อย่างตัวที่เก่งสุดทำแผนเที่ยวรอดแค่ 35% เท่านั้น เพราะถ้าพลาดจุดเดียว (เช่น งบเกินไป 1 บาท) แผนนั้น คือ พังทั้งแถบ
- สาย Reason รอดกว่า: โมเดลที่มีระบบ Internal Reasoning หรือการคิดในใจก่อนตอบ (เช่น GPT-5-high, Claude-4.5-Opus w/ thinking) ทำผลงานได้ดีกว่าและมีประสิทธิภาพมากกว่า ใช้จำนวนครั้งในการถาม API น้อยกว่าแต่แม่นกว่า
- ยิ่งงานยาก ยิ่งพัง: เมื่อจำนวนวันเที่ยวเพิ่มขึ้น หรือเงื่อนไขช้อปปิ้งซับซ้อนขึ้น คะแนน AI จะดิ่งลงทันที เพราะความผิดพลาดเล็กๆ มันจะลามไปจุดอื่น (Cascading errors)
สาเหตุที่ AI มักจะพลาด (Error Patterns)
- เขาเจาะลึกความล้มเหลวออกมาเป็น 3 รูปแบบ:
- A: พลาดเรื่องข้อมูล เช่น หาข้อมูลไม่ครบ หรือได้ข้อมูลมาถูกแต่เอาไปเขียนในแผนผิด (Fact Displacement)
- B: พลาดเรื่องเหตุผลเฉพาะจุด เช่น เมินความต้องการของผู้ใช้ (สั่ง 3 ดาวแต่จอง 5 ดาว) หรือลืมดูว่าตั๋วเต็ม
- C: พลาดเรื่องภาพรวม (พบบ่อยที่สุด) เช่น จัดตารางเวลาทับซ้อนกัน หรือคำนวณส่วนลดคูปองไม่คุ้มที่สุด
ข้อสรุป:
DeepPlanning บอกเราว่า AI วันนี้ยังไม่ได้เก่งระดับที่โยนเงินให้แล้วไปวางแผนเที่ยวให้จบได้แบบไว้ใจได้ 100% ครับ มันยังต้องการการพัฒนาเรื่องการมองภาพรวมและการตรวจสอบตัวเองอีกเยอะเลย




