23 ธันวาคม 2568 ByteDance ปล่อย Papers ชื่อว่า SpatialTree แผนผังต้นไม้ที่จัดระเบียบความฉลาดด้านมิติสัมพันธ์ (Spatial Intelligence) ออกเป็นลำดับขั้นที่ชัดเจน

โมเดล SpatialTree ถูกแบ่งออกเป็น 4 ชั้นใหญ่ (L1-L4) ไล่จากง่ายไปยาก เหมือนการพัฒนาทักษะของมนุษย์จากการรับรู้ สู่ คิด และ การลงมือทำ
- L1: Perception การรับรู้ขั้นพื้นฐานไม่ต้องใช้ภาษาหรือเหตุผลซับซ้อน เช่น
- การกะระยะ (Distance), ขนาด (Size), รูปร่าง (Shape)
- การจับการเคลื่อนไหว (Motion) ว่าอะไรขยับ
- ทิศทางและแรงโน้มถ่วง (Orientation) รู้ว่าทางไหน คือ บน ทางไหนคือ ล่าง เพื่อไม่ให้ล้ม
- L2: Mental Mapping การสร้างแผนที่ในสมอง เอาสิ่งที่เห็นมาเชื่อมโยงกับ ภาษา และ ความจำ
- เข้าใจความหมาย (Understanding) เช่น รู้ว่าด้ามจับแก้วมีไว้ถือ
- ความจำ (Memory) จำได้ว่าของวางอยู่ตรงไหน แม้จะมองไม่เห็นในตอนนี้ (Cognitive Map)
- L3: Mental Simulation การจำลองสถานการณ์ในหัว คือ การคิดก่อนทำ
- การใช้เหตุผล (Causal Reasoning) เช่น ถ้าผลักแก้ว แก้วจะตกแตกไหม
- การวางแผนลำดับขั้น (Sequential Planning) คิดในหัวว่าต้องเดินไปทางไหนก่อนหลัง
- L4: Agentic Competence การลงมือทำจริง
- ขั้นสูงสุดคือการเป็น Agent ที่ทำภารกิจสำเร็จ เป็นการเอาทุกทักษะมารวมกันเพื่อนำทาง (Navigation) หรือหยิบจับสิ่งของ (Manipulation) ให้สำเร็จตามเป้าหมาย
การวัดผล
- SpatialTree ใช้หลายวิธีตามประเภทงาน
- โจทย์เลือกตอบ: วัดความแม่นยำจากตอบถูก/ผิด
- โจทย์ตัวเลข (เช่น ระยะ/มุม/พิกัด): วัดด้วย ความคลาดเคลื่อนแบบเทียบสัดส่วน เพื่อให้แฟร์กับตัวเลขขนาดต่างกัน
- โจทย์ปลายเปิด/อธิบายยาว: ใช้กรรมการที่เป็นโมเดลช่วยตรวจว่า ตอบตรงโจทย์ไหม และให้คะแนนแบบยืดหยุ่นได้
- งานแบบเอเจนต์ (เดิน/หยิบจับ): วัดทั้งสำเร็จไหม และวัดความแม่นยำของการเคลื่อนที่ต่อสเต็ป (ดูทั้งระยะและทิศทาง)
- และเพื่อให้สรุปออกมาเป็น คะแนนรวม (Award) เขาใช้การถ่วงน้ำหนักแบบเป็นชั้น ๆ ตามโครงสร้างต้นไม้ (ไม่ให้ทุกทักษะสำคัญเท่ากัน)
กับดักของการ คิดเยอะไป (The Thinking Trap) ไฮไลต์ของเรื่องนี้
- ถ้าใช้การฝึกแบบให้รางวัลที่ไปกระตุ้นให้โมเดล อธิบายยาว ๆ / คิดเยอะ ๆ แบบเดียวทั้งระบบ ผลออกมาจะไม่นิ่ง:
- คิดเยอะ = พังในเรื่องง่าย:
- การบังคับให้ AI คิดวิเคราะห์แบบ Chain-of-Thought กับเรื่องง่ายๆ เช่น อันไหนใหญ่กว่า? หรือ ตอนนี้เอียงกี่องศา? กลับทำให้ความแม่นยำลดลง เพราะเรื่องพวกนี้ควรใช้ สัญชาตญาณ (Intuitive) มองปุ๊บตอบปั๊บ
- คิดเยอะ = ดีในเรื่องยาก: สำหรับการวางแผนซับซ้อน (L3, L4) การคิดวิเคราะห์กลับช่วยได้มาก
ทางออก: กลยุทธ์ Auto-Think
- ทีมวิจัยเลยเสนอวิธีแก้ปัญหาที่ชื่อว่า Auto-Think คือ สอนให้ AI รู้จักรอกจังหวะ
- ถ้าเป็นเรื่องการรับรู้พื้นฐาน (Perception) → ไม่ต้องคิดเยอะ ใช้สัญชาตญาณตอบเลย (ห้าม AI พ่น text ยาวๆ ออกมา)
- ถ้าเป็นเรื่องการวางแผน (Reasoning) → ให้คิดรอบคอบ อนุญาตให้ใช้พลังสมองเต็มที่ วิธีนี้ทำให้ AI ทำคะแนนได้ดีขึ้นในทุกระดับชั้นของ SpatialTree
ข้อสรุป:
SpatialTree เป็นกรอบคิดแรก ๆ ที่ตั้งใจทำให้วัด-วิเคราะห์-พัฒนา ความสามารถเชิงพื้นที่แบบเป็นชั้น ๆ ได้จริง และชี้ทางว่าในอนาคตการเพิ่มความเก่งน่าจะต้องใช้ข้อมูล/วิธีฝึกที่ต่างกันตามระดับทักษะ ไม่ใช่ใช้สูตรเดียวครอบหมด



