23 ธันวาคม 2568 ByteDance ปล่อย Papers ชื่อว่า SpatialTree แผนผังต้นไม้ที่จัดระเบียบความฉลาดด้านมิติสัมพันธ์ (Spatial Intelligence) ออกเป็นลำดับขั้นที่ชัดเจน

โมเดล SpatialTree ถูกแบ่งออกเป็น 4 ชั้นใหญ่ (L1-L4) ไล่จากง่ายไปยาก เหมือนการพัฒนาทักษะของมนุษย์จากการรับรู้ สู่ คิด และ การลงมือทำ

  1. L1: Perception การรับรู้ขั้นพื้นฐานไม่ต้องใช้ภาษาหรือเหตุผลซับซ้อน เช่น
    • การกะระยะ (Distance), ขนาด (Size), รูปร่าง (Shape)
    • การจับการเคลื่อนไหว (Motion) ว่าอะไรขยับ
    • ทิศทางและแรงโน้มถ่วง (Orientation) รู้ว่าทางไหน คือ บน ทางไหนคือ ล่าง เพื่อไม่ให้ล้ม
  2. L2: Mental Mapping การสร้างแผนที่ในสมอง เอาสิ่งที่เห็นมาเชื่อมโยงกับ ภาษา และ ความจำ
    • เข้าใจความหมาย (Understanding) เช่น รู้ว่าด้ามจับแก้วมีไว้ถือ
    • ความจำ (Memory) จำได้ว่าของวางอยู่ตรงไหน แม้จะมองไม่เห็นในตอนนี้ (Cognitive Map)
  3. L3: Mental Simulation การจำลองสถานการณ์ในหัว คือ การคิดก่อนทำ
    • การใช้เหตุผล (Causal Reasoning) เช่น ถ้าผลักแก้ว แก้วจะตกแตกไหม
    • การวางแผนลำดับขั้น (Sequential Planning) คิดในหัวว่าต้องเดินไปทางไหนก่อนหลัง
  4. L4: Agentic Competence การลงมือทำจริง
    • ขั้นสูงสุดคือการเป็น Agent ที่ทำภารกิจสำเร็จ เป็นการเอาทุกทักษะมารวมกันเพื่อนำทาง (Navigation) หรือหยิบจับสิ่งของ (Manipulation) ให้สำเร็จตามเป้าหมาย

การวัดผล

  • SpatialTree ใช้หลายวิธีตามประเภทงาน
    • โจทย์เลือกตอบ: วัดความแม่นยำจากตอบถูก/ผิด
    • โจทย์ตัวเลข (เช่น ระยะ/มุม/พิกัด): วัดด้วย ความคลาดเคลื่อนแบบเทียบสัดส่วน เพื่อให้แฟร์กับตัวเลขขนาดต่างกัน
    • โจทย์ปลายเปิด/อธิบายยาว: ใช้กรรมการที่เป็นโมเดลช่วยตรวจว่า ตอบตรงโจทย์ไหม และให้คะแนนแบบยืดหยุ่นได้
    • งานแบบเอเจนต์ (เดิน/หยิบจับ): วัดทั้งสำเร็จไหม และวัดความแม่นยำของการเคลื่อนที่ต่อสเต็ป (ดูทั้งระยะและทิศทาง)
  • และเพื่อให้สรุปออกมาเป็น คะแนนรวม (Award) เขาใช้การถ่วงน้ำหนักแบบเป็นชั้น ๆ ตามโครงสร้างต้นไม้ (ไม่ให้ทุกทักษะสำคัญเท่ากัน)

กับดักของการ คิดเยอะไป (The Thinking Trap) ไฮไลต์ของเรื่องนี้

  • ถ้าใช้การฝึกแบบให้รางวัลที่ไปกระตุ้นให้โมเดล อธิบายยาว ๆ / คิดเยอะ ๆ แบบเดียวทั้งระบบ ผลออกมาจะไม่นิ่ง:
  1. คิดเยอะ = พังในเรื่องง่าย:
    • การบังคับให้ AI คิดวิเคราะห์แบบ Chain-of-Thought กับเรื่องง่ายๆ เช่น อันไหนใหญ่กว่า? หรือ ตอนนี้เอียงกี่องศา? กลับทำให้ความแม่นยำลดลง เพราะเรื่องพวกนี้ควรใช้ สัญชาตญาณ (Intuitive) มองปุ๊บตอบปั๊บ
  2. คิดเยอะ = ดีในเรื่องยาก: สำหรับการวางแผนซับซ้อน (L3, L4) การคิดวิเคราะห์กลับช่วยได้มาก

ทางออก: กลยุทธ์ Auto-Think

  • ทีมวิจัยเลยเสนอวิธีแก้ปัญหาที่ชื่อว่า Auto-Think คือ สอนให้ AI รู้จักรอกจังหวะ
    • ถ้าเป็นเรื่องการรับรู้พื้นฐาน (Perception) → ไม่ต้องคิดเยอะ ใช้สัญชาตญาณตอบเลย (ห้าม AI พ่น text ยาวๆ ออกมา)
    • ถ้าเป็นเรื่องการวางแผน (Reasoning) → ให้คิดรอบคอบ อนุญาตให้ใช้พลังสมองเต็มที่ วิธีนี้ทำให้ AI ทำคะแนนได้ดีขึ้นในทุกระดับชั้นของ SpatialTree

ข้อสรุป:

SpatialTree เป็นกรอบคิดแรก ๆ ที่ตั้งใจทำให้วัด-วิเคราะห์-พัฒนา ความสามารถเชิงพื้นที่แบบเป็นชั้น ๆ ได้จริง และชี้ทางว่าในอนาคตการเพิ่มความเก่งน่าจะต้องใช้ข้อมูล/วิธีฝึกที่ต่างกันตามระดับทักษะ ไม่ใช่ใช้สูตรเดียวครอบหมด

Source:

Github.io, Paper