เวลาคนใช้งานมือถือ/เว็บจริง ๆ เราไม่ได้พิมพ์ เป้าหมายออกมาตรง ๆ เราทิ้งร่องรอยไว้ผ่านการแตะ เลื่อน พิมพ์ เปิดหน้าใหม่… แล้วค่อย ๆ ไปถึงสิ่งที่ต้องการ

ปัญหา คือ ถ้าจะให้ AI ช่วยแบบผู้ช่วยจริง มันต้องเดาให้ถูกว่า เรากำลังทำอะไรอยู่ แต่โมเดลใหญ่ ๆ ที่ทำได้ดี มักต้องส่งข้อมูลขึ้นเซิร์ฟเวอร์ → ช้า แพง และเสี่ยงเรื่องข้อมูลส่วนตัว

ปี 2025 Google Research เผยแพร่งานวิจัย Small Models, Big Results: Achieving Superior Intent Extraction Through Decomposition

Framework แทนที่จะให้โมเดลเล็กเดาทุกอย่างทีเดียว… เขา แยกงานออกเป็น 2 Stages (decomposition)

2 ด่านที่ทำให้โมเดลเล็กเก่งขึ้นแบบใช้งานจริง

  1. Stage 1: สรุปทีละหน้าจอ (Screen Summary)
    • ดูหน้าก่อน-หน้าปัจจุบัน-หน้าถัดไป แล้วตอบ 3 เรื่องสั้น ๆ
      • หน้านี้มีบริบทสำคัญอะไร
      • ผู้ใช้เพิ่งทำ action อะไร
      • มีการ Speculate ในขั้นนี้ เพื่อให้สรุปครบ
  2. Stage 2: ดึง Intent จากชุดสรุป (intent extraction)
    • เอาสรุปหลาย ๆ หน้ามาเรียงเป็นเหตุการณ์ แล้วให้โมเดลเล็กที่ถูกปรับแต่งแล้ว สรุป Intent ออกมาเป็น ประโยคเดียว และที่เด็ด คือ ตัด Speculations ทิ้งตอนดึง Intent เพื่อลดความสับสน/ลดการหลุด

Framework นี้ เอาไปทำอะไรได้บ้าง

  • ทำผู้ช่วยในแอปให้เข้าใจสิ่งที่ผู้ใช้กำลังทำ แล้วเสนอ Next Action แบบพอดี ๆ
  • ลดการส่งข้อมูลขึ้นคลาวด์ในงานที่ Sensitive (เช่น พฤติกรรมการใช้งาน/ข้อมูลส่วนตัวบนหน้าจอ)
  • ออกแบบระบบ Assistant ที่คุมต้นทุนได้ดีขึ้น โดยไม่ต้องพึ่งโมเดลใหญ่ทุกจุด

ข้อสรุป:

Small models, big results คือ AI ที่ช่วยงานบนมือถือ/เว็บแบบ ฉลาดขึ้น บางทีคำตอบไม่ใช่ หาโมเดลที่ใหญ่กว่า แต่อาจเป็นแตกงานให้ถูก Steps แล้วให้โมเดลเล็กทำในสิ่งที่มันทำได้ดีที่สุด

Source:

Blog Google Research