จากจิ้มหน้าจอ เป็น AI รู้ใจ Google Research อธิบาย Small models, big results 2 Steps ที่ทำให้ Agent เดาใจได้แม่นกว่าเดิม

เวลาคนใช้งานมือถือ/เว็บจริง ๆ เราไม่ได้พิมพ์ เป้าหมายออกมาตรง ๆ เราทิ้งร่องรอยไว้ผ่านการแตะ เลื่อน พิมพ์ เปิดหน้าใหม่… แล้วค่อย ๆ ไปถึงสิ่งที่ต้องการ

ปัญหา คือ ถ้าจะให้ AI ช่วยแบบผู้ช่วยจริง มันต้องเดาให้ถูกว่า เรากำลังทำอะไรอยู่ แต่โมเดลใหญ่ ๆ ที่ทำได้ดี มักต้องส่งข้อมูลขึ้นเซิร์ฟเวอร์ → ช้า แพง และเสี่ยงเรื่องข้อมูลส่วนตัว

ปี 2025 Google Research เผยแพร่งานวิจัย Small Models, Big Results: Achieving Superior Intent Extraction Through Decomposition

Framework แทนที่จะให้โมเดลเล็กเดาทุกอย่างทีเดียว… เขา แยกงานออกเป็น 2 Stages (decomposition)

2 ด่านที่ทำให้โมเดลเล็กเก่งขึ้นแบบใช้งานจริง

Stage 1: สรุปทีละหน้าจอ (Screen Summary)
- ดูหน้าก่อน-หน้าปัจจุบัน-หน้าถัดไป แล้วตอบ 3 เรื่องสั้น ๆ
  - หน้านี้มีบริบทสำคัญอะไร
  - ผู้ใช้เพิ่งทำ action อะไร
  - มีการ Speculate ในขั้นนี้ เพื่อให้สรุปครบ
Stage 2: ดึง Intent จากชุดสรุป (intent extraction)
- เอาสรุปหลาย ๆ หน้ามาเรียงเป็นเหตุการณ์ แล้วให้โมเดลเล็กที่ถูกปรับแต่งแล้ว สรุป Intent ออกมาเป็น ประโยคเดียว และที่เด็ด คือ ตัด Speculations ทิ้งตอนดึง Intent เพื่อลดความสับสน/ลดการหลุด

Framework นี้ เอาไปทำอะไรได้บ้าง

ทำผู้ช่วยในแอปให้เข้าใจสิ่งที่ผู้ใช้กำลังทำ แล้วเสนอ Next Action แบบพอดี ๆ
ลดการส่งข้อมูลขึ้นคลาวด์ในงานที่ Sensitive (เช่น พฤติกรรมการใช้งาน/ข้อมูลส่วนตัวบนหน้าจอ)
ออกแบบระบบ Assistant ที่คุมต้นทุนได้ดีขึ้น โดยไม่ต้องพึ่งโมเดลใหญ่ทุกจุด

ข้อสรุป:

Small models, big results คือ AI ที่ช่วยงานบนมือถือ/เว็บแบบ ฉลาดขึ้น บางทีคำตอบไม่ใช่ หาโมเดลที่ใหญ่กว่า แต่อาจเป็นแตกงานให้ถูก Steps แล้วให้โมเดลเล็กทำในสิ่งที่มันทำได้ดีที่สุด

Source:

Blog Google Research

จากจิ้มหน้าจอ เป็น AI รู้ใจ Google Research อธิบาย Small models, big results 2 Steps ที่ทำให้ Agent เดาใจได้แม่นกว่าเดิม

2 ด่านที่ทำให้โมเดลเล็กเก่งขึ้นแบบใช้งานจริง

Framework นี้ เอาไปทำอะไรได้บ้าง

ข้อสรุป:

Source:

Related Contents

จบปัญหา ไม่รู้ว่า โค้ดพังตรงไหน Anthropic เตรียมปล่อย Security Center ใน Claude Code ลดบั๊ก หาช่องโหว่ ง่ายขึ้น 100%

จากภาพ/VDO → โค้ด Moonshot เปิดตัว Kimi K2.5 มี Agent Swarm อยู่ในนั้น ช่วยด้าน Agent Coding ไวขึ้น

จากไวท์บอร์ด → LaTeX OpenAI เปิดตัว Prism Workspace สำหรับวิจัย รวม Draft, AI ทำงานร่วมกันในที่เดียว

จาก Prompt → Report + Sources StepFun เปิดตัว Step-DeepResearch ทำวิจัยครบ 5 ขั้น + ตรวจอ้างอิง จบในที่เดียว