เคยเจอไหม… AI ดูรูปแล้วตอบเร็วก็จริง แต่พอเป็น Detail เล็ก ๆ เช่น ป้ายไกล ๆ ตัวเลขเล็ก ๆ หรือจุดยิบย่อยในภาพ มันมักพลาด แล้วสุดท้ายก็เดา

27 มกราคม 2569 Google ปล่อยความสามารถใหม่ชื่อ Agentic Vision ใน Gemini 3 Flash ไอเดียมันง่ายมาก แต่โหดมากเปลี่ยนจากดูภาพครั้งเดียว แล้วตอบ → สืบจากภาพแบบเป็นขั้นตอน

Agentic Vision มันทำงานยังไง

  1. Think: อ่านโจทย์ + ดูภาพ แล้ววางแผนว่าจะต้องตรวจตรงไหน
  2. Act: เขียนและรัน Python เพื่อซูม / crop / rotate / annotate / คำนวณจากภาพ
  3. Observe: เอาภาพที่แก้/ซูมแล้วกลับมา “ดูใหม่” อีกรอบ ก่อนตอบจริง

จุดที่น่าสนใจสำหรับคนทำงานและนักธุรกิจ

  • เพียงเปิด Code Execution แล้วคุณภาพงานด้านภาพดีขึ้น ประมาณ 5–10% (สม่ำเสมอในหลาย benchmark)
  • โมเดลเริ่มทำสิ่งที่คนทำจริงเวลาตรวจงาน: ซูม → เช็ค → ขีดเส้น/ทำเครื่องหมาย → ค่อยสรุป

ข้อสรุป:

Agentic Vision ไม่ได้ทำให้ AI เก่งขึ้นแค่เรื่องดูรูป แต่มันทำให้ AI ทำงานแบบตรวจสอบได้ (verifiable) มากขึ้น จาก AI ที่ช่วยตอบ → AI ที่ช่วยตรวจ และมีหลักฐานให้ทีมเชื่อ

Source:

Blog Google