25 มิถุนายน 2568 บริษัท ByteDance บริษัมแม่ที่มีผลิตภัณฑ์อย่าง Tiktok ได้เปิดตัว Agent TARS เป็น General multimodal AI Agent stack หรือภาษาชาวบ้าน คือ กองเครื่องมือ AI ที่ทรงพลัง ด้วยการนำ GUI Agent และ Vision เข้ามาอยู่ใน Terminal, Computer, Browser และ Product ของคุณ ไว้ในที่ UI-TARs Desktop หรือแอพฯ บนคอมพิวเตอร์, Notebook

Agent แต่ละตัวใน Agent TARs:

  • GUI Agent + Vision = ตา+มือ (เห็นหน้าจอ คลิก/พิมพ์/ลากได้เหมือนคน)
  • Context Engineering = ความจำระยะยาว+จัดระเบียบสมอง
  • MCP = ปลั๊ก/พอร์ตมาตรฐาน ต่อเครื่องมือข้างนอก ทำงานข้ามแอปได้
  • Observable & Evaluable = หน้าปัด+กล่องดำ+เครื่องวัด (ดูว่าเกิดอะไร วัดผลซ้ำได้)
  • Easy to Build Apps = โครงรางให้ต่อยอดเป็นแอปเร็ว
  • CLI = วิธีใช้งานที่เบา อัตโนมัติได้ เอาไปลงงานจริงง่าย

ความสามารถของ Agent TARs คือ ให้ Workflow ทำงานแบบมนุษย์มากขึ้น ผ่าน LLMs รุ่นตัว Top ที่หลากหลาย และการเชื่อมต่อแบบไร้รอยต่อกับเครื่องมือ MCP ที่ใช้งานจริงได้หลากหลาย มองเป็นภาพ:

  1. เห็น จับภาพหน้าจอ/องค์ประกอบ UI → เข้าใจว่าปุ่มไหน, ฟอร์มไหน
  2. คิด วางขั้นตอนถัดไป (เช่น เปิดเมนู → ค้นหา → กรอก → ส่ง)
  3. ทำ คลิก/พิมพ์/เลื่อน/ลากไฟล์ → เช็กผลลัพธ์ → ไปขั้นต่อไป
  4. ทวน ถ้าไม่ผ่าน เช่น error หรือหน้าเปลี่ยน Agent จะลองวิธีอื่น

เหมาะกับ

  1. ผู้บริหาร/PM สั่ง Research–สรุปรายงาน
  2. Dev/DevOps เปิด–ตั้งค่า–ทดสอบแอปหรือรันสคริปต์
  3. Analyst/Ops/CS เก็บข้อมูลเว็บ–กรอกฟอร์ม–ทำรายงาน/กราฟ all in one ทำได้อัตโนมัติ

ข้อสรุป:

Agent TARs เป็น Multimodal AI Agent stack ที่รวม GUI Agent + Vision เพื่อคุมการทำงานคอมฯ ที่ทำงานอัตโนมัติผา่านงานหน้าจอซ้ำ ๆ ข้ามเครื่องมือจริง, เห็นสถานะ–Replay งานได้ ช่วยลดเวลา ลดข้อผิดพลาด และเพิ่มความโปร่งใสของกระบวนการ

Source:

Github, Agent-TARs, The Decoder