15 กรกฎาคม 2568 บริษัท Mistral เปิดตัว Voxtrol AI โมเดล AI เข้าใจเสียง (speech-understanding model) ถอดเสียงที่ปรับแต่งให้คุ้มค่าที่สุดด้วยราคาที่ถูกมาก และจากผลคะแนน Benchmark ชนะ Whisper, GPT-4o mini, Gemini Flash ในหลาย benchmark

Voxtrol มี 2 รุ่น

  1. Voxtrol 3B สำหรับงานบน Laptop, PC, มือถือหรืออุปกรณ์ปลายทาง
  2. Voxtrol 24B สำหรับงานระดับ Production

ทำไมน่าสนใจ

  • Open-Source มีสัญญา Apache 2.0 โหลดจาก Hugging Face ได้เลย ไม่ผูกกับ Cloud
  • ใครชอบปรับแต่ง มีชุด quantized รันบน GPU เดียวก็ไหว

ฟีเจอร์

  1. ฟังยาว ๆ ได้จบในคลิปเดียว
  2. ถอดเสียง + เข้าใจ + สรุป + ถามตอบ ในตัวเดียว
  3. รองรับหลายภาษาอัตโนมัติ (Multilingual) เช่น อังกฤษ, สเปน, ฝรั่งเศส, เยอรมัน, อิตาลี, โปรตุเกส ฯลฯ
  4. Function-calling จากเสียง โดยการฟังความตั้งใจ → เรียกฟังก์ชันหรือ API ทันที

ประโยชน์

  • ตอบคำถามหรือสรุปจากเสียงได้ตรง ๆ โดยไม่ต้องเชื่อมหลายระบบ
  • ลดเวลาการทำงานลงไปครึ่งนึง เพิ่มประสิทธิภาพการทำงาน

เหมาะกับ

  • ทีม Support สรุปสายยาวลดเวลาเท่าตัว
  • ผู้บริหาร สรุปรายการประชุมตรงประเด็นทันทีหลังคอล
  • นักพัฒนา เสียบ API ทดแทน Whisper หรือ Scribe ได้เลย
  • องค์กร ใช้ในประชุม, วิเคราะห์สายสนทนา, งาน Customer Support หรือระบบ Voice Bot

ราคาและการใช้งาน

  • Mini Transcribe 3B ถอดเสียงเร็วกว่า Whisper จ่ายครึ่งเดียว
  • ทดลองฟรีใน Le Chat เวอร์ชันเสียง หรือเชื่อม API เริ่ม 0.001 ดอลลาร์/นาที
  • Webinar โชว์สร้าง voice-agent ครบวงจร 6 สิงหาคมนี้ สมัครได้ทันที

ข้อสรุป

Voxtral เปิดทางให้ธุรกิจสร้าง Voice Agent, ระบบถอดประชุม ให้เข้าใจเสียงแบบเรียลไทม์ โดยไม่ต้องพึ่งคลาวด์หรือจ่ายแพง

Source:

Mistral