22 มกราคม 2569 Inworld ปล่อย Inworld TTS-1.5 มาเน้นเรื่องเดียวเลย: realtime latency + คุณภาพเสียงที่ใช้โปรดักชันได้จริง แก้เกม พูดตอบโต้แบบ Realtime ให้คุยลื่นขึ้นแบบจับได้จริง

Inworld TTS-1.5 มี 2 ขนาด

  1. TTS-1.5 Max: สำหรับงานส่วนใหญ่ time-to-first-audio P90 <250ms
  2. TTS-1.5 Mini: สำหรับงานที่จริงจัง เรื่องความไวมาก ๆ P90 <130ms (เร็วขึ้น 4x จากรุ่นก่อน)

TTS-1.5 ปลดล็อคศักยภาพด้านไหนบ้าง

  1. Conversational AI Agents
    • ทำ Voice Agent ตอบไว คุยลื่น ไม่ต้องมีช่วงเงียบจนคนหงุดหงิด
  2. Real-time translation / dubbing
    • แปลสด–พากย์สดได้ทันปาก เพราะ latency ต่ำพอจะตามสปีดคนพูดได้
  3. Interactive entertainment
    • ทำตัวละคร/AI companion โต้ตอบแบบเรียลไทม์ ใส่อารมณ์และเข้ากับบริบทมากขึ้น
  4. Accessibility applications
    • ทำ Screen Reader/ตัวช่วยนำทางให้ฟังสบายขึ้น ลดความล้าจากเสียงที่ไม่เป็นธรรมชาติ

TTS 1.5 มีตัวเลือก Deployment ที่องค์กรต้องการ เช่น

  • Cloud API: ใช้งานได้ทันทีผ่าน standard API และมี global availability
  • On-prem deployment: โฮสต์โมเดลเต็ม ๆ บน infrastructure ของคุณเอง
  • Custom solutions: ติดต่อทีม enterprise เพื่อ volume pricing, SLAs และสถาปัตย์ deployment ที่ปรับให้เหมาะ

Damien Tanner (CEO, Layercode) บอกสั้น ๆ ว่า โมเดลใหม่ของ Inworld ให้เสียงเหมือนคนมาก แบบหาคู่แข่งยาก แต่ราคาถูกกว่าเยอะ

เขาตื่นเต้นที่จะเอาไปใส่ใน Layercode เพื่อให้ developer ทำและ deploy realtime latency, life-like voice agents ได้ง่ายขึ้น

ราคาอยู่ที่

  • $0.005 ต่อนาที สำหรับ TTS-1.5 Mini, $5/1 ล้านตัวอักษร
  • $0.01 ต่อนาที สำหรับ TTS-1.5 Max, $10/1 ล้านตัวอักษร

ข้อสรุป:

Inworld TTS-1.5 ระบบทำเสียง AI พูดที่ ตอบไวมาก ลดอาการหน่วง เสียงนิ่งขึ้นและเป็นธรรมชาติมากขึ้น สามารถเอาไปทำ Voice Agent คุยกับลูกค้า แปลสด พากย์สด หรือทำตัวละครโต้ตอบในแอปให้ พูดทันใจ แบบคนใช้งานรู้สึกได้ทันที

Source:

Testing Catalog, Inworld