29 สิงหาคม 2568 OpenAI เปิดตัว GPT-Realtime และอัปเดต Realtime API สำหรับ Voice Agents ที่พร้อมใช้งานจริงในโปรดักชัน รองรับ MCP server, รับภาพเป็น Input และรองรับการโทรผ่าน SIP (โทรเข้า–รับสาย ผ่านเครือข่าวโทรศัพท์จริง)
GPT-Realtime ดีกว่า GPT-4o-Realtime, Elevenlabs ตรงที่คุยเสียงเป็นธรรมชาติ AI Voice นี้ตีความ Prompt ได้แม่นขึ้น อ่านสคริปต์เป๊ะ ทวนเลข-ตัวอักษรถูก และสลับภาษาในประโยคได้ลื่นไหล
Realtime API คืออะไร?
– ช่องทางต่อกับ AI เพื่อคุยสด–ตอบสด มีความหน่วงต่ำ รองรับได้ทั้งเสียง/ข้อความ/ภาพ แล้วตอบกลับทันที เหมาะทำ Call-Center อัตโนมัติ, ผู้ช่วยบนเว็บ/มือถือ และงานถอดเสียงเรียลไทม์ รวมถึงอ่านข้อความในสกรีนช็อตนี้ได้ด้วย เรียกเครื่องมือจาก MCP ได้ระหว่างสนทนา เช่น เช็กสต๊อกสินค้า, ดึงราคา โดยที่คุณไม่ต้องเขียนโค้ดต่อ API ทีละตัวอีกต่อไป
เอาไปทำอะไรได้บ้าง
- Bot รับสาย/ช่วยขายที่พูดคุยเหมือนคน ตอบได้ขณะสนทนา
- ผู้ช่วยหน้าร้าน/แอป ที่ให้ลูกค้าส่งภาพหรือพูดถาม แล้วได้คำตอบทันที
- ระบบถอดเสียงประชุมและสรุปประเด็นอัตโนมัติแบบเรียลไทม์
ราคา API
GPT-Realtime ถูกกว่า GPT-4o-Realtime-Preview 20% ลงมาที่ 32 ดอลลาร์ต่อ 1 ล้านโทเคนอินพุตเสียง และ 64 ดอลลาร์ ต่อ 1 ล้านเอาต์พุตโทเคนเสียง