10 ธันวาคม 2568 Google ขยายความสามารถของ Gemini TTS บริการ/โมเดล Google ที่เอาไว้แปลงข้อความเป็นเสียงพูดที่ฟังดูเหมือนคนจริง เพียงพิมพ์เป็นตัวอักษรเข้าไป แล้วมันจะอ่านออกมาเป็นเสียงให้เลย

จุดเด่น คือ รองรับมากกว่า 24 ภาษา และเราปรับฟีลลิ่งของเสียงได้เยอะมาก

ทั้งโทนจริงจัง สนุก อบอุ่น เร็ว ช้า หรือทำเป็นหลายเสียงในงานเดียวกันได้ด้วย

24 ภาษา ประกอบด้วย

  1. Arabic (Egyptian) ar-EG
  2. German (Germany) de-DE
  3. English (US) en-US
  4. Spanish (US) es-US
  5. French (France) fr-FR
  6. Hindi (India) hi-IN
  7. Indonesian (Indonesia) id-ID
  8. Italian (Italy) it-IT
  9. Japanese (Japan) ja-JP
  10. Korean (Korea) ko-KR
  11. Portuguese (Brazil) pt-BR
  12. Russian (Russia) ru-RU
  13. Dutch (Netherlands) nl-NL
  14. Polish (Poland) pl-PL
  15. Thai (Thailand) th-TH
  16. Turkish (Turkey) tr-TR
  17. Vietnamese (Vietnam) vi-VN
  18. Romanian (Romania) ro-RO
  19. Ukrainian (Ukraine) uk-UA
  20. Bengali (Bangladesh) bn-BD
  21. English (India) en-IN & hi-IN bundle
  22. Marathi (India) mr-IN
  23. Tamil (India) ta-IN
  24. Telugu (India) te-IN

Gemini 2.5 ที่เป็น TTS รุ่นใหม่ตอนนี้ จะมีอยู่ 2 รุ่นหลัก คือ

  • Gemini 2.5 Flash Preview TTS เหมาะกับงานแบบโต้ตอบแบบ real-time
  • Gemini 2.5 Pro Preview TTS จะโฟกัสที่คุณภาพเสียงเป็นหลัก สำหรับโปรเจกต์ที่ต้องการเสียงคมชัดระดับ high-fidelity (พวกเสียงจากใน VDO ตาม Youtube ช่องดัง ๆ, ละคร, Series, Movies)

ทั้ง 2 โมเดลคุมรายละเอียดได้ละเอียดมาก ทั้งจังหวะพูด (pacing), โทนเสียง และคาแรกเตอร์ของตัวละคร แถมยังทำงานได้สม่ำเสมอขึ้นเวลาสลับใช้หลายภาษาในงานเดียวกัน

ข้อสรุป:

Gemini TTS บริการแปลงข้อความให้กลายเป็นเสียงคนพูดที่ฟังดูเนียนธรรมชาติ รองรับ 24 ภาษาในตัวเดียว เลือกโทน จังหวะ และสไตล์การเล่าเรื่องให้เข้ากับงานได้ ไม่ต้องเสียเวลานั่งอัดเสียงเอง ลดค่าใช้จ้างนักพากย์ และลองเปลี่ยนหลายเวอร์ชันของน้ำเสียงได้ในเวลาไม่กี่นาที

Source:

Blog Google, Google AI Dev