
10 ธันวาคม 2568 Google ขยายความสามารถของ Gemini TTS บริการ/โมเดล Google ที่เอาไว้แปลงข้อความเป็นเสียงพูดที่ฟังดูเหมือนคนจริง เพียงพิมพ์เป็นตัวอักษรเข้าไป แล้วมันจะอ่านออกมาเป็นเสียงให้เลย
จุดเด่น คือ รองรับมากกว่า 24 ภาษา และเราปรับฟีลลิ่งของเสียงได้เยอะมาก
ทั้งโทนจริงจัง สนุก อบอุ่น เร็ว ช้า หรือทำเป็นหลายเสียงในงานเดียวกันได้ด้วย
24 ภาษา ประกอบด้วย
- Arabic (Egyptian) ar-EG
- German (Germany) de-DE
- English (US) en-US
- Spanish (US) es-US
- French (France) fr-FR
- Hindi (India) hi-IN
- Indonesian (Indonesia) id-ID
- Italian (Italy) it-IT
- Japanese (Japan) ja-JP
- Korean (Korea) ko-KR
- Portuguese (Brazil) pt-BR
- Russian (Russia) ru-RU
- Dutch (Netherlands) nl-NL
- Polish (Poland) pl-PL
- Thai (Thailand) th-TH
- Turkish (Turkey) tr-TR
- Vietnamese (Vietnam) vi-VN
- Romanian (Romania) ro-RO
- Ukrainian (Ukraine) uk-UA
- Bengali (Bangladesh) bn-BD
- English (India) en-IN & hi-IN bundle
- Marathi (India) mr-IN
- Tamil (India) ta-IN
- Telugu (India) te-IN
Gemini 2.5 ที่เป็น TTS รุ่นใหม่ตอนนี้ จะมีอยู่ 2 รุ่นหลัก คือ
- Gemini 2.5 Flash Preview TTS เหมาะกับงานแบบโต้ตอบแบบ real-time
- Gemini 2.5 Pro Preview TTS จะโฟกัสที่คุณภาพเสียงเป็นหลัก สำหรับโปรเจกต์ที่ต้องการเสียงคมชัดระดับ high-fidelity (พวกเสียงจากใน VDO ตาม Youtube ช่องดัง ๆ, ละคร, Series, Movies)
ทั้ง 2 โมเดลคุมรายละเอียดได้ละเอียดมาก ทั้งจังหวะพูด (pacing), โทนเสียง และคาแรกเตอร์ของตัวละคร แถมยังทำงานได้สม่ำเสมอขึ้นเวลาสลับใช้หลายภาษาในงานเดียวกัน
ข้อสรุป:
Gemini TTS บริการแปลงข้อความให้กลายเป็นเสียงคนพูดที่ฟังดูเนียนธรรมชาติ รองรับ 24 ภาษาในตัวเดียว เลือกโทน จังหวะ และสไตล์การเล่าเรื่องให้เข้ากับงานได้ ไม่ต้องเสียเวลานั่งอัดเสียงเอง ลดค่าใช้จ้างนักพากย์ และลองเปลี่ยนหลายเวอร์ชันของน้ำเสียงได้ในเวลาไม่กี่นาที




