
15 ธันวาคม 2568 เว็บไซต์ Arxiv จากมหาวิทยาลัย Cornell ที่รวบรวม Papers ได้เปิดตัวงานวิจัยของ ByteDance อันใหม่ มีชื่อว่า Seedance 1.5 Pro AI สร้างวิดีโอและเสียงออกมาพร้อมกัน
ปีที่ผ่านมา วงการ AI สร้างวิดีโอมันบูมมาก มีทั้ง Sora ของ OpenAI, Veo ของ Google, Kling ของจีน และอีกหลายตัว ปัญหา คือ วิดีโอที่สร้างมามันไม่มีเสียง หรือถ้ามีก็ต้องใส่ทีหลัง แล้วมันไม่ค่อยเข้ากัน
Seedance 1.5 Pro เลยมาแก้ปัญหานี้ โดยออกแบบมาตั้งแต่แรกให้ สร้างภาพกับเสียงพร้อมกัน ตัวนี้มันทำทีเดียวจบ เสียงกับภาพซิงค์กันเป๊ะ ปากขยับตรงกับเสียงพูด เสียงเท้าเดินตรงกับจังหวะก้าวเท้า
จุดเด่นที่เขาโม้ไว้ใน Papers:
- ปากซิงค์กับเสียงได้หลายภาษา รวมถึงภาษาถิ่นด้วย
- ควบคุมมุมกล้องได้แบบหนังจริงๆ
- เล่าเรื่องได้ต่อเนื่อง ไม่สะดุด
- ประมวลผลเร็วขึ้นกว่าเดิม 10 เท่า
Framework ของ Seedance 1.5 Pro ทำงานยังไง
- ลองนึกภาพว่า เหมือนโรงงานผลิตหนังสั้น ทำงานเป็น Step-by-Step:
- ขั้นที่ 1: เตรียมข้อมูลสอน AI
- รวบรวมวิดีโอคุณภาพดีมาเป็นล้านๆ คลิป
- คัดเลือกเฉพาะคลิปที่เสียงกับภาพมันเข้ากันดี
- เขียนคำอธิบายละเอียดว่าแต่ละวิดีโอมีอะไรบ้าง ทั้งภาพและเสียง
- ขั้นที่ 2: สอน AI ให้เข้าใจทั้งภาพและเสียง
- ใช้โครงสร้างที่ เรียกว่า 2 สมอง
- สมองหนึ่งดูแลภาพ
- สมองดูแลเสียง
- แต่ 2 สมองนี้คุยกันตลอด เพื่อให้ภาพกับเสียงมันสอดคล้องกัน สอนด้วยข้อมูลหลากหลายแบบ ทั้งวิดีโอมีเสียง วิดีโอไม่มีเสียง เสียงอย่างเดียว
- ใช้โครงสร้างที่ เรียกว่า 2 สมอง
- ขั้นที่ 3: ปรับแต่งให้ดีขึ้น
- เอาวิดีโอคุณภาพสูงมาก มาสอนเพิ่ม (เหมือนติวเข้ม)
- ให้คนจริงๆ มาดูผลงาน แล้วให้คะแนนว่าชอบหรือไม่ชอบ
- AI เรียนรู้จากความชอบของคน แล้วปรับตัวเอง
- ขั้นที่ 4: ทำให้เร็วขึ้น
- ปกติ AI แบบนี้ช้ามาก สร้างวิดีโอทีนึงนานหลายนาที
- เขาใช้เทคนิคหลายอย่างทำให้เร็วขึ้น 10 เท่า โดยคุณภาพยังดีอยู่
เหมาะกับ:
- ทำหนังสั้น
- ทำซีรีส์จีน (หนังสั้นแนวดราม่า)
- ทำโฆษณา
- ทำคอนเทนต์โซเชียล
ข้อจำกัด:
- ยังเก่งภาษาจีนมากกว่าภาษาอื่นอยู่
- เรื่องอารมณ์ในเสียงยังไม่ถึงขั้น Sora 2
- เปิดให้ใช้ผ่านแพลตฟอร์มของ ByteDance เท่านั้น อย่าง Doubao และ Jimeng
ข้อสรุป:
Seedance 1.5 Pro เข้ามาช่วยทำให้สร้างวีดิโอครบจบในขั้นตอนเดียว ได้ทั้งวีดิโอที่มีเสียง ปากขยับตรงตามตัวละครในวีดิโอ




