Key Takeaways

  1. คิดแบบคนตัดต่อ ไม่ใช่คิดแบบแค่ generate: ผู้ใช้วาง Anchors บน timeline แล้วโมเดลไปเติมให้เป็น one-shot
  2. จุดตายของงานต่อฉากคือ abrupt cuts + motion เพี้ยน → เขาแก้ด้วย Tailored DPO แบบเจาะโรค
  3. วิดีโอยาวไม่จำเป็นต้องทำทีเดียวทั้งเส้น → ใช้ SAR แบ่งเป็นท่อน ๆ แต่ยังเนียน เพราะต่อกันใน latent space
  4. งานนี้ไม่ได้ชนะ เพราะภาพคมกว่า อย่างเดียว แต่ชนะเพราะ เล่าเรื่องลื่น + ทำตามโจทย์ได้แม่น (prompt following เด่นมาก)
  5. บทเรียนใหญ่: ถ้าอยากให้วิดีโอนิ่งและไม่ flicker ตอนอัปความละเอียด → Shared-RoPE คือ ของสำคัญมาก

ลองนึกภาพว่า… เราไม่ได้อยากให้ AI สุ่มสร้างคลิปยาว ๆ อย่างเดียว แต่เราอยาก ปักหมุดฉากสำคัญไว้ตามเวลา เช่น

  • วินาทีที่ 1 ต้องเริ่มด้วยภาพนี้
  • วินาทีที่ 7–10 ต้องเป็นคลิปนี้
  • วินาทีที่ 16 ต้องไปโผล่อีกฉากตามที่เราต้องการ

24 ธันวาคม 2568 ByteDance เปิดตัว DreaMontage Framework สำหรับ สร้างวิดีโอแบบ one-shot / long take จาก ภาพ/คลิปหลายชิ้น ที่ผู้ใช้ ไปวางบน timeline ตามเวลาที่ต้องการ แล้วใส่ Prompt ประกอบ จากนั้นโมเดลจะสร้างวิดีโอที่เหมือน ถ่ายต่อเนื่องช็อตเดียว และเชื่อมทุกจุดให้ลื่น เหมือนเป็นช็อตเดียวจริง ๆ ไม่ใช่แค่เอาคลิปมาต่อ ๆ กัน

ปัญหาหลักที่พบเจอ

  • 3 อุปสรรคหลักที่เขาเจอ
  1. VideoVAE มี temporal down-sampling → เฟรมกลาง ๆ ที่อยากคุม ไม่ Match ตรงเวลาแบบที่คิด ใน latent ทำให้คุมยาก
  2. ระหว่าง condition แต่ละอันมันอาจคนละโลก (สไตล์/ฉาก/ความหมายต่างกันมาก) → โมเดลชอบทำเป็นตัดฉับ หรือเปลี่ยนแบบกระชาก
  3. One-Shot ต้องวิดีโอยาว → โมเดลแบบ DiT-based กิน memory/ compute สูง → ทำยาว ๆ แบบ pass เดียวไม่ค่อยไหว

งานนี้เลยออกแบบให้เอาภาพ/คลิปที่กระจัดกระจาย มาทำให้กลายเป็น เรื่องเดียวที่ไหลลื่น

Framework ทำงานยังไง

ภาพรวมแบ่งเป็น 3 ส่วนหลัก + 1 กลยุทธ์ตอนสร้างวิดีโอยาว

  1. Interm-Cond Adaptation ทำให้ปักหมุดกลางเรื่อง ใช้งานได้จริง
    • เอาวิธีคุมแบบ I2V ที่คุ้นกัน (เอา condition ไปต่อกับ latent) มาปรับให้รองรับ กลางเรื่อง (เดิมมันคุมแค่ Start กับ End Frame)
    • แล้วเสริม Shared-RoPE ในส่วน Super-Resolution เพื่อกันอาการ flickering / สีไหลข้ามเฟรม ทำให้คุมจุดสำคัญระหว่างทางได้จริง และตอนอัปความละเอียดก็ไม่วูบวาบ
    • Shared-RoPE คือ ของที่ทำให้งานเนียนระดับใช้งานจริง มากขึ้นแบบก้าวกระโดด
  2. Visual Expression SFT ทำให้ภาพมีความเป็น cinematic มากขึ้น
    • เก็บข้อมูลคุณภาพสูงจำนวนไม่มาก แล้ว SFT เพื่อดันให้โมเดลเล่นภาษา พวก shot/motion/transition ได้ดีขึ้น แปลว่า ไม่ใช่แค่ต่อเรื่องได้ แต่ต่อแล้วดูเป็นฉากหนังมากขึ้น
  3. Tailored DPO ลงโทษ รอยต่อกระชาก และ ท่าทางเพี้ยน
    • สร้าง Preference Pairs เพื่อสอนโมเดลแบบชัด ๆ ว่า อันไหน คือ Smooth narrative bridge และอันไหน คือ hard cuts / motion ที่ไม่สมเหตุผล เหมือนให้ AI ดูตัวอย่างแบบนี้ดี แบบนี้อย่าทำ แบบเน้นโรคที่คนดูแล้วขัดใจที่สุด
  4. SAR (Segment-wise Auto-Regressive) ทำวิดีโอยาวแบบไม่ล่ม
    • แทนที่จะสร้างยาวทีเดียว เขาแบ่งเป็นช่วง ๆ แล้วเอาท้ายช่วงก่อนหน้าไปต่อช่วงถัดไป ทำทั้งหมดใน latent space (ไม่ได้ใช้ Pixel) แล้วค่อย decode ทีหลัง ทำให้ ช่วยให้รอยต่อ นิ่มกว่า และลด artifact แบบกระพริบ/กระโดดได้เนียนกว่าแบบต่อใน pixel

ประยุกต์กับงานไหนได้บ้าง

  1. Cinematic Trailer and Montage Creation
    • รับภาพคอนเซปต์/คีย์เฟรม/คลิปจริง แล้วเติมให้เป็น trailer ต่อเนื่อง เหมือน neural editor ช่วย pre-viz
  2. Infinite Long-Video Generation
    • ต่อ Segment ไปเรื่อย ๆ แบบ Autoregressive โดยไม่ decay ง่าย เหมาะกับ vlog/สารคดี/loop animation
  3. Game Cutscenes and Dynamic Advertising
    • เอาโปสเตอร์นิ่ง → Animate → ต่อเข้า Footage จริงได้ ด้วย prompt เดียว และรักษา brand style

ข้อสรุป:

DreaMontage เป็นการทำ one-shot แบบ cinematic โดยที่คุณภาพวิดีโอไม่ได้จบที่ ภาพสวย แต่มันจบที่ คนดูรู้สึกว่าเรื่องมันไหล และ การเปลี่ยนฉากมันมีเหตุผล ด้วย

  • วิธีคุมเงื่อนไขกลางเรื่อง
  • วิธีฝึกให้รู้ภาษา cinematic
  • วิธีลงโทษ artifact แบบตรงจุด
  • วิธีทำให้ยาวได้แบบไม่พัง

Source:

Github.io, Paper