Text-to-Audio-Video-Generation-Compass

24 ธันวาคม 2568 Arxiv แหล่งรวม Papers ได้ปล่อย Paper นึงที่เมื่อเราอยากพิมพ์ประโยคเดียวแล้วได้ VDO ที่ดูสมจริง + เสียง ที่เข้ากับสิ่งที่เกิดขึ้นในวิดีโอแบบพอดีเป๊ะ เช่น คนตีลูกบาส = ต้องได้เสียงรองเท้าเสียดพื้น + เสียงลูกเด้ง + เสียงโซ่ห่วงกระทบกัน ตรงจังหวะ ไม่ใช่เสียงมั่ว ๆ หรือมาช้า/มาเร็วเกินไป

ปัญหา คือ การวัดว่า โมเดลทำได้ดีแค่ไหน ยังวัดกันคนละมุม บางที่วัดแค่วิดีโอ, แค่เสียง หรือวัดโจทย์ง่าย ๆ จนไม่สะท้อนของจริง และนี่คือ เหตุผลที่เขาสร้าง T2AV-Compass ขึ้นมา

ตัวอย่าง จุดอ่อนของการประเมินแบบเดิมที่ชัดเจน คือ:

  1. บางชุดทดสอบเน้นภาพอย่างเดียว (เช่น VBench / EvalCrafter)
  2. บางชุดทดสอบเน้นเสียงอย่างเดียว (เช่น AudioCaps / AudioLDM-Eval)
  3. แต่พอเป็น T2AV จริง ๆ มันต้องตอบให้ได้ว่า เสียงตรงกับสิ่งที่เห็นไหมหรือ เหตุการณ์หลายอย่างในภาพกับเสียงซิงค์กันไหม หรือ ทำตามคำสั่งยาว ๆ หลายเงื่อนไขได้ไหม

นอกจากนี้ยังมีตัวอย่างงาน/ชุดทดสอบก่อนหน้า เช่น JavisBench, Verse-Bench, Harmony-Bench, VABench ฯลฯ ว่ามีความพยายามวัดแบบภาพ + เสียงมากขึ้นแล้ว แต่ยังติด ข้อแลกเปลี่ยน อยู่บ่อย เช่น

  • อยากให้ละเอียดมาก → มักวัดแพง/วัดยาก
  • อยากให้วัดได้เยอะ ๆ เร็ว ๆ → มักไม่ค่อยอธิบายสาเหตุเป็นข้อ ๆ
  • อยากครอบคลุมหลายสถานการณ์ → บางทีต้องยอมให้ความละเอียดลดลงเลยเป็นที่มาว่า อยากทำของใหม่ที่ครบและชี้จุดพังได้ชัด

การประเมินผล

  • ใช้ Data Construction: ด้วยการสร้าง 500 Prompts ด้วยแนวคิด แบ่งหมวดก่อน แล้วค่อยสร้าง/คัด prompt ให้ครอบคลุม ไม่ได้แต่ง Prompt ลอย ๆ อย่างเดียว แต่ไปเอาของจริงในโลก มาช่วยบังคับให้ prompt มันสมจริงและยากขึ้น

วิธีให้คะแนนของ T2AV-Compass มี 2 ชั้น

ชั้นที่ 1: คะแนนแบบวัดตัวเลข (Objective) เพื่อดูคุณภาพพื้นฐานของงานที่ออกมา แบ่งเป็น 3 ก้อนใหญ่: Video Quality / Audio Quality / Cross-modal Alignment (ความเข้ากันของภาพ-เสียง)

Video Quality

  1. Video Technological Score (VT): วัดความเนี้ยบระดับเทคนิคของภาพ หักคะแนนถ้ามี noise/blur/ภาพแตกจากการบีบอัด
    • คะแนนสูง = ภาพสะอาด คม ชัด ดูเหมือนภาพจริงมากขึ้น
  2. Video Aesthetic Score (VA): วัดความสวยที่คนรู้สึกได้ เช่น องค์ประกอบ แสง สี และความลงตัวของภาพรวม
    • คะแนนสูง = ภาพดูดี มีรสนิยม กลมกลืนทั้งงาน

Audio Quality

  1. Perceptual Quality (PQ): วัดคุณภาพเสียงล้วน ๆ ว่าใส ชัด เหมือนเสียงจริงไหม และมีเสียงรบกวน/โทนปลอมไหม
    • คะแนนสูง = เสียงคม ฟังเป็นธรรมชาติ ใกล้เสียงอัดจริง
  2. Content Usefulness (CU): วัดว่า เสียงมีความหมายไหม มีเหตุการณ์เสียงที่ฟังออกว่าอะไร ไม่ใช่นอยส์มั่ว ๆ
    • คะแนนสูง = เสียงมีเนื้อหา ใช้งานได้จริง ไม่ใช่แค่เสียงพื้น ๆ

Cross-modal Alignment (ความเข้ากันของภาพ-เสียง)

  • Text–Audio (T–A) ใช้ CLAP วัดว่า ข้อความกับเสียงไปทางเดียวกันไหม
  • Text–Video (T–V) ใช้ VideoCLIP-XL-V2 วัดว่า ข้อความ กับ วิดีโอ ตรงกันไหม
  • Audio–Video (A–V) ใช้ ImageBind วัดว่า เสียง กับ ภาพ เข้ากันไหม (ไม่พึ่งข้อความ)
  • Temporal Synchronization ใช้ DeSync (DS) ของ Synchformer วัด เหลื่อมเวลากันกี่วินาที (ยิ่งต่ำยิ่งดี)
  • ถ้าเป็นฉากพูด/ขยับปาก มี LatentSync (LS) เพิ่มสำหรับ lip-sync

ชั้นที่ 2: Subjective Evaluation = ให้ MLLM-as-a-Judge ช่วยตรวจแบบ มีเหตุผล เพราะคะแนนแบบวัดสัญญาณบางที ภาพผ่าน แต่เรื่องไม่ผ่าน จึงใช้ MLLM-as-a-Judge เป็นกรรมการ และบังคับให้ อธิบายเหตุผลก่อนให้คะแนน เพื่อไล่หาว่า พลาดตรงไหน โดยแยกเป็น 2 track:

  • Instruction Following Verification (IFV) = ทำตามคำสั่งไหม และครอบคลุมมิติใหญ่ ๆ เช่น Dynamics, Sound, Cinematography ฯลฯ
  • Realism = สมจริงไหม บางโมเดลภาพดูดี แต่มีหลอนแบบ หมาสองหัว หรือเสียงประกอบไม่เข้าธีม ก็โดนหักคะแนน

T2AV-Compass เอาไปลองสอบกับโมเดลอะไรบ้าง

ทดสอบทั้งหมด 11 ระบบ ทั้งแบบปิด (closed-source), แบบเปิด (open-source) และแบบต่อท่อหลายโมเดล (pipeline) เช่น Veo-3.1, Sora-2, Kling-2.6, Wan-2.6, Seedance-1.5, PixVerse-V5.5, Ovi-1.1, JavisDiT และ Pipeline อย่าง Wan-2.2 + Hunyuan-Foley, AudioLDM2 + MTV

ผลลัพธ์จากการทดสอบ

  1. วิดีโอไปไกลกว่าเสียง Audio Realism Bottleneck
    • ภาพรวม คือ หลายโมเดลทำตามโจทย์ได้ แต่พอวัดความสมจริงจริง ๆ เสียงยังเป็นจุดอ่อนหนักมาก แม้ตัวที่ได้คะแนน Audio Realism สูงสุดอย่าง Seedance-1.5 ก็ได้แค่ 53.84 และส่วนใหญ่ค้างอยู่แถวเลข 30 กว่า ๆ
    • หมายความว่า ภาพเริ่มหลอกตาได้แล้ว แต่เสียงยังหลอกหูไม่ได้
  2. ไม่มีใครเก่งทุกด้าน สนามนี้ โหดจริง
    • ไม่มีโมเดลไหนชนะทุกมิติ ตัวอย่างเช่น Veo-3.1 ได้คะแนนเฉลี่ยรวมสูงสุด แต่ก็ยังมีรูโหว่ เรื่อง Audio Realism
  3. บางงานต่อ Pipeline หลายโมเดล ยังเวิร์กมากในบางเป้า
    • ระบบแบบ pipeline อย่าง Wan-2.2 + Hunyuan-Foley กลับได้คะแนน Video Realism สูงสุด (89.63) แซงพวก end-to-end หลายตัว แปลว่า ต่อ Pipeline ให้ถูกคนถูกงาน บางทีผลลัพธ์เรื่องภาพยังสุดกว่า
  4. ช่องว่าง Open Source vs Closed Source ยังชัด
    • โมเดลแบบปิด (Closed Source) โดยรวมทำได้ดีกว่า โมเดลเปิด (Open Source) ทั้งคะแนนวัดสัญญาณและคะแนนกรรมการ
  5. Dynamics เป็นด่านหิน (เรื่องการเคลื่อนไหว/เหตุการณ์ต่อเนื่อง)
    • การวิเคราะห์แยกมิติพบว่า Dynamics เป็นหมวดที่ยากและแยกชั้นโมเดลได้ชัดสุด เช่น Wan-2.5 ทำได้สูงสุดใน Dynamics และ Veo-3.1 ตามมาติด ๆ แต่ Sora-2 ดรอปในหมวดนี้
  6. จุดยากสุดในความสมจริง คือ เสียงต้องเหมือนวัสดุ/สถานการณ์
    • ในภาพรวมหลายโมเดลทำคะแนนบางตัวสูง แต่บางมุมยังยากมาก โดยเฉพาะมุมที่เกี่ยวกับการจับคู่เสียงกับสิ่งที่เห็น และเป็นจุดที่ทำให้คะแนนแกว่งระหว่างโมเดลมาก

ข้อจำกัดของ T2AV-Compass ครอบคลุม 3 ข้อหลัก:

  1. วิธีกรรมการ (MLLM-as-a-Judge) ใช้ทรัพยากรค่อนข้างหนัก ทำให้ประเมินแบบใหญ่ ๆ หรือแบบเรียลไทม์ยาก
  2. กรรมการมี อคติในตัว เช่น ชอบสไตล์ภาพบางแบบ หรือโทนเสียงบางความถี่
  3. แม้ 500 prompts จะหลากหลาย แต่ไม่ครอบคลุม เคสหายากมาก ๆ หรือคอนเซ็ปต์เฉพาะทางสุดขั้ว

ข้อสรุป:

T2AV-Compass คือ เครื่องมือที่บอกความจริงแบบตรง ๆ ว่า โมเดลไหนทำตามโจทย์ได้แค่ไหน, งานที่ได้สมจริงพอให้ใช้จริงไหม และที่สำคัญ… เสียงกับภาพไปด้วยกันจริงหรือยัง

Source:

Papers, Arxiv, Github.io, Huggingface