24 ธันวาคม 2568 Arxiv แหล่งรวม Papers ได้ปล่อย Paper นึงที่เมื่อเราอยากพิมพ์ประโยคเดียวแล้วได้ VDO ที่ดูสมจริง + เสียง ที่เข้ากับสิ่งที่เกิดขึ้นในวิดีโอแบบพอดีเป๊ะ เช่น คนตีลูกบาส = ต้องได้เสียงรองเท้าเสียดพื้น + เสียงลูกเด้ง + เสียงโซ่ห่วงกระทบกัน ตรงจังหวะ ไม่ใช่เสียงมั่ว ๆ หรือมาช้า/มาเร็วเกินไป
ปัญหา คือ การวัดว่า โมเดลทำได้ดีแค่ไหน ยังวัดกันคนละมุม บางที่วัดแค่วิดีโอ, แค่เสียง หรือวัดโจทย์ง่าย ๆ จนไม่สะท้อนของจริง และนี่คือ เหตุผลที่เขาสร้าง T2AV-Compass ขึ้นมา
ตัวอย่าง จุดอ่อนของการประเมินแบบเดิมที่ชัดเจน คือ:
- บางชุดทดสอบเน้นภาพอย่างเดียว (เช่น VBench / EvalCrafter)
- บางชุดทดสอบเน้นเสียงอย่างเดียว (เช่น AudioCaps / AudioLDM-Eval)
- แต่พอเป็น T2AV จริง ๆ มันต้องตอบให้ได้ว่า เสียงตรงกับสิ่งที่เห็นไหมหรือ เหตุการณ์หลายอย่างในภาพกับเสียงซิงค์กันไหม หรือ ทำตามคำสั่งยาว ๆ หลายเงื่อนไขได้ไหม
นอกจากนี้ยังมีตัวอย่างงาน/ชุดทดสอบก่อนหน้า เช่น JavisBench, Verse-Bench, Harmony-Bench, VABench ฯลฯ ว่ามีความพยายามวัดแบบภาพ + เสียงมากขึ้นแล้ว แต่ยังติด ข้อแลกเปลี่ยน อยู่บ่อย เช่น
- อยากให้ละเอียดมาก → มักวัดแพง/วัดยาก
- อยากให้วัดได้เยอะ ๆ เร็ว ๆ → มักไม่ค่อยอธิบายสาเหตุเป็นข้อ ๆ
- อยากครอบคลุมหลายสถานการณ์ → บางทีต้องยอมให้ความละเอียดลดลงเลยเป็นที่มาว่า อยากทำของใหม่ที่ครบและชี้จุดพังได้ชัด
การประเมินผล
- ใช้ Data Construction: ด้วยการสร้าง 500 Prompts ด้วยแนวคิด แบ่งหมวดก่อน แล้วค่อยสร้าง/คัด prompt ให้ครอบคลุม ไม่ได้แต่ง Prompt ลอย ๆ อย่างเดียว แต่ไปเอาของจริงในโลก มาช่วยบังคับให้ prompt มันสมจริงและยากขึ้น
วิธีให้คะแนนของ T2AV-Compass มี 2 ชั้น
ชั้นที่ 1: คะแนนแบบวัดตัวเลข (Objective) เพื่อดูคุณภาพพื้นฐานของงานที่ออกมา แบ่งเป็น 3 ก้อนใหญ่: Video Quality / Audio Quality / Cross-modal Alignment (ความเข้ากันของภาพ-เสียง)
Video Quality
- Video Technological Score (VT): วัดความเนี้ยบระดับเทคนิคของภาพ หักคะแนนถ้ามี noise/blur/ภาพแตกจากการบีบอัด
- คะแนนสูง = ภาพสะอาด คม ชัด ดูเหมือนภาพจริงมากขึ้น
- Video Aesthetic Score (VA): วัดความสวยที่คนรู้สึกได้ เช่น องค์ประกอบ แสง สี และความลงตัวของภาพรวม
- คะแนนสูง = ภาพดูดี มีรสนิยม กลมกลืนทั้งงาน
Audio Quality
- Perceptual Quality (PQ): วัดคุณภาพเสียงล้วน ๆ ว่าใส ชัด เหมือนเสียงจริงไหม และมีเสียงรบกวน/โทนปลอมไหม
- คะแนนสูง = เสียงคม ฟังเป็นธรรมชาติ ใกล้เสียงอัดจริง
- Content Usefulness (CU): วัดว่า เสียงมีความหมายไหม มีเหตุการณ์เสียงที่ฟังออกว่าอะไร ไม่ใช่นอยส์มั่ว ๆ
- คะแนนสูง = เสียงมีเนื้อหา ใช้งานได้จริง ไม่ใช่แค่เสียงพื้น ๆ
Cross-modal Alignment (ความเข้ากันของภาพ-เสียง)
- Text–Audio (T–A) ใช้ CLAP วัดว่า ข้อความกับเสียงไปทางเดียวกันไหม
- Text–Video (T–V) ใช้ VideoCLIP-XL-V2 วัดว่า ข้อความ กับ วิดีโอ ตรงกันไหม
- Audio–Video (A–V) ใช้ ImageBind วัดว่า เสียง กับ ภาพ เข้ากันไหม (ไม่พึ่งข้อความ)
- Temporal Synchronization ใช้ DeSync (DS) ของ Synchformer วัด เหลื่อมเวลากันกี่วินาที (ยิ่งต่ำยิ่งดี)
- ถ้าเป็นฉากพูด/ขยับปาก มี LatentSync (LS) เพิ่มสำหรับ lip-sync
ชั้นที่ 2: Subjective Evaluation = ให้ MLLM-as-a-Judge ช่วยตรวจแบบ มีเหตุผล เพราะคะแนนแบบวัดสัญญาณบางที ภาพผ่าน แต่เรื่องไม่ผ่าน จึงใช้ MLLM-as-a-Judge เป็นกรรมการ และบังคับให้ อธิบายเหตุผลก่อนให้คะแนน เพื่อไล่หาว่า พลาดตรงไหน โดยแยกเป็น 2 track:
- Instruction Following Verification (IFV) = ทำตามคำสั่งไหม และครอบคลุมมิติใหญ่ ๆ เช่น Dynamics, Sound, Cinematography ฯลฯ
- Realism = สมจริงไหม บางโมเดลภาพดูดี แต่มีหลอนแบบ หมาสองหัว หรือเสียงประกอบไม่เข้าธีม ก็โดนหักคะแนน
T2AV-Compass เอาไปลองสอบกับโมเดลอะไรบ้าง
ทดสอบทั้งหมด 11 ระบบ ทั้งแบบปิด (closed-source), แบบเปิด (open-source) และแบบต่อท่อหลายโมเดล (pipeline) เช่น Veo-3.1, Sora-2, Kling-2.6, Wan-2.6, Seedance-1.5, PixVerse-V5.5, Ovi-1.1, JavisDiT และ Pipeline อย่าง Wan-2.2 + Hunyuan-Foley, AudioLDM2 + MTV
ผลลัพธ์จากการทดสอบ
- วิดีโอไปไกลกว่าเสียง Audio Realism Bottleneck
- ภาพรวม คือ หลายโมเดลทำตามโจทย์ได้ แต่พอวัดความสมจริงจริง ๆ เสียงยังเป็นจุดอ่อนหนักมาก แม้ตัวที่ได้คะแนน Audio Realism สูงสุดอย่าง Seedance-1.5 ก็ได้แค่ 53.84 และส่วนใหญ่ค้างอยู่แถวเลข 30 กว่า ๆ
- หมายความว่า ภาพเริ่มหลอกตาได้แล้ว แต่เสียงยังหลอกหูไม่ได้
- ไม่มีใครเก่งทุกด้าน สนามนี้ โหดจริง
- ไม่มีโมเดลไหนชนะทุกมิติ ตัวอย่างเช่น Veo-3.1 ได้คะแนนเฉลี่ยรวมสูงสุด แต่ก็ยังมีรูโหว่ เรื่อง Audio Realism
- บางงานต่อ Pipeline หลายโมเดล ยังเวิร์กมากในบางเป้า
- ระบบแบบ pipeline อย่าง Wan-2.2 + Hunyuan-Foley กลับได้คะแนน Video Realism สูงสุด (89.63) แซงพวก end-to-end หลายตัว แปลว่า ต่อ Pipeline ให้ถูกคนถูกงาน บางทีผลลัพธ์เรื่องภาพยังสุดกว่า
- ช่องว่าง Open Source vs Closed Source ยังชัด
- โมเดลแบบปิด (Closed Source) โดยรวมทำได้ดีกว่า โมเดลเปิด (Open Source) ทั้งคะแนนวัดสัญญาณและคะแนนกรรมการ
- Dynamics เป็นด่านหิน (เรื่องการเคลื่อนไหว/เหตุการณ์ต่อเนื่อง)
- การวิเคราะห์แยกมิติพบว่า Dynamics เป็นหมวดที่ยากและแยกชั้นโมเดลได้ชัดสุด เช่น Wan-2.5 ทำได้สูงสุดใน Dynamics และ Veo-3.1 ตามมาติด ๆ แต่ Sora-2 ดรอปในหมวดนี้
- จุดยากสุดในความสมจริง คือ เสียงต้องเหมือนวัสดุ/สถานการณ์
- ในภาพรวมหลายโมเดลทำคะแนนบางตัวสูง แต่บางมุมยังยากมาก โดยเฉพาะมุมที่เกี่ยวกับการจับคู่เสียงกับสิ่งที่เห็น และเป็นจุดที่ทำให้คะแนนแกว่งระหว่างโมเดลมาก
ข้อจำกัดของ T2AV-Compass ครอบคลุม 3 ข้อหลัก:
- วิธีกรรมการ (MLLM-as-a-Judge) ใช้ทรัพยากรค่อนข้างหนัก ทำให้ประเมินแบบใหญ่ ๆ หรือแบบเรียลไทม์ยาก
- กรรมการมี อคติในตัว เช่น ชอบสไตล์ภาพบางแบบ หรือโทนเสียงบางความถี่
- แม้ 500 prompts จะหลากหลาย แต่ไม่ครอบคลุม เคสหายากมาก ๆ หรือคอนเซ็ปต์เฉพาะทางสุดขั้ว
ข้อสรุป:
T2AV-Compass คือ เครื่องมือที่บอกความจริงแบบตรง ๆ ว่า โมเดลไหนทำตามโจทย์ได้แค่ไหน, งานที่ได้สมจริงพอให้ใช้จริงไหม และที่สำคัญ… เสียงกับภาพไปด้วยกันจริงหรือยัง




