25 พฤศจิกายน 2568 ทีมนักวิจัยจาก 3 มหาวิทยาลัยใหญ่:

  1. Nankai University
  2. National University of Singapore (NUS)
  3. Zhejiang University

ได้ร่วมกันวิจัยถึงเรื่อง The Consistency Critic (ImageCritic) เป็น ตัวตรวจ + แก้ให้ใกล้เคียงของจริงที่สุด รูปที่ถูกสร้างมาแล้ว (post-edit) โดยมี 3 ไอเดียหลัก ๆ:

  1. สร้างชุดข้อมูลแบบ 3 รูปต่อ Case
    • รูปอ้างอิง (reference)
    • รูปที่ เสียนิดเดียว โดยจงใจทำให้ Detail พัง (degraded)
    • รูปเป้าหมายที่ถูกต้อง (target)

เอาไว้สอนโมเดลให้รู้ว่า Detail ที่เพี้ยนแบบนี้ ควรแก้ให้เป็นแบบนี้นะ

Pain Point ของเรื่องนี้

  1. ไม่มีข้อมูลดี ๆ สำหรับ Detail เล็ก ๆ
    • Data เดิม ๆ เน้นให้หน้าตาหลัก ๆ ของ object เหมือน แต่ไม่ได้เข้มงวดกับโลโก้/ตัวหนังสือ
  2. โมเดล โฟกัส Detail ไม่เป็น
    • เวลามีทั้งรูปอ้างอิงและรูปที่ต้องแก้ โมเดลไม่รู้ว่าควรใช้ส่วนไหนของ Reference มาอ้างอิง และควรปรับส่วนไหนของรูป input

Framework ImageCritic สร้างภาพ

  1. สร้าง Dataset แบบใหม่
    • เอา AI รุ่นแรง ๆ มาสร้างภาพสินค้า/เสื้อผ้าเยอะ ๆ เช่น (Flux Kontext, GPT-4o, NanoBanana ฯลฯ)
    • ใช้ VLM อย่าง Qwen-VL เช็กคุณภาพ เลือกเฉพาะรูปที่ตัวหนังสือชัด โลโก้ตรง
    • ใช้ Flux-Fill ทำให้ Detail พังในบางจุด (เปลี่ยนตัวหนังสือ/โลโก้เฉพาะบาง patch) เพื่อจำลอง ภาพที่ Detail เพี้ยนแบบโลกจริง
  2. ปรับโฟกัส ภายในโมเดลด้วยการออกแบบ Loss ใหม่ (attention alignment) ให้โมเดล AI รู้ว่า
    • เช็กว่าตรงไหน ไม่เหมือน รูปจริง
    • ตรงไหนต้องอิง reference
    • ตรงไหนอิงรูป input
  3. เพิ่ม Detail Encoder เพื่อให้โมเดลเข้าใจรูปอ้างอิงได้แม่นขึ้น ไม่สับสนว่า IMG1 / IMG2 คือ รูปไหน
  4. ห่อทั้งหมดด้วย Agent chain
    • ต่อ Workflow อัตโนมัติให้ระบบสามารถตรวจเอง-ตัดเอง-ครอปเอง-แก้เอง และวนหลายรอบแบบที่คนแค่ดูผลและกดโอเค
    • ตรวจเจอว่าตรงไหนไม่เหมือน
    • เขียน Prompt ให้โมเดลแก้
    • วน Loop ทำหลายรอบได้

ผลลัพธ์การทดสอบแต่ละ Case และ ทดสอบกับ AI เจ้าอื่น

  1. ก่อนแก้:
    • ตัวหนังสือเบี้ยว ตัวสะกดผิด โลโก้ไม่เหมือน
    • บางทีเสื้อมีเลข/ตัวอักษรไม่ตรงต้นฉบับ
  2. หลังผ่าน ImageCritic:
    • ตัวหนังสืออ่านได้ โลโก้ใกล้เคียงของจริงมากขึ้น
    • แต่พื้นหลัง แสง สี โทนภาพ ยังเหมือนของเดิม

ตอนตรวจวัดใช้เกณฑ์ 3 เกณฑ์ในการประเมินเป็น คะแนนความคล้ายภาพ:

  1. CLIP-I ↑ (สูงดี)
  2. DINO ↑ (สูงดี)
  3. DreamSim ↓ (ยิ่งต่ำยิ่งดี แปลว่าคล้ายตาม Perception ของมนุษย์มากขึ้น)

ข้อสรุป:

ImageCritic AI ที่ไม่ได้แทนที่พนักงาน แต่เป็นคนตรวจงานสาย Detail (QC) เพื่อให้รูปสุดท้ายที่ออกไปใช้งานอย่างโลโก้ไม่เพี้ยน ตัวหนังสือไม่ผิด และหน้าตาสินค้าตรงกับของจริงมากขึ้น โดยไม่ต้องให้คนมานั่งแก้มือทุกใบ

Source:

Paper, Demo, Data, HuggingFace, Github