
25 พฤศจิกายน 2568 ทีมนักวิจัยจาก 3 มหาวิทยาลัยใหญ่:
- Nankai University
- National University of Singapore (NUS)
- Zhejiang University
ได้ร่วมกันวิจัยถึงเรื่อง The Consistency Critic (ImageCritic) เป็น ตัวตรวจ + แก้ให้ใกล้เคียงของจริงที่สุด รูปที่ถูกสร้างมาแล้ว (post-edit) โดยมี 3 ไอเดียหลัก ๆ:
- สร้างชุดข้อมูลแบบ 3 รูปต่อ Case
- รูปอ้างอิง (reference)
- รูปที่ เสียนิดเดียว โดยจงใจทำให้ Detail พัง (degraded)
- รูปเป้าหมายที่ถูกต้อง (target)
เอาไว้สอนโมเดลให้รู้ว่า Detail ที่เพี้ยนแบบนี้ ควรแก้ให้เป็นแบบนี้นะ
Pain Point ของเรื่องนี้
- ไม่มีข้อมูลดี ๆ สำหรับ Detail เล็ก ๆ
- Data เดิม ๆ เน้นให้หน้าตาหลัก ๆ ของ object เหมือน แต่ไม่ได้เข้มงวดกับโลโก้/ตัวหนังสือ
- โมเดล โฟกัส Detail ไม่เป็น
- เวลามีทั้งรูปอ้างอิงและรูปที่ต้องแก้ โมเดลไม่รู้ว่าควรใช้ส่วนไหนของ Reference มาอ้างอิง และควรปรับส่วนไหนของรูป input
Framework ImageCritic สร้างภาพ
- สร้าง Dataset แบบใหม่
- เอา AI รุ่นแรง ๆ มาสร้างภาพสินค้า/เสื้อผ้าเยอะ ๆ เช่น (Flux Kontext, GPT-4o, NanoBanana ฯลฯ)
- ใช้ VLM อย่าง Qwen-VL เช็กคุณภาพ เลือกเฉพาะรูปที่ตัวหนังสือชัด โลโก้ตรง
- ใช้ Flux-Fill ทำให้ Detail พังในบางจุด (เปลี่ยนตัวหนังสือ/โลโก้เฉพาะบาง patch) เพื่อจำลอง ภาพที่ Detail เพี้ยนแบบโลกจริง
- ปรับโฟกัส ภายในโมเดลด้วยการออกแบบ Loss ใหม่ (attention alignment) ให้โมเดล AI รู้ว่า
- เช็กว่าตรงไหน ไม่เหมือน รูปจริง
- ตรงไหนต้องอิง reference
- ตรงไหนอิงรูป input
- เพิ่ม Detail Encoder เพื่อให้โมเดลเข้าใจรูปอ้างอิงได้แม่นขึ้น ไม่สับสนว่า IMG1 / IMG2 คือ รูปไหน
- ห่อทั้งหมดด้วย Agent chain
- ต่อ Workflow อัตโนมัติให้ระบบสามารถตรวจเอง-ตัดเอง-ครอปเอง-แก้เอง และวนหลายรอบแบบที่คนแค่ดูผลและกดโอเค
- ตรวจเจอว่าตรงไหนไม่เหมือน
- เขียน Prompt ให้โมเดลแก้
- วน Loop ทำหลายรอบได้
ผลลัพธ์การทดสอบแต่ละ Case และ ทดสอบกับ AI เจ้าอื่น
- ก่อนแก้:
- ตัวหนังสือเบี้ยว ตัวสะกดผิด โลโก้ไม่เหมือน
- บางทีเสื้อมีเลข/ตัวอักษรไม่ตรงต้นฉบับ
- หลังผ่าน ImageCritic:
- ตัวหนังสืออ่านได้ โลโก้ใกล้เคียงของจริงมากขึ้น
- แต่พื้นหลัง แสง สี โทนภาพ ยังเหมือนของเดิม
ตอนตรวจวัดใช้เกณฑ์ 3 เกณฑ์ในการประเมินเป็น คะแนนความคล้ายภาพ:
- CLIP-I ↑ (สูงดี)
- DINO ↑ (สูงดี)
- DreamSim ↓ (ยิ่งต่ำยิ่งดี แปลว่าคล้ายตาม Perception ของมนุษย์มากขึ้น)
ข้อสรุป:
ImageCritic AI ที่ไม่ได้แทนที่พนักงาน แต่เป็นคนตรวจงานสาย Detail (QC) เพื่อให้รูปสุดท้ายที่ออกไปใช้งานอย่างโลโก้ไม่เพี้ยน ตัวหนังสือไม่ผิด และหน้าตาสินค้าตรงกับของจริงมากขึ้น โดยไม่ต้องให้คนมานั่งแก้มือทุกใบ
Source:
Paper, Demo, Data, HuggingFace, Github




