OMG แยก Layer เก่งกว่า Photoshop OmniPSD VS Qwen Image Layer AI ทั้งคู่แยก Layer เหมือนกัน แต่ผลลัพธ์คนละโลก

วันนี้ทีมเจอ Papers ที่แยกส่วนประกอบ Layers ออกจากภาพได้ง่ายกว่า ดีกว่า Photoshop 2 ตัว ต่างค่าย คือ Lovart มีชื่อว่า OmniPSD, Qwen AI จาก Alibaba มีชื่อว่า Qwen Image Layered

งานออกแบบจริง คือ ต้องแก้ และ แยก Layer ตลอด แต่การจะให้คอมฯ เดาได้ว่า

อะไร คือ พื้นหลัง
อะไรคือวัตถุชิ้นที่ 1, 2, 3
ข้อความอยู่ตรงไหน ใช้ฟอนต์อะไร สีอะไร ขนาดเท่าไร
เปลี่ยนสีเสื้อ
ขยับวัตถุ
ลบของชิ้นหนึ่ง

OmniPSD จาก Lovart

มีแกนกลางชุดเดียว แล้วแตกเป็น 2 งาน (ทำได้ 2 แบบ):

RGBA-VAE
Text-to-PSD (พิมพ์ข้อความ → ได้ PSD)
Image-to-PSD (เอารูปจริง → แตกเป็น PSD)

OmniPSD

1. Text-to-PSD (พิมพ์ข้อความ → ได้ PSD)

ทำยังไงให้โมเดลคุมตำแหน่งของหลายเลเยอร์พร้อมกันได้

โมเดลจะสร้างภาพรวมเป็นกรอบ 2×2 + เลเยอร์ประกอบ ออกมาเป็นชุด โดยต้องคุมให้แต่ละเลเยอร์สัมพันธ์กัน เช่น วัตถุไม่ทับมั่ว ข้อความไม่ลอยผิดที่

2. Image-to-PSD (เอารูปจริง → แตกเป็น PSD)

จุดยาก คือ ของจริงมันซับซ้อน มีวัตถุหลายชิ้น ตัวหนังสือหลายบรรทัด

เขาใช้แนวคิดว่า แตกทีละชิ้นแบบเป็นขั้นตอน (เหมือนเรานั่งทำเอง: ลบตัวหนังสือออกก่อน / แยกวัตถุชิ้นเด่นก่อน / เก็บพื้นหลังไว้ ฯลฯ)

นอกจากนี้ยังมีกระบวนการ RGBA-VAE ทำให้เกิดความโปร่งใส

ถ้าโมเดลไม่เก่งเรื่อง ความโปร่ง เวลาทำเป็นเลเยอร์ ขอบวัตถุจะออกมาแข็ง ๆ หรือมีขอบแปลก ๆ เลยทำตัว แปลงภาพให้เป็น Encoder ย่อแล้วแปลงกลับ (VAE) ที่รองรับ 4 ช่อง (สี + ความโปร่ง) แบบจริงจัง เพื่อให้การสร้าง/แตกเลเยอร์มันเก็บขอบนุ่ม ๆ ได้ดีขึ้น

ขั้นตอนการทำงาน

แยกชั้นตัวหนังสือก่อน
- เพราะตัวหนังสือเป็นสิ่งที่ ถ้าจะให้แก้ได้ มันควรเป็น Text Layer จริง ไม่ใช่ตัวหนังสือที่กลายเป็นภาพแบน ๆ จึงใช้การตรวจจับข้อความ (แนว OCR) เพื่อรู้ว่า ตรงไหนเป็นตัวหนังสือ และข้อความคืออะไร
ลบตัวหนังสือออกจากภาพให้เนียน
- ตรงนี้สำคัญมาก ถ้าลบแล้วเป็นรอย พอเราแยกเลเยอร์ต่อ ภาพจะพัง
- เขามีส่วนเสริมเฉพาะทาง สำหรับการลบตัวหนังสือ ให้พื้นหลังกลับมาแนบเนียน (ในงานเขาเรียกแนวทางนี้ด้วยชื่อโมเดลที่เขาเอามาปรับเพิ่ม)
ค่อย ๆ แยกวัตถุ/องค์ประกอบทีละชิ้น
- แทนที่จะพยายามเด้งเลเยอร์ทั้งหมดออกมาทีเดียว (ซึ่งมักมั่ว) เขาทำแบบ หยิบชิ้นที่เด่นออกมาก่อน แล้วอัปเดตภาพพื้นหลัง ทำซ้ำไปเรื่อย ๆ จนครบ

ผลลัพธ์สุดท้ายของ PSD ที่มี:

ชั้นพื้นหลัง
ชั้นวัตถุหลายชั้น (มีความโปร่ง)
ชั้นตัวหนังสือที่แก้ข้อความได้

OmniPSD เน้นได้ไฟล์ PSD ใช้งานได้จริง ทั้งข้อความ และ รูปจริง แถมสนใจเรื่อง ตัวหนังสือเป็น Text Layer และมี UI ให้เห็นการใช้งาน

Qwen Image Layered จาก Alibaba

แตกเป็น 3 งาน

RGBA-VAE เหมือนกับ OmniPSD
Variable Layers Decomposition MMDiT เครื่องยนต์หลัก สำหรับแตก Layer
Multi-stage Training (ฝึกเป็นหลายช่วง) แบ่งเป็นหลายเฟส เพื่อให้โมเดลค่อย ๆ เก่งขึ้นทีละเรื่อง

2. Variable Layers Decomposition MMDiT

ให้โมเดลเรียนรู้ว่า ถ้าต้องแตกภาพนี้เป็นหลายชั้น ชั้นไหนควรเป็นอะไร แล้วทำให้แต่ละชั้นมีสี + ความโปร่ง ที่สมเหตุสมผล ประกอบด้วยส่วนย่อย:

Layer3D RoPE เพิ่มความเข้าใจเรื่องมิติของเลเยอร์
- ไม่ใช่แค่รู้ตำแหน่งซ้ายขวาบนล่าง แต่รู้ด้วยว่า ชั้นนี้อยู่หน้า/อยู่หลัง/ทับกันยังไง เพื่อให้ตอนแตก Layer วัตถุไม่สลับหน้า-หลังผิด และขอบไม่มั่ว

3. Multi-stage Training จะมี 3 เฟส

เฟสแรก: ให้เก่งเรื่องพื้นฐานของความโปร่ง/ขอบ/การคืนรายละเอียด
เฟสต่อมา: ให้เก่งเรื่องแตกเลเยอร์หลายชั้นแบบจริงจัง
เฟสหลัง: ผูกเข้ากับงานแก้ไข/งานสั่งงานให้ใช้งานจริงได้ดีขึ้น

Qwen-Image-Layered เน้นทำให้ภาพแก้ได้ง่าย ตั้งแต่โครงสร้างด้วยการแตกเป็น Layer โปร่งใส และทำให้โมเดลเข้าใจชั้นหน้า-หลังดีขึ้น

ความแตกต่างระหว่าง OmniPSD VS Qwen-Image-Layered

เป้าหมายหลักของแต่ละงาน
- Qwen-Image-Layered
  - โฟกัส คือ ทำให้รูปแก้ได้ง่ายตั้งแต่โครงสร้าง
  - แยกรูป 1 รูปออกเป็นหลายเลเยอร์โปร่งใส เพื่อให้เราไปจับเลเยอร์ไหนก็ได้ แล้วแก้เฉพาะชั้นนั้นโดยไม่ทำให้ส่วนอื่นเพี้ยน
- OmniPSD
  - โฟกัส คือ ทำไฟล์ PSD ที่แก้ได้จริง”
  - ไม่ใช่แค่ได้เลเยอร์โปร่งใส แต่ตั้งใจให้ได้เป็น งานแบบ Photoshop เลย และทำได้ 2 ทาง:
  - 1. พิมพ์บรีฟ → ได้ PSD (text-to-PSD)
  - 2. เอารูปโปสเตอร์เดิม → แตกเป็น PSD (image-to-PSD)
Input/Output ที่ผู้ใช้ได้กลับมา ต่างกัน
- Qwen-Image-Layered
  - Input: รูป RGB 1 รูป
  - Output: ชั้นรูป + ความโปร่งใส หลาย Layers เพื่อเอาไปแก้/ขยับ/ลบ/เปลี่ยนสีต่อ
  - จุดสำคัญ: มันเน้นได้เลเยอร์ที่แยกความหมายกันดี เพื่อแก้ง่าย ไม่ได้เน้นว่า ไฟล์สุดท้ายต้องเป็น PSD จริง ๆ พร้อม text layer
- OmniPSD
  - Input: ได้ทั้งข้อความ หรือ รูป
  - Output: ตั้งใจให้ไปสุดที่ PSD stack แบบงานออกแบบ (พื้นหลัง/วัตถุ/เอฟเฟกต์/ข้อความ ฯลฯ)
- OmniPSD พยายามทำให้ตัวหนังสือเป็น เลเยอร์ข้อความที่แก้พิมพ์ได้
เรื่องข้อความ คือ จุดที่ต่างชัดมาก
- Qwen-Image-Layered
  - งานนี้ แก้ภาพด้วยเลเยอร์ เป็นหลัก ไม่ได้ชูว่าจะแปลงตัวหนังสือในภาพให้เป็น text layer แก้ฟอนต์ได้
- OmniPSD
  - มีส่วนที่ทำงานเรื่อง ตัวหนังสือ แบบจริงจังมาก:
    - ตรวจจับ/อ่านข้อความจากภาพ
    - เดาว่าใช้ฟอนต์อะไร
    - แล้ว เรนเดอร์กลับมาเป็นข้อความที่แก้ได้ ใน PSD
วิธีคิด เรื่อง จำนวน Layer
- Qwen-Image-Layered ตั้งใจให้ จำนวนเลเยอร์ยืดหยุ่น
  - บางรูป 3 ชั้น บางรูป 12 ชั้น เน้นความยืดหยุ่นของการแตกเลเยอร์
- OmniPSD โฟกัสที่ชุด Layer แบบงานโปสเตอร์ และมีวิธีจัดเลเยอร์เป็นกลุ่ม ๆ โดยเฉพาะฝั่ง text-to-PSD เขาใช้ไอเดียเอา Layer หลายชั้นไปวางรวมเป็นกรอบ 2×2 เพื่อให้โมเดลสร้างสัมพันธ์กันในทีเดียว
การใช้งานจริง: เหมาะกับงานแบบไหน
- Qwen-Image-Layered เหมาะกับ
  - การแยกภาพเป็นชั้น ๆ เพื่อแก้แบบไม่พัง (ย้าย/ย่อขยาย/ลบ/เปลี่ยนสี)
  - งานคุณไม่ได้ซีเรียส เรื่อง ต้องได้ไฟล์ PSD ที่มี text layer แก้พิมพ์ได้
- OmniPSD เหมาะกับ
  - คุณต้องได้ PSD ไปเปิดใน Photoshop แล้วแก้ต่อจริงจัง เช่น งานแนวโปสเตอร์/แบนเนอร์ที่มีข้อความ และอยากแก้ตัวหนังสือได้เป็นตัวพิมพ์

ข้อสรุป:

Qwen Image Layered คือ เครื่องแตกเลเยอร์เพื่อให้ แก้ภาพได้เนียน โดยจับแก้ทีละชั้น ส่วน OmniPSD เครื่องทำไฟล์ PSD ใช้งานจริง ทั้งสร้างจากข้อความ และแตกจากรูป พร้อมดันเรื่อง Text Layer ให้แก้ได้

Source:

Arxiv (OmniPSD), HuggingFace (Qwen Image Layered), OmniPSD Github io, Arxiv (Qwen Image Layered)