วันนี้ทีมเจอ Papers ที่แยกส่วนประกอบ Layers ออกจากภาพได้ง่ายกว่า ดีกว่า Photoshop 2 ตัว ต่างค่าย คือ Lovart มีชื่อว่า OmniPSD, Qwen AI จาก Alibaba มีชื่อว่า Qwen Image Layered

งานออกแบบจริง คือ ต้องแก้ และ แยก Layer ตลอด แต่การจะให้คอมฯ เดาได้ว่า

  • อะไร คือ พื้นหลัง
  • อะไรคือวัตถุชิ้นที่ 1, 2, 3
  • ข้อความอยู่ตรงไหน ใช้ฟอนต์อะไร สีอะไร ขนาดเท่าไร
  • เปลี่ยนสีเสื้อ
  • ขยับวัตถุ
  • ลบของชิ้นหนึ่ง

OmniPSD จาก Lovart

  • มีแกนกลางชุดเดียว แล้วแตกเป็น 2 งาน (ทำได้ 2 แบบ):
  1. RGBA-VAE
  2. Text-to-PSD (พิมพ์ข้อความ → ได้ PSD)
  3. Image-to-PSD (เอารูปจริง → แตกเป็น PSD)
OmniPSD

1. Text-to-PSD (พิมพ์ข้อความ → ได้ PSD)

  • ทำยังไงให้โมเดลคุมตำแหน่งของหลายเลเยอร์พร้อมกันได้
  • โมเดลจะสร้างภาพรวมเป็นกรอบ 2×2 + เลเยอร์ประกอบ ออกมาเป็นชุด โดยต้องคุมให้แต่ละเลเยอร์สัมพันธ์กัน เช่น วัตถุไม่ทับมั่ว ข้อความไม่ลอยผิดที่

2. Image-to-PSD (เอารูปจริง → แตกเป็น PSD)

  • จุดยาก คือ ของจริงมันซับซ้อน มีวัตถุหลายชิ้น ตัวหนังสือหลายบรรทัด
  • เขาใช้แนวคิดว่า แตกทีละชิ้นแบบเป็นขั้นตอน (เหมือนเรานั่งทำเอง: ลบตัวหนังสือออกก่อน / แยกวัตถุชิ้นเด่นก่อน / เก็บพื้นหลังไว้ ฯลฯ)

นอกจากนี้ยังมีกระบวนการ RGBA-VAE ทำให้เกิดความโปร่งใส

  • ถ้าโมเดลไม่เก่งเรื่อง ความโปร่ง เวลาทำเป็นเลเยอร์ ขอบวัตถุจะออกมาแข็ง ๆ หรือมีขอบแปลก ๆ เลยทำตัว แปลงภาพให้เป็น Encoder ย่อแล้วแปลงกลับ (VAE) ที่รองรับ 4 ช่อง (สี + ความโปร่ง) แบบจริงจัง เพื่อให้การสร้าง/แตกเลเยอร์มันเก็บขอบนุ่ม ๆ ได้ดีขึ้น

ขั้นตอนการทำงาน

  1. แยกชั้นตัวหนังสือก่อน
    • เพราะตัวหนังสือเป็นสิ่งที่ ถ้าจะให้แก้ได้ มันควรเป็น Text Layer จริง ไม่ใช่ตัวหนังสือที่กลายเป็นภาพแบน ๆ จึงใช้การตรวจจับข้อความ (แนว OCR) เพื่อรู้ว่า ตรงไหนเป็นตัวหนังสือ และข้อความคืออะไร
  2. ลบตัวหนังสือออกจากภาพให้เนียน
    • ตรงนี้สำคัญมาก ถ้าลบแล้วเป็นรอย พอเราแยกเลเยอร์ต่อ ภาพจะพัง
    • เขามีส่วนเสริมเฉพาะทาง สำหรับการลบตัวหนังสือ ให้พื้นหลังกลับมาแนบเนียน (ในงานเขาเรียกแนวทางนี้ด้วยชื่อโมเดลที่เขาเอามาปรับเพิ่ม)
  3. ค่อย ๆ แยกวัตถุ/องค์ประกอบทีละชิ้น
    • แทนที่จะพยายามเด้งเลเยอร์ทั้งหมดออกมาทีเดียว (ซึ่งมักมั่ว) เขาทำแบบ หยิบชิ้นที่เด่นออกมาก่อน แล้วอัปเดตภาพพื้นหลัง ทำซ้ำไปเรื่อย ๆ จนครบ

ผลลัพธ์สุดท้ายของ PSD ที่มี:

  • ชั้นพื้นหลัง
  • ชั้นวัตถุหลายชั้น (มีความโปร่ง)
  • ชั้นตัวหนังสือที่แก้ข้อความได้

OmniPSD เน้นได้ไฟล์ PSD ใช้งานได้จริง ทั้งข้อความ และ รูปจริง แถมสนใจเรื่อง ตัวหนังสือเป็น Text Layer และมี UI ให้เห็นการใช้งาน

Qwen Image Layered จาก Alibaba

แตกเป็น 3 งาน

  1. RGBA-VAE เหมือนกับ OmniPSD
  2. Variable Layers Decomposition MMDiT เครื่องยนต์หลัก สำหรับแตก Layer
  3. Multi-stage Training (ฝึกเป็นหลายช่วง) แบ่งเป็นหลายเฟส เพื่อให้โมเดลค่อย ๆ เก่งขึ้นทีละเรื่อง

2. Variable Layers Decomposition MMDiT

  • ให้โมเดลเรียนรู้ว่า ถ้าต้องแตกภาพนี้เป็นหลายชั้น ชั้นไหนควรเป็นอะไร แล้วทำให้แต่ละชั้นมีสี + ความโปร่ง ที่สมเหตุสมผล ประกอบด้วยส่วนย่อย:
  1. Layer3D RoPE เพิ่มความเข้าใจเรื่องมิติของเลเยอร์
    • ไม่ใช่แค่รู้ตำแหน่งซ้ายขวาบนล่าง แต่รู้ด้วยว่า ชั้นนี้อยู่หน้า/อยู่หลัง/ทับกันยังไง เพื่อให้ตอนแตก Layer วัตถุไม่สลับหน้า-หลังผิด และขอบไม่มั่ว

3. Multi-stage Training จะมี 3 เฟส

  1. เฟสแรก: ให้เก่งเรื่องพื้นฐานของความโปร่ง/ขอบ/การคืนรายละเอียด
  2. เฟสต่อมา: ให้เก่งเรื่องแตกเลเยอร์หลายชั้นแบบจริงจัง
  3. เฟสหลัง: ผูกเข้ากับงานแก้ไข/งานสั่งงานให้ใช้งานจริงได้ดีขึ้น

Qwen-Image-Layered เน้นทำให้ภาพแก้ได้ง่าย ตั้งแต่โครงสร้างด้วยการแตกเป็น Layer โปร่งใส และทำให้โมเดลเข้าใจชั้นหน้า-หลังดีขึ้น

ความแตกต่างระหว่าง OmniPSD VS Qwen-Image-Layered

  1. เป้าหมายหลักของแต่ละงาน
    • Qwen-Image-Layered
      • โฟกัส คือ ทำให้รูปแก้ได้ง่ายตั้งแต่โครงสร้าง
      • แยกรูป 1 รูปออกเป็นหลายเลเยอร์โปร่งใส เพื่อให้เราไปจับเลเยอร์ไหนก็ได้ แล้วแก้เฉพาะชั้นนั้นโดยไม่ทำให้ส่วนอื่นเพี้ยน
    • OmniPSD
      • โฟกัส คือ ทำไฟล์ PSD ที่แก้ได้จริง”
      • ไม่ใช่แค่ได้เลเยอร์โปร่งใส แต่ตั้งใจให้ได้เป็น งานแบบ Photoshop เลย และทำได้ 2 ทาง:
      • 1. พิมพ์บรีฟ → ได้ PSD (text-to-PSD)
      • 2. เอารูปโปสเตอร์เดิม → แตกเป็น PSD (image-to-PSD)
  2. Input/Output ที่ผู้ใช้ได้กลับมา ต่างกัน
    • Qwen-Image-Layered
      • Input: รูป RGB 1 รูป
      • Output: ชั้นรูป + ความโปร่งใส หลาย Layers เพื่อเอาไปแก้/ขยับ/ลบ/เปลี่ยนสีต่อ
      • จุดสำคัญ: มันเน้นได้เลเยอร์ที่แยกความหมายกันดี เพื่อแก้ง่าย ไม่ได้เน้นว่า ไฟล์สุดท้ายต้องเป็น PSD จริง ๆ พร้อม text layer
    • OmniPSD
      • Input: ได้ทั้งข้อความ หรือ รูป
      • Output: ตั้งใจให้ไปสุดที่ PSD stack แบบงานออกแบบ (พื้นหลัง/วัตถุ/เอฟเฟกต์/ข้อความ ฯลฯ)
    • OmniPSD พยายามทำให้ตัวหนังสือเป็น เลเยอร์ข้อความที่แก้พิมพ์ได้
  3. เรื่องข้อความ คือ จุดที่ต่างชัดมาก
    • Qwen-Image-Layered
      • งานนี้ แก้ภาพด้วยเลเยอร์ เป็นหลัก ไม่ได้ชูว่าจะแปลงตัวหนังสือในภาพให้เป็น text layer แก้ฟอนต์ได้
    • OmniPSD
      • มีส่วนที่ทำงานเรื่อง ตัวหนังสือ แบบจริงจังมาก:
        • ตรวจจับ/อ่านข้อความจากภาพ
        • เดาว่าใช้ฟอนต์อะไร
        • แล้ว เรนเดอร์กลับมาเป็นข้อความที่แก้ได้ ใน PSD
  4. วิธีคิด เรื่อง จำนวน Layer
    • Qwen-Image-Layered ตั้งใจให้ จำนวนเลเยอร์ยืดหยุ่น
      • บางรูป 3 ชั้น บางรูป 12 ชั้น เน้นความยืดหยุ่นของการแตกเลเยอร์
    • OmniPSD โฟกัสที่ชุด Layer แบบงานโปสเตอร์ และมีวิธีจัดเลเยอร์เป็นกลุ่ม ๆ โดยเฉพาะฝั่ง text-to-PSD เขาใช้ไอเดียเอา Layer หลายชั้นไปวางรวมเป็นกรอบ 2×2 เพื่อให้โมเดลสร้างสัมพันธ์กันในทีเดียว
  5. การใช้งานจริง: เหมาะกับงานแบบไหน
    • Qwen-Image-Layered เหมาะกับ
      • การแยกภาพเป็นชั้น ๆ เพื่อแก้แบบไม่พัง (ย้าย/ย่อขยาย/ลบ/เปลี่ยนสี)
      • งานคุณไม่ได้ซีเรียส เรื่อง ต้องได้ไฟล์ PSD ที่มี text layer แก้พิมพ์ได้
    • OmniPSD เหมาะกับ
      • คุณต้องได้ PSD ไปเปิดใน Photoshop แล้วแก้ต่อจริงจัง เช่น งานแนวโปสเตอร์/แบนเนอร์ที่มีข้อความ และอยากแก้ตัวหนังสือได้เป็นตัวพิมพ์

ข้อสรุป:

Qwen Image Layered คือ เครื่องแตกเลเยอร์เพื่อให้ แก้ภาพได้เนียน โดยจับแก้ทีละชั้น ส่วน OmniPSD เครื่องทำไฟล์ PSD ใช้งานจริง ทั้งสร้างจากข้อความ และแตกจากรูป พร้อมดันเรื่อง Text Layer ให้แก้ได้

Source:

Arxiv (OmniPSD), HuggingFace (Qwen Image Layered), OmniPSD Github io, Arxiv (Qwen Image Layered)