วันนี้ทีมเจอ Papers ที่แยกส่วนประกอบ Layers ออกจากภาพได้ง่ายกว่า ดีกว่า Photoshop 2 ตัว ต่างค่าย คือ Lovart มีชื่อว่า OmniPSD, Qwen AI จาก Alibaba มีชื่อว่า Qwen Image Layered
งานออกแบบจริง คือ ต้องแก้ และ แยก Layer ตลอด แต่การจะให้คอมฯ เดาได้ว่า
- อะไร คือ พื้นหลัง
- อะไรคือวัตถุชิ้นที่ 1, 2, 3
- ข้อความอยู่ตรงไหน ใช้ฟอนต์อะไร สีอะไร ขนาดเท่าไร
- เปลี่ยนสีเสื้อ
- ขยับวัตถุ
- ลบของชิ้นหนึ่ง
OmniPSD จาก Lovart
- มีแกนกลางชุดเดียว แล้วแตกเป็น 2 งาน (ทำได้ 2 แบบ):
- RGBA-VAE
- Text-to-PSD (พิมพ์ข้อความ → ได้ PSD)
- Image-to-PSD (เอารูปจริง → แตกเป็น PSD)
1. Text-to-PSD (พิมพ์ข้อความ → ได้ PSD)
- ทำยังไงให้โมเดลคุมตำแหน่งของหลายเลเยอร์พร้อมกันได้
- โมเดลจะสร้างภาพรวมเป็นกรอบ 2×2 + เลเยอร์ประกอบ ออกมาเป็นชุด โดยต้องคุมให้แต่ละเลเยอร์สัมพันธ์กัน เช่น วัตถุไม่ทับมั่ว ข้อความไม่ลอยผิดที่
2. Image-to-PSD (เอารูปจริง → แตกเป็น PSD)
- จุดยาก คือ ของจริงมันซับซ้อน มีวัตถุหลายชิ้น ตัวหนังสือหลายบรรทัด
- เขาใช้แนวคิดว่า แตกทีละชิ้นแบบเป็นขั้นตอน (เหมือนเรานั่งทำเอง: ลบตัวหนังสือออกก่อน / แยกวัตถุชิ้นเด่นก่อน / เก็บพื้นหลังไว้ ฯลฯ)
นอกจากนี้ยังมีกระบวนการ RGBA-VAE ทำให้เกิดความโปร่งใส
- ถ้าโมเดลไม่เก่งเรื่อง ความโปร่ง เวลาทำเป็นเลเยอร์ ขอบวัตถุจะออกมาแข็ง ๆ หรือมีขอบแปลก ๆ เลยทำตัว แปลงภาพให้เป็น Encoder ย่อแล้วแปลงกลับ (VAE) ที่รองรับ 4 ช่อง (สี + ความโปร่ง) แบบจริงจัง เพื่อให้การสร้าง/แตกเลเยอร์มันเก็บขอบนุ่ม ๆ ได้ดีขึ้น
ขั้นตอนการทำงาน
- แยกชั้นตัวหนังสือก่อน
- เพราะตัวหนังสือเป็นสิ่งที่ ถ้าจะให้แก้ได้ มันควรเป็น Text Layer จริง ไม่ใช่ตัวหนังสือที่กลายเป็นภาพแบน ๆ จึงใช้การตรวจจับข้อความ (แนว OCR) เพื่อรู้ว่า ตรงไหนเป็นตัวหนังสือ และข้อความคืออะไร
- ลบตัวหนังสือออกจากภาพให้เนียน
- ตรงนี้สำคัญมาก ถ้าลบแล้วเป็นรอย พอเราแยกเลเยอร์ต่อ ภาพจะพัง
- เขามีส่วนเสริมเฉพาะทาง สำหรับการลบตัวหนังสือ ให้พื้นหลังกลับมาแนบเนียน (ในงานเขาเรียกแนวทางนี้ด้วยชื่อโมเดลที่เขาเอามาปรับเพิ่ม)
- ค่อย ๆ แยกวัตถุ/องค์ประกอบทีละชิ้น
- แทนที่จะพยายามเด้งเลเยอร์ทั้งหมดออกมาทีเดียว (ซึ่งมักมั่ว) เขาทำแบบ หยิบชิ้นที่เด่นออกมาก่อน แล้วอัปเดตภาพพื้นหลัง ทำซ้ำไปเรื่อย ๆ จนครบ
ผลลัพธ์สุดท้ายของ PSD ที่มี:
- ชั้นพื้นหลัง
- ชั้นวัตถุหลายชั้น (มีความโปร่ง)
- ชั้นตัวหนังสือที่แก้ข้อความได้
OmniPSD เน้นได้ไฟล์ PSD ใช้งานได้จริง ทั้งข้อความ และ รูปจริง แถมสนใจเรื่อง ตัวหนังสือเป็น Text Layer และมี UI ให้เห็นการใช้งาน
Qwen Image Layered จาก Alibaba
แตกเป็น 3 งาน
- RGBA-VAE เหมือนกับ OmniPSD
- Variable Layers Decomposition MMDiT เครื่องยนต์หลัก สำหรับแตก Layer
- Multi-stage Training (ฝึกเป็นหลายช่วง) แบ่งเป็นหลายเฟส เพื่อให้โมเดลค่อย ๆ เก่งขึ้นทีละเรื่อง
2. Variable Layers Decomposition MMDiT
- ให้โมเดลเรียนรู้ว่า ถ้าต้องแตกภาพนี้เป็นหลายชั้น ชั้นไหนควรเป็นอะไร แล้วทำให้แต่ละชั้นมีสี + ความโปร่ง ที่สมเหตุสมผล ประกอบด้วยส่วนย่อย:
- Layer3D RoPE เพิ่มความเข้าใจเรื่องมิติของเลเยอร์
- ไม่ใช่แค่รู้ตำแหน่งซ้ายขวาบนล่าง แต่รู้ด้วยว่า ชั้นนี้อยู่หน้า/อยู่หลัง/ทับกันยังไง เพื่อให้ตอนแตก Layer วัตถุไม่สลับหน้า-หลังผิด และขอบไม่มั่ว
3. Multi-stage Training จะมี 3 เฟส
- เฟสแรก: ให้เก่งเรื่องพื้นฐานของความโปร่ง/ขอบ/การคืนรายละเอียด
- เฟสต่อมา: ให้เก่งเรื่องแตกเลเยอร์หลายชั้นแบบจริงจัง
- เฟสหลัง: ผูกเข้ากับงานแก้ไข/งานสั่งงานให้ใช้งานจริงได้ดีขึ้น
Qwen-Image-Layered เน้นทำให้ภาพแก้ได้ง่าย ตั้งแต่โครงสร้างด้วยการแตกเป็น Layer โปร่งใส และทำให้โมเดลเข้าใจชั้นหน้า-หลังดีขึ้น
ความแตกต่างระหว่าง OmniPSD VS Qwen-Image-Layered
- เป้าหมายหลักของแต่ละงาน
- Qwen-Image-Layered
- โฟกัส คือ ทำให้รูปแก้ได้ง่ายตั้งแต่โครงสร้าง
- แยกรูป 1 รูปออกเป็นหลายเลเยอร์โปร่งใส เพื่อให้เราไปจับเลเยอร์ไหนก็ได้ แล้วแก้เฉพาะชั้นนั้นโดยไม่ทำให้ส่วนอื่นเพี้ยน
- OmniPSD
- โฟกัส คือ ทำไฟล์ PSD ที่แก้ได้จริง”
- ไม่ใช่แค่ได้เลเยอร์โปร่งใส แต่ตั้งใจให้ได้เป็น งานแบบ Photoshop เลย และทำได้ 2 ทาง:
- 1. พิมพ์บรีฟ → ได้ PSD (text-to-PSD)
- 2. เอารูปโปสเตอร์เดิม → แตกเป็น PSD (image-to-PSD)
- Qwen-Image-Layered
- Input/Output ที่ผู้ใช้ได้กลับมา ต่างกัน
- Qwen-Image-Layered
- Input: รูป RGB 1 รูป
- Output: ชั้นรูป + ความโปร่งใส หลาย Layers เพื่อเอาไปแก้/ขยับ/ลบ/เปลี่ยนสีต่อ
- จุดสำคัญ: มันเน้นได้เลเยอร์ที่แยกความหมายกันดี เพื่อแก้ง่าย ไม่ได้เน้นว่า ไฟล์สุดท้ายต้องเป็น PSD จริง ๆ พร้อม text layer
- OmniPSD
- Input: ได้ทั้งข้อความ หรือ รูป
- Output: ตั้งใจให้ไปสุดที่ PSD stack แบบงานออกแบบ (พื้นหลัง/วัตถุ/เอฟเฟกต์/ข้อความ ฯลฯ)
- OmniPSD พยายามทำให้ตัวหนังสือเป็น เลเยอร์ข้อความที่แก้พิมพ์ได้
- Qwen-Image-Layered
- เรื่องข้อความ คือ จุดที่ต่างชัดมาก
- Qwen-Image-Layered
- งานนี้ แก้ภาพด้วยเลเยอร์ เป็นหลัก ไม่ได้ชูว่าจะแปลงตัวหนังสือในภาพให้เป็น text layer แก้ฟอนต์ได้
- OmniPSD
- มีส่วนที่ทำงานเรื่อง ตัวหนังสือ แบบจริงจังมาก:
- ตรวจจับ/อ่านข้อความจากภาพ
- เดาว่าใช้ฟอนต์อะไร
- แล้ว เรนเดอร์กลับมาเป็นข้อความที่แก้ได้ ใน PSD
- มีส่วนที่ทำงานเรื่อง ตัวหนังสือ แบบจริงจังมาก:
- Qwen-Image-Layered
- วิธีคิด เรื่อง จำนวน Layer
- Qwen-Image-Layered ตั้งใจให้ จำนวนเลเยอร์ยืดหยุ่น
- บางรูป 3 ชั้น บางรูป 12 ชั้น เน้นความยืดหยุ่นของการแตกเลเยอร์
- OmniPSD โฟกัสที่ชุด Layer แบบงานโปสเตอร์ และมีวิธีจัดเลเยอร์เป็นกลุ่ม ๆ โดยเฉพาะฝั่ง text-to-PSD เขาใช้ไอเดียเอา Layer หลายชั้นไปวางรวมเป็นกรอบ 2×2 เพื่อให้โมเดลสร้างสัมพันธ์กันในทีเดียว
- Qwen-Image-Layered ตั้งใจให้ จำนวนเลเยอร์ยืดหยุ่น
- การใช้งานจริง: เหมาะกับงานแบบไหน
- Qwen-Image-Layered เหมาะกับ
- การแยกภาพเป็นชั้น ๆ เพื่อแก้แบบไม่พัง (ย้าย/ย่อขยาย/ลบ/เปลี่ยนสี)
- งานคุณไม่ได้ซีเรียส เรื่อง ต้องได้ไฟล์ PSD ที่มี text layer แก้พิมพ์ได้
- OmniPSD เหมาะกับ
- คุณต้องได้ PSD ไปเปิดใน Photoshop แล้วแก้ต่อจริงจัง เช่น งานแนวโปสเตอร์/แบนเนอร์ที่มีข้อความ และอยากแก้ตัวหนังสือได้เป็นตัวพิมพ์
- Qwen-Image-Layered เหมาะกับ
ข้อสรุป:
Qwen Image Layered คือ เครื่องแตกเลเยอร์เพื่อให้ แก้ภาพได้เนียน โดยจับแก้ทีละชั้น ส่วน OmniPSD เครื่องทำไฟล์ PSD ใช้งานจริง ทั้งสร้างจากข้อความ และแตกจากรูป พร้อมดันเรื่อง Text Layer ให้แก้ได้
Source:
Arxiv (OmniPSD), HuggingFace (Qwen Image Layered), OmniPSD Github io, Arxiv (Qwen Image Layered)




