ทีมงาน DeepSeek เขาพยายามแก้ปัญหาที่ AI มักจะอ่านรูปภาพ แบบหุ่นยนต์ (อ่านจากซ้ายไปขวา บนลงล่าง) ให้เปลี่ยนมาอ่านแบบ มีหัวคิด เหมือนมนุษย์มากขึ้น

27 มกราคม 2569 DeepSeek เปิดตัว DeepSeek-OCR 2 AI อ่านเอกสารที่เปลี่ยนจากการสแกนภาพแบบทื่อๆ เป็นการมองและจัดลำดับการอ่าน อย่างมีเหตุมีผลตามโครงสร้างจริงของข้อมูล ที่เรียกว่า Visual Causal Flow

ปัญหาของ AI ตัวเก่า คือ สายตาแข็งทื่อ

  • ปกติแล้ว AI ส่วนใหญ่จะมองรูปภาพผ่าน Vision Encoder (อย่าง CLIP) แล้วสแกนข้อมูลแบบแถวเรียงหนึ่ง (Raster-scan) จากมุมซ้ายบนไปขวาด้านล่าง,
  • แต่มนุษย์เราไม่ได้มองรูปแบบนั้นครับ เวลาเราดูรูปที่ซับซ้อน เช่น ตารางหรืองานออกแบบตาเราจะกระโดดไปมาตามความสำคัญของข้อมูล (Causal logic)
  • DeepSeek-OCR 2 เลยถูกสร้างมา เพื่อทำลายข้อจำกัดนี้ โดยเน้นไปที่งานอ่านเอกสารที่ซับซ้อน (Document OCR) เช่น สูตรคำนวณหรือตารางที่ต้องการการตีความตามลำดับเหตุและผล

Framework หัวใจหลัก คือ DeepEncoder V2

  • นี่คือ พระเอกของงานครับ เปลี่ยนโครงสร้างใหม่ทั้งหมด เพื่อให้ AI คิดก่อนอ่าน โดยมีองค์ประกอบ 3 ส่วนหลัก:
  1. เปลี่ยนจาก CLIP เป็น LLM ตัวจิ๋ว:
    • เขาเอาโมเดลภาษาขนาดเล็ก (Qwen2-0.5B) มาใช้เป็นตัวประมวลผลภาพแทน CLIP เพื่อให้ตัวมันเองมีความสามารถในการให้เหตุผล (Reasoning) ตั้งแต่ขั้นตอนการมอง
  2. ระบบ Causal Flow Tokens:
    • เขาใส่หน่วยความจำพิเศษ (Learnable Queries) ไปประกบกับข้อมูลภาพ ข้อมูลภาพจะมองเห็นกันเองทั้งหมด (Global view) แต่เจ้า Query พวกนี้จะถูกบังคับให้อ่านข้อมูลแบบเป็นลำดับขั้น (Causal attention) เพื่อจัดระเบียบข้อมูลใหม่ให้สมเหตุสมผลก่อนส่งต่อไปยังตัวประมวลผลหลัก
  3. Multi-crop Strategy:
    • AI ตัวนี้ไม่ได้ดูภาพแค่ทีเดียว แต่มองทั้งภาพรวม (Global view) และซูมดูจุดสำคัญ (Local crops) โดยจัดการจำนวน Token ให้อยู่ระหว่าง 256 ถึง 1,120 ตัว ซึ่งประหยัดทรัพยากรมากแต่ยังได้รายละเอียดครบ

ขั้นตอนการฝึก AI (Training Pipeline)

  • เขาแบ่งการฝึกออกเป็น 3 ช่วง เพื่อให้ AI ค่อยๆ เก่งขึ้นครับ:
  1. Stage 1: ฝึกมองพื้นฐาน (Encoder Pretraining)
    • ให้ตัวอ่านภาพเริ่มเรียนรู้การสกัดข้อมูลและการจัดลำดับเบื้องต้น
  2. Stage 2: ฝึกความแม่นยำ (Query Enhancement)
    • ปรับแต่งให้ตัวจัดลำดับข้อมูล (Query) ทำงานร่วมกับตัวประมวลผลหลักได้เนียนขึ้น
  3. Stage 3: ฝึกการตอบโต้ (Continue-training LLM)
    • แช่แข็งตัวอ่านภาพไว้ แล้วฝึกตัวประมวลผลภาษาให้เข้าใจข้อมูลที่ถูกจัดระเบียบมาแล้ว เพื่อให้ตอบคำถามได้ถูกต้องที่สุด

ผลลัพธ์ที่ได้ (Key Insights & Performance)

  1. เก่งกว่าตัวท็อปในงบที่น้อยกว่า:
    • DeepSeek-OCR 2 ทำคะแนนรวมได้ 91.09% บน OmniDocBench v1.5 ซึ่งสูงกว่าเวอร์ชันเดิมถึง 3.73%, และที่สำคัญคือชนะ Gemini-3 Pro ในแง่การรักษาคุณภาพการอ่านภายใต้งบประมาณ Token ที่เท่ากัน
  2. การอ่านลำดับไม่เพี้ยน: ค่าความผิดพลาดในการอ่านลำดับ (Reading Order Edit Distance) ลดลงอย่างเห็นได้ชัด แปลว่ามันจัดลำดับการอ่านตารางหรือบทความได้แม่นยำขึ้นมาก
  3. ใช้งานจริงได้ดีขึ้น: ในงานระดับ Production พบว่าปัญหาการตอบซ้ำซ้อน (Repetition rate) ลดลงเหลือเพียง 2.88% – 4.17% เท่านั้น

ก้าวต่อไป: Omni-modal Encoder

  • ทาง DeepSeek แอบแย้มไว้ว่า Framework นี้ไม่ได้จบแค่เรื่องรูปภาพครับ ในอนาคตเขาอยากให้ Encoder ตัวเดียว (ตัวที่ใช้ LLM มาอ่านเนี่ยแหละ) สามารถอ่านได้ทั้งภาพ เสียง และข้อความ ไปพร้อมๆ กัน โดยใช้แค่ Query เฉพาะทาง ของแต่ละประเภทสื่อมาเสียบเปลี่ยนเอา

ข้อสรุป:

DeepSeek-OCR 2 คือ การเอา AI ที่คิดเก่งมาทำหน้าที่เป็น ดวงตา เพื่อจัดระเบียบข้อมูลภาพให้เป็นลำดับ อ่านง่ายกับ AI ตัวประมวลผลหลัก

Source:

HugggingFace, Github