
ทีมงาน DeepSeek เขาพยายามแก้ปัญหาที่ AI มักจะอ่านรูปภาพ แบบหุ่นยนต์ (อ่านจากซ้ายไปขวา บนลงล่าง) ให้เปลี่ยนมาอ่านแบบ มีหัวคิด เหมือนมนุษย์มากขึ้น
27 มกราคม 2569 DeepSeek เปิดตัว DeepSeek-OCR 2 AI อ่านเอกสารที่เปลี่ยนจากการสแกนภาพแบบทื่อๆ เป็นการมองและจัดลำดับการอ่าน อย่างมีเหตุมีผลตามโครงสร้างจริงของข้อมูล ที่เรียกว่า Visual Causal Flow
ปัญหาของ AI ตัวเก่า คือ สายตาแข็งทื่อ
- ปกติแล้ว AI ส่วนใหญ่จะมองรูปภาพผ่าน Vision Encoder (อย่าง CLIP) แล้วสแกนข้อมูลแบบแถวเรียงหนึ่ง (Raster-scan) จากมุมซ้ายบนไปขวาด้านล่าง,
- แต่มนุษย์เราไม่ได้มองรูปแบบนั้นครับ เวลาเราดูรูปที่ซับซ้อน เช่น ตารางหรืองานออกแบบตาเราจะกระโดดไปมาตามความสำคัญของข้อมูล (Causal logic)
- DeepSeek-OCR 2 เลยถูกสร้างมา เพื่อทำลายข้อจำกัดนี้ โดยเน้นไปที่งานอ่านเอกสารที่ซับซ้อน (Document OCR) เช่น สูตรคำนวณหรือตารางที่ต้องการการตีความตามลำดับเหตุและผล
Framework หัวใจหลัก คือ DeepEncoder V2
- นี่คือ พระเอกของงานครับ เปลี่ยนโครงสร้างใหม่ทั้งหมด เพื่อให้ AI คิดก่อนอ่าน โดยมีองค์ประกอบ 3 ส่วนหลัก:
- เปลี่ยนจาก CLIP เป็น LLM ตัวจิ๋ว:
- เขาเอาโมเดลภาษาขนาดเล็ก (Qwen2-0.5B) มาใช้เป็นตัวประมวลผลภาพแทน CLIP เพื่อให้ตัวมันเองมีความสามารถในการให้เหตุผล (Reasoning) ตั้งแต่ขั้นตอนการมอง
- ระบบ Causal Flow Tokens:
- เขาใส่หน่วยความจำพิเศษ (Learnable Queries) ไปประกบกับข้อมูลภาพ ข้อมูลภาพจะมองเห็นกันเองทั้งหมด (Global view) แต่เจ้า Query พวกนี้จะถูกบังคับให้อ่านข้อมูลแบบเป็นลำดับขั้น (Causal attention) เพื่อจัดระเบียบข้อมูลใหม่ให้สมเหตุสมผลก่อนส่งต่อไปยังตัวประมวลผลหลัก
- Multi-crop Strategy:
- AI ตัวนี้ไม่ได้ดูภาพแค่ทีเดียว แต่มองทั้งภาพรวม (Global view) และซูมดูจุดสำคัญ (Local crops) โดยจัดการจำนวน Token ให้อยู่ระหว่าง 256 ถึง 1,120 ตัว ซึ่งประหยัดทรัพยากรมากแต่ยังได้รายละเอียดครบ
ขั้นตอนการฝึก AI (Training Pipeline)
- เขาแบ่งการฝึกออกเป็น 3 ช่วง เพื่อให้ AI ค่อยๆ เก่งขึ้นครับ:
- Stage 1: ฝึกมองพื้นฐาน (Encoder Pretraining)
- ให้ตัวอ่านภาพเริ่มเรียนรู้การสกัดข้อมูลและการจัดลำดับเบื้องต้น
- Stage 2: ฝึกความแม่นยำ (Query Enhancement)
- ปรับแต่งให้ตัวจัดลำดับข้อมูล (Query) ทำงานร่วมกับตัวประมวลผลหลักได้เนียนขึ้น
- Stage 3: ฝึกการตอบโต้ (Continue-training LLM)
- แช่แข็งตัวอ่านภาพไว้ แล้วฝึกตัวประมวลผลภาษาให้เข้าใจข้อมูลที่ถูกจัดระเบียบมาแล้ว เพื่อให้ตอบคำถามได้ถูกต้องที่สุด
ผลลัพธ์ที่ได้ (Key Insights & Performance)
- เก่งกว่าตัวท็อปในงบที่น้อยกว่า:
- DeepSeek-OCR 2 ทำคะแนนรวมได้ 91.09% บน OmniDocBench v1.5 ซึ่งสูงกว่าเวอร์ชันเดิมถึง 3.73%, และที่สำคัญคือชนะ Gemini-3 Pro ในแง่การรักษาคุณภาพการอ่านภายใต้งบประมาณ Token ที่เท่ากัน
- การอ่านลำดับไม่เพี้ยน: ค่าความผิดพลาดในการอ่านลำดับ (Reading Order Edit Distance) ลดลงอย่างเห็นได้ชัด แปลว่ามันจัดลำดับการอ่านตารางหรือบทความได้แม่นยำขึ้นมาก
- ใช้งานจริงได้ดีขึ้น: ในงานระดับ Production พบว่าปัญหาการตอบซ้ำซ้อน (Repetition rate) ลดลงเหลือเพียง 2.88% – 4.17% เท่านั้น
ก้าวต่อไป: Omni-modal Encoder
- ทาง DeepSeek แอบแย้มไว้ว่า Framework นี้ไม่ได้จบแค่เรื่องรูปภาพครับ ในอนาคตเขาอยากให้ Encoder ตัวเดียว (ตัวที่ใช้ LLM มาอ่านเนี่ยแหละ) สามารถอ่านได้ทั้งภาพ เสียง และข้อความ ไปพร้อมๆ กัน โดยใช้แค่ Query เฉพาะทาง ของแต่ละประเภทสื่อมาเสียบเปลี่ยนเอา
ข้อสรุป:
DeepSeek-OCR 2 คือ การเอา AI ที่คิดเก่งมาทำหน้าที่เป็น ดวงตา เพื่อจัดระเบียบข้อมูลภาพให้เป็นลำดับ อ่านง่ายกับ AI ตัวประมวลผลหลัก



