OCR ตัวแรกของไทยที่วัดครบทุกมิติ SCB10X เปิดตัว ThaiOCRBench วัดความเก่งของ OCR กับเอกสารไทย-ใบเสร็จถึง 13 งาน, 30+ โดเมน

3 ธันวาคม 2568 SCB10X เปิดตัว ThaiOCRBench ชุดข้อสอบมาตรฐาน (BenchMark) เอาไว้ทดสอบ AI ที่ต้องอ่านเอกสารภาษาไทย วัดครบทุกมิติตัวแรกของไทย โดยใช้ Metadata ถึง 2,808 ตัวอย่าง แบ่งเป็น 13 ประเภทงาน ครอบคลุมเอกสารถึง 30+ โดเมนเอกสาร เช่น ราชการ การเงิน การแพทย์ การศึกษา การขนส่ง ร้านอาหาร ฯลฯ

ทำไม ทีม Typhoon ถึงสร้าง ThaiOCRBench

ยังไม่มี ตาราง BenchMark สำหรับ AI วัดผลการอ่านเอกสารไทย
- ส่วนใหญ่ใช้ข้อสอบภาษาอังกฤษ หรือภาษาที่มีข้อมูลเยอะ ๆ แต่งานเอกสารไทย ที่มีตาราง, ฟอร์ม หรือลายมือ กลับไม่มีตัววัดที่ตรงงานจริงเลย
ชุดข้อมูล OCR ภาษาไทยที่มีอยู่ แคบเกินไป
- เอกสารไทย มีทั้งตัวเลขไทย, Font ไทย–อังกฤษหน้าตาคล้ายกัน, ข้อความไทยปนบาลี/สันสกฤต และ Layout ที่หลากหลาย
- แต่ชุดข้อมูล OCR ไทยที่มีอยู่ เป็นแค่ข้อความทีละบรรทัดหรืองานลายมืออย่างเดียว ยังไม่ครอบคลุม Case ยาก ๆ ที่ใช้ในชีวิตจริง
ยังไม่มี Benchmark ที่วัดได้ครบทุกมิติ ตั้งแต่การอ่าน–เข้าใจ–ดึงข้อมูล–ตอบคำถาม
- ก่อนมี ThaiOCRBench ยังไม่มีการวัดตั้งแต่การอ่านตัวหนังสือ, เข้าใจโครงสร้างเอกสาร, ดึงข้อมูลสำคัญ และตอบคำถามจากรูป + ข้อความในเอกสารเดียวกัน

หลักการทำงานของ ThaiOCRBench

Stage 1: Data Sourcing รวบรวมข้อมูล โดยไม่ยุ่งกับข้อมูลส่วนตัว
- จะเก็บภาพจากหลายแหล่ง
- ภาพถ่ายเองตามสถานที่จริง
- เอกสาร public / licensed
- เอกสารสังเคราะห์ที่สร้างขึ้นมาเอง (เช่น บัตร / เอกสารที่มี PII)
Stage 2: Data Annotation ใส่ข้อมูลกำกับและทำความสะอาด
- ให้คนช่วยแยกว่า
  - แต่ละภาพเป็นงานประเภทไหน (เช่น Table parsing, Info, VQA ฯลฯ)
  - ติด Metadata เช่น แหล่งที่มา ใบอนุญาต ฯลฯ
- ใช้การเทียบความคล้ายของรูป (Cosine Similarity) ดูว่ามีรูปซ้ำกันไหม
  - ถ้าคล้ายเกินไป (เช่น ถ่ายมุมเดิม Font หรือ Layout เดิม) ก็เก็บไว้แค่บางรูป เพื่อลดความซ้ำ
- รวมถึงขั้นตอนนี้จะลบข้อมูลส่วนบุคคลออกก่อนเสมอ เช่น หน้า คน ชื่อ–สกุล เลขบัตร
Stage 3: Q-A generation and validation สร้างคำถาม–คำตอบ และตรวจสอบความถูกต้อง
- ใช้ LLMs สร้างคำถามและคำตอบให้กับแต่ละภาพ เช่น GPT-4o, Gemini 2.5 Pro, Azure AI Services มาช่วยตั้งคำถาม+คำตอบ ให้แต่ละรูปก่อน
- จากนั้นให้ คนจริงตรวจเช็กและแก้ไขแต่ละรายการให้ถูกต้อง
  - เลือกคู่คำถาม–คำตอบที่ดีที่สุด
- ถ้า AI แต่งเพ้อ/ตอบผิด ก็เขียนใหม่เองเลย
Stage 4: Final quality check (ตรวจคุณภาพรอบสุดท้าย)
- ขั้นตอนสุดท้าย เช็คอีกรอบว่า
- ภาพ / คำถาม / คำตอบ ตรงกันไหม
- ไม่มี PII ตกหล่น
- คำตอบต้องมาจากภาพจริง ไม่ใช่สร้างข้อมูลเท็จหรือถูกแต่งเติม

ข้อจำกัดของ ThaiOCRBench

Language bias และ code-switching
- บางครั้งโมเดล ชอบตอบเป็นอังกฤษหรือผสมภาษาอื่น แม้ข้อความตั้งต้นจะเป็นภาษาไทย 100%
Structural mismatch
- งานที่พึ่งพาโครงสร้าง เช่น ตาราง ฟอร์ม แผนภูมิ มักมีปัญหา Cell ไม่ตรงกัน หรือโครงสร้างเพี้ยน แม้โมเดลจะตีความภาพได้ในระดับหนึ่ง
ข้อความผิดหรือถูกแต่งเติม (hallucination)
- เจอบ่อยในงาน OCR เช่น ตัวอักษรเกินหายไป วรรณยุกต์ตก หรือสร้างคำที่ไม่มีจริงขึ้นมา

สามารถอ่านข้อมูลเพิ่มเติมผ่าน

Paper (ArXiv) เอกสารงานวิจัย

Link: https://arxiv.org/abs/2511.04479

Hugging Face Dataset

Link: https://huggingface.co/datasets/scb10x/ThaiOCRBench

GitHub (โค้ดที่ใช้ในการประเมินผล)

Link: https://github.com/scb-10x/ThaiOCRBench

ข้อสรุป:

ThaiOCRBench ชุดข้อสอบกลางที่เอาไว้ทดสอบว่า AI ตัวไหนอ่านเอกสารภาษาไทยได้ดีแค่ไหนในสถานการณ์ที่ใกล้ของจริงที่สุด ช่วยลดความเสี่ยงเวลาเอา AI ไปช่วยทำงานเอกสารจริงๆ

Source:

OpenTyphoon, Github, Arxiv

OCR ตัวแรกของไทยที่วัดครบทุกมิติ SCB10X เปิดตัว ThaiOCRBench วัดความเก่งของ OCR กับเอกสารไทย-ใบเสร็จถึง 13 งาน, 30+ โดเมน

ทำไม ทีม Typhoon ถึงสร้าง ThaiOCRBench

หลักการทำงานของ ThaiOCRBench

ข้อจำกัดของ ThaiOCRBench

ข้อสรุป:

Source:

Related Contents

จาก Prompt ยาก ๆ → ภาพสวยปัง ByteDance เปิดตัว Seedance 4.5 ภาพละเอียด ฉากเป๊ะขึ้น คุมหน้า, แสง, โทน ครบในที่เดียว

จากเครื่องฟิตเนส → AI Ecosystem Technogym AI Health Platform ช่วยเทรนเนอร์ลูกค้าฟิตขึ้น ธุรกิจปิดดีลง่ายขึ้น

เสกภาพ 10 ภาพ ใน Prompt เดียว Kling เปิดตัว Image O1 สร้าง, แก้ภาพ เลือกสไตล์ภาพขายงาน ลูกค้าปิ๊ง ครบใน 1 คลิก

เสก VDO ครบจบใน Prompt เดียว Kling เปิดตัว Video 2.6 สร้างภาพ + เสียง Voiceover + Sound Effects ครบใน 1 คลิก