3 ธันวาคม 2568 SCB10X เปิดตัว ThaiOCRBench ชุดข้อสอบมาตรฐาน (BenchMark) เอาไว้ทดสอบ AI ที่ต้องอ่านเอกสารภาษาไทย วัดครบทุกมิติตัวแรกของไทย โดยใช้ Metadata ถึง 2,808 ตัวอย่าง แบ่งเป็น 13 ประเภทงาน ครอบคลุมเอกสารถึง 30+ โดเมนเอกสาร เช่น ราชการ การเงิน การแพทย์ การศึกษา การขนส่ง ร้านอาหาร ฯลฯ

ทำไม ทีม Typhoon ถึงสร้าง ThaiOCRBench

  1. ยังไม่มี ตาราง BenchMark สำหรับ AI วัดผลการอ่านเอกสารไทย
    • ส่วนใหญ่ใช้ข้อสอบภาษาอังกฤษ หรือภาษาที่มีข้อมูลเยอะ ๆ แต่งานเอกสารไทย ที่มีตาราง, ฟอร์ม หรือลายมือ กลับไม่มีตัววัดที่ตรงงานจริงเลย
  2. ชุดข้อมูล OCR ภาษาไทยที่มีอยู่ แคบเกินไป
    • เอกสารไทย มีทั้งตัวเลขไทย, Font ไทย–อังกฤษหน้าตาคล้ายกัน, ข้อความไทยปนบาลี/สันสกฤต และ Layout ที่หลากหลาย
    • แต่ชุดข้อมูล OCR ไทยที่มีอยู่ เป็นแค่ข้อความทีละบรรทัดหรืองานลายมืออย่างเดียว ยังไม่ครอบคลุม Case ยาก ๆ ที่ใช้ในชีวิตจริง
  3. ยังไม่มี Benchmark ที่วัดได้ครบทุกมิติ ตั้งแต่การอ่าน–เข้าใจ–ดึงข้อมูล–ตอบคำถาม
    • ก่อนมี ThaiOCRBench ยังไม่มีการวัดตั้งแต่การอ่านตัวหนังสือ, เข้าใจโครงสร้างเอกสาร, ดึงข้อมูลสำคัญ และตอบคำถามจากรูป + ข้อความในเอกสารเดียวกัน

หลักการทำงานของ ThaiOCRBench

  1. Stage 1: Data Sourcing รวบรวมข้อมูล โดยไม่ยุ่งกับข้อมูลส่วนตัว
    • จะเก็บภาพจากหลายแหล่ง
    • ภาพถ่ายเองตามสถานที่จริง
    • เอกสาร public / licensed
    • เอกสารสังเคราะห์ที่สร้างขึ้นมาเอง (เช่น บัตร / เอกสารที่มี PII)
  2. Stage 2: Data Annotation ใส่ข้อมูลกำกับและทำความสะอาด
    • ให้คนช่วยแยกว่า
      • แต่ละภาพเป็นงานประเภทไหน (เช่น Table parsing, Info, VQA ฯลฯ)
      • ติด Metadata เช่น แหล่งที่มา ใบอนุญาต ฯลฯ
    • ใช้การเทียบความคล้ายของรูป (Cosine Similarity) ดูว่ามีรูปซ้ำกันไหม
      • ถ้าคล้ายเกินไป (เช่น ถ่ายมุมเดิม Font หรือ Layout เดิม) ก็เก็บไว้แค่บางรูป เพื่อลดความซ้ำ
    • รวมถึงขั้นตอนนี้จะลบข้อมูลส่วนบุคคลออกก่อนเสมอ เช่น หน้า คน ชื่อ–สกุล เลขบัตร
  3. Stage 3: Q-A generation and validation สร้างคำถาม–คำตอบ และตรวจสอบความถูกต้อง
    • ใช้ LLMs สร้างคำถามและคำตอบให้กับแต่ละภาพ เช่น GPT-4o, Gemini 2.5 Pro, Azure AI Services มาช่วยตั้งคำถาม+คำตอบ ให้แต่ละรูปก่อน
    • จากนั้นให้ คนจริงตรวจเช็กและแก้ไขแต่ละรายการให้ถูกต้อง
      • เลือกคู่คำถาม–คำตอบที่ดีที่สุด
    • ถ้า AI แต่งเพ้อ/ตอบผิด ก็เขียนใหม่เองเลย
  4. Stage 4: Final quality check (ตรวจคุณภาพรอบสุดท้าย)
    • ขั้นตอนสุดท้าย เช็คอีกรอบว่า
    • ภาพ / คำถาม / คำตอบ ตรงกันไหม
    • ไม่มี PII ตกหล่น
    • คำตอบต้องมาจากภาพจริง ไม่ใช่สร้างข้อมูลเท็จหรือถูกแต่งเติม

ข้อจำกัดของ ThaiOCRBench

  1. Language bias และ code-switching
    • บางครั้งโมเดล ชอบตอบเป็นอังกฤษหรือผสมภาษาอื่น แม้ข้อความตั้งต้นจะเป็นภาษาไทย 100%
  2. Structural mismatch
    • งานที่พึ่งพาโครงสร้าง เช่น ตาราง ฟอร์ม แผนภูมิ มักมีปัญหา Cell ไม่ตรงกัน หรือโครงสร้างเพี้ยน แม้โมเดลจะตีความภาพได้ในระดับหนึ่ง
  3. ข้อความผิดหรือถูกแต่งเติม (hallucination)
    • เจอบ่อยในงาน OCR เช่น ตัวอักษรเกินหายไป วรรณยุกต์ตก หรือสร้างคำที่ไม่มีจริงขึ้นมา

สามารถอ่านข้อมูลเพิ่มเติมผ่าน

  • Paper (ArXiv) เอกสารงานวิจัย

Link: https://arxiv.org/abs/2511.04479

  • Hugging Face Dataset

Link: https://huggingface.co/datasets/scb10x/ThaiOCRBench

  • GitHub (โค้ดที่ใช้ในการประเมินผล)

Link: https://github.com/scb-10x/ThaiOCRBench

ข้อสรุป:

ThaiOCRBench ชุดข้อสอบกลางที่เอาไว้ทดสอบว่า AI ตัวไหนอ่านเอกสารภาษาไทยได้ดีแค่ไหนในสถานการณ์ที่ใกล้ของจริงที่สุด ช่วยลดความเสี่ยงเวลาเอา AI ไปช่วยทำงานเอกสารจริงๆ

Source:

OpenTyphoon, Github, Arxiv