3 ธันวาคม 2568 SCB10X เปิดตัว ThaiOCRBench ชุดข้อสอบมาตรฐาน (BenchMark) เอาไว้ทดสอบ AI ที่ต้องอ่านเอกสารภาษาไทย วัดครบทุกมิติตัวแรกของไทย โดยใช้ Metadata ถึง 2,808 ตัวอย่าง แบ่งเป็น 13 ประเภทงาน ครอบคลุมเอกสารถึง 30+ โดเมนเอกสาร เช่น ราชการ การเงิน การแพทย์ การศึกษา การขนส่ง ร้านอาหาร ฯลฯ

ทำไม ทีม Typhoon ถึงสร้าง ThaiOCRBench
- ยังไม่มี ตาราง BenchMark สำหรับ AI วัดผลการอ่านเอกสารไทย
- ส่วนใหญ่ใช้ข้อสอบภาษาอังกฤษ หรือภาษาที่มีข้อมูลเยอะ ๆ แต่งานเอกสารไทย ที่มีตาราง, ฟอร์ม หรือลายมือ กลับไม่มีตัววัดที่ตรงงานจริงเลย
- ชุดข้อมูล OCR ภาษาไทยที่มีอยู่ แคบเกินไป
- เอกสารไทย มีทั้งตัวเลขไทย, Font ไทย–อังกฤษหน้าตาคล้ายกัน, ข้อความไทยปนบาลี/สันสกฤต และ Layout ที่หลากหลาย
- แต่ชุดข้อมูล OCR ไทยที่มีอยู่ เป็นแค่ข้อความทีละบรรทัดหรืองานลายมืออย่างเดียว ยังไม่ครอบคลุม Case ยาก ๆ ที่ใช้ในชีวิตจริง
- ยังไม่มี Benchmark ที่วัดได้ครบทุกมิติ ตั้งแต่การอ่าน–เข้าใจ–ดึงข้อมูล–ตอบคำถาม
- ก่อนมี ThaiOCRBench ยังไม่มีการวัดตั้งแต่การอ่านตัวหนังสือ, เข้าใจโครงสร้างเอกสาร, ดึงข้อมูลสำคัญ และตอบคำถามจากรูป + ข้อความในเอกสารเดียวกัน
หลักการทำงานของ ThaiOCRBench
- Stage 1: Data Sourcing รวบรวมข้อมูล โดยไม่ยุ่งกับข้อมูลส่วนตัว
- จะเก็บภาพจากหลายแหล่ง
- ภาพถ่ายเองตามสถานที่จริง
- เอกสาร public / licensed
- เอกสารสังเคราะห์ที่สร้างขึ้นมาเอง (เช่น บัตร / เอกสารที่มี PII)
- Stage 2: Data Annotation ใส่ข้อมูลกำกับและทำความสะอาด
- ให้คนช่วยแยกว่า
- แต่ละภาพเป็นงานประเภทไหน (เช่น Table parsing, Info, VQA ฯลฯ)
- ติด Metadata เช่น แหล่งที่มา ใบอนุญาต ฯลฯ
- ใช้การเทียบความคล้ายของรูป (Cosine Similarity) ดูว่ามีรูปซ้ำกันไหม
- ถ้าคล้ายเกินไป (เช่น ถ่ายมุมเดิม Font หรือ Layout เดิม) ก็เก็บไว้แค่บางรูป เพื่อลดความซ้ำ
- รวมถึงขั้นตอนนี้จะลบข้อมูลส่วนบุคคลออกก่อนเสมอ เช่น หน้า คน ชื่อ–สกุล เลขบัตร
- ให้คนช่วยแยกว่า
- Stage 3: Q-A generation and validation สร้างคำถาม–คำตอบ และตรวจสอบความถูกต้อง
- ใช้ LLMs สร้างคำถามและคำตอบให้กับแต่ละภาพ เช่น GPT-4o, Gemini 2.5 Pro, Azure AI Services มาช่วยตั้งคำถาม+คำตอบ ให้แต่ละรูปก่อน
- จากนั้นให้ คนจริงตรวจเช็กและแก้ไขแต่ละรายการให้ถูกต้อง
- เลือกคู่คำถาม–คำตอบที่ดีที่สุด
- ถ้า AI แต่งเพ้อ/ตอบผิด ก็เขียนใหม่เองเลย
- Stage 4: Final quality check (ตรวจคุณภาพรอบสุดท้าย)
- ขั้นตอนสุดท้าย เช็คอีกรอบว่า
- ภาพ / คำถาม / คำตอบ ตรงกันไหม
- ไม่มี PII ตกหล่น
- คำตอบต้องมาจากภาพจริง ไม่ใช่สร้างข้อมูลเท็จหรือถูกแต่งเติม
ข้อจำกัดของ ThaiOCRBench
- Language bias และ code-switching
- บางครั้งโมเดล ชอบตอบเป็นอังกฤษหรือผสมภาษาอื่น แม้ข้อความตั้งต้นจะเป็นภาษาไทย 100%
- Structural mismatch
- งานที่พึ่งพาโครงสร้าง เช่น ตาราง ฟอร์ม แผนภูมิ มักมีปัญหา Cell ไม่ตรงกัน หรือโครงสร้างเพี้ยน แม้โมเดลจะตีความภาพได้ในระดับหนึ่ง
- ข้อความผิดหรือถูกแต่งเติม (hallucination)
- เจอบ่อยในงาน OCR เช่น ตัวอักษรเกินหายไป วรรณยุกต์ตก หรือสร้างคำที่ไม่มีจริงขึ้นมา
สามารถอ่านข้อมูลเพิ่มเติมผ่าน
- Paper (ArXiv) เอกสารงานวิจัย
Link: https://arxiv.org/abs/2511.04479
- Hugging Face Dataset
Link: https://huggingface.co/datasets/scb10x/ThaiOCRBench
- GitHub (โค้ดที่ใช้ในการประเมินผล)
Link: https://github.com/scb-10x/ThaiOCRBench
ข้อสรุป:
ThaiOCRBench ชุดข้อสอบกลางที่เอาไว้ทดสอบว่า AI ตัวไหนอ่านเอกสารภาษาไทยได้ดีแค่ไหนในสถานการณ์ที่ใกล้ของจริงที่สุด ช่วยลดความเสี่ยงเวลาเอา AI ไปช่วยทำงานเอกสารจริงๆ




