14 พฤศจิกายน 2568 SCB10X เปิดตัว Typhoon OCR 1.5 AI อ่านเอกสารจากรูปเป็นภาษาไทย–อังกฤษ ที่เอาไฟล์ PDF หรือรูปเอกสารต่าง ๆ มาดึงข้อความออกไปใช้ต่อ และรักษาโครงสร้างหน้าเดิม เช่น ตาราง หัวข้อ รูป กราฟ ให้เอาไปต่อกับระบบงานเดิมได้ง่ายขึ้น

Typhoon OCR 1.5 ทำคะแนนได้ดีกว่าแม้แต่ Gemini 2.5 Pro และ GPT-5

ข้อจำกัดของเทคโนโลยี OCR แบบดั้งเดิม

เมื่อก่อนระบบ OCR แบบดั้งเดิม มันเก่งแค่ อ่านตัวหนังสือจากรูป แต่ไม่เข้าใจ หน้าเอกสารทั้งหน้า จึงมีปัญหาเวลาเจอของจริงที่เราทำงานกันทุกวัน เช่น ฟอร์มราชการ อินโฟกราฟิก หรือ PDF สแกนไม่ชัด

ปัญหาหลัก ๆ

  1. อ่านออกเป็น ข้อความยาว ๆ แยกไม่ออกว่า อะไรคือตาราง, หัวข้อ, คอลัมน์ หรือบล็อกเนื้อหาคนละส่วนกัน
  2. รูป กราฟ แผนผัง ต่าง ๆ แทบโดนมองข้าม ทำให้เนื้อหาหายไปเยอะ
  3. PDF ส่วนใหญ่แปลงเป็นภาพ ทำให้เสียข้อมูลสำคัญ (metadata) เช่น ลำดับการอ่าน ตำแหน่งข้อความ
  4. OCR มองทีละบรรทัด ไม่ได้เข้าใจทั้งเอกสาร เลยเอาไปใช้ต่อพวกงานสรุป หา keyword เชื่อมโยงข้อมูลแบบฉลาด ๆ ได้ไม่ดี

SCB10X ใช้วิธี Vision-Language Models (VLMs) ช่วยให้ระบบ OCR เข้าใจว่า ข้อความคืออะไร และเข้าใจว่า ข้อความนั้นอยู่ตรงไหน, ตั้งใจสื่ออะไร โดยไม่พึ่งพากระบวนการแบบฮาร์ดโค้ดที่ซับซ้อน

ความสามารถ Typhoon OCR 1.5

  • ใช้งานได้บนเครื่องสเปกไม่แรงมาก เพราะโมเดลค่อนข้างเล็ก ขนาด 2B โดยเอาตัว Qwen 3 VL มาปรับแต่ง
  • เหมาะกับการประมวลผลและทำความเข้าใจเอกสารแบบครบวงจร หรือการอ่านตาราง กราฟ ฟอร์ม และส่วนประกอบอื่น ๆ อย่างแม่นยำ เช่น
  1. เอกสารในพระพุทธศาสนา ภาษาไทย–บาลี
  2. เอกสารภาครัฐ / แบบฟอร์มราชการ
  3. งบการเงิน และตารางข้อมูลหนาแน่น
  4. บิล ใบเสร็จ ใบแจ้งหนี้ ตั๋ว และบิลค่าสาธารณูปโภค
  5. อินโฟกราฟิก (Infographics), แผนภูมิและกราฟต่าง ๆ

แผนภูมิและกราฟต่าง ๆ

  • ทำงานด้วย Prompt เดียว เวลาส่งคำสั่งไป เราแค่บอกว่า อยากได้ผลลัพธ์แบบไหน / ให้จัดโครงสร้างยังไง และแนบรูปหรือ PDF ไป

ข้อสรุป:

Typhoon OCR 1.5 ผู้ช่วยแปลงรูปเอกสารและไฟล์ PDF ภาษาไทยอังกฤษให้กลายเป็นข้อความและโครงสร้างที่อ่านง่าย เหมือนมีคนคอยถอดข้อมูลจากกองเอกสารให้ตลอดเวลา ใช้กับงานสรุปข้อมูล วิเคราะห์รายงาน หรือเชื่อมระบบที่มีอยู่ เพื่อให้ทีมทำงานกับเอกสารได้ไวและแม่นขึ้นกว่าเดิม

Source:

OpenTyphoon