
14 พฤศจิกายน 2568 SCB10X เปิดตัว Typhoon OCR 1.5 AI อ่านเอกสารจากรูปเป็นภาษาไทย–อังกฤษ ที่เอาไฟล์ PDF หรือรูปเอกสารต่าง ๆ มาดึงข้อความออกไปใช้ต่อ และรักษาโครงสร้างหน้าเดิม เช่น ตาราง หัวข้อ รูป กราฟ ให้เอาไปต่อกับระบบงานเดิมได้ง่ายขึ้น



Typhoon OCR 1.5 ทำคะแนนได้ดีกว่าแม้แต่ Gemini 2.5 Pro และ GPT-5
ข้อจำกัดของเทคโนโลยี OCR แบบดั้งเดิม
เมื่อก่อนระบบ OCR แบบดั้งเดิม มันเก่งแค่ อ่านตัวหนังสือจากรูป แต่ไม่เข้าใจ หน้าเอกสารทั้งหน้า จึงมีปัญหาเวลาเจอของจริงที่เราทำงานกันทุกวัน เช่น ฟอร์มราชการ อินโฟกราฟิก หรือ PDF สแกนไม่ชัด
ปัญหาหลัก ๆ
- อ่านออกเป็น ข้อความยาว ๆ แยกไม่ออกว่า อะไรคือตาราง, หัวข้อ, คอลัมน์ หรือบล็อกเนื้อหาคนละส่วนกัน
- รูป กราฟ แผนผัง ต่าง ๆ แทบโดนมองข้าม ทำให้เนื้อหาหายไปเยอะ
- PDF ส่วนใหญ่แปลงเป็นภาพ ทำให้เสียข้อมูลสำคัญ (metadata) เช่น ลำดับการอ่าน ตำแหน่งข้อความ
- OCR มองทีละบรรทัด ไม่ได้เข้าใจทั้งเอกสาร เลยเอาไปใช้ต่อพวกงานสรุป หา keyword เชื่อมโยงข้อมูลแบบฉลาด ๆ ได้ไม่ดี
SCB10X ใช้วิธี Vision-Language Models (VLMs) ช่วยให้ระบบ OCR เข้าใจว่า ข้อความคืออะไร และเข้าใจว่า ข้อความนั้นอยู่ตรงไหน, ตั้งใจสื่ออะไร โดยไม่พึ่งพากระบวนการแบบฮาร์ดโค้ดที่ซับซ้อน
ความสามารถ Typhoon OCR 1.5
- ใช้งานได้บนเครื่องสเปกไม่แรงมาก เพราะโมเดลค่อนข้างเล็ก ขนาด 2B โดยเอาตัว Qwen 3 VL มาปรับแต่ง
- เหมาะกับการประมวลผลและทำความเข้าใจเอกสารแบบครบวงจร หรือการอ่านตาราง กราฟ ฟอร์ม และส่วนประกอบอื่น ๆ อย่างแม่นยำ เช่น
- เอกสารในพระพุทธศาสนา ภาษาไทย–บาลี
- เอกสารภาครัฐ / แบบฟอร์มราชการ
- งบการเงิน และตารางข้อมูลหนาแน่น
- บิล ใบเสร็จ ใบแจ้งหนี้ ตั๋ว และบิลค่าสาธารณูปโภค
- อินโฟกราฟิก (Infographics), แผนภูมิและกราฟต่าง ๆ
แผนภูมิและกราฟต่าง ๆ
- ทำงานด้วย Prompt เดียว เวลาส่งคำสั่งไป เราแค่บอกว่า อยากได้ผลลัพธ์แบบไหน / ให้จัดโครงสร้างยังไง และแนบรูปหรือ PDF ไป
ข้อสรุป:
Typhoon OCR 1.5 ผู้ช่วยแปลงรูปเอกสารและไฟล์ PDF ภาษาไทยอังกฤษให้กลายเป็นข้อความและโครงสร้างที่อ่านง่าย เหมือนมีคนคอยถอดข้อมูลจากกองเอกสารให้ตลอดเวลา ใช้กับงานสรุปข้อมูล วิเคราะห์รายงาน หรือเชื่อมระบบที่มีอยู่ เพื่อให้ทีมทำงานกับเอกสารได้ไวและแม่นขึ้นกว่าเดิม










