OpenAI ปล่อย Paper ใหม่ สาเหตุ Hallucinations + 3 วิธีแก้ที่วัดผลได้

5 กันยายน 2568 OpenAI ปล่อย Paper: Why Language Models Hallucinate (ทำไมโมเดลภาษาหรือ AI ถึงมีอาการหลอน) ใน Paper นี้จะอธิบายสาเหตุ และ เสนอวิธีลด/ป้องกัน hallucinations

Why-Language-Models-Hallucinate

สาเหตุของอาการหลอนหลัก

วิธีวัดผลแบบเดิมเน้นความแม่นยำอย่างเดียว → โมเดลถูกจูงใจให้ เดา มากกว่าพูดว่า ไม่รู้/ไม่ชัวร์

กระบวนการก่อนฝึกเทรนข้อมูล แบบทายคำถัดไป ไม่เห็นตัวอย่างที่ติดป้ายว่า ผิด + ข้อเท็จจริงแบบความถี่ต่ำ/สุ่ม (เช่น วันเกิด ตัวเลขเฉพาะ) จึงหลุดง่าย

คำถามกำกวม/ข้อมูลไม่พอ, ออกนอกโดเมน, งานที่คำนวณยากโดยธรรมชาติ, โมเดลไม่ตรงงาน

ทำไมหลังฝึกข้อมูลแล้วยังมีอาการหลอน

เพราะ เกณฑ์สอบส่วนใหญ่ลงโทษการงดตอบ และ ไม่ให้เครดิตความไม่แน่ใจ → โมเดลที่ กล้าเดา ชนะโมเดลที่ ซื่อสัตย์กับความไม่แน่ใจ บน Benchmark

แก้ง่าย ๆ

ลงโทษคำตอบที่ผิดแบบมั่นใจ ให้หนักกว่าการบอก ไม่แน่ใจ/ขอเว้น และให้เครดิตบางส่วนกับความซื่อสัตย์ แนวนี้มีในข้อสอบบางแบบเพื่อกันเดามั่วอยู่แล้ว ประเด็นสำคัญไม่ใช่เพิ่มข้อสอบพิเศษ แต่ต้องปรับ Benchmark หลัก ให้เลิกให้รางวัลกับการเดา ถ้ายังให้แต้มกับ เดาถูกฟลุ๊ค โมเดลก็ยิ่งเรียนรู้จะเดา พอเปลี่ยน Benchmark เทคนิคใหม่จะลดอาการหลอนเก่า–ใหม่จะถูกเอาไปใช้กว้างขึ้น

ด้วยการวัดผลแบบ 3 ช่องทาง Accuracy / Error / Abstention (ไม่ใช่ accuracy อย่างเดียว) + เน้น Behavioral calibration: วัดจาก พฤติกรรม เลือกตอบ/งดตามและเกณฑ์ความมั่นใจ มากกว่าขอให้โมเดลรายงานเปอร์เซ็นต์ความมั่นใจสวย ๆ

ข้อสรุป:

Paper OpenAI มาช่วยไขปริศนาให้ผู้ใช้งาน AI หลาย ๆ คนเข้าใจว่า ทำไมถึงตอบผิด ข้อมูลไม่ตรง หรืออวยเกิน

Source:

OpenAI, Arxiv Paper

OpenAI ปล่อย Paper ใหม่ สาเหตุ Hallucinations + 3 วิธีแก้ที่วัดผลได้

สาเหตุของอาการหลอนหลัก

ทำไมหลังฝึกข้อมูลแล้วยังมีอาการหลอน

แก้ง่าย ๆ

ข้อสรุป:

Source:

Related Contents

OpenAI ปล่อย Paper ใหม่ สาเหตุ Hallucinations + 3 วิธีแก้ที่วัดผลได้

ประเทศแรกของโลก แอลเบเนียตั้ง AI Minister ชื่อ Diella หมากล้างคอร์รัปชัน เร่งเปิดประมูลรัฐให้เร็วขึ้น ทำงานตลอด 24 ชม.

ฟรี 100% เล่น AI 169 Models ไม่ง้อเน็ต GenSpark เปิดตัว On-Device Free AI AI ท่องเว็บ-Shop-Research ในคลิกเดียว

ใช้ Claude ยอดเยี่ยมที่สุด เผย 2 Modes AI แปลงไฟล์เป็น Slides และคุมความจำเอง จัดการงานดีกว่าเดิมเพียงไม่กี่นาที