ช่วงหลังเราเห็น AI หลายค่ายพยายามทำโมเดลให้เก่งขึ้น แต่ความจริงมันติดอยู่ 2 เรื่องเดิม ๆ:
- Numerical Instability เทรนแล้วชอบแกว่ง/หลุด (เสถียรไม่พอ)
- System Overhead ไอเดียดี แต่พอรันจริงกลับช้า กินทรัพยากร (ระบบแบกไม่ไหว)
31 ธันวาคม 2568 DeepSeek เผยแพร่งานวิจัยใหม่ ชื่อว่า mHC (Manifold-Constrained Hyper-Connections) อัปเกรด Hyper-Connections ให้เทรน LLM ใหญ่ ๆ ได้จริง ไม่แกว่ง ไม่หน่วงเครื่อง
Hyper-Connections คือ การขยายเลนทางเดินของข้อมูล ในโมเดลให้กว้างขึ้น
การออกแบบโมเดล มี 2 ระดับใหญ่ ๆ
- micro-design = ข้างในบล็อกทำงานยังไง (เช่น attention, FFN)
- macro-design = บล็อกต่อกันยังไง สายข้อมูลไหลยังไง
ตัว HC อยู่ฝั่ง macro-design มันพยายามแก้ปัญหาที่ Residual Stream แบบเดิมเหมือน ถนนเลนเดียว พอโมเดลลึกมาก ๆ การไหลของข้อมูล/ Gradient เริ่มมีข้อจำกัด เลยเพิ่มความกว้างของทางให้มีหลายสตรีม
ปัญหาคือพอเลนมันเยอะ การผสมสัญญาณมันมีโอกาส หลุด → ทำให้เทรน แกว่ง และระบบ หน่วง
งานวิจัยโมเดลใหญ่ แพ้ชนะกันที่ระบบเยอะมาก ต่อให้ไอเดียดี ถ้าระบบแบกไม่ไหว มันก็ไปต่อไม่ได้
mHC เลยใส่กรอบคุมการผสม ให้มันไม่บวม/ไม่แฟบเกินไป สรุป คือ ยังได้ข้อดีของ HC โมเดลนิ่งขึ้น และ เอาไปเทรนข้อมูลขนาดใหญ่ ๆ ได้จริง
ข้อสรุป:
mHC ของ DeepSeek คือ การทำให้ Hyper-Connections พร้อมใช้ในโลกจริงมากขึ้น เทรนใหญ่ ๆ ได้ นิ่งขึ้น และคุมต้นทุนระบบได้ดี พอที่จะเอาไปใช้ต่อ




