mHC

ช่วงหลังเราเห็น AI หลายค่ายพยายามทำโมเดลให้เก่งขึ้น แต่ความจริงมันติดอยู่ 2 เรื่องเดิม ๆ:

  1. Numerical Instability เทรนแล้วชอบแกว่ง/หลุด (เสถียรไม่พอ)
  2. System Overhead ไอเดียดี แต่พอรันจริงกลับช้า กินทรัพยากร (ระบบแบกไม่ไหว)

31 ธันวาคม 2568 DeepSeek เผยแพร่งานวิจัยใหม่ ชื่อว่า mHC (Manifold-Constrained Hyper-Connections) อัปเกรด Hyper-Connections ให้เทรน LLM ใหญ่ ๆ ได้จริง ไม่แกว่ง ไม่หน่วงเครื่อง

Hyper-Connections คือ การขยายเลนทางเดินของข้อมูล ในโมเดลให้กว้างขึ้น

การออกแบบโมเดล มี 2 ระดับใหญ่ ๆ

  1. micro-design = ข้างในบล็อกทำงานยังไง (เช่น attention, FFN)
  2. macro-design = บล็อกต่อกันยังไง สายข้อมูลไหลยังไง

ตัว HC อยู่ฝั่ง macro-design มันพยายามแก้ปัญหาที่ Residual Stream แบบเดิมเหมือน ถนนเลนเดียว พอโมเดลลึกมาก ๆ การไหลของข้อมูล/ Gradient เริ่มมีข้อจำกัด เลยเพิ่มความกว้างของทางให้มีหลายสตรีม

ปัญหาคือพอเลนมันเยอะ การผสมสัญญาณมันมีโอกาส หลุด → ทำให้เทรน แกว่ง และระบบ หน่วง

งานวิจัยโมเดลใหญ่ แพ้ชนะกันที่ระบบเยอะมาก ต่อให้ไอเดียดี ถ้าระบบแบกไม่ไหว มันก็ไปต่อไม่ได้

mHC เลยใส่กรอบคุมการผสม ให้มันไม่บวม/ไม่แฟบเกินไป สรุป คือ ยังได้ข้อดีของ HC โมเดลนิ่งขึ้น และ เอาไปเทรนข้อมูลขนาดใหญ่ ๆ ได้จริง

ข้อสรุป:

mHC ของ DeepSeek คือ การทำให้ Hyper-Connections พร้อมใช้ในโลกจริงมากขึ้น เทรนใหญ่ ๆ ได้ นิ่งขึ้น และคุมต้นทุนระบบได้ดี พอที่จะเอาไปใช้ต่อ

Source:

Arxiv