網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek 把人工智能的下水道打通了

2026-01-01 20:57:36　來源: 知識圈

北京舉報

分享至

25年最后一天， deepseek 奉上了新年禮物 mHC，又是新的網(wǎng)絡(luò)結(jié)構(gòu)

如果不負責(zé)任地猜一下，這種對底層架構(gòu)的深度魔改，加上他們之前MoE的積累，沒準DeepSeek V4真的要搞個大新聞。

DeepSeek是真的厲害，要搞就搞底層創(chuàng)新，搞完MoE，現(xiàn)在盯上Transformer最基礎(chǔ)的下水道：殘差連接（Residual Connection）。

1、為什么要搞mHC

自從ResNet出來以后，殘差連接就是深度學(xué)習(xí)的標配。Identity Mapping（恒等映射）保證了信號能無損傳到深層，模型才能堆得深。

24年字節(jié)搞了個Hyper-Connections，覺得原來的殘差流太細，信息不夠跑。于是把殘差流寬度擴大n倍（比如4倍），還加了各種可學(xué)習(xí)的線性映射矩陣（HH）來混合不同流的信息。這就好比把原來的單車道擴建成了四車道高速公路，不僅寬，車還能變道。

問題來了：路是寬了，但車速控制不住了。原來那套完美的Identity Mapping屬性被破壞了。當你層數(shù)一深，這些不受約束的矩陣乘起來，信號要么消失要么爆炸。圖里HC跑到12k步loss直接起飛，梯度亂跳。顯存訪問開銷也因為通道變寬暴增，撞上了Memory Wall。

2、核心思路：把矩陣關(guān)進“流形”里（Manifold Constraint）

這部分是論文的理論高光。DeepSeek這次的做法，給混合矩陣加約束，強制它必須是雙隨機矩陣（Doubly Stochastic Matrix）。

妙在哪里？1??從幾何角度，這相當于把信號的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統(tǒng)，信號在層與層之間傳遞時，總量被嚴格控制住了，既不會憑空放大也不會莫名衰減。2?? 雙隨機矩陣的譜范數(shù)≤1，意味著不會放大信號，梯度爆炸的風(fēng)險大大降低。3??多個雙隨機矩陣連乘，結(jié)果還是雙隨機矩陣，所以深層網(wǎng)絡(luò)也能保持穩(wěn)定

實現(xiàn)上用經(jīng)典的Sinkhorn-Knopp算法，反復(fù)做行列歸一化，迭代20次就夠了。

3、工程優(yōu)化

mHC顯然需要大量對應(yīng)的工程優(yōu)化才能 work，而且DeepSeek顯然是要在實際生產(chǎn)環(huán)境里用這東西的，所以花了不少篇幅講工程實現(xiàn)。

幾個關(guān)鍵優(yōu)化：Kernel Fusion（算子融合）、Recomputing（重計算）、DualPipe通信重疊（dualpipe 是 v3提的）等等。

最終效果：在n=4時，mHC只增加6.7%的訓(xùn)練時間開銷。這個數(shù)字對于大規(guī)模訓(xùn)練來說是可以接受的。

主要看27B模型的結(jié)果：

loss比baseline降0.021，比HC穩(wěn)

梯度范數(shù)平穩(wěn)，HC則劇烈波動

BBH、DROP、GSM8K等benchmark全面超baseline，多數(shù)超HC

信號增益幅度從HC的約3000降到約1.6，三個數(shù)量級

在 scaling實驗中還做了3B、9B的模型，說明這套方法在大模型上是通用的，且隨著算力增加優(yōu)勢依然存在，期待在百 b 甚至 T 以上的模型效果

感覺又要搞一波大的（是不是今年春節(jié)，DeepSeek V4要來了？）

作者：AI Dance

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.