25年最后一天, deepseek 奉上了新年禮物 mHC,又是新的網(wǎng)絡(luò)結(jié)構(gòu)
如果不負責(zé)任地猜一下,這種對底層架構(gòu)的深度魔改,加上他們之前MoE的積累,沒準DeepSeek V4真的要搞個大新聞。
DeepSeek是真的厲害,要搞就搞底層創(chuàng)新,搞完MoE,現(xiàn)在盯上Transformer最基礎(chǔ)的下水道:殘差連接(Residual Connection)。
![]()
1、為什么要搞mHC
自從ResNet出來以后,殘差連接就是深度學(xué)習(xí)的標配。Identity Mapping(恒等映射)保證了信號能無損傳到深層,模型才能堆得深。
24年字節(jié)搞了個Hyper-Connections,覺得原來的殘差流太細,信息不夠跑。于是把殘差流寬度擴大n倍(比如4倍),還加了各種可學(xué)習(xí)的線性映射矩陣(HH)來混合不同流的信息。這就好比把原來的單車道擴建成了四車道高速公路,不僅寬,車還能變道。
問題來了: 路是寬了,但車速控制不住了。原來那套完美的Identity Mapping屬性被破壞了。當你層數(shù)一深,這些不受約束的矩陣乘起來,信號要么消失要么爆炸。圖里HC跑到12k步loss直接起飛,梯度亂跳。顯存訪問開銷也因為通道變寬暴增,撞上了Memory Wall。
![]()
2、核心思路:把矩陣關(guān)進“流形”里(Manifold Constraint)
這部分是論文的理論高光。DeepSeek這次的做法,給混合矩陣加約束,強制它必須是雙隨機矩陣(Doubly Stochastic Matrix)。
妙在哪里?1??從幾何角度,這相當于把信號的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統(tǒng),信號在層與層之間傳遞時,總量被嚴格控制住了,既不會憑空放大也不會莫名衰減。2?? 雙隨機矩陣的譜范數(shù)≤1,意味著不會放大信號,梯度爆炸的風(fēng)險大大降低。3??多個雙隨機矩陣連乘,結(jié)果還是雙隨機矩陣,所以深層網(wǎng)絡(luò)也能保持穩(wěn)定
實現(xiàn)上用經(jīng)典的Sinkhorn-Knopp算法,反復(fù)做行列歸一化,迭代20次就夠了。
![]()
3、工程優(yōu)化
mHC顯然需要大量對應(yīng)的工程優(yōu)化才能 work, 而且DeepSeek顯然是要在實際生產(chǎn)環(huán)境里用這東西的,所以花了不少篇幅講工程實現(xiàn)。
幾個關(guān)鍵優(yōu)化:Kernel Fusion(算子融合)、Recomputing(重計算)、DualPipe通信重疊(dualpipe 是 v3提的) 等等。
最終效果:在n=4時,mHC只增加6.7%的訓(xùn)練時間開銷。這個數(shù)字對于大規(guī)模訓(xùn)練來說是可以接受的。
主要看27B模型的結(jié)果:
loss比baseline降0.021,比HC穩(wěn)
梯度范數(shù)平穩(wěn),HC則劇烈波動
BBH、DROP、GSM8K等benchmark全面超baseline,多數(shù)超HC
信號增益幅度從HC的約3000降到約1.6,三個數(shù)量級
在 scaling實驗中還做了3B、9B的模型,說明這套方法在大模型上是通用的,且隨著算力增加優(yōu)勢依然存在,期待在百 b 甚至 T 以上的模型效果
感覺又要搞一波大的(是不是今年春節(jié),DeepSeek V4要來了?)
作者:AI Dance
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.