1. 整體是什么水平
DeepSeek V4這次放出來兩個MoE模型,一個是Pro版,總參數1.6萬億,每次激活490億;另一個是Flash版,總參數2840億,每次激活130億,兩個都原生支持100萬token上下文。
![]()
從 benchmark 結果來看,Pro版的最大推理模式Pro-Max,現在已經是開源模型里新的天花板了,知識、推理、長文本都全面超過上一代,甚至在百萬上下文任務上超過了Gemini 3.1 Pro,Codeforces排名能到人類前23%,推理能力已經接近頂級閉源模型的水平。Flash版雖然參數小,給夠推理預算,推理能力也能對標主流閉源模型,性價比很高。
2. 核心技術創新:混合壓縮注意力解決長上下文效率問題
傳統的注意力機制計算量是和上下文長度平方成正比的,上下文越長,計算量漲得越快,這是百萬上下文最大的瓶頸。
DeepSeek V4的解決方案是混合兩種壓縮注意力:壓縮稀疏注意力CSA和重度壓縮注意力HCA,交替組合使用,把計算量和緩存體積壓下來。
![]()
先講壓縮稀疏注意力CSA
這種壓縮的思路說白了就是:遠處的信息不需要每個token都保留,把多個token壓縮成一個,再挑最相關的拿來用。
具體分這幾步:
1.第一步:壓縮KV緩存,每m個原始token壓縮成一個壓縮KV條目,CSA默認m=4,也就是長度直接變成原來的四分之一。壓縮的時候不是簡單平均,而是給每個原始token學了權重,加上位置偏置,用softmax歸一化之后再加權求和,保證壓縮的時候不會丟太多信息,而且相鄰壓縮塊還會重疊一點,避免邊界信息丟失。
2.第二步:稀疏選擇,壓縮完之后,每個query token只選top-k個最相關的壓縮KV條目來做注意力,Pro版選1024個,Flash版選512個。為了快速選對,專門做了一個輕量的Lightning Indexer,用低秩的方式算相關性,不會加太多額外計算。
3.補充局部信息,因為壓縮之后同一個壓縮塊里的細節信息沒了,而且最近的token往往是最相關的,所以額外加了一個滑動窗口分支,保留最近128個不壓縮的token,和選出來的壓縮KV放在一起做注意力,兼顧全局和局部的細節。
![]()
壓縮稀疏注意力CSA的架構圖 再講重度壓縮注意力HCA
HCA的思路更激進,追求更高的壓縮率,默認壓縮率m'=128,也就是長度直接變成原來的128分之一。它不用稀疏選擇那一套了,壓縮完之后直接做全稠密注意力,結構更簡單。
除了壓縮率更大,其余的結構和CSA差不多:都保留滑動窗口補充局部信息,都用共享KV的多查詢注意力,都分分組輸出投影降低計算量,核心區別就是壓縮率和要不要稀疏選擇。
![]()
重度壓縮注意力HCA的架構圖
實際效率提升有多大
根據DeepSeek給出的數據,在100萬token上下文的情況下:
DeepSeek V4-Pro:單token推理FLOPs只有上一代V3.2的27%,KV緩存只有10%
DeepSeek V4-Flash:單token推理FLOPs只有V3.2的10%,KV緩存只有7%
而且KV緩存還用了混合精度存儲,RoPE維度用BF16,其余用FP8,比純BF16又省了一半空間,索引部分的計算直接用FP4,進一步提速。這么一套組合拳打下來,百萬上下文才從原來的“實驗室玩具”變成了可以日常用的功能。
3. 另外兩個架構升級
除了注意力,DeepSeek V4還改了兩個地方,提升訓練穩定性和模型能力。
流形約束超連接mHC:改進傳統殘差連接
傳統的殘差連接就是簡單的x + f(x),之前有人提出超連接HC,把殘差流的寬度放大,不增加內層計算量就能提升模型表達能力,但問題是堆多層之后訓練容易不穩定。
mHC就是給HC加了約束:把殘差映射矩陣限制在雙隨機矩陣的流形上,保證映射的譜范數不超過1,正向反向傳播都不會梯度爆炸,訓練更穩定。同時輸入輸出映射也加了非負約束,避免信號抵消。
實際用下來,mHC只增加了不到7%的訓練時間,就能帶來明顯的性能提升,算是一筆很劃算的買賣。
Muon優化器:更快收斂更穩定
DeepSeek V4大部分參數都用了Muon優化器,只有嵌入、輸出頭、RMSNorm這些還用AdamW。Muon比傳統AdamW收斂更快,訓練更穩定,它的核心是用牛頓舒爾茨迭代做正交化,讓權重更新更穩定。
DeepSeek這里還做了優化,用兩階段混合牛頓舒爾茨迭代,前8步用一組系數快速收斂,最后2步換另一組系數把奇異值穩定在1,效果比原來的更好。
4. 底層基礎設施優化
要把這些新架構跑順,底層工程優化少不了,這里挑幾個關鍵的講。
專家并行的細粒度流水掩蓋通信延遲
MoE模型用專家并行,通信一直是瓶頸。DeepSeek把專家分成多波,每波專家完成通信就立刻開始計算,不用等所有專家都傳完數據,讓通信和計算完全重疊,把延遲掩蓋掉。
![]()
實測下來,這個方案比原來的非融合方案快1.5到1.73倍,RL推理這種對延遲敏感的場景,最高能快1.96倍,相關的MegaMoE內核已經開源了。
FP4量化感知訓練
為了省內存提速度,DeepSeek把MoE專家權重和CSA索引的QK路徑都做了FP4量化,而且是量化感知訓練,不是訓完再量化,所以精度掉的很少。
這里有個巧思:FP4量化之后轉成FP8計算是無損的,因為FP8比FP4多兩個指數位,動態范圍更大,只要塊內最大最小比例不超過閾值,就能完全恢復,所以不用改現有FP8訓練框架就能用,推理的時候直接用FP4權重,確實能省內存提速度。
專門為混合注意力設計的KV緩存管理
混合注意力有好幾種不同的KV,壓縮比和更新規則都不一樣,傳統的分頁緩存不太適配。DeepSeek把緩存分成了兩部分:
狀態緩存:存滑動窗口的KV,還有還沒湊夠壓縮數量的未壓縮尾部token,每個請求預分配固定大小的塊
經典壓縮緩存:存已經壓縮好的CSA和HCA的KV,按塊分配,每個塊覆蓋兩種壓縮率的最小公倍數個原始token
![]()
還支持磁盤緩存存共享前綴,重復請求不用重復預計算,不同策略適配不同場景,平衡存儲和計算。
5. 訓練和后訓練的優化
預訓練階段,Flash版訓練了32T token,Pro版訓練了33T token,從4K序列長度逐步拉長到1M,訓練不穩定的問題,DeepSeek用了兩個小技巧解決:
1.預期路由:骨干網絡和路由網絡不同步更新,路由用歷史參數算索引,提前緩存,遇到loss spike才自動開啟,不怎么增加額外開銷就能解決 spikes
2.SwiGLU截斷:把SwiGLU的線性分量限制在[-10,10],門分量上限10,消除數值 outliers,穩定訓練
后訓練用了新的流程:先分別訓練各個領域的專家模型,每個專家單獨做SFT和RL,最后用在線策略蒸餾把多個專家的能力合并到一個模型里,比原來的混合RL效果好,不會有性能退化。
還支持三種推理模式,滿足不同場景:不思考模式適合日常快速響應,高思考模式適合復雜問題,最大思考模式專門用來沖推理極限,把推理能力拉滿。工具調用也改了新的schema,降低調用錯誤率,還支持保留多輪推理歷史,長周期agent任務不用每次重新構建狀態。
6. 實際體驗和行業影響
從評測結果來看,DeepSeek V4-Pro-Max現在確實是開源模型的新天花板:知識類SimpleQA比之前的開源模型高了20個百分點,推理上Codeforces評分達到3206,已經和GPT-5.4差不多,是第一次開源模型在代碼競賽上追平頂級閉源模型;百萬上下文任務上,MRCR檢索超過Gemini 3.1 Pro,實際中文任務上,寫作贏了Gemini 3.1 Pro,白領任務不輸給Claude Opus 4.6,代碼代理也接近Opus 4.5的水平。
![]()
最關鍵的不是它做到了百萬上下文,而是它做到百萬上下文的同時,把推理成本降下來了。原來跑百萬上下文,需要的顯存和計算量高到離譜,一般玩家玩不起,現在DeepSeek把計算量和緩存都壓到原來的十分之一,讓百萬上下文真的能用了。
這相當于給測試時間縮放打開了新空間,以后模型要提升推理能力,就可以放開了多推理、多思考,不用被上下文長度和計算成本卡住。
長周期agent、全文檔分析、在線學習這些方向,也有了更扎實的基礎。
總結一下。
DeepSeek-V4是一整套從架構到工程到訓練到推理的全面優化。
1.6T參數,49B激活,百萬上下文,27%的計算量,10%的KV緩存。
這組數字放在一起,就是四個字——效率革命。
以前的模型在處理長文本時,就像是開著皮卡拉貨,油耗高、跑得慢。
DeepSeek-V4相當于又快又省。
當然,它也有缺點——架構太復雜了,各種trick疊在一起。
但話說回來,在這個算力就是金錢的時代,誰能用更少的錢跑出更好的效果,誰就是牛X。
DeepSeek-V4,就是那個能讓你少花錢多辦事的狠角色。
手里的礦再多,也不如腦子里的活好使。
文章來源于歪睿老哥,作者歪睿老哥
創芯大講堂芯片課程匯總
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.