網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4 深度解析：百萬token上下文是怎么做到高效運行的

2026-04-26 12:39:16　來源: EETOP半導體社區

北京舉報

分享至

1. 整體是什么水平

DeepSeek V4這次放出來兩個MoE模型，一個是Pro版，總參數1.6萬億，每次激活490億；另一個是Flash版，總參數2840億，每次激活130億，兩個都原生支持100萬token上下文。

從 benchmark 結果來看，Pro版的最大推理模式Pro-Max，現在已經是開源模型里新的天花板了，知識、推理、長文本都全面超過上一代，甚至在百萬上下文任務上超過了Gemini 3.1 Pro，Codeforces排名能到人類前23%，推理能力已經接近頂級閉源模型的水平。Flash版雖然參數小，給夠推理預算，推理能力也能對標主流閉源模型，性價比很高。

2. 核心技術創新：混合壓縮注意力解決長上下文效率問題

傳統的注意力機制計算量是和上下文長度平方成正比的，上下文越長，計算量漲得越快，這是百萬上下文最大的瓶頸。

DeepSeek V4的解決方案是混合兩種壓縮注意力：壓縮稀疏注意力CSA和重度壓縮注意力HCA，交替組合使用，把計算量和緩存體積壓下來。

先講壓縮稀疏注意力CSA

這種壓縮的思路說白了就是：遠處的信息不需要每個token都保留，把多個token壓縮成一個，再挑最相關的拿來用。

具體分這幾步：

1.第一步：壓縮KV緩存，每m個原始token壓縮成一個壓縮KV條目，CSA默認m=4，也就是長度直接變成原來的四分之一。壓縮的時候不是簡單平均，而是給每個原始token學了權重，加上位置偏置，用softmax歸一化之后再加權求和，保證壓縮的時候不會丟太多信息，而且相鄰壓縮塊還會重疊一點，避免邊界信息丟失。

2.第二步：稀疏選擇，壓縮完之后，每個query token只選top-k個最相關的壓縮KV條目來做注意力，Pro版選1024個，Flash版選512個。為了快速選對，專門做了一個輕量的Lightning Indexer，用低秩的方式算相關性，不會加太多額外計算。

3.補充局部信息，因為壓縮之后同一個壓縮塊里的細節信息沒了，而且最近的token往往是最相關的，所以額外加了一個滑動窗口分支，保留最近128個不壓縮的token，和選出來的壓縮KV放在一起做注意力，兼顧全局和局部的細節。

壓縮稀疏注意力CSA的架構圖再講重度壓縮注意力HCA

HCA的思路更激進，追求更高的壓縮率，默認壓縮率m'=128，也就是長度直接變成原來的128分之一。它不用稀疏選擇那一套了，壓縮完之后直接做全稠密注意力，結構更簡單。

除了壓縮率更大，其余的結構和CSA差不多：都保留滑動窗口補充局部信息，都用共享KV的多查詢注意力，都分分組輸出投影降低計算量，核心區別就是壓縮率和要不要稀疏選擇。

重度壓縮注意力HCA的架構圖

實際效率提升有多大

根據DeepSeek給出的數據，在100萬token上下文的情況下：

DeepSeek V4-Pro：單token推理FLOPs只有上一代V3.2的27%，KV緩存只有10%

DeepSeek V4-Flash：單token推理FLOPs只有V3.2的10%，KV緩存只有7%

而且KV緩存還用了混合精度存儲，RoPE維度用BF16，其余用FP8，比純BF16又省了一半空間，索引部分的計算直接用FP4，進一步提速。這么一套組合拳打下來，百萬上下文才從原來的“實驗室玩具”變成了可以日常用的功能。

3. 另外兩個架構升級

除了注意力，DeepSeek V4還改了兩個地方，提升訓練穩定性和模型能力。

流形約束超連接mHC：改進傳統殘差連接

傳統的殘差連接就是簡單的x + f(x)，之前有人提出超連接HC，把殘差流的寬度放大，不增加內層計算量就能提升模型表達能力，但問題是堆多層之后訓練容易不穩定。

mHC就是給HC加了約束：把殘差映射矩陣限制在雙隨機矩陣的流形上，保證映射的譜范數不超過1，正向反向傳播都不會梯度爆炸，訓練更穩定。同時輸入輸出映射也加了非負約束，避免信號抵消。

實際用下來，mHC只增加了不到7%的訓練時間，就能帶來明顯的性能提升，算是一筆很劃算的買賣。

Muon優化器：更快收斂更穩定

DeepSeek V4大部分參數都用了Muon優化器，只有嵌入、輸出頭、RMSNorm這些還用AdamW。Muon比傳統AdamW收斂更快，訓練更穩定，它的核心是用牛頓舒爾茨迭代做正交化，讓權重更新更穩定。

DeepSeek這里還做了優化，用兩階段混合牛頓舒爾茨迭代，前8步用一組系數快速收斂，最后2步換另一組系數把奇異值穩定在1，效果比原來的更好。

4. 底層基礎設施優化

要把這些新架構跑順，底層工程優化少不了，這里挑幾個關鍵的講。

專家并行的細粒度流水掩蓋通信延遲

MoE模型用專家并行，通信一直是瓶頸。DeepSeek把專家分成多波，每波專家完成通信就立刻開始計算，不用等所有專家都傳完數據，讓通信和計算完全重疊，把延遲掩蓋掉。

實測下來，這個方案比原來的非融合方案快1.5到1.73倍，RL推理這種對延遲敏感的場景，最高能快1.96倍，相關的MegaMoE內核已經開源了。

FP4量化感知訓練

為了省內存提速度，DeepSeek把MoE專家權重和CSA索引的QK路徑都做了FP4量化，而且是量化感知訓練，不是訓完再量化，所以精度掉的很少。

這里有個巧思：FP4量化之后轉成FP8計算是無損的，因為FP8比FP4多兩個指數位，動態范圍更大，只要塊內最大最小比例不超過閾值，就能完全恢復，所以不用改現有FP8訓練框架就能用，推理的時候直接用FP4權重，確實能省內存提速度。

專門為混合注意力設計的KV緩存管理

混合注意力有好幾種不同的KV，壓縮比和更新規則都不一樣，傳統的分頁緩存不太適配。DeepSeek把緩存分成了兩部分：

狀態緩存：存滑動窗口的KV，還有還沒湊夠壓縮數量的未壓縮尾部token，每個請求預分配固定大小的塊

經典壓縮緩存：存已經壓縮好的CSA和HCA的KV，按塊分配，每個塊覆蓋兩種壓縮率的最小公倍數個原始token

還支持磁盤緩存存共享前綴，重復請求不用重復預計算，不同策略適配不同場景，平衡存儲和計算。

5. 訓練和后訓練的優化

預訓練階段，Flash版訓練了32T token，Pro版訓練了33T token，從4K序列長度逐步拉長到1M，訓練不穩定的問題，DeepSeek用了兩個小技巧解決：

1.預期路由：骨干網絡和路由網絡不同步更新，路由用歷史參數算索引，提前緩存，遇到loss spike才自動開啟，不怎么增加額外開銷就能解決 spikes

2.SwiGLU截斷：把SwiGLU的線性分量限制在[-10,10]，門分量上限10，消除數值 outliers，穩定訓練

后訓練用了新的流程：先分別訓練各個領域的專家模型，每個專家單獨做SFT和RL，最后用在線策略蒸餾把多個專家的能力合并到一個模型里，比原來的混合RL效果好，不會有性能退化。

還支持三種推理模式，滿足不同場景：不思考模式適合日常快速響應，高思考模式適合復雜問題，最大思考模式專門用來沖推理極限，把推理能力拉滿。工具調用也改了新的schema，降低調用錯誤率，還支持保留多輪推理歷史，長周期agent任務不用每次重新構建狀態。

6. 實際體驗和行業影響

從評測結果來看，DeepSeek V4-Pro-Max現在確實是開源模型的新天花板：知識類SimpleQA比之前的開源模型高了20個百分點，推理上Codeforces評分達到3206，已經和GPT-5.4差不多，是第一次開源模型在代碼競賽上追平頂級閉源模型；百萬上下文任務上，MRCR檢索超過Gemini 3.1 Pro，實際中文任務上，寫作贏了Gemini 3.1 Pro，白領任務不輸給Claude Opus 4.6，代碼代理也接近Opus 4.5的水平。

最關鍵的不是它做到了百萬上下文，而是它做到百萬上下文的同時，把推理成本降下來了。原來跑百萬上下文，需要的顯存和計算量高到離譜，一般玩家玩不起，現在DeepSeek把計算量和緩存都壓到原來的十分之一，讓百萬上下文真的能用了。

這相當于給測試時間縮放打開了新空間，以后模型要提升推理能力，就可以放開了多推理、多思考，不用被上下文長度和計算成本卡住。

長周期agent、全文檔分析、在線學習這些方向，也有了更扎實的基礎。

總結一下。

DeepSeek-V4是一整套從架構到工程到訓練到推理的全面優化。

1.6T參數，49B激活，百萬上下文，27%的計算量，10%的KV緩存。

這組數字放在一起，就是四個字——效率革命。

以前的模型在處理長文本時，就像是開著皮卡拉貨，油耗高、跑得慢。

DeepSeek-V4相當于又快又省。

當然，它也有缺點——架構太復雜了，各種trick疊在一起。

但話說回來，在這個算力就是金錢的時代，誰能用更少的錢跑出更好的效果，誰就是牛X。

DeepSeek-V4，就是那個能讓你少花錢多辦事的狠角色。

手里的礦再多，也不如腦子里的活好使。

文章來源于歪睿老哥，作者歪睿老哥

創芯大講堂芯片課程匯總

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.