<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4 深度解析:百萬token上下文是怎么做到高效運行的

      0
      分享至

      1. 整體是什么水平

      DeepSeek V4這次放出來兩個MoE模型,一個是Pro版,總參數1.6萬億,每次激活490億;另一個是Flash版,總參數2840億,每次激活130億,兩個都原生支持100萬token上下文。


      從 benchmark 結果來看,Pro版的最大推理模式Pro-Max,現在已經是開源模型里新的天花板了,知識、推理、長文本都全面超過上一代,甚至在百萬上下文任務上超過了Gemini 3.1 Pro,Codeforces排名能到人類前23%,推理能力已經接近頂級閉源模型的水平。Flash版雖然參數小,給夠推理預算,推理能力也能對標主流閉源模型,性價比很高。

      2. 核心技術創新:混合壓縮注意力解決長上下文效率問題

      傳統的注意力機制計算量是和上下文長度平方成正比的,上下文越長,計算量漲得越快,這是百萬上下文最大的瓶頸。

      DeepSeek V4的解決方案是混合兩種壓縮注意力:壓縮稀疏注意力CSA和重度壓縮注意力HCA,交替組合使用,把計算量和緩存體積壓下來。


      先講壓縮稀疏注意力CSA

      這種壓縮的思路說白了就是:遠處的信息不需要每個token都保留,把多個token壓縮成一個,再挑最相關的拿來用。

      具體分這幾步:

      1.第一步:壓縮KV緩存,每m個原始token壓縮成一個壓縮KV條目,CSA默認m=4,也就是長度直接變成原來的四分之一。壓縮的時候不是簡單平均,而是給每個原始token學了權重,加上位置偏置,用softmax歸一化之后再加權求和,保證壓縮的時候不會丟太多信息,而且相鄰壓縮塊還會重疊一點,避免邊界信息丟失。

      2.第二步:稀疏選擇,壓縮完之后,每個query token只選top-k個最相關的壓縮KV條目來做注意力,Pro版選1024個,Flash版選512個。為了快速選對,專門做了一個輕量的Lightning Indexer,用低秩的方式算相關性,不會加太多額外計算。

      3.補充局部信息,因為壓縮之后同一個壓縮塊里的細節信息沒了,而且最近的token往往是最相關的,所以額外加了一個滑動窗口分支,保留最近128個不壓縮的token,和選出來的壓縮KV放在一起做注意力,兼顧全局和局部的細節。


      壓縮稀疏注意力CSA的架構圖 再講重度壓縮注意力HCA

      HCA的思路更激進,追求更高的壓縮率,默認壓縮率m'=128,也就是長度直接變成原來的128分之一。它不用稀疏選擇那一套了,壓縮完之后直接做全稠密注意力,結構更簡單。

      除了壓縮率更大,其余的結構和CSA差不多:都保留滑動窗口補充局部信息,都用共享KV的多查詢注意力,都分分組輸出投影降低計算量,核心區別就是壓縮率和要不要稀疏選擇。


      重度壓縮注意力HCA的架構圖

      實際效率提升有多大

      根據DeepSeek給出的數據,在100萬token上下文的情況下:

      DeepSeek V4-Pro:單token推理FLOPs只有上一代V3.2的27%,KV緩存只有10%

      DeepSeek V4-Flash:單token推理FLOPs只有V3.2的10%,KV緩存只有7%

      而且KV緩存還用了混合精度存儲,RoPE維度用BF16,其余用FP8,比純BF16又省了一半空間,索引部分的計算直接用FP4,進一步提速。這么一套組合拳打下來,百萬上下文才從原來的“實驗室玩具”變成了可以日常用的功能。

      3. 另外兩個架構升級

      除了注意力,DeepSeek V4還改了兩個地方,提升訓練穩定性和模型能力。

      流形約束超連接mHC:改進傳統殘差連接

      傳統的殘差連接就是簡單的x + f(x),之前有人提出超連接HC,把殘差流的寬度放大,不增加內層計算量就能提升模型表達能力,但問題是堆多層之后訓練容易不穩定。

      mHC就是給HC加了約束:把殘差映射矩陣限制在雙隨機矩陣的流形上,保證映射的譜范數不超過1,正向反向傳播都不會梯度爆炸,訓練更穩定。同時輸入輸出映射也加了非負約束,避免信號抵消。

      實際用下來,mHC只增加了不到7%的訓練時間,就能帶來明顯的性能提升,算是一筆很劃算的買賣。

      Muon優化器:更快收斂更穩定

      DeepSeek V4大部分參數都用了Muon優化器,只有嵌入、輸出頭、RMSNorm這些還用AdamW。Muon比傳統AdamW收斂更快,訓練更穩定,它的核心是用牛頓舒爾茨迭代做正交化,讓權重更新更穩定。

      DeepSeek這里還做了優化,用兩階段混合牛頓舒爾茨迭代,前8步用一組系數快速收斂,最后2步換另一組系數把奇異值穩定在1,效果比原來的更好。

      4. 底層基礎設施優化

      要把這些新架構跑順,底層工程優化少不了,這里挑幾個關鍵的講。

      專家并行的細粒度流水掩蓋通信延遲

      MoE模型用專家并行,通信一直是瓶頸。DeepSeek把專家分成多波,每波專家完成通信就立刻開始計算,不用等所有專家都傳完數據,讓通信和計算完全重疊,把延遲掩蓋掉。


      實測下來,這個方案比原來的非融合方案快1.5到1.73倍,RL推理這種對延遲敏感的場景,最高能快1.96倍,相關的MegaMoE內核已經開源了。

      FP4量化感知訓練

      為了省內存提速度,DeepSeek把MoE專家權重和CSA索引的QK路徑都做了FP4量化,而且是量化感知訓練,不是訓完再量化,所以精度掉的很少。

      這里有個巧思:FP4量化之后轉成FP8計算是無損的,因為FP8比FP4多兩個指數位,動態范圍更大,只要塊內最大最小比例不超過閾值,就能完全恢復,所以不用改現有FP8訓練框架就能用,推理的時候直接用FP4權重,確實能省內存提速度。

      專門為混合注意力設計的KV緩存管理

      混合注意力有好幾種不同的KV,壓縮比和更新規則都不一樣,傳統的分頁緩存不太適配。DeepSeek把緩存分成了兩部分:

      狀態緩存:存滑動窗口的KV,還有還沒湊夠壓縮數量的未壓縮尾部token,每個請求預分配固定大小的塊

      經典壓縮緩存:存已經壓縮好的CSA和HCA的KV,按塊分配,每個塊覆蓋兩種壓縮率的最小公倍數個原始token


      還支持磁盤緩存存共享前綴,重復請求不用重復預計算,不同策略適配不同場景,平衡存儲和計算。

      5. 訓練和后訓練的優化

      預訓練階段,Flash版訓練了32T token,Pro版訓練了33T token,從4K序列長度逐步拉長到1M,訓練不穩定的問題,DeepSeek用了兩個小技巧解決:

      1.預期路由:骨干網絡和路由網絡不同步更新,路由用歷史參數算索引,提前緩存,遇到loss spike才自動開啟,不怎么增加額外開銷就能解決 spikes

      2.SwiGLU截斷:把SwiGLU的線性分量限制在[-10,10],門分量上限10,消除數值 outliers,穩定訓練

      后訓練用了新的流程:先分別訓練各個領域的專家模型,每個專家單獨做SFT和RL,最后用在線策略蒸餾把多個專家的能力合并到一個模型里,比原來的混合RL效果好,不會有性能退化。

      還支持三種推理模式,滿足不同場景:不思考模式適合日常快速響應,高思考模式適合復雜問題,最大思考模式專門用來沖推理極限,把推理能力拉滿。工具調用也改了新的schema,降低調用錯誤率,還支持保留多輪推理歷史,長周期agent任務不用每次重新構建狀態。

      6. 實際體驗和行業影響

      從評測結果來看,DeepSeek V4-Pro-Max現在確實是開源模型的新天花板:知識類SimpleQA比之前的開源模型高了20個百分點,推理上Codeforces評分達到3206,已經和GPT-5.4差不多,是第一次開源模型在代碼競賽上追平頂級閉源模型;百萬上下文任務上,MRCR檢索超過Gemini 3.1 Pro,實際中文任務上,寫作贏了Gemini 3.1 Pro,白領任務不輸給Claude Opus 4.6,代碼代理也接近Opus 4.5的水平。


      最關鍵的不是它做到了百萬上下文,而是它做到百萬上下文的同時,把推理成本降下來了。原來跑百萬上下文,需要的顯存和計算量高到離譜,一般玩家玩不起,現在DeepSeek把計算量和緩存都壓到原來的十分之一,讓百萬上下文真的能用了。

      這相當于給測試時間縮放打開了新空間,以后模型要提升推理能力,就可以放開了多推理、多思考,不用被上下文長度和計算成本卡住。

      長周期agent、全文檔分析、在線學習這些方向,也有了更扎實的基礎。

      總結一下。

      DeepSeek-V4是一整套從架構到工程到訓練到推理的全面優化。

      1.6T參數,49B激活,百萬上下文,27%的計算量,10%的KV緩存。

      這組數字放在一起,就是四個字——效率革命。

      以前的模型在處理長文本時,就像是開著皮卡拉貨,油耗高、跑得慢。

      DeepSeek-V4相當于又快又省。

      當然,它也有缺點——架構太復雜了,各種trick疊在一起。

      但話說回來,在這個算力就是金錢的時代,誰能用更少的錢跑出更好的效果,誰就是牛X。

      DeepSeek-V4,就是那個能讓你少花錢多辦事的狠角色。

      手里的礦再多,也不如腦子里的活好使。

      文章來源于歪睿老哥,作者歪睿老哥

      創芯大講堂芯片課程匯總

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔣萬安被問懵:不認中國人身份,憑何遷兩蔣靈柩回大陸?

      蔣萬安被問懵:不認中國人身份,憑何遷兩蔣靈柩回大陸?

      娛樂的宅急便
      2026-05-08 13:39:15
      瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

      瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

      火山詩話
      2026-05-08 18:13:12
      張萌穿成這樣去海邊還讓不讓人玩了?

      張萌穿成這樣去海邊還讓不讓人玩了?

      時間巡查
      2026-04-23 15:30:25
      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      小書生吃瓜
      2026-05-02 22:22:47
      徐帆回應離婚僅9個月,馮小剛王志文同聚打球,與養女關系引爭議

      徐帆回應離婚僅9個月,馮小剛王志文同聚打球,與養女關系引爭議

      精彩背后的故事
      2026-05-07 23:31:21
      特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

      特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

      阿器談史
      2026-05-06 13:15:47
      美媒終于意識到,中國人不期待特朗普訪華,已不把美國放在眼里

      美媒終于意識到,中國人不期待特朗普訪華,已不把美國放在眼里

      靚仔情感
      2026-05-09 01:38:15
      續航一夜蒸發200公里,8家新能源車企遠程“鎖電”被約談,3家被立案調查

      續航一夜蒸發200公里,8家新能源車企遠程“鎖電”被約談,3家被立案調查

      金融界
      2026-05-07 18:29:15
      簡·方達召集群星辦音樂會,公開對抗威權主義

      簡·方達召集群星辦音樂會,公開對抗威權主義

      影視情報室
      2026-05-08 00:03:37
      臺軍購案通過后,鄭麗文賴清德迅速表態,果然是唱雙簧

      臺軍購案通過后,鄭麗文賴清德迅速表態,果然是唱雙簧

      老鼜尾聲電影解說
      2026-05-09 05:50:16
      再奪一冠,本澤馬社媒慶祝沙特國王杯奪冠:冠軍

      再奪一冠,本澤馬社媒慶祝沙特國王杯奪冠:冠軍

      懂球帝
      2026-05-09 08:44:21
      尺度拉滿,Netflix把A片之王搬上了熒幕

      尺度拉滿,Netflix把A片之王搬上了熒幕

      來看美劇
      2026-05-06 16:54:02
      鴻蒙智行尊界M900渲染圖曝光:霸氣尊貴 百萬級?

      鴻蒙智行尊界M900渲染圖曝光:霸氣尊貴 百萬級?

      CNMO科技
      2026-05-08 14:46:05
      日本3-1德國!贏球不可怕,可怕的是賽后張本的這番話,格局很大

      日本3-1德國!贏球不可怕,可怕的是賽后張本的這番話,格局很大

      劉哥談體育
      2026-05-08 13:24:01
      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      全球軍事記
      2026-05-08 21:21:30
      楚阿梅尼:認可俱樂部的處罰,我們仍是家人,我已向球隊致歉

      楚阿梅尼:認可俱樂部的處罰,我們仍是家人,我已向球隊致歉

      懂球帝
      2026-05-09 00:37:06
      丘吉爾在回憶錄中稱,原子彈挽救日本,否則日本或將不復存在

      丘吉爾在回憶錄中稱,原子彈挽救日本,否則日本或將不復存在

      磊子講史
      2026-03-23 16:34:24
      伊媒:哈爾克島附近油污實為歐洲油輪排放物

      伊媒:哈爾克島附近油污實為歐洲油輪排放物

      財聯社
      2026-05-09 06:34:05
      桑切斯Met Gala復刻“最傷風敗俗”名畫,結果到現場傻眼:怎么大家都想一塊去了?

      桑切斯Met Gala復刻“最傷風敗俗”名畫,結果到現場傻眼:怎么大家都想一塊去了?

      新歐洲
      2026-05-06 19:01:10
      先訪華再訪日?美故技重施,中方斬釘截鐵,特朗普還能不能訪華?

      先訪華再訪日?美故技重施,中方斬釘截鐵,特朗普還能不能訪華?

      全球直擊
      2026-05-09 04:09:35
      2026-05-09 09:04:49
      EETOP半導體社區 incentive-icons
      EETOP半導體社區
      國內著名的電子工程師社區
      7557文章數 15664關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      健康
      藝術
      教育
      公開課
      軍事航空

      干細胞能讓人“返老還童”嗎

      藝術要聞

      清風拂面,心曠神怡

      教育要聞

      你收到過最爛的禮物是什么?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女少妇内射日韩亚洲| 99国产欧美另类久久久精品| 大香蕉一区二区三区| 欧美日韩在线看5| 少妇高潮毛片免费看| 久久国产免费直播| 午夜爽爽爽男女免费观看影院| 久9re热视频这里只有精品免费| 中文字幕第55页一区| 青青草原国产精品啪啪视频| 12裸体自慰免费观看网站| 最近中文字幕日韩有码| 日韩a级?a级| 亚洲中文av| AV无码精品一区二区三区宅噜噜| 日韩精品一区二区三区四| 亚洲AV第二区国产精品| 日韩午夜高清福利片在线观看| 91久久国产成人免费观看| 97se亚洲综合自在线| 十八禁在线观看视频播放免费| 亚洲精品宾馆在线精品酒店| 激情图区| 亚洲精品入口一区二区乱| 久久综合九色综合网站| 99久热这里精品免费观看| 国产做受| 精品91在线| 在线永久免费观看黄网站| 无码2区| 香蕉av福利精品导航| 午夜宅男在线| 国产成a人片在线观看视频下载| 99久热在线精品视频| 亚洲性无码av在线| 丁香婷婷七月九月缴情| 亚洲五月天综合| 国内自产少妇自拍区免费| 久久精品一区二区三区中文字幕| 亚洲午夜精品久久久久久成年| 中文字幕高清|