網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

詳解 DeepSeek V4：Infra 巨鯨 “四連擊”，百萬上下文走進(jìn)現(xiàn)實(shí)

2026-05-02 20:57:18　來源: 晚點(diǎn)LatePost

河北舉報

分享至

系統(tǒng)級耦合優(yōu)化比單點(diǎn)創(chuàng)新更難。

訪談丨程曼祺

整理丨付自文、李清旸

上周五（4 月 26 日）DeepSeek-V4 終于發(fā)布后，《晚點(diǎn)聊 LateTalk》第一時間邀請一線 AI 從業(yè)者詳解 V4 技術(shù)報告。

兩位播客嘉賓，一位是 UCLA 在讀博士劉益楓，他是模型架構(gòu)背景，曾在 Kimi（月之暗面）和字節(jié) Seed 實(shí)習(xí)，參與 K1.5 研發(fā)，也自己做過優(yōu)化器。

一位是開源推理框架 SGLang 核心開發(fā)者趙晨陽，他是 Infra 背景，目前已加入 SGLang 背后的商用創(chuàng)業(yè)公司 RadixArk AI。他此前也曾在字節(jié) Seed 實(shí)習(xí)。

這期我們從 V4 切入，自然而然聊地到了 Kimi、Seed、MiniMax、Qwen、智譜等中國其他大模型團(tuán)隊(duì)的努力和進(jìn)展。

關(guān)于從字節(jié) Seed 提出的 HC 到 DeepSeek 的 mHC，再到 Kimi 的 Attention Residuals 的討論，還有 Kimi 和 DeepSeek 圍繞 Muon 優(yōu)化器的改進(jìn)，又或者是 DeepSeek 對北大團(tuán)隊(duì)開源的 TileLang 的深度使用……這些成果相互聯(lián)系、彼此激發(fā)，鮮活地刻畫了，一定的人才密度和競爭烈度后，開源模型社區(qū)在正迸發(fā)怎樣的進(jìn)步與質(zhì)變。

而一批中國公司，是開源大模型生態(tài)最活躍和堅(jiān)定的投入者。

從 R1 的一鳴驚人到如今的百花齊放，這一年多發(fā)生了太多迭代和變化。V4 的技術(shù)報告是了解這些細(xì)致且艱辛努力的一個切片。

不再用 MLA、全新注意力機(jī)制：“系統(tǒng)級耦合優(yōu)化比單點(diǎn)創(chuàng)新更難”

晚點(diǎn)：DeepSeek-V4 發(fā)布后，你們的實(shí)際使用體感如何？

劉益楓：數(shù)學(xué)推理、代碼能力和 Agent 指令執(zhí)行都比 V3 好不少，尤其是幻覺少得多。

代碼能力還是比 Opus 4.6 等閉源模型弱，和智譜 GLM-5.1、Kimi K2.6 等開源模型體驗(yàn)相近。

同時 V4 比 V3 大很多（V3 參數(shù)為 670 B ，V4 為 1.6T），價格貴了不少。但最近 V4-Pro 輸入緩存命中的價格從最初 25% 優(yōu)惠上又打了 1 折，降價很猛，這讓很多用戶愿意嘗試。

晚點(diǎn)：正好這幾天正在開 ICLR （國際學(xué)習(xí)表征會議，International Conference on Learning Representations，AI 頂會之一），大家在會場是如何討論 V4 和同期進(jìn)展的？

劉益楓：有意思的是，V4 放棄了從 V2 到 V3 使用的 MLA（注：多頭潛在注意力，由 DeepSeek 提出），而目前 K 2.6、GLM-5.1 等模型依然采用 MLA。

其實(shí)幾個月前，大家都認(rèn)為先進(jìn)的開源模型架構(gòu)已收斂到 MLA 了，接下來是一些小改進(jìn)。而 V4 放棄 MLA、重回 MQA（注：多查詢注意力 Multi-Query Attention，是相比原始注意力更低顯存占用和更低推理帶寬的一種改進(jìn)），這說明模型架構(gòu)還有很大改進(jìn)空間。

晚點(diǎn)：MLA 和 MQA 的區(qū)別是什么？

劉益楓：簡單來說，MQA 更接近原始多頭注意力（Multi-Head Attention）。相比 V3 的 MLA，它是一種 token-wise（詞元級）的壓縮機(jī)制，通過混合使用 CSA 和 HCA 實(shí)現(xiàn) 4:1 甚至 128:1 的大尺度壓縮。這時如果繼續(xù)保留 MLA，再疊加這些壓縮，實(shí)現(xiàn)起來會相當(dāng)復(fù)雜。這可能是 V4 沒有繼續(xù)用 MLA 的原因之一。

（注：CSA 是 “壓縮稀疏注意力”，HCA 是 “重度壓縮注意力”。在 DeepSeek-V4 中，CSA 是先壓縮序列、再做關(guān)鍵選擇，能從長上下文中定位關(guān)鍵信息； HCA 是高度壓縮大量 token 信息，保留壓縮后的全局感知。二者交替使用，能在大幅減少計(jì)算和顯存開銷時，既了解全局脈絡(luò)（HCA）又能抓到關(guān)鍵細(xì)節(jié)（CSA））

晚點(diǎn)：RadixArk.AI 這次同時完成了 SGLang 壓縮 token 信息對 V4 的推理 Day-0 適配和全參數(shù) RL Day-0 適配。適配過程中，有哪些對 V4 變化的觀察？

趙晨陽：DeepSeek 仍是 Infra 的巨鯨，每年他們發(fā)布都會為 infra 優(yōu)化 “續(xù)命一年”。比如說去年的 MLA、DeepSeekMoE（DeepSeek 提出的一種 MoE 混合專家模型架構(gòu)，最早用在 V2 中）等，我們扎扎實(shí)實(shí)做了一年，才能在開源框架上跑得比較好。

而 V4 換了一套全新的混合注意力方案。推理側(cè)，V4 的混合注意力、雙壓縮和 HashTop-K MoE，意味著前綴緩存、FlashMLA、投機(jī)解碼這些鏈路都要重建。我們團(tuán)隊(duì)為接入前綴緩存和投機(jī)解碼做了大量優(yōu)化，拿出了 ShadowRadix、HiSparse CPU 擴(kuò)展 KV，并完成了英偉達(dá) Hopper、Blackwell、Grace Blackwell、AMD、NPU 的全平臺適配。

（注：HashTop-K MoE：哈希路由混合專家模型。DeepSeek-V4 在前幾層 MoE 模型中引入的新型路由策略。不再依賴模型計(jì)算親和度，而是直接通過輸入 Token 的 ID 計(jì)算哈希值來固定分配專家。

FlashMLA：DeepSeek 開源的針對 MLA 的高效推理算子庫，專為英偉達(dá) Hopper 架構(gòu) GPU 優(yōu)化。

Blackwell：英偉達(dá)最新一代的 GPU 微架構(gòu)。

Grace Blackwell：英偉達(dá)推出的一種新型 “AI 超級芯片” 組合形態(tài)。將 Grace CPU 與 Blackwell GPU 物理封裝在了一起。）

RL 側(cè)，1.6T MoE 全參數(shù)訓(xùn)練對系統(tǒng)要求很高。六種并行策略（DP、TP、SP、EP、PP、CP）的正確性、訓(xùn)練與推理的一致性、indexer replay、FP8/BF16 混合采樣——任何一環(huán)出錯，獎勵曲線就起不來。

（注：indexer replay：在任務(wù)被中斷后，通過直接回放歷史執(zhí)行軌跡或復(fù)用已有的 KV 緩存來恢復(fù)狀態(tài)，避免冗余計(jì)算。

獎勵曲線：大語言模型在強(qiáng)化學(xué)習(xí)階段的核心監(jiān)控指標(biāo)，反映模型在特定任務(wù)上的表現(xiàn)提升過程。）

晚點(diǎn)：總結(jié)來說，你們覺得 V4 是一個怎樣的成果？

趙晨陽：作為工程師，我驚嘆于 DeepSeek 極強(qiáng)的工程能力。訓(xùn)練時把優(yōu)化器換成 Muon（矩陣級別優(yōu)化器，能對整個參數(shù)矩陣進(jìn)行正交化處理），訓(xùn)練精度推進(jìn)到 FP4，進(jìn)一步壓縮顯存和帶寬；推理時引入 DSA（DeepSeek 稀疏注意力）、DeepEP（DeepSeek 通信效率的底層基礎(chǔ)設(shè)施庫）、Mega MoE 這一整套 Infra。這里面的每一個名詞，在工程上都是巨大挑戰(zhàn)。這種系統(tǒng)級的耦合優(yōu)化比單點(diǎn)創(chuàng)新更難，更體現(xiàn)一個團(tuán)隊(duì)的工程深度。

劉益楓：作為算法研究人員，我更佩服 DeepSeek 的藝高人膽大。不僅引進(jìn)了 mHC（流行約束超連接）、起始層哈希路由等技術(shù)，還大膽使用了 CSA 和 HCA 等 token-wise 的壓縮技術(shù)，創(chuàng)新性使用了不同于一般實(shí)踐的 Muon 超參數(shù)，甚至放棄了既有的 MLA 架構(gòu)。同時一如既往地在并行訓(xùn)練、訓(xùn)練精度調(diào)節(jié)等方面給業(yè)界帶來新東西。

V4 技術(shù)報告里的中國芯片和 “消失的成本”

晚點(diǎn)：DeepSeek 從 V3.2 preview 到 V4，中間隔了 7 個多月，但不管是 Kimi、Qwen、GLM、MiniMax 還是 GPT、Claude，主流模型的版本號都切得越來越細(xì)，更新很密集。這背后反映了什么不同思路？

趙晨陽：OpenAI 或 Anthropic 的版本號更像 “產(chǎn)品語言”：頻繁更新是因?yàn)辇嫶蟮挠脩羧盒枰掷m(xù)感知模型進(jìn)步。DeepSeek 版本號更像 “研究語言”，每次主版本更新都對應(yīng)一次重大架構(gòu)變化。

這種差異由組織結(jié)構(gòu)和商業(yè)模式?jīng)Q定。前者要求研究與產(chǎn)品節(jié)奏高度咬合，后者則擁有更大的自由度集中力量辦大事，但也要求每次出手都足夠有分量。

劉益楓：模型版本命名有兩種派別。DeepSeek、Kimi 的大版本號代表模型結(jié)構(gòu)的重大改變；而 Claude、GPT 等模型的大版本號更多代表功能、能力改變，比如 GPT-4 融入了多模態(tài)能力、GPT-5 提高深度推理能力。

這背后也反映做模型的兩種不同傾向：中國的開源模型更追求工程優(yōu)化；美國的閉源模型更追求提出和開辟新的能力方向。

晚點(diǎn)：為什么 V4 的訓(xùn)練時間比預(yù)期更長？據(jù)我們了解，DeepSeek 原本希望春節(jié)前后發(fā) V4。

趙晨陽：具體發(fā)布計(jì)劃外界無從知曉，但從技術(shù)上可以推測，V4 一次性引入了至少四個互相耦合的新東西：混合注意力、mHC、Muon 優(yōu)化器和 FP4 訓(xùn)練。任何一個單獨(dú)上線都需要大規(guī)模 debug，四個一起上的復(fù)雜度更是組合式爆炸。

特別是在如此大規(guī)模的 MoE 上穩(wěn)定地跑 Muon，以及真正跑通 FP4 訓(xùn)練，這都是非常前沿的嘗試。

這次 V4 博客里的一句話很好：“率道而行，端然正己。” 我還想加上《道德經(jīng)》里我很喜歡的一句話：為而不恃，功成弗居。創(chuàng)造萬物卻不占為己有，功業(yè)成就卻不自我夸耀。

劉益楓：這次的一個亮點(diǎn)是 DeepSeek 原生支持國產(chǎn)芯片。從零開始為國產(chǎn)算法編寫優(yōu)化算子的工程量比較大，這可能是他們開發(fā)時間偏長的原因。不過在 V4 訓(xùn)練階段，外界普遍推測他們用的仍是英偉達(dá)芯片。

（注：V4 技術(shù)報告第三節(jié) “Infra” 一章中提到，DeepSeek 在華為昇騰芯片上驗(yàn)證了細(xì)粒度并行 EP 方案的技術(shù)可行性，這說明 DeepSeek 做了國產(chǎn)芯片的推理適配。原文為：We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.）

晚點(diǎn)：晨陽提到 “率道而行，端然正己”。他們引用的是荀子《非十二子》，前面還有兩句——“不誘于譽(yù)，不恐于誹”，不被贊譽(yù)裹挾，也不懼質(zhì)疑和批評。

劉益楓：從 DeepSeek 的致謝名單來看，離職人員比例大概在 5% 左右。相比其他公司，這個流動率挺低。所以我覺得 “不誘于譽(yù)” 不僅是公司理念，也是 DeepSeek 研發(fā)人員的心境。

趙晨陽：“舉世譽(yù)之而不加勸，舉世非之而不加沮”，是一種很高的境界。

晚點(diǎn)：這次技術(shù)報告和發(fā)布推文中都沒再公布訓(xùn)練成本，為什么？V3 和 R1 引爆市場的關(guān)鍵之一就是 557 萬美元的最后一次訓(xùn)練成本。（注：按參數(shù)量和訓(xùn)練數(shù)據(jù)量粗略估算，V4 的訓(xùn)練計(jì)算量可能接近 V3 的 3 倍）

趙晨陽：這是一個信號，DeepSeek 不再靠 “成本敘事” 定義自己，而是用模型能力說話。

劉益楓：最后一次訓(xùn)練成本往往是總成本的幾十分之一。前沿探索和對比驗(yàn)證的實(shí)驗(yàn)成本，人力和數(shù)據(jù)成本才是主要開支。所以公布這個成本本身沒太大意義。

晚點(diǎn)：R1 當(dāng)時爆火的另一個原因是，它以開源方式驗(yàn)證了測試時擴(kuò)展（test-time scaling）的新范式。而這一次，V4 是不是并沒有帶來這個級別的范式變化？

趙晨陽：R1 是開源世界里第一個走通 Long Reasoning 這條路的模型。V4 也是 follow 了 R1 的范式，定位是 “在這個范式下解決計(jì)算瓶頸”。

我覺得 “范式變化” 在 AI 圈被說得太多了，它本來是十年一遇、甚至更稀少的事。Transformer、scaling law、RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)，一種對齊方式）、測試時擴(kuò)展，這些是范式。但每隔半年就要找一個 “新范式” 的行業(yè)恐怕有些問題。

更值得問的問題是：沿著現(xiàn)在的 LLM 范式繼續(xù)優(yōu)化，還有多少空間？上限在哪兒？

我判斷還有相當(dāng)大的空間，但每一步都更難。V4 這種系統(tǒng)級耦合的工程優(yōu)化，會成為接下來一兩年的主旋律——大家會競爭誰能把許多分散的優(yōu)化做成一個能跑起來的整體系統(tǒng)。這很工程，但商業(yè)價值很大。

劉益楓：與其從方法論的角度解釋范式變化，不如把它理解為一個新的模型能力領(lǐng)域，比如之前的長文本能力、agent 能力、幻覺控制能力等。

提出新的能力領(lǐng)域，這才是目前大語言模型需要重點(diǎn)做、不斷做的事情。現(xiàn)在的問題不是 “能不能做到”，而是 “我們還不知道有哪些需要做的”。

從這一點(diǎn)來說，V4 帶給我的震撼遠(yuǎn)不如 R1，甚至不如 Kimi 最早提出長文本能力時帶來的感受。

晚點(diǎn)：那你看到了什么現(xiàn)在還在萌芽、未來可能重要的能力方向？

劉益楓：比如 AI 的 “自我意識”。目前 AI 還是人類的工具，它是否能擁有自己的意識，更自主地行動？

趙晨陽：我認(rèn)為有個重要的能力是 “減少推理量”。很多事情并不需要那么多推理，token 應(yīng)該用在更重要的事情上。現(xiàn)在的模型有點(diǎn)兒被 infra 優(yōu)化慣壞了，在上下文長度上太鋪張浪費(fèi)。

量化看，性能與效率

晚點(diǎn)：接下來我們來量化看一下 V4。首先是性能上，兩位怎么看 V4 的 Benchmark 選取和分?jǐn)?shù)表現(xiàn)？

趙晨陽：V4 明顯測了更多和 agentic 相關(guān)的 Benchmark，尤其強(qiáng)調(diào)工具使用、多步規(guī)劃等。整個行業(yè)從去年年中開始就有這個轉(zhuǎn)向：做事和完成任務(wù)比 “答得對” 更重要。

這里也正好解釋一下，Benchmark 大概有幾種邏輯：一是離線 Benchmark，測一個問題模型怎么回答，給答案打分；二是在線 Benchmark，把同一個問題或任務(wù)發(fā)給兩個匿名模型，讓用戶判斷哪個模型更好，這通常被叫做 Arena（競技場）。

DeepSeek-V4 的技術(shù)報告里就提到，他們做了一個內(nèi)部在線評測：公司里的工程師可以自行選擇模型完成任務(wù)、給模型反饋。他們比較了很多模型——Claude Opus 4.5、4.6，OpenAI GPT-5.5 等。V4 的分?jǐn)?shù)大概在 Opus 4.5 左右，和 Opus 4.6、GPT-5.5 還是有差距。有 9% 的 DeepSeek 工程師表示，不會將 V4-Pro 作為首選模型。這很坦誠，公司內(nèi)部的采用意愿非常重要。

這也引出另一個問題，可能是所有優(yōu)化編程能力的模型團(tuán)隊(duì)都要思考的——這世界上只有極少數(shù)的公司在編程上有數(shù)據(jù)飛輪，而獲取數(shù)據(jù)的最佳方式是 “被使用”。

劉益楓關(guān)于數(shù)據(jù)飛輪，我有個問題想問晨陽。美國以閉源模型為主，中國以開源模型為主，這是否意味著，很多用戶可能會自己部署開源模型在本地使用，中國團(tuán)隊(duì)更難獲取實(shí)際使用數(shù)據(jù)？

趙晨陽：其實(shí)不是的。開源模型上了萬億參數(shù)規(guī)模后，部署成本很高，個人無法負(fù)擔(dān)，個人不可能有 H200、B200 或 910B 這種 GPU。大多數(shù)模型哪怕開源，也是 host 在第三方云上，本質(zhì)還是走 API，在第三方會留下痕跡。不過據(jù)我所知，國內(nèi)還是大量在用美國的閉源模型（來編程）。

劉益楓目前 Chatbot Arena 上 DeepSeek-V4-Pro 排名大概在 23 ，比 GLM-5.1 和 K2.6 等都低；在 Artificial Analysis 的 Intelligence Index 的分?jǐn)?shù)為 52 ，也比 Kimi、Mimo 低。晨陽怎么看這個表現(xiàn)？

（注：訪談發(fā)生于 4 月 28 日，到 5 月 1 日，V4-Pro 在 Chatbot Arena 上的排名為超越了 K2.6，仍低于 GLM-5.1。）

北京時間 5 月 1 日 19 點(diǎn)，Chatbot Arena 的排名。

趙晨陽：選擇某款模型是需要一定信仰的，我愿意為了我的信仰無視這些分?jǐn)?shù)。（笑）

劉益楓：確實(shí)，刷榜不是目的。

趙晨陽：體感上，一流模型的能力已經(jīng)很難區(qū)分。在非常微小的差距里排先后意義不大。

我一直用 Claude Code，有一天我們公司的 Claude 因賬單原因被下線，我就去用了 Codex。我發(fā)現(xiàn)，離開了 Claude，外面的世界完全沒有下雨。

晚點(diǎn)：前面我們討論了性能，效率上，V4 技術(shù)報告里提到：在百萬級上下文中，DeepSeek-V4-Pro 的單 token 推理 FLOPs（衡量計(jì)算量，對應(yīng)計(jì)算資源）是 V3.2 的 27%，KV 緩存占用（對應(yīng)存儲資源）是 V3.2 的 10%。這個效率提升程度屬于行業(yè)正常水平還是比較驚人？

趙晨陽：V3.2 發(fā)布時，DeepSeek 提到，即便大幅降價，他們自己的推理服務(wù)仍有利可圖。

不過需要注意的是，這種提升有一個重要前提：上下文越長、優(yōu)勢越明顯。如果只是幾千 Token 的輸入輸出，效率提升并不顯著。當(dāng)然，現(xiàn)在的實(shí)際使用中，幾千 Token 可能連 system prompt 都打不住，所以日常使用的感受應(yīng)該挺明顯的。

晚點(diǎn)：這是不是也意味著，V4 的效率優(yōu)化對 Agent 場景很有用？因?yàn)樘幚矶嗖綇?fù)雜任務(wù)的 Agent 框架是需要很長上下文的。

趙晨陽：是的，Agent 會很有收益。

劉益楓：不過，也有用戶反映，V4 在解決同一個問題時，token 消耗比之前要大了。這部分抵消了效率優(yōu)化的體感。

晚點(diǎn)：這就是晨陽剛才說的他認(rèn)為需要提升的能力 “減少過度推理”。為什么模型更新后，解決同一問題的推理 token 消耗反而變多了？

趙晨陽：我之前在小紅書發(fā)過一篇文章，說現(xiàn)在的 token 浪費(fèi)有種 “拿高壓水槍澆花” 的美感。

模型會誠實(shí)地反映訓(xùn)練數(shù)據(jù)，token 消耗變多，說明在訓(xùn)練中確實(shí)存在用更長上下文解決相同問題的情況，這些吐出來的回答可能又成為訓(xùn)練的材料，這就形成壞循環(huán)，解決同一個問題需要的 token 越來越多。

劉益楓：其實(shí)這個問題一直存在，之前大家就在想解法，比如 K1.5 的報告里的 “長度懲罰”，當(dāng)回答同一問題時，會懲罰更長的回答。但即便如此，這個趨勢仍不可逆地發(fā)展，因?yàn)閷Ω鱾€團(tuán)隊(duì)來說，優(yōu)化模型解決問題的能力還是會優(yōu)先于優(yōu)化推理的簡潔。

V4 的具體創(chuàng)新和改進(jìn)：Infra 巨鯨的四連擊

整體思路：極致的稀疏

晚點(diǎn)：DeepSeek-V4 仍然是一個 MoE 模型，但前面也提到，這次模型架構(gòu)和 Infra 都有較多變化。你們怎么理解 V4 的整體架構(gòu)思路？

趙晨陽：V4 整體保留了 DeepSeekMoE 框架和 MTP （Multi-Token Prediction，即 “多 token 預(yù)測”，允許模型一次性預(yù)測多個 Token）策略，但在四個層面做了改造：注意力，用了混合稀疏注意力；殘差，使用了 mHC；優(yōu)化器，在這么大的模型規(guī)模上使用了 Muon；以及 infra 的變化，其中兩個關(guān)鍵詞是 TileLang 和 FP4。

這四件事的共同主題是：讓 1M 上下文從 “理論可行” 變成 “成本可接受”。

劉益楓：V4 進(jìn)一步提高了稀疏比，這對算法和底層算子開發(fā)，尤其是訓(xùn)練階段的算法和算子提出了相當(dāng)高的要求。它需要保證 MoE 的各專家之間訓(xùn)練程度的平衡及 token 路由的平衡。

另外一個創(chuàng)新是在前幾層 MoE 中用了哈希路由，來分配 token 到各專家，從算法上避免前幾層專家路由高度集中的問題。

此外，DeepSeek 這次沒有在 V4 上應(yīng)用 Engram（DeepSeek 2026 年 1 月提出的條件記憶技術(shù)）。一方面可能是因?yàn)?Engram 對性能的提升有限，但對部署又有較大挑戰(zhàn)。另一方面，基礎(chǔ)模型在訓(xùn)練過程中也會自動學(xué)習(xí) N-gram（連續(xù) N 個 token 組成的局部片段，可以理解成一些常見表達(dá)、固定搭配，模型訓(xùn)練中會自然學(xué)到這些短程上下文）能力，Engram encoder 更多起到輔助和信號加強(qiáng)作用。

趙晨陽：這次 V4 的激活比（激活參數(shù)比模型總參數(shù)）確實(shí)是這一波模型里最低的。V4-Pro 是 1.6T 總參數(shù)下，激活參數(shù) 49B，也就是約 3%，比先前已經(jīng)很低的 Kimi K 2.6 更低。

總參數(shù)越大、模型容量越高；激活參數(shù)越小、推理成本越低。MoE 的核心價值就是把這兩個量解耦，而 V4 把這種解耦推到了目前業(yè)界最激進(jìn)的位置。

晚點(diǎn)：正好這里補(bǔ)充一組數(shù)據(jù)，在激活參數(shù)比總參數(shù)的比例上，DeepSeek-V4-Pro 剛超過 3%，而 V3 時是 5.5%。其他近期模型中，K 2.6 是 3.2%，MiMo-2.5-pro 是約 4.1%，MiniMax M2.7 是 4.35%，GLM 5.1 是 5.3%。

趙晨陽：這一連串?dāng)?shù)，大家可能聽起來像在雕花，但很反映工程能力，從 4% 降到 3%，比從 5% 降到 4% 要難得多。不是說其他團(tuán)隊(duì)做不到，而是大部分團(tuán)隊(duì)會選擇穩(wěn)扎穩(wěn)打，DeepSeek 選擇繼續(xù)推到極限。

當(dāng)然，激活比也不是越低越好。比例太低會帶來負(fù)載不均、專家訓(xùn)練不充分、路由抖動等問題。DeepSeek V3 就討論過，路由負(fù)載均衡是否應(yīng)該納入 loss（損失函數(shù)）。能把 3% 的激活比例穩(wěn)定訓(xùn)下來，本身是工程能力的證明。

注意力機(jī)制：CSA 和 HCA 如何組合工作

晚點(diǎn)：2025 年年初 DeepSeek 提過 NSA（原生稀疏注意力），同年 9 月又在 V3.2 上用了 DSA，這次則是使用了組合 CSA 和 HCA 的新的混合注意力機(jī)制。這次的核心改進(jìn)是什么？主要解決什么問題？

劉益楓：V4 的每一層都同時跑滑動窗口注意力（SWA）和一種長距注意力（CSA 或 HCA）。CSA 是稀疏路線，在序列維度做 4:1 壓縮后再做 top-k 選取；HCA 更激進(jìn)，做 128:1 的壓縮，但保持稠密注意力。（4:1、128:1 是指把 4 個 token 聚合成一個表示和把 128 個 token 聚合成一個表示，所以說 HCA 的壓縮更激進(jìn)）

每層用 CSA 還是 HCA 是預(yù)定義的，因此面對同一個長上下文，不同層會從不同視角去看——稀疏層（CSA）精確鎖定關(guān)鍵 token，稠密層（HCA）提供整體語義概覽。

晚點(diǎn)：這套新的注意力機(jī)制對 Infra 的影響是？

趙晨陽：改動還是挺大的。對 RadixArk 和 SGLang 來說，適配這個混合方案的復(fù)雜度主要是前綴緩存的一致性。所以我們設(shè)計(jì)了 ShadowRadix 來應(yīng)對——三個異構(gòu) KV 池（SWA / C4 / C128）加兩個壓縮狀態(tài)池，要在預(yù)填充、解碼、投機(jī)解碼三個階段保持同步。這是 V3 時代不需要解決的問題。

（注：預(yù)填充，Prefill，指在推理的初始階段，模型一次性并行處理用戶輸入的整段 prompt，計(jì)算并生成已知文本的 KV 緩存，快速吃透內(nèi)容。

解碼，Decode，是常規(guī)生成階段。模型用預(yù)填充階段產(chǎn)生的緩存，開始自回歸地生成回答，一般解碼是逐個 token 吐出的，這是推理的速度瓶頸。

投機(jī)解碼，Speculative Decoding，是加速解碼的技術(shù)。它不再逐個 token 生成，而是一次性 “猜” 出多個未來的 token 并交由主模型批量驗(yàn)證，可大幅提升速度。）

此外，我們最近發(fā)的 HiSparse 把稀疏注意力的 KV 卸載到主機(jī)內(nèi)存，在長上下文場景能拿到 5 倍吞吐。V4 這種把計(jì)算 / 顯存成本壓到 27% / 10% 的模型，要在生產(chǎn)環(huán)境跑出商業(yè)價值，就需要 ShadowRadix、HiSparse 這類底層能力的同步推進(jìn)。

優(yōu)化器：Muon 已成檢驗(yàn)大模型團(tuán)隊(duì)工程能力的試金石

晚點(diǎn)：V4 里還有兩個很重要的變化，一是殘差上，使用了 DeepSeek 去年底提出的 mHC，一是業(yè)內(nèi)現(xiàn)在已用得比較多的 Muon。

先說優(yōu)化器。過去大模型訓(xùn)練的主流優(yōu)化器是 AdamW，但從去年到今年，Muon 開始被越來越多的前沿模型采用——OpenAI 在 2024 年底招募了 Muon 的開發(fā)者 Keller Jordan；Kimi 2025 年年初開始發(fā)布 Muon 的改進(jìn)版。能否先簡單解釋一下，優(yōu)化器在大模型訓(xùn)練里起什么作用？Muon 相比 AdamW 的核心優(yōu)勢是什么？

劉益楓：一般深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程，就是讓模型通過損失函數(shù)的梯度下降信號不斷更新權(quán)重，當(dāng)權(quán)重更新到一個狀態(tài)，模型能穩(wěn)定達(dá)成設(shè)計(jì)目標(biāo)了（比如預(yù)測），就是訓(xùn)完了，得到了穩(wěn)定的權(quán)重。

但由于模型結(jié)構(gòu)、數(shù)據(jù)分布等差異，普通梯度下降不太適合大語言模型這類深度神經(jīng)網(wǎng)絡(luò)，所以后來出現(xiàn)了 Adam、AdamW 等帶動量和預(yù)條件機(jī)制的優(yōu)化器來幫助訓(xùn)練。

AdamW 本質(zhì)上結(jié)合了動量和更新量歸一化兩類技術(shù)。動量可以讓更新更平滑，歸一化可以讓每一步更新的 scale 更統(tǒng)一，從而穩(wěn)定訓(xùn)練。但 AdamW 是元素級別的優(yōu)化，也就是對每一個參數(shù)單獨(dú)更新。

Muon 的核心區(qū)別在于，它是矩陣級別的優(yōu)化。對于線性層這類二維參數(shù)，它本質(zhì)上是矩陣乘法，Muon 會把整個矩陣作為整體進(jìn)行歸一化和優(yōu)化，這能更好地利用矩陣中不同元素之間的聯(lián)系，讓矩陣內(nèi)不同元素的優(yōu)化步調(diào)更一致，進(jìn)一步提升訓(xùn)練效率和推理能力。

晚點(diǎn)：從 Keller Jordan 在 2024 年 10 月提出 Muon 到它后來變得更主流，這個過程是怎樣的？

劉益楓：2024 年底 Muon 剛被提出時，對使用者并不友好。它需要針對不同模塊，如線性層、輸入嵌入層分別調(diào)學(xué)習(xí)率（learning rate，控制模型每次更新參數(shù)幅度的核心超參數(shù)，太大容易不收斂，太小則訓(xùn)練極慢），我們當(dāng)時也第一時間跟進(jìn)了。

到 2025 年初，Kimi 提出 Moonlight 的改進(jìn)。因?yàn)?Muon 是基于矩陣更新的（矩陣是二維的）所以訓(xùn)練時涉及一維參數(shù)的部分仍會用 AdamW，這就有一個二者之間的學(xué)習(xí)率的比例問題。

最初 Jordan 沒有確定 Muon 和 AdamW 的學(xué)習(xí)率比例。Moonlight 的重要貢獻(xiàn)是把這個比例基本確定為 0.2，這樣使用者只需設(shè)置一個學(xué)習(xí)率超參數(shù)就能適配整個模型。這讓 Muon 從理論創(chuàng)新走向了大規(guī)模應(yīng)用。

晚點(diǎn)：可以說，是 Kimi 的 Moonlight 和 MuonClip（在 2025 年年中的 K2 中，Kimi 進(jìn)一步改進(jìn) Muon 的版本）改進(jìn)讓業(yè)界開始更廣泛使用 Muon 了？

劉益楓：對。DeepSeek V4 的進(jìn)一步改進(jìn)是，它沒有用 Kimi 找的超參數(shù) 0.2，而是自己算了一個更精確的 0.18。

Muon 最開始用的是牛頓-舒爾茨五次迭代（一種用于矩陣歸一化或求逆的數(shù)值迭代方法），這是一個近似過程。而 V4 采用了十次迭代近似。每多一次迭代會提高計(jì)算消耗，但精度會更高，整體速度可能反而更快。

晚點(diǎn)：優(yōu)化器的變化需要 infra 上做什么調(diào)整和配合？

趙晨陽：推理側(cè)不需要關(guān)心，因?yàn)椴簧婕皡?shù)更新；訓(xùn)練側(cè)一定要做適配，而且是大工程，整個開源鏈條要從英偉達(dá)的 Megatron 或 Megatron-Bridge（英偉達(dá)發(fā)布的工具庫，主要用于在 Hugging Face 和 Megatron Core 格式之間無縫轉(zhuǎn)換大模型權(quán)重，并提供高性能分布式訓(xùn)練框架）這一層開始改，再一層層往下傳。閉源訓(xùn)練引擎怎么實(shí)現(xiàn) Muon 我就不清楚了。

劉益楓：Muon 是矩陣層面的優(yōu)化，會涉及大量矩陣乘法。如果某個矩陣很大，就需要大量拆分，甚至分布式訓(xùn)練。AdamW 不一樣，它是每個元素單獨(dú)更新，元素本身可以無限拆分。所以這是 Muon 特有的 infra 問題。

另外，預(yù)訓(xùn)練和后訓(xùn)練的優(yōu)化器基本要保持一致。而后訓(xùn)練的 infra 結(jié)構(gòu)更復(fù)雜，可能單機(jī)裝不下，所以后訓(xùn)練適配 Muon 會帶來更多結(jié)構(gòu)修改。

晚點(diǎn)：現(xiàn)在還沒有用 Muon 的大模型，是認(rèn)為 AdamW 仍有優(yōu)勢，還是沒來得及改？

劉益楓：大部分模型都改用 Muon 了，但也有一部分不太清楚。比如千問就沒有特別提及用的什么優(yōu)化器。

我個人認(rèn)為，沒改的是沒來得及改。尤其是后訓(xùn)練要如果要用 Muon，infra 會很難改。后訓(xùn)練沒改成，又會導(dǎo)致預(yù)訓(xùn)練就也只能用 AdamW。

晚點(diǎn)：是否使用 Muon，是現(xiàn)階段判斷一個模型團(tuán)隊(duì) infra 能力的指標(biāo)之一嗎？

劉益楓：可以這么說。但即便是用 Muon 的模型，在輸入和輸出這種模塊還是得用 AdamW。

趙晨陽：我非常認(rèn)可益楓說的，優(yōu)化器是檢驗(yàn)一個團(tuán)隊(duì)工程能力的試金石。

但關(guān)于 AdamW 需不需要拆分倒不一定，這取決于模型體量。模型大到一定程度，不可能完整部署在任何一個節(jié)點(diǎn)上，所以 Muon 和 AdamW 都需要復(fù)雜的并行策略，Muon 只會更復(fù)雜。

AdamW 會同時維護(hù)動量和速度兩個 state，很多操作是元素級別（element-wise）的，切分相對簡單。比如 ZeRO stage（顯存優(yōu)化技術(shù)）、FSDP（將模型參數(shù)、梯度和優(yōu)化器狀態(tài)完全打散分配到整個 GPU 集群中的訓(xùn)練技術(shù)）、TP 對齊（確保被切分的矩陣維度大小能夠被參與并行的顯卡數(shù)量整除的技術(shù)）的邏輯都更簡單。

Muon 的優(yōu)勢是砍掉了二階動量，optimizer state （優(yōu)化器在更新權(quán)重時需要持續(xù)記錄的內(nèi)部歷史數(shù)據(jù)）從兩倍降到一倍，能節(jié)省相當(dāng)多顯存。但它在動量上跑完牛頓-舒爾茨迭代后，還要做正交化。這就不是逐元素過程了，而是更復(fù)雜的矩陣計(jì)算，必須拿到完整的二維權(quán)重。如果參數(shù)已經(jīng)被 TP 或 FSDP 切碎，就要先聚合回來再計(jì)算，涉及很多分布式原理。所以可以看到，Kimi 的 K2 只在數(shù)據(jù)并行（data parallelism）層面做切分，沒有在張量并行上做切分。

現(xiàn)在優(yōu)化器層已經(jīng)進(jìn)入一個非常混雜、復(fù)雜的狀態(tài)，有 Muon 也有 AdamW。Muon 不是簡單替換 AdamW，而是用大量人力和工程復(fù)雜度換取大量顯存和收斂效率。這筆賬值不值得，取決于團(tuán)隊(duì)的工程水平、顯卡數(shù)量和模型規(guī)模。

劉益楓：而這里每個專有名詞背后都可以對應(yīng)一篇文章。

殘差連接方式：Seed、DeepSeek、Kimi 的激發(fā)與碰撞

晚點(diǎn)：聊完優(yōu)化器，來聊聊 V4 的殘差連接方式。這次 DeepSeek 引入了 mHC，這是一個怎樣的改進(jìn)？

劉益楓：mHC 之前，字節(jié) Seed 先提出了 HC（Hyper-connection，超連接），思路是擴(kuò)展層與層之間的信息流寬度。以前的 Transformer，層之間只有 d 維的信息流寬度；但現(xiàn)在是 d 維上加了 channel 維，信息流寬度變成 d x c，推理能力顯著提升。

不過原本 Hyper-connection 的數(shù)學(xué)原理導(dǎo)致梯度回傳和訓(xùn)練不穩(wěn)定，所以 Seed 發(fā)了這個成果后，社區(qū)反響并不強(qiáng)烈。

而 DeepSeek 的 mHC 加入了 Sinkhorn 算法（一種數(shù)學(xué)歸一化算法），主要用于約束路由和注意力分布，使其更均衡、數(shù)值更穩(wěn)定，能在一定程度上改善訓(xùn)練過程的穩(wěn)定性。

這個改進(jìn)既需要對 HC 的潛力判斷和細(xì)致分析，又需要基于內(nèi)觀指標(biāo)，如梯度的 scale、激活值，從現(xiàn)象倒推怎么解決這個問題。

補(bǔ)充一點(diǎn)，Kimi 也剛剛在 3 月初提出了 Attention Residual，它有點(diǎn)像 DenseNet（主要用于 CNN 卷積神經(jīng)網(wǎng)絡(luò)的一種密集連接結(jié)構(gòu)，每層與之前所有層直接連接），直接跨層相連，第一層可以直接影響最后一層。

mHC 和 Attention Residual 方法不同，但有異曲同工之妙——都是 layer-wise（層級別）地改進(jìn)信息流。

晚點(diǎn)：這兩種方法的區(qū)別是什么？你認(rèn)為哪種上限更高？

劉益楓：實(shí)驗(yàn)室更傾向搞 mHC，因?yàn)橘Y源有限，mHC 的 Infra 實(shí)現(xiàn)更簡單。

Attention Residual 對 Infra 的要求更復(fù)雜，它對每層之間關(guān)系有一個更精確的描述，我認(rèn)為它的上限可能更高。

晚點(diǎn)：mHC 對推理框架的影響是什么？

趙晨陽：mHC 把簡單添加殘差這件事變成了一個需要混合 GEMM（通用矩陣乘法，深度學(xué)習(xí)中最核心、最密集的數(shù)學(xué)操作）和 Sinkhorn 歸一化的復(fù)雜操作。

帶來的挑戰(zhàn)是：先前的算子對于 mHC 不夠高效，我們需要為 mHC 單獨(dú)寫一些新的 kernel（算子核，可以簡單理解為直接給 GPU 發(fā)的指令代碼，告訴芯片底層怎么做基礎(chǔ)運(yùn)算）。為新算法定制新 kernel 在 V3 之前并不頻繁。但比較欣喜的是，我們現(xiàn)在有了更多、更好的工具，如 TileLang。

Infra 兩個關(guān)鍵詞：TileLang & FP4

晚點(diǎn)：正好你提到了 TileLang，接下來就是想聊 DeepSeek-V4 報告里 infra 部分使用的 TileLang 語言和 FP4 訓(xùn)練精度。簡單來說，這兩個東西是什么，作用是什么？

趙晨陽：先說 TileLang，我喜歡叫它 “太浪”，聽起來像拳擊大師的名字。

infra 要做的是在計(jì)算路徑相同的情況下加速計(jì)算。比如寫 kernel，就是結(jié)合底層硬件特性優(yōu)化計(jì)算。同樣一個 4096 乘 4096 的矩陣，可以按 128 拆，也可以按 256 拆。不同硬件的顯存、帶寬不同，適合的拆分方式也不同。總之 kernel 就是讓底層的矩陣計(jì)算更快。

寫 kernel 的語言，通常大家會對比 CUDA、Triton 和 TileLang：

CUDA 是英偉達(dá)的護(hù)城河，性能最高，但開發(fā)和維護(hù)成本也最高。

Triton 由 OpenAI 開源，它降低了寫 kernel 門檻，但犧牲了一些表達(dá)能力和性能。同一個 kernel 用 Triton 寫，效率可能比 CUDA 低不少。

TileLang 走在中間，是北大團(tuán)隊(duì)發(fā)起的一個項(xiàng)目：它比 Triton 更底層、表達(dá)能力更強(qiáng)，又比 CUDA 更好用，是國內(nèi)發(fā)展起來的優(yōu)秀開源項(xiàng)目。

V4 報告提到，他們可以用 TileLang 把一些 kernel 的啟動開銷壓縮到微秒級，也提升了 “位級可重現(xiàn)”，就是一個 prompt 輸入給 V4 后，如果用 TileLang，兩次前向推理（神經(jīng)網(wǎng)絡(luò)從輸入到輸出的計(jì)算過程）的結(jié)果更容易復(fù)現(xiàn)，這對推理工程師 debug 很有幫助。

TileLang 的長期價值是大大降低了為新算法快速開發(fā)新 kernel 的邊際成本。

DeepSeek 提出 mHC 時也寫到，他們?yōu)?mHC 做了一版 TileLang 的 kernel。我們 SGLang 團(tuán)隊(duì)也針對推理場景的小批量解碼做了 split-K（把矩陣乘法中的 K 維度拆開并行計(jì)算，以提升小批量場景下的硬件利用率）的 TileLang 版本。最近一年半，TileLang 已開始被全球前沿 lab 當(dāng)作算法實(shí)現(xiàn)的默認(rèn)選擇之一。

以前做編譯器這一層很苦，但現(xiàn)在大家也看到了它的重要性。

晚點(diǎn)：你提到編譯器和 DSL 底層語言，讓我想到五年前采訪鴻蒙當(dāng)時的負(fù)責(zé)人王成錄，他提到十年前想做操作系統(tǒng)時，在國內(nèi)很難招到會匯編語言的人才。

趙晨陽：做編譯器一直是非常偉大的事業(yè)，但也很苦、離商業(yè)遠(yuǎn)、不被關(guān)注。

晚點(diǎn)：TileLang 最初是北大楊智老師團(tuán)隊(duì)發(fā)起的，后來也有很多社區(qū)貢獻(xiàn)。那如果 TileLang 這類開源生態(tài)越來越繁榮，和 CUDA 長期會是怎樣的關(guān)系？是更豐富 CUDA 的生態(tài)還是形成競爭？

趙晨陽：很難說。就像模型廠商會發(fā)技術(shù)報告，大家彼此借鑒，但也存在競爭。

劉益楓：TileLang、Triton 和 CUDA 的關(guān)系，有點(diǎn)像 C++ 和匯編語言，或者 Python 和 C 的關(guān)系，是不同層級的語言，CUDA 更底層。

晚點(diǎn)：那 TileLang 也可以用在其他芯片廠商更底層的軟件系統(tǒng)上？

趙晨陽：是的，事實(shí)上很多中國硬件廠商正在主動支持 TileLang 生態(tài)。

晚點(diǎn)：可以說 DeepSeek 在 TileLang 的投入比別人更多嗎？V3.2 里就開始用了。

趙晨陽：只能說他們投入很多，但不一定比其他人更多。其他公司披露的內(nèi)部技術(shù)實(shí)現(xiàn)有限。

晚點(diǎn)：這次的另一個變化是訓(xùn)練時的浮點(diǎn)數(shù)精度格式從 V3 的 FP8 變成了 V4 的 FP4。這是怎樣的演進(jìn)思路？

趙晨陽：FP4、FP8、BF16、INT4 等等都是數(shù)值格式，數(shù)字代表存儲位寬。比如 BF16 就是用 16 位存一個浮點(diǎn)數(shù)，F(xiàn)P4 只用 4 位。

DeepSeek-V3 是第一個把 FP8 做到大規(guī)模模型上的工作，到了 V4，他們又實(shí)現(xiàn)了 FP4。再往下會不會有更激進(jìn)的優(yōu)化和壓縮？非常值得期待。

減少存儲位寬的好處是減少峰值算力，同時提升顯存容量和數(shù)據(jù)讀取效率。但位寬太小也會導(dǎo)致訓(xùn)練中梯度溢出或歸零。

DeepSeek 為了解決 FP4 訓(xùn)練問題，在預(yù)訓(xùn)練和后訓(xùn)練上都用了很多工程巧思。我比較熟悉的是 QAT 量化感知訓(xùn)練（訓(xùn)練時模擬量化誤差以適應(yīng)低精度部署）。DeepSeek 在后訓(xùn)練里做了 quantization-aware training，即訓(xùn)練時模擬量化、采樣時真實(shí)量化。

強(qiáng)化學(xué)習(xí)可以看成兩個階段：先采樣，模型生成回復(fù)；再打分，把結(jié)果拿去訓(xùn)練。訓(xùn)練階段，優(yōu)化器維持 FP32 主權(quán)重，計(jì)算前先壓縮到 FP4 范圍，再無損反量化回 FP8 計(jì)算。這個偽量化過程沒有真正前向計(jì)算，但會體現(xiàn)量化誤差。之后再用 block-wise 的 scale points（縮放系數(shù)點(diǎn)，用來校準(zhǔn)量化范圍）兜住離群點(diǎn)（數(shù)值異常偏大的參數(shù)或激活），讓模型提前適應(yīng)低精度損失。采樣階段則做真實(shí) FP4 量化，把 FP4 權(quán)重真正用于采樣，降低訪存瓶頸，實(shí)現(xiàn)物理提速。更重要的是，這和后續(xù)模型部署一致。現(xiàn)在 DeepSeek 發(fā)布的 checkpoint（模型權(quán)重文件）也是 FP4，訓(xùn)練中采樣用的權(quán)重就是最終發(fā)布權(quán)重，而不是先訓(xùn)練 FP8 再量化成 FP4。這樣損失更小，也提升了強(qiáng)化學(xué)習(xí)效率。

強(qiáng)化學(xué)習(xí)里，模型越大、token budget（單次推理可生成的最大 token 數(shù)量上限）越長，采樣越重，可能占到 70% 以上時間。采樣時降低位寬和顯存讀取壓力，對速度提升很明顯。所以訓(xùn)練時偽量化、采樣時真實(shí)量化，在 DeepSeek 論文里有很強(qiáng)體現(xiàn)。Kimi 的 K2 也用了類似思路。

我們 SGLang 的 RL 團(tuán)隊(duì)去年也做了兩個相關(guān)工作：FP8 全流程強(qiáng)化學(xué)習(xí)，訓(xùn)練和推理都用 FP8；還有 INT4 的 QAT。INT4 和 FP4 不完全一樣，但也屬于激進(jìn)壓縮方案。

實(shí)事求是地說，在開源領(lǐng)域，我們團(tuán)隊(duì)的量化 RL 做得比較領(lǐng)先，但和 DeepSeek 還有差距。我們的 INT4 量化感知訓(xùn)練，采樣做的是 W4A16，也就是權(quán)重 4 位、激活值 16 位，DeepSeek 做到了更極限的 W4A8。極致性能上，他們走得更遠(yuǎn)，這也是我們接下來要繼續(xù)攻堅(jiān)的方向。

晚點(diǎn)：如果 DeepSeek 把官方推理框架開源，它和其他開源推理框架會是什么關(guān)系？

趙晨陽：這涉及開源和閉源推理框架的哲學(xué)區(qū)別。開源推理框架是眾口要調(diào)，不只支持 DeepSeek，也要支持小米、智譜、MiniMax、Kimi 等模型。這種整合性，是它和閉源內(nèi)部推理引擎的重大區(qū)別。

晚點(diǎn)：它給開發(fā)者或用戶的價值是什么？

趙晨陽：最大價值是滿足很多公司本地部署推理引擎的需求，而開源推理引擎的性能提升，也會反過來促進(jìn)閉源推理引擎。

訓(xùn)練上也類似。閉源仍領(lǐng)先不少，但開源能讓整個領(lǐng)域更透明。以前開源框架對 RL 的適配負(fù)擔(dān)很重，一個模型 2 月上線，可能到 5、6 月才有開源 RL 框架能跑起來。這次 SGLang 在發(fā)布當(dāng)天就支持了 V4 RL 適配。

RL 和推理關(guān)系很近。推理是不帶參數(shù)回傳的前向傳播，強(qiáng)化學(xué)習(xí)則重在采樣，采樣后做參數(shù)回傳。我們還是很高興能在這么大的 MoE 模型上同時做好推理和 RL，并把一致性做到極致。

我也預(yù)見到，F(xiàn)P4 已經(jīng)正式走出硬件廠商的 PPT，成為開源語言模型世界里真正跑通的工業(yè)標(biāo)準(zhǔn)。

晚點(diǎn)：目前在這么大規(guī)模的開源模型里，F(xiàn)P4 是不是只有 DeepSeek 用了？

趙晨陽：OpenAI 的開源模型 gpt-oss 也是，但大家技術(shù)選擇不完全一致。只能說 FP4 是全世界都在努力的方向。

劉益楓：英偉達(dá)的開源模型也用 FP4 。Blackwell 卡也是支持 FP4 的。

后訓(xùn)練：多專家訓(xùn)練 + 蒸餾的后訓(xùn)練

晚點(diǎn)：DeepSeek-V4 報告最后兩部分講了訓(xùn)練過程，包括預(yù)訓(xùn)練、后訓(xùn)練和測評。這個部分有什么亮點(diǎn)嗎？

劉益楓：一個亮點(diǎn)是預(yù)訓(xùn)練先分裂專家，再做 on-policy distillation（在線策略蒸餾，指在當(dāng)前模型實(shí)際采樣分布上進(jìn)行蒸餾，而不是只依賴離線固定數(shù)據(jù)）。最近大家又都在研究 on-policy distillation，但各家做法差別很大。

蒸餾的話，之前 DeepSeek-V3 和 R1 都實(shí)踐過，但 V4 是先訓(xùn)練一些小專家，再把這些專家學(xué)到的技能蒸餾出來，節(jié)省參數(shù)量。訓(xùn)練中，專家越多，容量越大，但參數(shù)量和顯存要求也越高。所以先讓專家學(xué)好，再提取專家精華，從而提高最終模型能力。

趙晨陽：他們做的是多專家訓(xùn)練，本質(zhì)是在解決多目標(biāo)優(yōu)化問題。而同時優(yōu)化目標(biāo)的個數(shù)，是智力上限的體現(xiàn)。聯(lián)合訓(xùn)練就相當(dāng)于在多目標(biāo) loss surface（損失曲面，損失函數(shù)在參數(shù)空間的幾何形狀）上找 Pareto 最優(yōu)（帕累托最優(yōu)，無法在不損害其他目標(biāo)的前提下進(jìn)一步改善任意目標(biāo)的狀態(tài)），但工程里很難同時找到，因?yàn)樘荻茸呦驈?fù)雜，目標(biāo)沖突嚴(yán)重。比如一味 push coding 能力，數(shù)學(xué)可能變差；數(shù)學(xué)修好了，指令遵循可能又受影響。

現(xiàn)在先分裂再蒸餾的做法是：在各個目標(biāo)上找局部最優(yōu)，再讓一個學(xué)生模型擬合多個教師模型的輸出分布。這有點(diǎn)像數(shù)學(xué)插值，把復(fù)雜 loss surface 上的聯(lián)合優(yōu)化，變成在已收斂離散點(diǎn)之間做插值，工程上更穩(wěn)定可控。

業(yè)界之前也有類似嘗試。Qwen 在 post-training 階段提過 multi-stage（多階段訓(xùn)練或聚合）的專家聚合，學(xué)術(shù)界也一直有模型聚合、模型 Spawn（從已有模型派生或擴(kuò)展新模型）這類技術(shù)。硅谷前沿閉源模型大概率也有類似思路，只是披露有限。開源生態(tài)是這一波中國實(shí)驗(yàn)室對 AI 領(lǐng)域的實(shí)質(zhì)貢獻(xiàn)。

晚點(diǎn)：關(guān)于測評部分，前面已有部分討論，還有什么補(bǔ)充嗎？

趙晨陽：有一位 NLP 領(lǐng)域很知名的研究者說過一句話：We cannot optimize what we cannot evaluate，“如果一個東西我們無法評估，我們就無法優(yōu)化它”。所以我更愿意把這件事叫 eval（評估），而不是 benchmark（測評）。測評面向的是具體任務(wù)，發(fā)布一兩年后就可能過時。但評估永遠(yuǎn)存在。

現(xiàn)在評估也越來越難，因?yàn)閳鼍霸絹碓綇?fù)雜。比如 Claude Code 更新后，常有人說某些方面變差了。我也在想，這類工具到底怎么評估一個 feature 要不要更新？因?yàn)樽?Agent 的人有很多想法，每個聽起來都有道理，但不可能全都滿足。東西加得太多，體驗(yàn)反而變差。

整個行業(yè)必須把評估做好，否則很容易陷入自欺欺人的循環(huán)。

晚點(diǎn)：Opus 4.7 更新后，很多人還是認(rèn)為 4.6 更好用。

趙晨陽：現(xiàn)在有個詞叫 vibe checking 或 vibe benchmarking。大家已經(jīng)很難判斷模型好壞，只能根據(jù)有限幾次對話說：以前 4.5 能做的任務(wù)，為什么 4.7 做不好？

我們已經(jīng)進(jìn)入 benchmark 的可信危機(jī)。很多模型在 benchmark 上都是 90 多分，但實(shí)際差異很大。所以這一代針對智能體能力的評估還沒有形成共識，行業(yè)還需要更好的評估基建。

劉益楓：我覺得更重要的是發(fā)現(xiàn)和提出新的領(lǐng)域能力，比如 Agent、長程注意力能力。

晚點(diǎn)：V4 是不是沒有提出什么新的領(lǐng)域能力？

劉益楓：對，這也是它沒有那么令人震驚的一點(diǎn)。

趙晨陽：但有一點(diǎn)值得欣喜：這幾代模型沒有明顯退化，之前做得好的任務(wù)，后面沒有變差，這很難，代價是模型上下文長度已非常夸張。

講到測評基準(zhǔn)，去年 DeepSeek-V3 發(fā)布時，我有一篇 ICLR 論文，評估語言模型在 GitHub 上面對刁鉆審核者，提交 PR 并合并的能力。它和數(shù)學(xué)競賽、SWE-bench（主流代碼能力基準(zhǔn)）很不一樣，這個任務(wù)在完成編碼后，還要和審核者做多輪修改溝通，再把代碼合并進(jìn)去。

我很欣喜自己做的 benchmark 得到了更多認(rèn)可，即便今年已經(jīng)被刷滿了，但至少成為了 ICLR oral paper（會議口頭報告論文，代表較高認(rèn)可度）。

比如最近我比較關(guān)注的一個基準(zhǔn)是 ClawBench，就是評估 OpenClaw 場景下，用戶對模型的滿意度。我也希望到明年，這種類似個人編程助手的 benchmark 能被刷滿。之后肯定還會有新挑戰(zhàn)和應(yīng)用。

美國追新能力、高定價；中國追性價比、工程極限

晚點(diǎn)：最近模型更新密集，從 3 月底到現(xiàn)在，有小米 MiMo 2.5、GLM 5.1、MiniMax 2.7、K 2.6、Opus 4.7、GPT-5.5 等等。你們覺得大家現(xiàn)在努力的共性是什么？

劉益楓：開源模型的方法和架構(gòu)在趨同。基座基本都是 MLA，優(yōu)化器也類似，之前大家用 AdamW 或者 AMSGrad（Adam 的一個變體，通過保留歷史二階矩估計(jì)的逐元素最大值，限制自適應(yīng)學(xué)習(xí)率波動，從而改善收斂穩(wěn)定性），現(xiàn)在陸續(xù)轉(zhuǎn)向 Muon 或基于 Muon 微調(diào)。

在能力上，Agent 是開源和閉源模型共同重視的方向。大家發(fā)現(xiàn)，未來模型商業(yè)化可能更多是給 Agent 提供 token，而不是只靠訂閱。

趙晨陽：到底做訂閱制，還是 token by token 計(jì)費(fèi)？我更傾向訂閱制，同時額度用完再收 token 費(fèi)。實(shí)際上大部分用戶用不完訂閱額度，所以訂閱制可能更賺錢。

劉益楓：但很多公司轉(zhuǎn)向按 token 計(jì)費(fèi)，也是因?yàn)楝F(xiàn)在訂閱的價格真的扛不住。高了沒人買，低了又虧。

趙晨陽：這確實(shí)沒有定論。比如 Claude Code 這么成功，但到底盈利情況如何？

晚點(diǎn)：如果今年底 Anthropic 真啟動 IPO，應(yīng)該能看到財(cái)務(wù)數(shù)據(jù)。現(xiàn)在很多視頻生成產(chǎn)品是你說的訂閱加實(shí)際消耗，訂閱滿額度后再額外買積分。影視從業(yè)者有剛需，客單價也比想象中高很多。

趙晨陽：商業(yè)上我很喜歡視頻生成的生態(tài)。但壞消息是，開源視頻生成模型和閉源差距很大。

晚點(diǎn)：好像也沒有太多人愿意開源視頻生成模型，這是不是側(cè)面說明它確實(shí)挺賺錢？迄今比較先進(jìn)的開源視頻生成模型仍是阿里的通義萬象。

趙晨陽：我最近做語音生成模型，也發(fā)現(xiàn)開源模型相比 GPT-4o 那個時代的模型仍有不少差距。這些模型可能是很賺錢。

劉益楓：視頻模型用戶粘性也特別大。相比語言模型，視頻生成模型可能更適合訂閱制。

晚點(diǎn)：現(xiàn)在關(guān)注度基本被 coding、通用 Agent 吸走了，因?yàn)楦偁幗棺疲捕际谴蠊尽５曨l或更廣義的 AIGC 可能更創(chuàng)業(yè)友好。語音也是，像 ElevenLabs 也在自己的空間里持續(xù)發(fā)展。以上是各家大模型的共性。那你們觀察到各家的差異是什么？

趙晨陽：開源模型里，DeepSeek 和 Kimi 取向比較接近，工程和創(chuàng)新性都做得比較極限，比如大 MoE、低激活、長上下文和極致成本優(yōu)化。

GLM、Qwen、MiniMax 則在 RL 訓(xùn)練端、長上下文落地上有扎實(shí)積累。還有小米，MiMo-V2.5-Pro 在 Arena 上的分?jǐn)?shù)比 V4 還高。競爭非常激烈，當(dāng)然這也給開源推理引擎帶來很大工作量。

晚點(diǎn)：階躍和混元呢？

趙晨陽：階躍在多模態(tài)上發(fā)力很早，而且我認(rèn)為多模態(tài)遠(yuǎn)沒有飽和。

混元最近由姚順雨掌帥，新模型雖然還不在 1T 以上模型的牌桌上，但在 300B 規(guī)模上做得很扎實(shí)。現(xiàn)在是 3.0 Preview，如果之后上 Pro、進(jìn)微信端，格局會很有意思。

晚點(diǎn)：中美之間的區(qū)別是什么？

劉益楓：總體來說，美國模型更追求領(lǐng)域創(chuàng)新，比如長上下文、多模態(tài)融合、Agent 能力，或者像 OpenAI 剛發(fā)的 image-2 這種跨躍性能提升。

中國模型更側(cè)重性價比。同等能力下，中國模型收費(fèi)比美國模型低一個數(shù)量級。這和中國充足的技術(shù)人員儲備、有限的算力資源都有關(guān)。

趙晨陽：我之前在 Amazon AGI SF Lab 實(shí)習(xí)過，也和益楓在字節(jié) Seed 實(shí)習(xí)過。美國這一代模型的重點(diǎn)是面向智能體的長程任務(wù)能力，比如 Claude Code，在多輪 agentic coding 上進(jìn)步很大。可以想見 RLHF、RLAIF（基于 AI 反饋的強(qiáng)化學(xué)習(xí)，用 AI 生成的評價或偏好信號來訓(xùn)練、對齊模型）這些對齊方法經(jīng)過幾年積累，已經(jīng)形成很強(qiáng)的數(shù)據(jù)閉環(huán)。

中國團(tuán)隊(duì)的強(qiáng)項(xiàng)是架構(gòu)創(chuàng)新密度和工程完成度。V4 報告里一次性把混合稀疏注意力、mHC、Muon、FP4、TileLang 這么多事情全部換掉并跑通，這種決心和執(zhí)行力很罕見。中美路徑和風(fēng)格不同，但行業(yè)在螺旋上升。

晚點(diǎn)：美國模型好像沒有做得那么稀疏，他們不太追求這個。

劉益楓：美國算力相對多，也不一定要這么稀疏。太稀疏會犧牲一些能力上限。

趙晨陽：這也和美國缺少高質(zhì)量的工程人才有關(guān)。

晚點(diǎn)：所以美國 AI lab 更傾向于先沖性能。反正模型貴也有人買，之后再考慮降成本。

趙晨陽：對。很多人批評中美大搞 AI 競賽，但我覺得很遺憾，只有中美能搞競賽，沒有其他國家玩得起這一波比賽了。

晚點(diǎn)：V4 或最近這些新模型，會對你們接下來的研究方向和具體工作產(chǎn)生什么影響？

劉益楓：如果在公司實(shí)習(xí)，我會想做 CSA、HCA 這類 token-wise 壓縮的長文本方向。但實(shí)驗(yàn)室資源有限，很難做長文本，所以我傾向研究 Hyper-Connection、 Kimi 的 Attention Residual。這可能類似從 ResNet（殘差網(wǎng)絡(luò)，通過跨層捷徑連接緩解梯度消失問題的經(jīng)典視覺架構(gòu)）到 DenseNet 的變化。對 Transformer 架構(gòu)來說，也可能會出現(xiàn)提高層間信息流動的新趨勢。

另外我也在做優(yōu)化器。DeepSeek-V4 采用了不同超參數(shù)。Muon 怎么進(jìn)一步改進(jìn)、超參數(shù)怎么設(shè)定，都值得研究。Keller Jordan 的五步牛頓-舒爾茨迭代，和 DeepSeek-V4 的十步牛頓-舒爾茨迭代哪個更好，值得繼續(xù)探索。

趙晨陽：我之前的一個研究是評估多輪 Agent 在 GitHub 上提交 PR 時的真實(shí)表現(xiàn)。現(xiàn)在我需要把它用起來。因?yàn)榫S護(hù)開源工具時，會收到很多 AI 生成的 PR，我需要把研究里的標(biāo)準(zhǔn)內(nèi)化到工作中，判斷哪些 PR 靠譜、哪些應(yīng)該斃掉。

另外我最近做語音模型，它的工程優(yōu)化比語言模型差很多，很多語言模型里的工作都可以在語音模型上重試一次。DeepSeek 這版做了很優(yōu)秀的 PD 分離（Prefill-Decode 分離，將計(jì)算密集的預(yù)填充階段與訪存密集的解碼階段分配到不同硬件以提升整體吞吐）、MTP 等工作。語音模型未必用得上 PD 分離，但 MTP 很關(guān)鍵。比如現(xiàn)在和豆包語音對話，它語音吐出的速度很快。但開源模型在這方面還沒做到這么好。

晚點(diǎn)：最后想問兩位，再過一兩年來看，V4 最可能被記住的是什么成果或者思路？

劉益楓：從算法層面看，可能是 token-wise 的極致壓縮。之前大家更多是在 KV-cache 上做單 token 降維，比如 MLA 的先降維再升維。但 token-wise 壓縮，應(yīng)該是 V4 首先應(yīng)用到了工業(yè)級模型上。

趙晨陽：我和益楓觀點(diǎn)類似。長上下文、極致低激活比例、低單 token 成本這個組合，無論從架構(gòu)層面還是基礎(chǔ)設(shè)施層面看可能都是 V4 的持久遺產(chǎn)。

具體到 mHC 或混合注意力，未必會一直以現(xiàn)在的方式。它們可能像 MLA，是某個階段的最優(yōu)解，過一兩個周期后會被更優(yōu)雅的方案替代，當(dāng)然硬件也會反過來推動迭代。

但 DeepSeek-V4 率先驗(yàn)證的這套工程配方，會成為后續(xù)很多開源大模型的默認(rèn)起點(diǎn)。在這個意義上，DeepSeek 一直是開源模型的參考基準(zhǔn)。

更多技術(shù)討論，可聯(lián)系兩位播客嘉進(jìn)一步交流：

趙晨陽（wechat：LoveDeathAndLLM）、劉益楓（wechat：lauyikfung20）

題圖來源：PinkPantheress-Romeo

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.