![]()
系統(tǒng)級耦合優(yōu)化比單點(diǎn)創(chuàng)新更難。
訪談丨程曼祺
整理丨付自文、李清旸
上周五(4 月 26 日)DeepSeek-V4 終于發(fā)布后,《晚點(diǎn)聊 LateTalk》第一時間邀請一線 AI 從業(yè)者詳解 V4 技術(shù)報告。
兩位播客嘉賓,一位是 UCLA 在讀博士劉益楓,他是模型架構(gòu)背景,曾在 Kimi(月之暗面)和字節(jié) Seed 實(shí)習(xí),參與 K1.5 研發(fā),也自己做過優(yōu)化器。
一位是開源推理框架 SGLang 核心開發(fā)者趙晨陽,他是 Infra 背景,目前已加入 SGLang 背后的商用創(chuàng)業(yè)公司 RadixArk AI。他此前也曾在字節(jié) Seed 實(shí)習(xí)。
這期我們從 V4 切入,自然而然聊地到了 Kimi、Seed、MiniMax、Qwen、智譜等中國其他大模型團(tuán)隊(duì)的努力和進(jìn)展。
關(guān)于從字節(jié) Seed 提出的 HC 到 DeepSeek 的 mHC,再到 Kimi 的 Attention Residuals 的討論,還有 Kimi 和 DeepSeek 圍繞 Muon 優(yōu)化器的改進(jìn),又或者是 DeepSeek 對北大團(tuán)隊(duì)開源的 TileLang 的深度使用……這些成果相互聯(lián)系、彼此激發(fā),鮮活地刻畫了,一定的人才密度和競爭烈度后,開源模型社區(qū)在正迸發(fā)怎樣的進(jìn)步與質(zhì)變。
而一批中國公司,是開源大模型生態(tài)最活躍和堅(jiān)定的投入者。
從 R1 的一鳴驚人到如今的百花齊放,這一年多發(fā)生了太多迭代和變化。V4 的技術(shù)報告是了解這些細(xì)致且艱辛努力的一個切片。
不再用 MLA、全新注意力機(jī)制:“系統(tǒng)級耦合優(yōu)化比單點(diǎn)創(chuàng)新更難”
晚點(diǎn):DeepSeek-V4 發(fā)布后,你們的實(shí)際使用體感如何?
劉益楓:數(shù)學(xué)推理、代碼能力和 Agent 指令執(zhí)行都比 V3 好不少,尤其是幻覺少得多。
代碼能力還是比 Opus 4.6 等閉源模型弱,和智譜 GLM-5.1、Kimi K2.6 等開源模型體驗(yàn)相近。
同時 V4 比 V3 大很多(V3 參數(shù)為 670 B ,V4 為 1.6T),價格貴了不少。但最近 V4-Pro 輸入緩存命中的價格從最初 25% 優(yōu)惠上又打了 1 折,降價很猛,這讓很多用戶愿意嘗試。
晚點(diǎn):正好這幾天正在開 ICLR (國際學(xué)習(xí)表征會議,International Conference on Learning Representations,AI 頂會之一), 大家在會場是如何討論 V4 和同期進(jìn)展的?
劉益楓:有意思的是,V4 放棄了從 V2 到 V3 使用的 MLA(注:多頭潛在注意力,由 DeepSeek 提出),而目前 K 2.6、GLM-5.1 等模型依然采用 MLA。
其實(shí)幾個月前,大家都認(rèn)為先進(jìn)的開源模型架構(gòu)已收斂到 MLA 了,接下來是一些小改進(jìn)。而 V4 放棄 MLA、重回 MQA(注:多查詢注意力 Multi-Query Attention,是相比原始注意力更低顯存占用和更低推理帶寬的一種改進(jìn)),這說明模型架構(gòu)還有很大改進(jìn)空間。
晚點(diǎn):MLA 和 MQA 的區(qū)別是什么?
劉益楓:簡單來說,MQA 更接近原始多頭注意力(Multi-Head Attention) 。相比 V3 的 MLA,它是一種 token-wise(詞元級)的壓縮機(jī)制,通過混合使用 CSA 和 HCA 實(shí)現(xiàn) 4:1 甚至 128:1 的大尺度壓縮。這時如果繼續(xù)保留 MLA,再疊加這些壓縮,實(shí)現(xiàn)起來會相當(dāng)復(fù)雜。這可能是 V4 沒有繼續(xù)用 MLA 的原因之一。
(注:CSA 是 “壓縮稀疏注意力”,HCA 是 “重度壓縮注意力”。在 DeepSeek-V4 中,CSA 是先壓縮序列、再做關(guān)鍵選擇,能從長上下文中定位關(guān)鍵信息; HCA 是高度壓縮大量 token 信息,保留壓縮后的全局感知。二者交替使用,能在大幅減少計(jì)算和顯存開銷時,既了解全局脈絡(luò)(HCA)又能抓到關(guān)鍵細(xì)節(jié)(CSA))
晚點(diǎn):RadixArk.AI 這次同時完成了 SGLang 壓縮 token 信息對 V4 的推理 Day-0 適配和全參數(shù) RL Day-0 適配。適配過程中,有哪些對 V4 變化的觀察?
趙晨陽:DeepSeek 仍是 Infra 的巨鯨,每年他們發(fā)布都會為 infra 優(yōu)化 “續(xù)命一年”。比如說去年的 MLA、DeepSeekMoE(DeepSeek 提出的一種 MoE 混合專家模型架構(gòu),最早用在 V2 中) 等,我們扎扎實(shí)實(shí)做了一年,才能在開源框架上跑得比較好。
而 V4 換了一套全新的混合注意力方案。推理側(cè),V4 的混合注意力、雙壓縮和 HashTop-K MoE,意味著前綴緩存、FlashMLA、投機(jī)解碼這些鏈路都要重建。我們團(tuán)隊(duì)為接入前綴緩存和投機(jī)解碼做了大量優(yōu)化,拿出了 ShadowRadix、HiSparse CPU 擴(kuò)展 KV,并完成了英偉達(dá) Hopper、Blackwell、Grace Blackwell、AMD、NPU 的全平臺適配。
(注:HashTop-K MoE:哈希路由混合專家模型。DeepSeek-V4 在前幾層 MoE 模型中引入的新型路由策略。不再依賴模型計(jì)算親和度,而是直接通過輸入 Token 的 ID 計(jì)算哈希值來固定分配專家。
FlashMLA:DeepSeek 開源的針對 MLA 的高效推理算子庫,專為英偉達(dá) Hopper 架構(gòu) GPU 優(yōu)化。
Blackwell:英偉達(dá)最新一代的 GPU 微架構(gòu)。
Grace Blackwell:英偉達(dá)推出的一種新型 “AI 超級芯片” 組合形態(tài)。將 Grace CPU 與 Blackwell GPU 物理封裝在了一起。)
RL 側(cè),1.6T MoE 全參數(shù)訓(xùn)練對系統(tǒng)要求很高。六種并行策略(DP、TP、SP、EP、PP、CP)的正確性、訓(xùn)練與推理的一致性、indexer replay、FP8/BF16 混合采樣——任何一環(huán)出錯,獎勵曲線就起不來。
(注:indexer replay:在任務(wù)被中斷后,通過直接回放歷史執(zhí)行軌跡或復(fù)用已有的 KV 緩存來恢復(fù)狀態(tài),避免冗余計(jì)算。
獎勵曲線:大語言模型在強(qiáng)化學(xué)習(xí)階段的核心監(jiān)控指標(biāo),反映模型在特定任務(wù)上的表現(xiàn)提升過程。)
晚點(diǎn):總結(jié)來說,你們覺得 V4 是一個怎樣的成果?
趙晨陽:作為工程師,我驚嘆于 DeepSeek 極強(qiáng)的工程能力。訓(xùn)練時把優(yōu)化器換成 Muon(矩陣級別優(yōu)化器 ,能對整個參數(shù)矩陣進(jìn)行正交化處理),訓(xùn)練精度推進(jìn)到 FP4,進(jìn)一步壓縮顯存和帶寬;推理時引入 DSA(DeepSeek 稀疏注意力)、DeepEP(DeepSeek 通信效率的底層基礎(chǔ)設(shè)施庫)、Mega MoE 這一整套 Infra。這里面的每一個名詞,在工程上都是巨大挑戰(zhàn)。這種系統(tǒng)級的耦合優(yōu)化比單點(diǎn)創(chuàng)新更難,更體現(xiàn)一個團(tuán)隊(duì)的工程深度。
劉益楓:作為算法研究人員,我更佩服 DeepSeek 的藝高人膽大。不僅引進(jìn)了 mHC(流行約束超連接)、起始層哈希路由等技術(shù),還大膽使用了 CSA 和 HCA 等 token-wise 的壓縮技術(shù),創(chuàng)新性使用了不同于一般實(shí)踐的 Muon 超參數(shù),甚至放棄了既有的 MLA 架構(gòu)。同時一如既往地在并行訓(xùn)練、訓(xùn)練精度調(diào)節(jié)等方面給業(yè)界帶來新東西。
V4 技術(shù)報告里的中國芯片和 “消失的成本”
晚點(diǎn):DeepSeek 從 V3.2 preview 到 V4,中間隔了 7 個多月,但不管是 Kimi、Qwen、GLM、MiniMax 還是 GPT、Claude,主流模型的版本號都切得越來越細(xì),更新很密集。這背后反映了什么不同思路?
趙晨陽:OpenAI 或 Anthropic 的版本號更像 “產(chǎn)品語言”:頻繁更新是因?yàn)辇嫶蟮挠脩羧盒枰掷m(xù)感知模型進(jìn)步。DeepSeek 版本號更像 “研究語言”,每次主版本更新都對應(yīng)一次重大架構(gòu)變化。
這種差異由組織結(jié)構(gòu)和商業(yè)模式?jīng)Q定。前者要求研究與產(chǎn)品節(jié)奏高度咬合,后者則擁有更大的自由度集中力量辦大事,但也要求每次出手都足夠有分量。
劉益楓:模型版本命名有兩種派別。DeepSeek、Kimi 的大版本號代表模型結(jié)構(gòu)的重大改變;而 Claude、GPT 等模型的大版本號更多代表功能、能力改變,比如 GPT-4 融入了多模態(tài)能力、GPT-5 提高深度推理能力。
這背后也反映做模型的兩種不同傾向:中國的開源模型更追求工程優(yōu)化;美國的閉源模型更追求提出和開辟新的能力方向。
晚點(diǎn):為什么 V4 的訓(xùn)練時間比預(yù)期更長?據(jù)我們了解,DeepSeek 原本希望春節(jié)前后發(fā) V4。
趙晨陽:具體發(fā)布計(jì)劃外界無從知曉,但從技術(shù)上可以推測,V4 一次性引入了至少四個互相耦合的新東西:混合注意力、mHC、Muon 優(yōu)化器和 FP4 訓(xùn)練。任何一個單獨(dú)上線都需要大規(guī)模 debug,四個一起上的復(fù)雜度更是組合式爆炸。
特別是在如此大規(guī)模的 MoE 上穩(wěn)定地跑 Muon,以及真正跑通 FP4 訓(xùn)練,這都是非常前沿的嘗試。
這次 V4 博客里的一句話很好:“率道而行,端然正己。” 我還想加上《道德經(jīng)》里我很喜歡的一句話:為而不恃,功成弗居。創(chuàng)造萬物卻不占為己有,功業(yè)成就卻不自我夸耀。
劉益楓:這次的一個亮點(diǎn)是 DeepSeek 原生支持國產(chǎn)芯片。從零開始為國產(chǎn)算法編寫優(yōu)化算子的工程量比較大,這可能是他們開發(fā)時間偏長的原因。不過在 V4 訓(xùn)練階段,外界普遍推測他們用的仍是英偉達(dá)芯片。
(注:V4 技術(shù)報告第三節(jié) “Infra” 一章中提到,DeepSeek 在華為昇騰芯片上驗(yàn)證了細(xì)粒度并行 EP 方案的技術(shù)可行性,這說明 DeepSeek 做了國產(chǎn)芯片的推理適配。原文為:We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.)
晚點(diǎn):晨陽提到 “率道而行,端然正己”。他們引用的是荀子《非十二子》,前面還有兩句——“不誘于譽(yù),不恐于誹”,不被贊譽(yù)裹挾,也不懼質(zhì)疑和批評。
劉益楓:從 DeepSeek 的致謝名單來看,離職人員比例大概在 5% 左右。相比其他公司,這個流動率挺低。所以我覺得 “不誘于譽(yù)” 不僅是公司理念,也是 DeepSeek 研發(fā)人員的心境。
趙晨陽:“舉世譽(yù)之而不加勸,舉世非之而不加沮”,是一種很高的境界。
晚點(diǎn):這次技術(shù)報告和發(fā)布推文中都沒再公布訓(xùn)練成本,為什么?V3 和 R1 引爆市場的關(guān)鍵之一就是 557 萬美元的最后一次訓(xùn)練成本。(注:按參數(shù)量和訓(xùn)練數(shù)據(jù)量粗略估算,V4 的訓(xùn)練計(jì)算量可能接近 V3 的 3 倍)
趙晨陽:這是一個信號,DeepSeek 不再靠 “成本敘事” 定義自己,而是用模型能力說話。
劉益楓:最后一次訓(xùn)練成本往往是總成本的幾十分之一。前沿探索和對比驗(yàn)證的實(shí)驗(yàn)成本,人力和數(shù)據(jù)成本才是主要開支。所以公布這個成本本身沒太大意義。
晚點(diǎn):R1 當(dāng)時爆火的另一個原因是,它以開源方式驗(yàn)證了測試時擴(kuò)展(test-time scaling)的新范式。而這一次,V4 是不是并沒有帶來這個級別的范式變化?
趙晨陽:R1 是開源世界里第一個走通 Long Reasoning 這條路的模型。V4 也是 follow 了 R1 的范式,定位是 “在這個范式下解決計(jì)算瓶頸”。
我覺得 “范式變化” 在 AI 圈被說得太多了,它本來是十年一遇、甚至更稀少的事。Transformer、scaling law、RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí),一種對齊方式)、測試時擴(kuò)展,這些是范式。但每隔半年就要找一個 “新范式” 的行業(yè)恐怕有些問題。
更值得問的問題是:沿著現(xiàn)在的 LLM 范式繼續(xù)優(yōu)化,還有多少空間?上限在哪兒?
我判斷還有相當(dāng)大的空間,但每一步都更難。V4 這種系統(tǒng)級耦合的工程優(yōu)化,會成為接下來一兩年的主旋律——大家會競爭誰能把許多分散的優(yōu)化做成一個能跑起來的整體系統(tǒng)。這很工程,但商業(yè)價值很大。
劉益楓:與其從方法論的角度解釋范式變化,不如把它理解為一個新的模型能力領(lǐng)域,比如之前的長文本能力、agent 能力、幻覺控制能力等。
提出新的能力領(lǐng)域,這才是目前大語言模型需要重點(diǎn)做、不斷做的事情。現(xiàn)在的問題不是 “能不能做到”,而是 “我們還不知道有哪些需要做的”。
從這一點(diǎn)來說,V4 帶給我的震撼遠(yuǎn)不如 R1,甚至不如 Kimi 最早提出長文本能力時帶來的感受。
晚點(diǎn):那你看到了什么現(xiàn)在還在萌芽、未來可能重要的能力方向?
劉益楓:比如 AI 的 “自我意識”。目前 AI 還是人類的工具,它是否能擁有自己的意識,更自主地行動?
趙晨陽:我認(rèn)為有個重要的能力是 “減少推理量”。很多事情并不需要那么多推理,token 應(yīng)該用在更重要的事情上。現(xiàn)在的模型有點(diǎn)兒被 infra 優(yōu)化慣壞了,在上下文長度上太鋪張浪費(fèi)。
量化看,性能與效率
晚點(diǎn):接下來我們來量化看一下 V4。首先是性能上,兩位怎么看 V4 的 Benchmark 選取和分?jǐn)?shù)表現(xiàn)?
趙晨陽:V4 明顯測了更多和 agentic 相關(guān)的 Benchmark,尤其強(qiáng)調(diào)工具使用、多步規(guī)劃等。整個行業(yè)從去年年中開始就有這個轉(zhuǎn)向:做事和完成任務(wù)比 “答得對” 更重要。
這里也正好解釋一下,Benchmark 大概有幾種邏輯:一是離線 Benchmark,測一個問題模型怎么回答,給答案打分;二是在線 Benchmark,把同一個問題或任務(wù)發(fā)給兩個匿名模型,讓用戶判斷哪個模型更好,這通常被叫做 Arena(競技場)。
DeepSeek-V4 的技術(shù)報告里就提到,他們做了一個內(nèi)部在線評測:公司里的工程師可以自行選擇模型完成任務(wù)、給模型反饋。他們比較了很多模型——Claude Opus 4.5、4.6,OpenAI GPT-5.5 等。V4 的分?jǐn)?shù)大概在 Opus 4.5 左右,和 Opus 4.6、GPT-5.5 還是有差距。有 9% 的 DeepSeek 工程師表示,不會將 V4-Pro 作為首選模型。這很坦誠,公司內(nèi)部的采用意愿非常重要。
這也引出另一個問題,可能是所有優(yōu)化編程能力的模型團(tuán)隊(duì)都要思考的——這世界上只有極少數(shù)的公司在編程上有數(shù)據(jù)飛輪,而獲取數(shù)據(jù)的最佳方式是 “被使用”。
劉益楓關(guān)于數(shù)據(jù)飛輪,我有個問題想問晨陽。美國以閉源模型為主,中國以開源模型為主,這是否意味著,很多用戶可能會自己部署開源模型在本地使用,中國團(tuán)隊(duì)更難獲取實(shí)際使用數(shù)據(jù)?
趙晨陽:其實(shí)不是的。開源模型上了萬億參數(shù)規(guī)模后,部署成本很高,個人無法負(fù)擔(dān),個人不可能有 H200、B200 或 910B 這種 GPU。大多數(shù)模型哪怕開源,也是 host 在第三方云上,本質(zhì)還是走 API,在第三方會留下痕跡。不過據(jù)我所知,國內(nèi)還是大量在用美國的閉源模型(來編程)。
劉益楓目前 Chatbot Arena 上 DeepSeek-V4-Pro 排名大概在 23 ,比 GLM-5.1 和 K2.6 等都低;在 Artificial Analysis 的 Intelligence Index 的分?jǐn)?shù)為 52 ,也比 Kimi、Mimo 低。晨陽怎么看這個表現(xiàn)?
(注:訪談發(fā)生于 4 月 28 日,到 5 月 1 日,V4-Pro 在 Chatbot Arena 上的排名為超越了 K2.6,仍低于 GLM-5.1。)
![]()
北京時間 5 月 1 日 19 點(diǎn),Chatbot Arena 的排名。
趙晨陽:選擇某款模型是需要一定信仰的,我愿意為了我的信仰無視這些分?jǐn)?shù)。(笑)
劉益楓:確實(shí),刷榜不是目的。
趙晨陽:體感上,一流模型的能力已經(jīng)很難區(qū)分。在非常微小的差距里排先后意義不大。
我一直用 Claude Code,有一天我們公司的 Claude 因賬單原因被下線,我就去用了 Codex。我發(fā)現(xiàn),離開了 Claude,外面的世界完全沒有下雨。
晚點(diǎn):前面我們討論了性能,效率上,V4 技術(shù)報告里提到:在百萬級上下文中,DeepSeek-V4-Pro 的單 token 推理 FLOPs(衡量計(jì)算量,對應(yīng)計(jì)算資源) 是 V3.2 的 27%,KV 緩存占用(對應(yīng)存儲資源)是 V3.2 的 10%。這個效率提升程度屬于行業(yè)正常水平還是比較驚人?
趙晨陽:V3.2 發(fā)布時,DeepSeek 提到,即便大幅降價,他們自己的推理服務(wù)仍有利可圖。
不過需要注意的是,這種提升有一個重要前提:上下文越長、優(yōu)勢越明顯。如果只是幾千 Token 的輸入輸出,效率提升并不顯著。當(dāng)然,現(xiàn)在的實(shí)際使用中,幾千 Token 可能連 system prompt 都打不住,所以日常使用的感受應(yīng)該挺明顯的。
晚點(diǎn):這是不是也意味著,V4 的效率優(yōu)化對 Agent 場景很有用?因?yàn)樘幚矶嗖綇?fù)雜任務(wù)的 Agent 框架是需要很長上下文的。
趙晨陽:是的,Agent 會很有收益。
劉益楓:不過,也有用戶反映,V4 在解決同一個問題時,token 消耗比之前要大了。這部分抵消了效率優(yōu)化的體感。
晚點(diǎn):這就是晨陽剛才說的他認(rèn)為需要提升的能力 “減少過度推理”。為什么模型更新后,解決同一問題的推理 token 消耗反而變多了?
趙晨陽:我之前在小紅書發(fā)過一篇文章,說現(xiàn)在的 token 浪費(fèi)有種 “拿高壓水槍澆花” 的美感。
模型會誠實(shí)地反映訓(xùn)練數(shù)據(jù),token 消耗變多,說明在訓(xùn)練中確實(shí)存在用更長上下文解決相同問題的情況,這些吐出來的回答可能又成為訓(xùn)練的材料,這就形成壞循環(huán),解決同一個問題需要的 token 越來越多。
劉益楓:其實(shí)這個問題一直存在,之前大家就在想解法,比如 K1.5 的報告里的 “長度懲罰”,當(dāng)回答同一問題時,會懲罰更長的回答。但即便如此,這個趨勢仍不可逆地發(fā)展,因?yàn)閷Ω鱾€團(tuán)隊(duì)來說,優(yōu)化模型解決問題的能力還是會優(yōu)先于優(yōu)化推理的簡潔。
V4 的具體創(chuàng)新和改進(jìn):Infra 巨鯨的四連擊
整體思路:極致的稀疏
晚點(diǎn):DeepSeek-V4 仍然是一個 MoE 模型,但前面也提到,這次模型架構(gòu)和 Infra 都有較多變化。你們怎么理解 V4 的整體架構(gòu)思路?
趙晨陽:V4 整體保留了 DeepSeekMoE 框架和 MTP (Multi-Token Prediction,即 “多 token 預(yù)測”,允許模型一次性預(yù)測多個 Token)策略,但在四個層面做了改造:注意力,用了混合稀疏注意力;殘差,使用了 mHC;優(yōu)化器,在這么大的模型規(guī)模上使用了 Muon;以及 infra 的變化,其中兩個關(guān)鍵詞是 TileLang 和 FP4。
這四件事的共同主題是:讓 1M 上下文從 “理論可行” 變成 “成本可接受”。
劉益楓:V4 進(jìn)一步提高了稀疏比,這對算法和底層算子開發(fā),尤其是訓(xùn)練階段的算法和算子提出了相當(dāng)高的要求。它需要保證 MoE 的各專家之間訓(xùn)練程度的平衡及 token 路由的平衡。
另外一個創(chuàng)新是在前幾層 MoE 中用了哈希路由,來分配 token 到各專家,從算法上避免前幾層專家路由高度集中的問題。
此外,DeepSeek 這次沒有在 V4 上應(yīng)用 Engram(DeepSeek 2026 年 1 月提出的條件記憶技術(shù))。一方面可能是因?yàn)?Engram 對性能的提升有限,但對部署又有較大挑戰(zhàn)。另一方面,基礎(chǔ)模型在訓(xùn)練過程中也會自動學(xué)習(xí) N-gram(連續(xù) N 個 token 組成的局部片段,可以理解成一些常見表達(dá)、固定搭配,模型訓(xùn)練中會自然學(xué)到這些短程上下文) 能力,Engram encoder 更多起到輔助和信號加強(qiáng)作用。
趙晨陽:這次 V4 的激活比(激活參數(shù)比模型總參數(shù))確實(shí)是這一波模型里最低的。V4-Pro 是 1.6T 總參數(shù)下,激活參數(shù) 49B,也就是約 3%,比先前已經(jīng)很低的 Kimi K 2.6 更低。
總參數(shù)越大、模型容量越高;激活參數(shù)越小、推理成本越低。MoE 的核心價值就是把這兩個量解耦,而 V4 把這種解耦推到了目前業(yè)界最激進(jìn)的位置。
晚點(diǎn):正好這里補(bǔ)充一組數(shù)據(jù),在激活參數(shù)比總參數(shù)的比例上,DeepSeek-V4-Pro 剛超過 3%,而 V3 時是 5.5%。其他近期模型中,K 2.6 是 3.2%,MiMo-2.5-pro 是約 4.1%,MiniMax M2.7 是 4.35%,GLM 5.1 是 5.3%。
![]()
趙晨陽:這一連串?dāng)?shù),大家可能聽起來像在雕花,但很反映工程能力,從 4% 降到 3%,比從 5% 降到 4% 要難得多。不是說其他團(tuán)隊(duì)做不到,而是大部分團(tuán)隊(duì)會選擇穩(wěn)扎穩(wěn)打,DeepSeek 選擇繼續(xù)推到極限。
當(dāng)然,激活比也不是越低越好。比例太低會帶來負(fù)載不均、專家訓(xùn)練不充分、路由抖動等問題。DeepSeek V3 就討論過,路由負(fù)載均衡是否應(yīng)該納入 loss(損失函數(shù))。能把 3% 的激活比例穩(wěn)定訓(xùn)下來,本身是工程能力的證明。
注意力機(jī)制:CSA 和 HCA 如何組合工作
晚點(diǎn):2025 年年初 DeepSeek 提過 NSA(原生稀疏注意力),同年 9 月又在 V3.2 上用了 DSA,這次則是使用了組合 CSA 和 HCA 的新的混合注意力機(jī)制。這次的核心改進(jìn)是什么?主要解決什么問題?
劉益楓:V4 的每一層都同時跑滑動窗口注意力(SWA)和一種長距注意力(CSA 或 HCA)。CSA 是稀疏路線,在序列維度做 4:1 壓縮后再做 top-k 選取;HCA 更激進(jìn),做 128:1 的壓縮,但保持稠密注意力。(4:1、128:1 是指把 4 個 token 聚合成一個表示和把 128 個 token 聚合成一個表示,所以說 HCA 的壓縮更激進(jìn))
每層用 CSA 還是 HCA 是預(yù)定義的,因此面對同一個長上下文,不同層會從不同視角去看——稀疏層(CSA)精確鎖定關(guān)鍵 token,稠密層(HCA)提供整體語義概覽。
晚點(diǎn):這套新的注意力機(jī)制對 Infra 的影響是?
趙晨陽:改動還是挺大的。對 RadixArk 和 SGLang 來說,適配這個混合方案的復(fù)雜度主要是前綴緩存的一致性。所以我們設(shè)計(jì)了 ShadowRadix 來應(yīng)對——三個異構(gòu) KV 池(SWA / C4 / C128)加兩個壓縮狀態(tài)池,要在預(yù)填充、解碼、投機(jī)解碼三個階段保持同步。這是 V3 時代不需要解決的問題。
(注:預(yù)填充,Prefill,指在推理的初始階段,模型一次性并行處理用戶輸入的整段 prompt,計(jì)算并生成已知文本的 KV 緩存,快速吃透內(nèi)容。
解碼,Decode,是常規(guī)生成階段。模型用預(yù)填充階段產(chǎn)生的緩存,開始自回歸地生成回答,一般解碼是逐個 token 吐出的,這是推理的速度瓶頸。
投機(jī)解碼,Speculative Decoding,是加速解碼的技術(shù)。它不再逐個 token 生成,而是一次性 “猜” 出多個未來的 token 并交由主模型批量驗(yàn)證,可大幅提升速度。)
此外,我們最近發(fā)的 HiSparse 把稀疏注意力的 KV 卸載到主機(jī)內(nèi)存,在長上下文場景能拿到 5 倍吞吐。V4 這種把計(jì)算 / 顯存成本壓到 27% / 10% 的模型,要在生產(chǎn)環(huán)境跑出商業(yè)價值,就需要 ShadowRadix、HiSparse 這類底層能力的同步推進(jìn)。
優(yōu)化器:Muon 已成檢驗(yàn)大模型團(tuán)隊(duì)工程能力的試金石
晚點(diǎn):V4 里還有兩個很重要的變化,一是殘差上,使用了 DeepSeek 去年底提出的 mHC,一是業(yè)內(nèi)現(xiàn)在已用得比較多的 Muon。
先說優(yōu)化器。過去大模型訓(xùn)練的主流優(yōu)化器是 AdamW,但從去年到今年,Muon 開始被越來越多的前沿模型采用——OpenAI 在 2024 年底招募了 Muon 的開發(fā)者 Keller Jordan;Kimi 2025 年年初開始發(fā)布 Muon 的改進(jìn)版。能否先簡單解釋一下,優(yōu)化器在大模型訓(xùn)練里起什么作用?Muon 相比 AdamW 的核心優(yōu)勢是什么?
劉益楓:一般深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程,就是讓模型通過損失函數(shù)的梯度下降信號不斷更新權(quán)重,當(dāng)權(quán)重更新到一個狀態(tài),模型能穩(wěn)定達(dá)成設(shè)計(jì)目標(biāo)了(比如預(yù)測),就是訓(xùn)完了,得到了穩(wěn)定的權(quán)重。
但由于模型結(jié)構(gòu)、數(shù)據(jù)分布等差異,普通梯度下降不太適合大語言模型這類深度神經(jīng)網(wǎng)絡(luò),所以后來出現(xiàn)了 Adam、AdamW 等帶動量和預(yù)條件機(jī)制的優(yōu)化器來幫助訓(xùn)練。
AdamW 本質(zhì)上結(jié)合了動量和更新量歸一化兩類技術(shù)。動量可以讓更新更平滑,歸一化可以讓每一步更新的 scale 更統(tǒng)一,從而穩(wěn)定訓(xùn)練。但 AdamW 是元素級別的優(yōu)化,也就是對每一個參數(shù)單獨(dú)更新。
Muon 的核心區(qū)別在于,它是矩陣級別的優(yōu)化。對于線性層這類二維參數(shù),它本質(zhì)上是矩陣乘法,Muon 會把整個矩陣作為整體進(jìn)行歸一化和優(yōu)化,這能更好地利用矩陣中不同元素之間的聯(lián)系,讓矩陣內(nèi)不同元素的優(yōu)化步調(diào)更一致,進(jìn)一步提升訓(xùn)練效率和推理能力。
晚點(diǎn):從 Keller Jordan 在 2024 年 10 月提出 Muon 到它后來變得更主流,這個過程是怎樣的?
劉益楓:2024 年底 Muon 剛被提出時,對使用者并不友好。它需要針對不同模塊,如線性層、輸入嵌入層分別調(diào)學(xué)習(xí)率(learning rate,控制模型每次更新參數(shù)幅度的核心超參數(shù),太大容易不收斂,太小則訓(xùn)練極慢),我們當(dāng)時也第一時間跟進(jìn)了。
到 2025 年初,Kimi 提出 Moonlight 的改進(jìn)。因?yàn)?Muon 是基于矩陣更新的(矩陣是二維的)所以訓(xùn)練時涉及一維參數(shù)的部分仍會用 AdamW,這就有一個二者之間的學(xué)習(xí)率的比例問題。
最初 Jordan 沒有確定 Muon 和 AdamW 的學(xué)習(xí)率比例。Moonlight 的重要貢獻(xiàn)是把這個比例基本確定為 0.2,這樣使用者只需設(shè)置一個學(xué)習(xí)率超參數(shù)就能適配整個模型。這讓 Muon 從理論創(chuàng)新走向了大規(guī)模應(yīng)用。
晚點(diǎn):可以說,是 Kimi 的 Moonlight 和 MuonClip(在 2025 年年中的 K2 中,Kimi 進(jìn)一步改進(jìn) Muon 的版本)改進(jìn)讓業(yè)界開始更廣泛使用 Muon 了?
劉益楓:對。DeepSeek V4 的進(jìn)一步改進(jìn)是,它沒有用 Kimi 找的超參數(shù) 0.2,而是自己算了一個更精確的 0.18。
Muon 最開始用的是牛頓-舒爾茨五次迭代(一種用于矩陣歸一化或求逆的數(shù)值迭代方法),這是一個近似過程。而 V4 采用了十次迭代近似。每多一次迭代會提高計(jì)算消耗,但精度會更高,整體速度可能反而更快。
晚點(diǎn):優(yōu)化器的變化需要 infra 上做什么調(diào)整和配合?
趙晨陽:推理側(cè)不需要關(guān)心,因?yàn)椴簧婕皡?shù)更新;訓(xùn)練側(cè)一定要做適配,而且是大工程,整個開源鏈條要從英偉達(dá)的 Megatron 或 Megatron-Bridge(英偉達(dá)發(fā)布的工具庫,主要用于在 Hugging Face 和 Megatron Core 格式之間無縫轉(zhuǎn)換大模型權(quán)重,并提供高性能分布式訓(xùn)練框架)這一層開始改,再一層層往下傳。閉源訓(xùn)練引擎怎么實(shí)現(xiàn) Muon 我就不清楚了。
劉益楓:Muon 是矩陣層面的優(yōu)化,會涉及大量矩陣乘法。如果某個矩陣很大,就需要大量拆分,甚至分布式訓(xùn)練。AdamW 不一樣,它是每個元素單獨(dú)更新,元素本身可以無限拆分。所以這是 Muon 特有的 infra 問題。
另外,預(yù)訓(xùn)練和后訓(xùn)練的優(yōu)化器基本要保持一致。而后訓(xùn)練的 infra 結(jié)構(gòu)更復(fù)雜,可能單機(jī)裝不下,所以后訓(xùn)練適配 Muon 會帶來更多結(jié)構(gòu)修改。
晚點(diǎn):現(xiàn)在還沒有用 Muon 的大模型,是認(rèn)為 AdamW 仍有優(yōu)勢,還是沒來得及改?
劉益楓:大部分模型都改用 Muon 了,但也有一部分不太清楚。比如千問就沒有特別提及用的什么優(yōu)化器。
我個人認(rèn)為,沒改的是沒來得及改。尤其是后訓(xùn)練要如果要用 Muon,infra 會很難改。后訓(xùn)練沒改成,又會導(dǎo)致預(yù)訓(xùn)練就也只能用 AdamW。
晚點(diǎn):是否使用 Muon,是現(xiàn)階段判斷一個模型團(tuán)隊(duì) infra 能力的指標(biāo)之一嗎?
劉益楓:可以這么說。但即便是用 Muon 的模型,在輸入和輸出這種模塊還是得用 AdamW。
趙晨陽:我非常認(rèn)可益楓說的,優(yōu)化器是檢驗(yàn)一個團(tuán)隊(duì)工程能力的試金石。
但關(guān)于 AdamW 需不需要拆分倒不一定,這取決于模型體量。模型大到一定程度,不可能完整部署在任何一個節(jié)點(diǎn)上,所以 Muon 和 AdamW 都需要復(fù)雜的并行策略,Muon 只會更復(fù)雜。
AdamW 會同時維護(hù)動量和速度兩個 state,很多操作是元素級別(element-wise)的,切分相對簡單。比如 ZeRO stage(顯存優(yōu)化技術(shù))、FSDP(將模型參數(shù)、梯度和優(yōu)化器狀態(tài)完全打散分配到整個 GPU 集群中的訓(xùn)練技術(shù))、TP 對齊(確保被切分的矩陣維度大小能夠被參與并行的顯卡數(shù)量整除的技術(shù)) 的邏輯都更簡單。
Muon 的優(yōu)勢是砍掉了二階動量,optimizer state (優(yōu)化器在更新權(quán)重時需要持續(xù)記錄的內(nèi)部歷史數(shù)據(jù))從兩倍降到一倍,能節(jié)省相當(dāng)多顯存。但它在動量上跑完牛頓-舒爾茨迭代后,還要做正交化。這就不是逐元素過程了,而是更復(fù)雜的矩陣計(jì)算,必須拿到完整的二維權(quán)重。如果參數(shù)已經(jīng)被 TP 或 FSDP 切碎,就要先聚合回來再計(jì)算,涉及很多分布式原理。所以可以看到,Kimi 的 K2 只在數(shù)據(jù)并行(data parallelism)層面做切分,沒有在張量并行上做切分。
現(xiàn)在優(yōu)化器層已經(jīng)進(jìn)入一個非常混雜、復(fù)雜的狀態(tài),有 Muon 也有 AdamW。Muon 不是簡單替換 AdamW,而是用大量人力和工程復(fù)雜度換取大量顯存和收斂效率。這筆賬值不值得,取決于團(tuán)隊(duì)的工程水平、顯卡數(shù)量和模型規(guī)模。
劉益楓:而這里每個專有名詞背后都可以對應(yīng)一篇文章。
殘差連接方式:Seed、DeepSeek、Kimi 的激發(fā)與碰撞
晚點(diǎn):聊完優(yōu)化器,來聊聊 V4 的殘差連接方式。這次 DeepSeek 引入了 mHC,這是一個怎樣的改進(jìn)?
劉益楓:mHC 之前,字節(jié) Seed 先提出了 HC(Hyper-connection,超連接),思路是擴(kuò)展層與層之間的信息流寬度。以前的 Transformer,層之間只有 d 維的信息流寬度;但現(xiàn)在是 d 維上加了 channel 維,信息流寬度變成 d x c,推理能力顯著提升。
不過原本 Hyper-connection 的數(shù)學(xué)原理導(dǎo)致梯度回傳和訓(xùn)練不穩(wěn)定,所以 Seed 發(fā)了這個成果后,社區(qū)反響并不強(qiáng)烈。
而 DeepSeek 的 mHC 加入了 Sinkhorn 算法(一種數(shù)學(xué)歸一化算法),主要用于約束路由和注意力分布,使其更均衡、數(shù)值更穩(wěn)定,能在一定程度上改善訓(xùn)練過程的穩(wěn)定性。
這個改進(jìn)既需要對 HC 的潛力判斷和細(xì)致分析,又需要基于內(nèi)觀指標(biāo),如梯度的 scale、激活值,從現(xiàn)象倒推怎么解決這個問題。
補(bǔ)充一點(diǎn),Kimi 也剛剛在 3 月初提出了 Attention Residual,它有點(diǎn)像 DenseNet(主要用于 CNN 卷積神經(jīng)網(wǎng)絡(luò)的一種密集連接結(jié)構(gòu),每層與之前所有層直接連接),直接跨層相連,第一層可以直接影響最后一層。
mHC 和 Attention Residual 方法不同,但有異曲同工之妙——都是 layer-wise(層級別)地改進(jìn)信息流。
晚點(diǎn):這兩種方法的區(qū)別是什么?你認(rèn)為哪種上限更高?
劉益楓:實(shí)驗(yàn)室更傾向搞 mHC,因?yàn)橘Y源有限,mHC 的 Infra 實(shí)現(xiàn)更簡單。
Attention Residual 對 Infra 的要求更復(fù)雜,它對每層之間關(guān)系有一個更精確的描述,我認(rèn)為它的上限可能更高。
晚點(diǎn):mHC 對推理框架的影響是什么?
趙晨陽:mHC 把簡單添加殘差這件事變成了一個需要混合 GEMM(通用矩陣乘法,深度學(xué)習(xí)中最核心、最密集的數(shù)學(xué)操作)和 Sinkhorn 歸一化的復(fù)雜操作。
帶來的挑戰(zhàn)是:先前的算子對于 mHC 不夠高效,我們需要為 mHC 單獨(dú)寫一些新的 kernel(算子核,可以簡單理解為直接給 GPU 發(fā)的指令代碼,告訴芯片底層怎么做基礎(chǔ)運(yùn)算)。為新算法定制新 kernel 在 V3 之前并不頻繁。但比較欣喜的是,我們現(xiàn)在有了更多、更好的工具,如 TileLang。
Infra 兩個關(guān)鍵詞:TileLang & FP4
晚點(diǎn):正好你提到了 TileLang,接下來就是想聊 DeepSeek-V4 報告里 infra 部分使用的 TileLang 語言和 FP4 訓(xùn)練精度。簡單來說,這兩個東西是什么,作用是什么?
趙晨陽:先說 TileLang,我喜歡叫它 “太浪”,聽起來像拳擊大師的名字。
infra 要做的是在計(jì)算路徑相同的情況下加速計(jì)算。比如寫 kernel,就是結(jié)合底層硬件特性優(yōu)化計(jì)算。同樣一個 4096 乘 4096 的矩陣,可以按 128 拆,也可以按 256 拆。不同硬件的顯存、帶寬不同,適合的拆分方式也不同。總之 kernel 就是讓底層的矩陣計(jì)算更快。
寫 kernel 的語言,通常大家會對比 CUDA、Triton 和 TileLang:
CUDA 是英偉達(dá)的護(hù)城河,性能最高,但開發(fā)和維護(hù)成本也最高。
Triton 由 OpenAI 開源,它降低了寫 kernel 門檻,但犧牲了一些表達(dá)能力和性能。同一個 kernel 用 Triton 寫,效率可能比 CUDA 低不少。
TileLang 走在中間,是北大團(tuán)隊(duì)發(fā)起的一個項(xiàng)目:它比 Triton 更底層、表達(dá)能力更強(qiáng),又比 CUDA 更好用,是國內(nèi)發(fā)展起來的優(yōu)秀開源項(xiàng)目。
V4 報告提到,他們可以用 TileLang 把一些 kernel 的啟動開銷壓縮到微秒級,也提升了 “位級可重現(xiàn)”,就是一個 prompt 輸入給 V4 后,如果用 TileLang,兩次前向推理(神經(jīng)網(wǎng)絡(luò)從輸入到輸出的計(jì)算過程)的結(jié)果更容易復(fù)現(xiàn),這對推理工程師 debug 很有幫助。
TileLang 的長期價值是大大降低了為新算法快速開發(fā)新 kernel 的邊際成本。
DeepSeek 提出 mHC 時也寫到,他們?yōu)?mHC 做了一版 TileLang 的 kernel。我們 SGLang 團(tuán)隊(duì)也針對推理場景的小批量解碼做了 split-K(把矩陣乘法中的 K 維度拆開并行計(jì)算,以提升小批量場景下的硬件利用率)的 TileLang 版本。最近一年半,TileLang 已開始被全球前沿 lab 當(dāng)作算法實(shí)現(xiàn)的默認(rèn)選擇之一。
以前做編譯器這一層很苦,但現(xiàn)在大家也看到了它的重要性。
晚點(diǎn):你提到編譯器和 DSL 底層語言,讓我想到五年前采訪鴻蒙當(dāng)時的負(fù)責(zé)人王成錄,他提到十年前想做操作系統(tǒng)時,在國內(nèi)很難招到會匯編語言的人才。
趙晨陽:做編譯器一直是非常偉大的事業(yè),但也很苦、離商業(yè)遠(yuǎn)、不被關(guān)注。
晚點(diǎn):TileLang 最初是北大楊智老師團(tuán)隊(duì)發(fā)起的,后來也有很多社區(qū)貢獻(xiàn)。那如果 TileLang 這類開源生態(tài)越來越繁榮,和 CUDA 長期會是怎樣的關(guān)系?是更豐富 CUDA 的生態(tài)還是形成競爭?
趙晨陽:很難說。就像模型廠商會發(fā)技術(shù)報告,大家彼此借鑒,但也存在競爭。
劉益楓:TileLang、Triton 和 CUDA 的關(guān)系,有點(diǎn)像 C++ 和匯編語言,或者 Python 和 C 的關(guān)系,是不同層級的語言,CUDA 更底層。
晚點(diǎn):那 TileLang 也可以用在其他芯片廠商更底層的軟件系統(tǒng)上?
趙晨陽:是的,事實(shí)上很多中國硬件廠商正在主動支持 TileLang 生態(tài)。
晚點(diǎn):可以說 DeepSeek 在 TileLang 的投入比別人更多嗎?V3.2 里就開始用了。
趙晨陽:只能說他們投入很多,但不一定比其他人更多。其他公司披露的內(nèi)部技術(shù)實(shí)現(xiàn)有限。
晚點(diǎn):這次的另一個變化是訓(xùn)練時的浮點(diǎn)數(shù)精度格式從 V3 的 FP8 變成了 V4 的 FP4。這是怎樣的演進(jìn)思路?
趙晨陽:FP4、FP8、BF16、INT4 等等都是數(shù)值格式,數(shù)字代表存儲位寬。比如 BF16 就是用 16 位存一個浮點(diǎn)數(shù),F(xiàn)P4 只用 4 位。
DeepSeek-V3 是第一個把 FP8 做到大規(guī)模模型上的工作,到了 V4,他們又實(shí)現(xiàn)了 FP4。再往下會不會有更激進(jìn)的優(yōu)化和壓縮?非常值得期待。
減少存儲位寬的好處是減少峰值算力,同時提升顯存容量和數(shù)據(jù)讀取效率。但位寬太小也會導(dǎo)致訓(xùn)練中梯度溢出或歸零。
DeepSeek 為了解決 FP4 訓(xùn)練問題,在預(yù)訓(xùn)練和后訓(xùn)練上都用了很多工程巧思。我比較熟悉的是 QAT 量化感知訓(xùn)練(訓(xùn)練時模擬量化誤差以適應(yīng)低精度部署)。DeepSeek 在后訓(xùn)練里做了 quantization-aware training,即訓(xùn)練時模擬量化、采樣時真實(shí)量化。
強(qiáng)化學(xué)習(xí)可以看成兩個階段:先采樣,模型生成回復(fù);再打分,把結(jié)果拿去訓(xùn)練。訓(xùn)練階段,優(yōu)化器維持 FP32 主權(quán)重,計(jì)算前先壓縮到 FP4 范圍,再無損反量化回 FP8 計(jì)算。這個偽量化過程沒有真正前向計(jì)算,但會體現(xiàn)量化誤差。之后再用 block-wise 的 scale points(縮放系數(shù)點(diǎn),用來校準(zhǔn)量化范圍)兜住離群點(diǎn)(數(shù)值異常偏大的參數(shù)或激活),讓模型提前適應(yīng)低精度損失。采樣階段則做真實(shí) FP4 量化,把 FP4 權(quán)重真正用于采樣,降低訪存瓶頸,實(shí)現(xiàn)物理提速。更重要的是,這和后續(xù)模型部署一致。現(xiàn)在 DeepSeek 發(fā)布的 checkpoint(模型權(quán)重文件)也是 FP4,訓(xùn)練中采樣用的權(quán)重就是最終發(fā)布權(quán)重,而不是先訓(xùn)練 FP8 再量化成 FP4。這樣損失更小,也提升了強(qiáng)化學(xué)習(xí)效率。
強(qiáng)化學(xué)習(xí)里,模型越大、token budget(單次推理可生成的最大 token 數(shù)量上限)越長,采樣越重,可能占到 70% 以上時間。采樣時降低位寬和顯存讀取壓力,對速度提升很明顯。所以訓(xùn)練時偽量化、采樣時真實(shí)量化,在 DeepSeek 論文里有很強(qiáng)體現(xiàn)。Kimi 的 K2 也用了類似思路。
我們 SGLang 的 RL 團(tuán)隊(duì)去年也做了兩個相關(guān)工作:FP8 全流程強(qiáng)化學(xué)習(xí),訓(xùn)練和推理都用 FP8;還有 INT4 的 QAT。INT4 和 FP4 不完全一樣,但也屬于激進(jìn)壓縮方案。
實(shí)事求是地說,在開源領(lǐng)域,我們團(tuán)隊(duì)的量化 RL 做得比較領(lǐng)先,但和 DeepSeek 還有差距。我們的 INT4 量化感知訓(xùn)練,采樣做的是 W4A16,也就是權(quán)重 4 位、激活值 16 位,DeepSeek 做到了更極限的 W4A8。極致性能上,他們走得更遠(yuǎn),這也是我們接下來要繼續(xù)攻堅(jiān)的方向。
晚點(diǎn):如果 DeepSeek 把官方推理框架開源,它和其他開源推理框架會是什么關(guān)系?
趙晨陽:這涉及開源和閉源推理框架的哲學(xué)區(qū)別。開源推理框架是眾口要調(diào),不只支持 DeepSeek,也要支持小米、智譜、MiniMax、Kimi 等模型。這種整合性,是它和閉源內(nèi)部推理引擎的重大區(qū)別。
晚點(diǎn):它給開發(fā)者或用戶的價值是什么?
趙晨陽:最大價值是滿足很多公司本地部署推理引擎的需求,而開源推理引擎的性能提升,也會反過來促進(jìn)閉源推理引擎。
訓(xùn)練上也類似。閉源仍領(lǐng)先不少,但開源能讓整個領(lǐng)域更透明。以前開源框架對 RL 的適配負(fù)擔(dān)很重,一個模型 2 月上線,可能到 5、6 月才有開源 RL 框架能跑起來。這次 SGLang 在發(fā)布當(dāng)天就支持了 V4 RL 適配。
RL 和推理關(guān)系很近。推理是不帶參數(shù)回傳的前向傳播,強(qiáng)化學(xué)習(xí)則重在采樣,采樣后做參數(shù)回傳。我們還是很高興能在這么大的 MoE 模型上同時做好推理和 RL,并把一致性做到極致。
我也預(yù)見到,F(xiàn)P4 已經(jīng)正式走出硬件廠商的 PPT,成為開源語言模型世界里真正跑通的工業(yè)標(biāo)準(zhǔn)。
晚點(diǎn):目前在這么大規(guī)模的開源模型里,F(xiàn)P4 是不是只有 DeepSeek 用了?
趙晨陽:OpenAI 的開源模型 gpt-oss 也是,但大家技術(shù)選擇不完全一致。只能說 FP4 是全世界都在努力的方向。
劉益楓:英偉達(dá)的開源模型也用 FP4 。Blackwell 卡也是支持 FP4 的。
后訓(xùn)練:多專家訓(xùn)練 + 蒸餾的后訓(xùn)練
晚點(diǎn):DeepSeek-V4 報告最后兩部分講了訓(xùn)練過程,包括預(yù)訓(xùn)練、后訓(xùn)練和測評。這個部分有什么亮點(diǎn)嗎?
劉益楓:一個亮點(diǎn)是預(yù)訓(xùn)練先分裂專家,再做 on-policy distillation(在線策略蒸餾,指在當(dāng)前模型實(shí)際采樣分布上進(jìn)行蒸餾,而不是只依賴離線固定數(shù)據(jù))。最近大家又都在研究 on-policy distillation,但各家做法差別很大。
蒸餾的話,之前 DeepSeek-V3 和 R1 都實(shí)踐過,但 V4 是先訓(xùn)練一些小專家,再把這些專家學(xué)到的技能蒸餾出來,節(jié)省參數(shù)量。訓(xùn)練中,專家越多,容量越大,但參數(shù)量和顯存要求也越高。所以先讓專家學(xué)好,再提取專家精華,從而提高最終模型能力。
趙晨陽:他們做的是多專家訓(xùn)練,本質(zhì)是在解決多目標(biāo)優(yōu)化問題。而同時優(yōu)化目標(biāo)的個數(shù),是智力上限的體現(xiàn)。聯(lián)合訓(xùn)練就相當(dāng)于在多目標(biāo) loss surface(損失曲面,損失函數(shù)在參數(shù)空間的幾何形狀)上找 Pareto 最優(yōu)(帕累托最優(yōu),無法在不損害其他目標(biāo)的前提下進(jìn)一步改善任意目標(biāo)的狀態(tài)),但工程里很難同時找到,因?yàn)樘荻茸呦驈?fù)雜,目標(biāo)沖突嚴(yán)重。比如一味 push coding 能力,數(shù)學(xué)可能變差;數(shù)學(xué)修好了,指令遵循可能又受影響。
現(xiàn)在先分裂再蒸餾的做法是:在各個目標(biāo)上找局部最優(yōu),再讓一個學(xué)生模型擬合多個教師模型的輸出分布。這有點(diǎn)像數(shù)學(xué)插值,把復(fù)雜 loss surface 上的聯(lián)合優(yōu)化,變成在已收斂離散點(diǎn)之間做插值,工程上更穩(wěn)定可控。
業(yè)界之前也有類似嘗試。Qwen 在 post-training 階段提過 multi-stage(多階段訓(xùn)練或聚合)的專家聚合,學(xué)術(shù)界也一直有模型聚合、模型 Spawn(從已有模型派生或擴(kuò)展新模型)這類技術(shù)。硅谷前沿閉源模型大概率也有類似思路,只是披露有限。開源生態(tài)是這一波中國實(shí)驗(yàn)室對 AI 領(lǐng)域的實(shí)質(zhì)貢獻(xiàn)。
晚點(diǎn):關(guān)于測評部分,前面已有部分討論,還有什么補(bǔ)充嗎?
趙晨陽:有一位 NLP 領(lǐng)域很知名的研究者說過一句話:We cannot optimize what we cannot evaluate,“如果一個東西我們無法評估,我們就無法優(yōu)化它”。所以我更愿意把這件事叫 eval(評估),而不是 benchmark(測評)。測評面向的是具體任務(wù),發(fā)布一兩年后就可能過時。但評估永遠(yuǎn)存在。
現(xiàn)在評估也越來越難,因?yàn)閳鼍霸絹碓綇?fù)雜。比如 Claude Code 更新后,常有人說某些方面變差了。我也在想,這類工具到底怎么評估一個 feature 要不要更新?因?yàn)樽?Agent 的人有很多想法,每個聽起來都有道理,但不可能全都滿足。東西加得太多,體驗(yàn)反而變差。
整個行業(yè)必須把評估做好,否則很容易陷入自欺欺人的循環(huán)。
晚點(diǎn):Opus 4.7 更新后,很多人還是認(rèn)為 4.6 更好用。
趙晨陽:現(xiàn)在有個詞叫 vibe checking 或 vibe benchmarking。大家已經(jīng)很難判斷模型好壞,只能根據(jù)有限幾次對話說:以前 4.5 能做的任務(wù),為什么 4.7 做不好?
我們已經(jīng)進(jìn)入 benchmark 的可信危機(jī)。很多模型在 benchmark 上都是 90 多分,但實(shí)際差異很大。所以這一代針對智能體能力的評估還沒有形成共識,行業(yè)還需要更好的評估基建。
劉益楓:我覺得更重要的是發(fā)現(xiàn)和提出新的領(lǐng)域能力,比如 Agent、長程注意力能力。
晚點(diǎn):V4 是不是沒有提出什么新的領(lǐng)域能力?
劉益楓:對,這也是它沒有那么令人震驚的一點(diǎn)。
趙晨陽:但有一點(diǎn)值得欣喜:這幾代模型沒有明顯退化,之前做得好的任務(wù),后面沒有變差,這很難,代價是模型上下文長度已非常夸張。
講到測評基準(zhǔn),去年 DeepSeek-V3 發(fā)布時,我有一篇 ICLR 論文,評估語言模型在 GitHub 上面對刁鉆審核者,提交 PR 并合并的能力。它和數(shù)學(xué)競賽、SWE-bench(主流代碼能力基準(zhǔn))很不一樣,這個任務(wù)在完成編碼后,還要和審核者做多輪修改溝通,再把代碼合并進(jìn)去。
我很欣喜自己做的 benchmark 得到了更多認(rèn)可,即便今年已經(jīng)被刷滿了,但至少成為了 ICLR oral paper(會議口頭報告論文,代表較高認(rèn)可度)。
比如最近我比較關(guān)注的一個基準(zhǔn)是 ClawBench,就是評估 OpenClaw 場景下,用戶對模型的滿意度。我也希望到明年,這種類似個人編程助手的 benchmark 能被刷滿。之后肯定還會有新挑戰(zhàn)和應(yīng)用。
美國追新能力、高定價;中國追性價比、工程極限
晚點(diǎn):最近模型更新密集,從 3 月底到現(xiàn)在,有小米 MiMo 2.5、GLM 5.1、MiniMax 2.7、K 2.6、Opus 4.7、GPT-5.5 等等。你們覺得大家現(xiàn)在努力的共性是什么?
劉益楓:開源模型的方法和架構(gòu)在趨同。基座基本都是 MLA,優(yōu)化器也類似,之前大家用 AdamW 或者 AMSGrad(Adam 的一個變體,通過保留歷史二階矩估計(jì)的逐元素最大值,限制自適應(yīng)學(xué)習(xí)率波動,從而改善收斂穩(wěn)定性),現(xiàn)在陸續(xù)轉(zhuǎn)向 Muon 或基于 Muon 微調(diào)。
在能力上,Agent 是開源和閉源模型共同重視的方向。大家發(fā)現(xiàn),未來模型商業(yè)化可能更多是給 Agent 提供 token,而不是只靠訂閱。
趙晨陽:到底做訂閱制,還是 token by token 計(jì)費(fèi)?我更傾向訂閱制,同時額度用完再收 token 費(fèi)。實(shí)際上大部分用戶用不完訂閱額度,所以訂閱制可能更賺錢。
劉益楓:但很多公司轉(zhuǎn)向按 token 計(jì)費(fèi),也是因?yàn)楝F(xiàn)在訂閱的價格真的扛不住。高了沒人買,低了又虧。
趙晨陽:這確實(shí)沒有定論。比如 Claude Code 這么成功,但到底盈利情況如何?
晚點(diǎn):如果今年底 Anthropic 真啟動 IPO,應(yīng)該能看到財(cái)務(wù)數(shù)據(jù)。現(xiàn)在很多視頻生成產(chǎn)品是你說的訂閱加實(shí)際消耗,訂閱滿額度后再額外買積分。影視從業(yè)者有剛需,客單價也比想象中高很多。
趙晨陽:商業(yè)上我很喜歡視頻生成的生態(tài)。但壞消息是,開源視頻生成模型和閉源差距很大。
晚點(diǎn):好像也沒有太多人愿意開源視頻生成模型,這是不是側(cè)面說明它確實(shí)挺賺錢?迄今比較先進(jìn)的開源視頻生成模型仍是阿里的通義萬象。
趙晨陽:我最近做語音生成模型,也發(fā)現(xiàn)開源模型相比 GPT-4o 那個時代的模型仍有不少差距。這些模型可能是很賺錢。
劉益楓:視頻模型用戶粘性也特別大。相比語言模型,視頻生成模型可能更適合訂閱制。
晚點(diǎn):現(xiàn)在關(guān)注度基本被 coding、通用 Agent 吸走了,因?yàn)楦偁幗棺疲捕际谴蠊尽5曨l或更廣義的 AIGC 可能更創(chuàng)業(yè)友好。語音也是,像 ElevenLabs 也在自己的空間里持續(xù)發(fā)展。以上是各家大模型的共性。那你們觀察到各家的差異是什么?
趙晨陽:開源模型里,DeepSeek 和 Kimi 取向比較接近,工程和創(chuàng)新性都做得比較極限,比如大 MoE、低激活、長上下文和極致成本優(yōu)化。
GLM、Qwen、MiniMax 則在 RL 訓(xùn)練端、長上下文落地上有扎實(shí)積累。還有小米,MiMo-V2.5-Pro 在 Arena 上的分?jǐn)?shù)比 V4 還高。競爭非常激烈,當(dāng)然這也給開源推理引擎帶來很大工作量。
晚點(diǎn):階躍和混元呢?
趙晨陽:階躍在多模態(tài)上發(fā)力很早,而且我認(rèn)為多模態(tài)遠(yuǎn)沒有飽和。
混元最近由姚順雨掌帥,新模型雖然還不在 1T 以上模型的牌桌上,但在 300B 規(guī)模上做得很扎實(shí)。現(xiàn)在是 3.0 Preview,如果之后上 Pro、進(jìn)微信端,格局會很有意思。
晚點(diǎn):中美之間的區(qū)別是什么?
劉益楓:總體來說,美國模型更追求領(lǐng)域創(chuàng)新,比如長上下文、多模態(tài)融合、Agent 能力,或者像 OpenAI 剛發(fā)的 image-2 這種跨躍性能提升。
中國模型更側(cè)重性價比。同等能力下,中國模型收費(fèi)比美國模型低一個數(shù)量級。這和中國充足的技術(shù)人員儲備、有限的算力資源都有關(guān)。
趙晨陽:我之前在 Amazon AGI SF Lab 實(shí)習(xí)過,也和益楓在字節(jié) Seed 實(shí)習(xí)過。美國這一代模型的重點(diǎn)是面向智能體的長程任務(wù)能力,比如 Claude Code,在多輪 agentic coding 上進(jìn)步很大。可以想見 RLHF、RLAIF(基于 AI 反饋的強(qiáng)化學(xué)習(xí),用 AI 生成的評價或偏好信號來訓(xùn)練、對齊模型)這些對齊方法經(jīng)過幾年積累,已經(jīng)形成很強(qiáng)的數(shù)據(jù)閉環(huán)。
中國團(tuán)隊(duì)的強(qiáng)項(xiàng)是架構(gòu)創(chuàng)新密度和工程完成度。V4 報告里一次性把混合稀疏注意力、mHC、Muon、FP4、TileLang 這么多事情全部換掉并跑通,這種決心和執(zhí)行力很罕見。中美路徑和風(fēng)格不同,但行業(yè)在螺旋上升。
晚點(diǎn):美國模型好像沒有做得那么稀疏,他們不太追求這個。
劉益楓:美國算力相對多,也不一定要這么稀疏。太稀疏會犧牲一些能力上限。
趙晨陽:這也和美國缺少高質(zhì)量的工程人才有關(guān)。
晚點(diǎn):所以美國 AI lab 更傾向于先沖性能。反正模型貴也有人買,之后再考慮降成本。
趙晨陽:對。很多人批評中美大搞 AI 競賽,但我覺得很遺憾,只有中美能搞競賽,沒有其他國家玩得起這一波比賽了。
晚點(diǎn):V4 或最近這些新模型,會對你們接下來的研究方向和具體工作產(chǎn)生什么影響?
劉益楓:如果在公司實(shí)習(xí),我會想做 CSA、HCA 這類 token-wise 壓縮的長文本方向。但實(shí)驗(yàn)室資源有限,很難做長文本,所以我傾向研究 Hyper-Connection、 Kimi 的 Attention Residual。這可能類似從 ResNet(殘差網(wǎng)絡(luò),通過跨層捷徑連接緩解梯度消失問題的經(jīng)典視覺架構(gòu))到 DenseNet 的變化。對 Transformer 架構(gòu)來說,也可能會出現(xiàn)提高層間信息流動的新趨勢。
另外我也在做優(yōu)化器。DeepSeek-V4 采用了不同超參數(shù)。Muon 怎么進(jìn)一步改進(jìn)、超參數(shù)怎么設(shè)定,都值得研究。Keller Jordan 的五步牛頓-舒爾茨迭代,和 DeepSeek-V4 的十步牛頓-舒爾茨迭代哪個更好,值得繼續(xù)探索。
趙晨陽:我之前的一個研究是評估多輪 Agent 在 GitHub 上提交 PR 時的真實(shí)表現(xiàn)。現(xiàn)在我需要把它用起來。因?yàn)榫S護(hù)開源工具時,會收到很多 AI 生成的 PR,我需要把研究里的標(biāo)準(zhǔn)內(nèi)化到工作中,判斷哪些 PR 靠譜、哪些應(yīng)該斃掉。
另外我最近做語音模型,它的工程優(yōu)化比語言模型差很多,很多語言模型里的工作都可以在語音模型上重試一次。DeepSeek 這版做了很優(yōu)秀的 PD 分離(Prefill-Decode 分離,將計(jì)算密集的預(yù)填充階段與訪存密集的解碼階段分配到不同硬件以提升整體吞吐)、MTP 等工作。語音模型未必用得上 PD 分離,但 MTP 很關(guān)鍵。比如現(xiàn)在和豆包語音對話,它語音吐出的速度很快。但開源模型在這方面還沒做到這么好。
晚點(diǎn):最后想問兩位,再過一兩年來看,V4 最可能被記住的是什么成果或者思路?
劉益楓:從算法層面看,可能是 token-wise 的極致壓縮。之前大家更多是在 KV-cache 上做單 token 降維,比如 MLA 的先降維再升維。但 token-wise 壓縮,應(yīng)該是 V4 首先應(yīng)用到了工業(yè)級模型上。
趙晨陽:我和益楓觀點(diǎn)類似。長上下文、極致低激活比例、低單 token 成本這個組合,無論從架構(gòu)層面還是基礎(chǔ)設(shè)施層面看可能都是 V4 的持久遺產(chǎn)。
具體到 mHC 或混合注意力,未必會一直以現(xiàn)在的方式。它們可能像 MLA,是某個階段的最優(yōu)解,過一兩個周期后會被更優(yōu)雅的方案替代,當(dāng)然硬件也會反過來推動迭代。
但 DeepSeek-V4 率先驗(yàn)證的這套工程配方,會成為后續(xù)很多開源大模型的默認(rèn)起點(diǎn)。在這個意義上,DeepSeek 一直是開源模型的參考基準(zhǔn)。
更多技術(shù)討論,可聯(lián)系兩位播客嘉進(jìn)一步交流:
趙晨陽(wechat:LoveDeathAndLLM)、劉益楓(wechat:lauyikfung20)
題圖來源:PinkPantheress-Romeo
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.