DeepSeek-V4報告亮了！V4發(fā)布延遲的秘密，終于曝光了

2026-04-25 13:42:06　來源: 新智元

北京舉報

分享至

新智元報道

編輯：Aeneas 好困

【新智元導(dǎo)讀】DeepSeek-V4的技術(shù)報告，簡直誠實得令人震驚。V4發(fā)布延遲的秘密，被正式透露了！這顆大雷的背后，究竟是指誰？研究者們已經(jīng)紛紛展開了猜測。并且，論文中用硬核工程暴力重構(gòu)Agent的操作，也讓社區(qū)直呼：國產(chǎn)之光，實至名歸。

昨天，是名副其實的AI圈「春晚」。

DeepSeek-V4的技術(shù)報告一出，近60頁的篇幅，從架構(gòu)到訓(xùn)練到后訓(xùn)練全部攤開。

484天，對這個團隊來說不尋常。V3從V2到發(fā)布只用了不到8個月。V4為什么多花了將近一倍的時間？

認(rèn)真研讀完這篇報告，我們發(fā)現(xiàn)了背后可能的原因，以及這家「國產(chǎn)之光」令人震撼的工程底色實。

可以說，DeepSeek-V4真正令人深思的，不是它堆了多少算力，而是它在Agent訓(xùn)練、工程底座、以及處理「訓(xùn)練震蕩」時的那種近乎殘酷的理性和透明。

今天，我們直接拆開V4的引擎蓋，看看里面藏著哪些不為人知的硬核細(xì)節(jié)。

33T Token + 萬億參數(shù)

難度直接拉滿

距離V3發(fā)布整整484天，V4才以「preview version」的姿態(tài)上線。

論文里雖然沒有解釋這個時間跨度，但有一段內(nèi)容或許能提供線索。

V3用了14.8T token做預(yù)訓(xùn)練，V4直接翻倍，V4-Flash訓(xùn)了32T，V4-Pro訓(xùn)了33T。參數(shù)量同樣大幅擴張，V4-Pro總參數(shù)1.6T，V4-Flash也有284B。

數(shù)據(jù)翻倍、參數(shù)翻倍，訓(xùn)練穩(wěn)定性的難度也跟著上了一個量級。

報告里非常誠實：DeepSeek明確點名了「訓(xùn)練穩(wěn)定性挑戰(zhàn)」。

谷歌DeepMind研究者Susan Zhang表揚說：這種透明的做法值得稱贊。這個說法還得到了龍蝦之父的轉(zhuǎn)發(fā)

在超大規(guī)模集群上，當(dāng)參數(shù)量和訓(xùn)練數(shù)據(jù)達(dá)到某個臨界點時，硬件的細(xì)微誤差會被無限放大。

論文里，「stability」這個詞出現(xiàn)了十余次。

放在一篇技術(shù)報告里，這個頻率本身就是信號。正常情況下，穩(wěn)定性是默認(rèn)前提，不值得反復(fù)提。反復(fù)提，說明它確實是個問題。

具體來看，DeepSeek發(fā)現(xiàn)MoE層中的數(shù)值異常值（outlier）會通過路由機制不斷放大，形成惡性循環(huán)，最終觸發(fā)loss spike，訓(xùn)練曲線突然飆升。

團隊祭出的主要補救措施是兩招。

第一招叫Anticipatory Routing。它本質(zhì)上就是在路由階段使用稍早版本的參數(shù)，把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦，打破兩者之間的惡性循環(huán)。

第二招是SwiGLU Clamping。它直接把SwiGLU的數(shù)值范圍鉗制在[-10, 10]以內(nèi)，從源頭壓制異常值，雖然暴力但很有效。

當(dāng)前大模型訓(xùn)練已進(jìn)入硬件底層、編譯器棧、以及數(shù)學(xué)架構(gòu)三位一體的無人區(qū)

論文里有個細(xì)節(jié)很耐琢磨。

Anticipatory Routing和SwiGLU Clamping，DeepSeek確認(rèn)「顯著有效」，但緊跟一句「底層機理仍是open question」。

連Q/KV歸一化這種已經(jīng)被廣泛驗證的基礎(chǔ)操作，論文的措辭都只敢寫「may improve training stability」。

一個「may」字，足以說明在萬億參數(shù)MoE的訓(xùn)練里，沒有什么是百分百靠得住的。

從15T到33T，數(shù)據(jù)量翻倍帶來的不是線性增長的困難，而是指數(shù)級放大的系統(tǒng)性風(fēng)險。

每一層網(wǎng)絡(luò)、每一個梯度更新、每一次通信同步，都在更大的規(guī)模下被放大成潛在的崩潰點。

而DeepSeek選擇把這些全寫進(jìn)論文里，這在業(yè)內(nèi)幾乎沒有先例。

硬件的鍋，還是軟件的鍋？

所以，技術(shù)報告中明確提出的「訓(xùn)練穩(wěn)定性挑戰(zhàn)」，指的到底是誰家的硬件？

雖然論文里沒有明確點名任何硬件平臺，但已經(jīng)有嗅覺敏銳的人開始猜測了。

有觀點直接指出：所謂「訓(xùn)練穩(wěn)定性挑戰(zhàn)」，很可能就是算力平臺的問題。而且不只是DeepSeek一家踩坑，各大廠商都遇到過。

xAI在一次發(fā)布會上，Macrohard項目的負(fù)責(zé)人曾隱晦提到，英偉達(dá)最新的芯片給他們造成了「不小的麻煩」，不得不重新開發(fā)硬件適配程序。這或許也解釋了xAI進(jìn)度突然放緩的原因之一。

不過，這件事當(dāng)然沒那么簡單。

大型算力集群涉及的變量太多：芯片本身、互連架構(gòu)、散熱系統(tǒng)、電力供應(yīng)、驅(qū)動版本、編譯棧適配。訓(xùn)練不穩(wěn)定未必等于芯片級缺陷，也可能是系統(tǒng)集成層的問題。

不過，目前還沒有任何官方文件給出答案。

一切都還在猜測之中。

Agent訓(xùn)練體系

工程能力讓人肅然起敬

如果說V4的預(yù)訓(xùn)練是在和硬件博弈，那么它的Post-training則展現(xiàn)了教科書級別的工程審美。

可以說，Agent能力的工程化路徑，是V4論文里最值得細(xì)讀的部分。

以往我們認(rèn)為Agent能力是「教」出來的，但DeepSeek認(rèn)為，Agent能力應(yīng)該是「長」出來的。

拒絕「硬遷移」，預(yù)訓(xùn)練階段的「血脈注入」

行業(yè)內(nèi)大部分的做法是，先訓(xùn)一個對話模型，再硬遷移成Agent。DeepSeek看來，這太低效了。

在V4的mid-training階段，他們就注入了海量的Agentic Data。

這意味著，模型在基礎(chǔ)學(xué)習(xí)階段，就已經(jīng)見過長任務(wù)鏈、環(huán)境反饋和文件修改模式。它還沒學(xué)會寫詩，就已經(jīng)見過了Linux命令行的報錯。

這就是一種地基層面的設(shè)計。

獨創(chuàng)的Specialist Training（專家特訓(xùn)法）

另一大亮點，就是DeepSeek獨創(chuàng)的專家特訓(xùn)法。

V4沒有直接練一個全能戰(zhàn)士，而是先練出了數(shù)學(xué)專家、代碼專家、Agent專家、指令跟隨專家。

這種分階段的Specialist Training保證了每個領(lǐng)域的上限被拉到最高。

最后，再通過OPD（Multi-teacher On-Policy Distillation，多教師在線策略蒸餾），將這些專家的靈魂聚合成一個統(tǒng)一的模型。

這里工程上的難度在于，同時加載十多個萬億參數(shù)級的教師模型做在線推理不現(xiàn)實。

V4的方案是不緩存教師的logits（顯存裝不下），只緩存教師最后一層的隱藏狀態(tài)，訓(xùn)練時按需通過prediction head重建logits。

然后，按教師索引排序訓(xùn)練樣本，確保每個教師的prediction head只加載一次。KL散度計算則用TileLang編寫的專用kernel加速。

告別傳統(tǒng)Reward Model

另外，對于「難以驗證（hard-to-verify）」的任務(wù)，傳統(tǒng)的標(biāo)量獎勵模型（Scalar Reward Model）已經(jīng)力不從心。

對此，DeepSeek選擇引入了Generative Reward Model (GRM)。

它不再簡單地給一個0到1的分?jǐn)?shù)，而是根據(jù)預(yù)設(shè)的Rubric（評估準(zhǔn)則）生成詳細(xì)的評估報告。

更關(guān)鍵的是，DeepSeek對GRM本身也做了RL優(yōu)化，讓actor網(wǎng)絡(luò)同時充當(dāng)生成式獎勵模型，評判能力和生成能力在同一個模型中聯(lián)合優(yōu)化。

把Agent做成一套分布式系統(tǒng)

不僅如此，DeepSeek還為V4專門自研了一套底座。

DSec：生產(chǎn)級沙箱集群

為了訓(xùn)練Agent的實操能力，DeepSeek搭建了一個名為DSec的平臺。

3FS分布式文件系統(tǒng)，確保了數(shù)據(jù)的極速存取；數(shù)十萬并發(fā)Sandbox實例，則意味著V4在訓(xùn)練時，同時有幾十萬臺「虛擬電腦」在跑代碼、測Bug。

MegaMoE：通信計算一體化

在MoE層，DeepSeek把通信和計算融合進(jìn)單個pipeline kernel，專家按wave調(diào)度，通信延遲完全隱藏在計算之下。

結(jié)果就是，通用場景加速1.5到1.73倍，RL rollout等延遲敏感場景最高1.96倍。

自研DSML：拒絕轉(zhuǎn)義失敗

工具調(diào)用方面，DeepSeek干脆自己設(shè)計了一套類似XML的DSL（領(lǐng)域特定語言）。

這套協(xié)議簡單高效，直接把工具調(diào)用的成功率從「看運氣」提升到了「工業(yè)級穩(wěn)健」。

Reasoning Effort分模式訓(xùn)練

還有一個精細(xì)的設(shè)計，就是V4支持不同的思考模式。

Non-think模式是簡單的工具選擇，秒回。High/Max則針對長文檔、重構(gòu)、復(fù)雜Bug，拉滿推理算力。

這種「能省則省，該狠則狠」的策略，也是V4成本能做到Claude 1/4的關(guān)鍵。

社區(qū)的很多研究者讀完這部分后，膜拜得五體投地：「DeepSeek的工程能力，依舊扎實得讓人沒話說」。

Interleaved Thinking升級

V3.2在每個新用戶消息到來時會丟棄之前的思考痕跡，V4在Tool-Calling場景下保留了完整的跨輪次推理歷史，讓Agent在長時程任務(wù)中維持連貫的推理鏈。

普通對話場景仍每輪清空，保持上下文精簡。

硬幣的另一面，是94%的幻覺率

Artificial Analysis的實測給出了一個更立體的畫面。

跑完Intelligence Index的全量基準(zhǔn)測試，V4 Pro只花了1071美金，比Claude Opus 4.7的4811美金便宜了四倍多。

Agent能力方面，V4 Pro Max在GDPval-AA實測（面向真實工作任務(wù)的Agent基準(zhǔn)）中拿到了1554分，全面領(lǐng)先一眾開源模型。

然而，天下沒有免費的午餐。

Aritificial Analysis的報告里也非常坦誠地指出了這種做法的代價：V4 pro在AA-Ominiscience上的幻覺率高達(dá)94%。

這揭示了一個結(jié)構(gòu)性困境：要在有限算力預(yù)算下逼近頂級性能，就不得不在某些維度上做取舍。

DeepSeek選擇把籌碼全壓在推理和Agent能力上，代價，就是知識都準(zhǔn)確性。

為什么我們依然對DeepSeek充滿敬意？

在這次V4的報告中，有人看到了「訓(xùn)練不穩(wěn)」的尷尬，有人看到了「幻覺嚴(yán)重」的短板。

但在我們看來，這份報告最動人的地方在于透明。

他們敢于承認(rèn)硬件適配陣痛，敢于披露那些看似「補丁」的解決方案，更敢于展示自己如何用最硬核的工程能力，在幾十萬個沙箱里一點點磨出Agent的靈魂。

從V3的Multi-head Latent Attention到V4的OPD蒸餾和DSec沙箱，DeepSeek正在用一種近乎偏執(zhí)的「工程主義」，探索著大模型通往AGI的另一條路徑——

如果架構(gòu)還沒完美，那就用工程把墻砌厚；如果算力不夠便宜，那就用算法把效率榨干。

DeepSeek-V4也許不是最完美的終局，但它絕對是目前最真實的、最充滿活力的「中國AI現(xiàn)場」。

參考資料：

https://x.com/suchenzang/status/2047559677316325807

https://x.com/ArtificialAnlys/status/2047735160544841953

https://x.com/jakevin7/status/2047578619946664413

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.