![]()
新智元報道
編輯:Aeneas 好困
【新智元導(dǎo)讀】DeepSeek-V4的技術(shù)報告,簡直誠實得令人震驚。V4發(fā)布延遲的秘密,被正式透露了!這顆大雷的背后,究竟是指誰?研究者們已經(jīng)紛紛展開了猜測。并且,論文中用硬核工程暴力重構(gòu)Agent的操作,也讓社區(qū)直呼:國產(chǎn)之光,實至名歸。
昨天,是名副其實的AI圈「春晚」。
DeepSeek-V4的技術(shù)報告一出,近60頁的篇幅,從架構(gòu)到訓(xùn)練到后訓(xùn)練全部攤開。
484天,對這個團隊來說不尋常。V3從V2到發(fā)布只用了不到8個月。V4為什么多花了將近一倍的時間?
認(rèn)真研讀完這篇報告,我們發(fā)現(xiàn)了背后可能的原因,以及這家「國產(chǎn)之光」令人震撼的工程底色實。
可以說,DeepSeek-V4真正令人深思的,不是它堆了多少算力,而是它在Agent訓(xùn)練、工程底座、以及處理「訓(xùn)練震蕩」時的那種近乎殘酷的理性和透明。
今天,我們直接拆開V4的引擎蓋,看看里面藏著哪些不為人知的硬核細(xì)節(jié)。
33T Token + 萬億參數(shù)
難度直接拉滿
距離V3發(fā)布整整484天,V4才以「preview version」的姿態(tài)上線。
論文里雖然沒有解釋這個時間跨度,但有一段內(nèi)容或許能提供線索。
![]()
V3用了14.8T token做預(yù)訓(xùn)練,V4直接翻倍,V4-Flash訓(xùn)了32T,V4-Pro訓(xùn)了33T。參數(shù)量同樣大幅擴張,V4-Pro總參數(shù)1.6T,V4-Flash也有284B。
數(shù)據(jù)翻倍、參數(shù)翻倍,訓(xùn)練穩(wěn)定性的難度也跟著上了一個量級。
報告里非常誠實:DeepSeek明確點名了「訓(xùn)練穩(wěn)定性挑戰(zhàn)」。
![]()
谷歌DeepMind研究者Susan Zhang表揚說:這種透明的做法值得稱贊。這個說法還得到了龍蝦之父的轉(zhuǎn)發(fā)
在超大規(guī)模集群上,當(dāng)參數(shù)量和訓(xùn)練數(shù)據(jù)達(dá)到某個臨界點時,硬件的細(xì)微誤差會被無限放大。
論文里,「stability」這個詞出現(xiàn)了十余次。
放在一篇技術(shù)報告里,這個頻率本身就是信號。正常情況下,穩(wěn)定性是默認(rèn)前提,不值得反復(fù)提。反復(fù)提,說明它確實是個問題。
![]()
具體來看,DeepSeek發(fā)現(xiàn)MoE層中的數(shù)值異常值(outlier)會通過路由機制不斷放大,形成惡性循環(huán),最終觸發(fā)loss spike,訓(xùn)練曲線突然飆升。
團隊祭出的主要補救措施是兩招。
第一招叫Anticipatory Routing。它本質(zhì)上就是在路由階段使用稍早版本的參數(shù),把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦,打破兩者之間的惡性循環(huán)。
第二招是SwiGLU Clamping。它直接把SwiGLU的數(shù)值范圍鉗制在[-10, 10]以內(nèi),從源頭壓制異常值,雖然暴力但很有效。
![]()
當(dāng)前大模型訓(xùn)練已進(jìn)入硬件底層、編譯器棧、以及數(shù)學(xué)架構(gòu)三位一體的無人區(qū)
論文里有個細(xì)節(jié)很耐琢磨。
Anticipatory Routing和SwiGLU Clamping,DeepSeek確認(rèn)「顯著有效」,但緊跟一句「底層機理仍是open question」。
連Q/KV歸一化這種已經(jīng)被廣泛驗證的基礎(chǔ)操作,論文的措辭都只敢寫「may improve training stability」。
一個「may」字,足以說明在萬億參數(shù)MoE的訓(xùn)練里,沒有什么是百分百靠得住的。
![]()
從15T到33T,數(shù)據(jù)量翻倍帶來的不是線性增長的困難,而是指數(shù)級放大的系統(tǒng)性風(fēng)險。
每一層網(wǎng)絡(luò)、每一個梯度更新、每一次通信同步,都在更大的規(guī)模下被放大成潛在的崩潰點。
而DeepSeek選擇把這些全寫進(jìn)論文里,這在業(yè)內(nèi)幾乎沒有先例。
硬件的鍋,還是軟件的鍋?
所以,技術(shù)報告中明確提出的「訓(xùn)練穩(wěn)定性挑戰(zhàn)」,指的到底是誰家的硬件?
雖然論文里沒有明確點名任何硬件平臺,但已經(jīng)有嗅覺敏銳的人開始猜測了。
有觀點直接指出:所謂「訓(xùn)練穩(wěn)定性挑戰(zhàn)」,很可能就是算力平臺的問題。而且不只是DeepSeek一家踩坑,各大廠商都遇到過。
xAI在一次發(fā)布會上,Macrohard項目的負(fù)責(zé)人曾隱晦提到,英偉達(dá)最新的芯片給他們造成了「不小的麻煩」,不得不重新開發(fā)硬件適配程序。這或許也解釋了xAI進(jìn)度突然放緩的原因之一。
![]()
不過,這件事當(dāng)然沒那么簡單。
大型算力集群涉及的變量太多:芯片本身、互連架構(gòu)、散熱系統(tǒng)、電力供應(yīng)、驅(qū)動版本、編譯棧適配。訓(xùn)練不穩(wěn)定未必等于芯片級缺陷,也可能是系統(tǒng)集成層的問題。
不過,目前還沒有任何官方文件給出答案。
一切都還在猜測之中。
![]()
Agent訓(xùn)練體系
工程能力讓人肅然起敬
如果說V4的預(yù)訓(xùn)練是在和硬件博弈,那么它的Post-training則展現(xiàn)了教科書級別的工程審美。
可以說,Agent能力的工程化路徑,是V4論文里最值得細(xì)讀的部分。
以往我們認(rèn)為Agent能力是「教」出來的,但DeepSeek認(rèn)為,Agent能力應(yīng)該是「長」出來的。
![]()
拒絕「硬遷移」,預(yù)訓(xùn)練階段的「血脈注入」
行業(yè)內(nèi)大部分的做法是,先訓(xùn)一個對話模型,再硬遷移成Agent。DeepSeek看來,這太低效了。
在V4的mid-training階段,他們就注入了海量的Agentic Data。
這意味著,模型在基礎(chǔ)學(xué)習(xí)階段,就已經(jīng)見過長任務(wù)鏈、環(huán)境反饋和文件修改模式。它還沒學(xué)會寫詩,就已經(jīng)見過了Linux命令行的報錯。
這就是一種地基層面的設(shè)計。
獨創(chuàng)的Specialist Training(專家特訓(xùn)法)
另一大亮點,就是DeepSeek獨創(chuàng)的專家特訓(xùn)法。
V4沒有直接練一個全能戰(zhàn)士,而是先練出了數(shù)學(xué)專家、代碼專家、Agent專家、指令跟隨專家。
這種分階段的Specialist Training保證了每個領(lǐng)域的上限被拉到最高。
最后,再通過OPD(Multi-teacher On-Policy Distillation,多教師在線策略蒸餾),將這些專家的靈魂聚合成一個統(tǒng)一的模型。
這里工程上的難度在于,同時加載十多個萬億參數(shù)級的教師模型做在線推理不現(xiàn)實。
V4的方案是不緩存教師的logits(顯存裝不下),只緩存教師最后一層的隱藏狀態(tài),訓(xùn)練時按需通過prediction head重建logits。
然后,按教師索引排序訓(xùn)練樣本,確保每個教師的prediction head只加載一次。KL散度計算則用TileLang編寫的專用kernel加速。
告別傳統(tǒng)Reward Model
另外,對于「難以驗證(hard-to-verify)」的任務(wù),傳統(tǒng)的標(biāo)量獎勵模型(Scalar Reward Model)已經(jīng)力不從心。
對此,DeepSeek選擇引入了Generative Reward Model (GRM)。
它不再簡單地給一個0到1的分?jǐn)?shù),而是根據(jù)預(yù)設(shè)的Rubric(評估準(zhǔn)則)生成詳細(xì)的評估報告。
更關(guān)鍵的是,DeepSeek對GRM本身也做了RL優(yōu)化,讓actor網(wǎng)絡(luò)同時充當(dāng)生成式獎勵模型,評判能力和生成能力在同一個模型中聯(lián)合優(yōu)化。
把Agent做成一套分布式系統(tǒng)
不僅如此,DeepSeek還為V4專門自研了一套底座。
DSec:生產(chǎn)級沙箱集群
為了訓(xùn)練Agent的實操能力,DeepSeek搭建了一個名為DSec的平臺。
3FS分布式文件系統(tǒng),確保了數(shù)據(jù)的極速存取;數(shù)十萬并發(fā)Sandbox實例,則意味著V4在訓(xùn)練時,同時有幾十萬臺「虛擬電腦」在跑代碼、測Bug。
MegaMoE:通信計算一體化
在MoE層,DeepSeek把通信和計算融合進(jìn)單個pipeline kernel,專家按wave調(diào)度,通信延遲完全隱藏在計算之下。
結(jié)果就是,通用場景加速1.5到1.73倍,RL rollout等延遲敏感場景最高1.96倍。
自研DSML:拒絕轉(zhuǎn)義失敗
工具調(diào)用方面,DeepSeek干脆自己設(shè)計了一套類似XML的DSL(領(lǐng)域特定語言)。
這套協(xié)議簡單高效,直接把工具調(diào)用的成功率從「看運氣」提升到了「工業(yè)級穩(wěn)健」。
![]()
Reasoning Effort分模式訓(xùn)練
還有一個精細(xì)的設(shè)計,就是V4支持不同的思考模式。
Non-think模式是簡單的工具選擇,秒回。High/Max則針對長文檔、重構(gòu)、復(fù)雜Bug,拉滿推理算力。
這種「能省則省,該狠則狠」的策略,也是V4成本能做到Claude 1/4的關(guān)鍵。
社區(qū)的很多研究者讀完這部分后,膜拜得五體投地:「DeepSeek的工程能力,依舊扎實得讓人沒話說」。
![]()
Interleaved Thinking升級
V3.2在每個新用戶消息到來時會丟棄之前的思考痕跡,V4在Tool-Calling場景下保留了完整的跨輪次推理歷史,讓Agent在長時程任務(wù)中維持連貫的推理鏈。
普通對話場景仍每輪清空,保持上下文精簡。
硬幣的另一面,是94%的幻覺率
Artificial Analysis的實測給出了一個更立體的畫面。
跑完Intelligence Index的全量基準(zhǔn)測試,V4 Pro只花了1071美金,比Claude Opus 4.7的4811美金便宜了四倍多。
Agent能力方面,V4 Pro Max在GDPval-AA實測(面向真實工作任務(wù)的Agent基準(zhǔn))中拿到了1554分,全面領(lǐng)先一眾開源模型。
![]()
![]()
然而,天下沒有免費的午餐。
Aritificial Analysis的報告里也非常坦誠地指出了這種做法的代價:V4 pro在AA-Ominiscience上的幻覺率高達(dá)94%。
![]()
這揭示了一個結(jié)構(gòu)性困境:要在有限算力預(yù)算下逼近頂級性能,就不得不在某些維度上做取舍。
DeepSeek選擇把籌碼全壓在推理和Agent能力上,代價,就是知識都準(zhǔn)確性。
![]()
為什么我們依然對DeepSeek充滿敬意?
在這次V4的報告中,有人看到了「訓(xùn)練不穩(wěn)」的尷尬,有人看到了「幻覺嚴(yán)重」的短板。
但在我們看來,這份報告最動人的地方在于透明。
他們敢于承認(rèn)硬件適配陣痛,敢于披露那些看似「補丁」的解決方案,更敢于展示自己如何用最硬核的工程能力,在幾十萬個沙箱里一點點磨出Agent的靈魂。
從V3的Multi-head Latent Attention到V4的OPD蒸餾和DSec沙箱,DeepSeek正在用一種近乎偏執(zhí)的「工程主義」,探索著大模型通往AGI的另一條路徑——
如果架構(gòu)還沒完美,那就用工程把墻砌厚;如果算力不夠便宜,那就用算法把效率榨干。
DeepSeek-V4也許不是最完美的終局,但它絕對是目前最真實的、最充滿活力的「中國AI現(xiàn)場」。
參考資料:
https://x.com/suchenzang/status/2047559677316325807
https://x.com/ArtificialAnlys/status/2047735160544841953
https://x.com/jakevin7/status/2047578619946664413
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.