<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek-V4報告亮了!V4發(fā)布延遲的秘密,終于曝光了

      0
      分享至


      新智元報道

      編輯:Aeneas 好困

      【新智元導(dǎo)讀】DeepSeek-V4的技術(shù)報告,簡直誠實得令人震驚。V4發(fā)布延遲的秘密,被正式透露了!這顆大雷的背后,究竟是指誰?研究者們已經(jīng)紛紛展開了猜測。并且,論文中用硬核工程暴力重構(gòu)Agent的操作,也讓社區(qū)直呼:國產(chǎn)之光,實至名歸。

      昨天,是名副其實的AI圈「春晚」。

      DeepSeek-V4的技術(shù)報告一出,近60頁的篇幅,從架構(gòu)到訓(xùn)練到后訓(xùn)練全部攤開。

      484天,對這個團隊來說不尋常。V3從V2到發(fā)布只用了不到8個月。V4為什么多花了將近一倍的時間?

      認(rèn)真研讀完這篇報告,我們發(fā)現(xiàn)了背后可能的原因,以及這家「國產(chǎn)之光」令人震撼的工程底色實。

      可以說,DeepSeek-V4真正令人深思的,不是它堆了多少算力,而是它在Agent訓(xùn)練、工程底座、以及處理「訓(xùn)練震蕩」時的那種近乎殘酷的理性和透明。

      今天,我們直接拆開V4的引擎蓋,看看里面藏著哪些不為人知的硬核細(xì)節(jié)。

      33T Token + 萬億參數(shù)

      難度直接拉滿

      距離V3發(fā)布整整484天,V4才以「preview version」的姿態(tài)上線。

      論文里雖然沒有解釋這個時間跨度,但有一段內(nèi)容或許能提供線索。


      V3用了14.8T token做預(yù)訓(xùn)練,V4直接翻倍,V4-Flash訓(xùn)了32T,V4-Pro訓(xùn)了33T。參數(shù)量同樣大幅擴張,V4-Pro總參數(shù)1.6T,V4-Flash也有284B。

      數(shù)據(jù)翻倍、參數(shù)翻倍,訓(xùn)練穩(wěn)定性的難度也跟著上了一個量級。

      報告里非常誠實:DeepSeek明確點名了「訓(xùn)練穩(wěn)定性挑戰(zhàn)」。


      谷歌DeepMind研究者Susan Zhang表揚說:這種透明的做法值得稱贊。這個說法還得到了龍蝦之父的轉(zhuǎn)發(fā)

      在超大規(guī)模集群上,當(dāng)參數(shù)量和訓(xùn)練數(shù)據(jù)達(dá)到某個臨界點時,硬件的細(xì)微誤差會被無限放大。

      論文里,「stability」這個詞出現(xiàn)了十余次。

      放在一篇技術(shù)報告里,這個頻率本身就是信號。正常情況下,穩(wěn)定性是默認(rèn)前提,不值得反復(fù)提。反復(fù)提,說明它確實是個問題。


      具體來看,DeepSeek發(fā)現(xiàn)MoE層中的數(shù)值異常值(outlier)會通過路由機制不斷放大,形成惡性循環(huán),最終觸發(fā)loss spike,訓(xùn)練曲線突然飆升。

      團隊祭出的主要補救措施是兩招。

      第一招叫Anticipatory Routing。它本質(zhì)上就是在路由階段使用稍早版本的參數(shù),把骨干網(wǎng)絡(luò)和路由網(wǎng)絡(luò)的更新解耦,打破兩者之間的惡性循環(huán)。

      第二招是SwiGLU Clamping。它直接把SwiGLU的數(shù)值范圍鉗制在[-10, 10]以內(nèi),從源頭壓制異常值,雖然暴力但很有效。


      當(dāng)前大模型訓(xùn)練已進(jìn)入硬件底層、編譯器棧、以及數(shù)學(xué)架構(gòu)三位一體的無人區(qū)

      論文里有個細(xì)節(jié)很耐琢磨。

      Anticipatory Routing和SwiGLU Clamping,DeepSeek確認(rèn)「顯著有效」,但緊跟一句「底層機理仍是open question」。

      連Q/KV歸一化這種已經(jīng)被廣泛驗證的基礎(chǔ)操作,論文的措辭都只敢寫「may improve training stability」。

      一個「may」字,足以說明在萬億參數(shù)MoE的訓(xùn)練里,沒有什么是百分百靠得住的。


      從15T到33T,數(shù)據(jù)量翻倍帶來的不是線性增長的困難,而是指數(shù)級放大的系統(tǒng)性風(fēng)險。

      每一層網(wǎng)絡(luò)、每一個梯度更新、每一次通信同步,都在更大的規(guī)模下被放大成潛在的崩潰點。

      而DeepSeek選擇把這些全寫進(jìn)論文里,這在業(yè)內(nèi)幾乎沒有先例。

      硬件的鍋,還是軟件的鍋?

      所以,技術(shù)報告中明確提出的「訓(xùn)練穩(wěn)定性挑戰(zhàn)」,指的到底是誰家的硬件?

      雖然論文里沒有明確點名任何硬件平臺,但已經(jīng)有嗅覺敏銳的人開始猜測了。

      有觀點直接指出:所謂「訓(xùn)練穩(wěn)定性挑戰(zhàn)」,很可能就是算力平臺的問題。而且不只是DeepSeek一家踩坑,各大廠商都遇到過。

      xAI在一次發(fā)布會上,Macrohard項目的負(fù)責(zé)人曾隱晦提到,英偉達(dá)最新的芯片給他們造成了「不小的麻煩」,不得不重新開發(fā)硬件適配程序。這或許也解釋了xAI進(jìn)度突然放緩的原因之一。


      不過,這件事當(dāng)然沒那么簡單。

      大型算力集群涉及的變量太多:芯片本身、互連架構(gòu)、散熱系統(tǒng)、電力供應(yīng)、驅(qū)動版本、編譯棧適配。訓(xùn)練不穩(wěn)定未必等于芯片級缺陷,也可能是系統(tǒng)集成層的問題。

      不過,目前還沒有任何官方文件給出答案。

      一切都還在猜測之中。


      Agent訓(xùn)練體系

      工程能力讓人肅然起敬

      如果說V4的預(yù)訓(xùn)練是在和硬件博弈,那么它的Post-training則展現(xiàn)了教科書級別的工程審美。

      可以說,Agent能力的工程化路徑,是V4論文里最值得細(xì)讀的部分。

      以往我們認(rèn)為Agent能力是「教」出來的,但DeepSeek認(rèn)為,Agent能力應(yīng)該是「長」出來的。


      拒絕「硬遷移」,預(yù)訓(xùn)練階段的「血脈注入」

      行業(yè)內(nèi)大部分的做法是,先訓(xùn)一個對話模型,再硬遷移成Agent。DeepSeek看來,這太低效了。

      在V4的mid-training階段,他們就注入了海量的Agentic Data。

      這意味著,模型在基礎(chǔ)學(xué)習(xí)階段,就已經(jīng)見過長任務(wù)鏈、環(huán)境反饋和文件修改模式。它還沒學(xué)會寫詩,就已經(jīng)見過了Linux命令行的報錯。

      這就是一種地基層面的設(shè)計。

      獨創(chuàng)的Specialist Training(專家特訓(xùn)法)

      另一大亮點,就是DeepSeek獨創(chuàng)的專家特訓(xùn)法。

      V4沒有直接練一個全能戰(zhàn)士,而是先練出了數(shù)學(xué)專家、代碼專家、Agent專家、指令跟隨專家。

      這種分階段的Specialist Training保證了每個領(lǐng)域的上限被拉到最高。

      最后,再通過OPD(Multi-teacher On-Policy Distillation,多教師在線策略蒸餾),將這些專家的靈魂聚合成一個統(tǒng)一的模型。

      這里工程上的難度在于,同時加載十多個萬億參數(shù)級的教師模型做在線推理不現(xiàn)實。

      V4的方案是不緩存教師的logits(顯存裝不下),只緩存教師最后一層的隱藏狀態(tài),訓(xùn)練時按需通過prediction head重建logits。

      然后,按教師索引排序訓(xùn)練樣本,確保每個教師的prediction head只加載一次。KL散度計算則用TileLang編寫的專用kernel加速。

      告別傳統(tǒng)Reward Model

      另外,對于「難以驗證(hard-to-verify)」的任務(wù),傳統(tǒng)的標(biāo)量獎勵模型(Scalar Reward Model)已經(jīng)力不從心。

      對此,DeepSeek選擇引入了Generative Reward Model (GRM)。

      它不再簡單地給一個0到1的分?jǐn)?shù),而是根據(jù)預(yù)設(shè)的Rubric(評估準(zhǔn)則)生成詳細(xì)的評估報告。

      更關(guān)鍵的是,DeepSeek對GRM本身也做了RL優(yōu)化,讓actor網(wǎng)絡(luò)同時充當(dāng)生成式獎勵模型,評判能力和生成能力在同一個模型中聯(lián)合優(yōu)化。

      把Agent做成一套分布式系統(tǒng)

      不僅如此,DeepSeek還為V4專門自研了一套底座。

      DSec:生產(chǎn)級沙箱集群

      為了訓(xùn)練Agent的實操能力,DeepSeek搭建了一個名為DSec的平臺。

      3FS分布式文件系統(tǒng),確保了數(shù)據(jù)的極速存取;數(shù)十萬并發(fā)Sandbox實例,則意味著V4在訓(xùn)練時,同時有幾十萬臺「虛擬電腦」在跑代碼、測Bug。

      MegaMoE:通信計算一體化

      在MoE層,DeepSeek把通信和計算融合進(jìn)單個pipeline kernel,專家按wave調(diào)度,通信延遲完全隱藏在計算之下。

      結(jié)果就是,通用場景加速1.5到1.73倍,RL rollout等延遲敏感場景最高1.96倍。

      自研DSML:拒絕轉(zhuǎn)義失敗

      工具調(diào)用方面,DeepSeek干脆自己設(shè)計了一套類似XML的DSL(領(lǐng)域特定語言)。

      這套協(xié)議簡單高效,直接把工具調(diào)用的成功率從「看運氣」提升到了「工業(yè)級穩(wěn)健」。


      Reasoning Effort分模式訓(xùn)練

      還有一個精細(xì)的設(shè)計,就是V4支持不同的思考模式。

      Non-think模式是簡單的工具選擇,秒回。High/Max則針對長文檔、重構(gòu)、復(fù)雜Bug,拉滿推理算力。

      這種「能省則省,該狠則狠」的策略,也是V4成本能做到Claude 1/4的關(guān)鍵。

      社區(qū)的很多研究者讀完這部分后,膜拜得五體投地:「DeepSeek的工程能力,依舊扎實得讓人沒話說」。


      Interleaved Thinking升級

      V3.2在每個新用戶消息到來時會丟棄之前的思考痕跡,V4在Tool-Calling場景下保留了完整的跨輪次推理歷史,讓Agent在長時程任務(wù)中維持連貫的推理鏈。

      普通對話場景仍每輪清空,保持上下文精簡。

      硬幣的另一面,是94%的幻覺率

      Artificial Analysis的實測給出了一個更立體的畫面。

      跑完Intelligence Index的全量基準(zhǔn)測試,V4 Pro只花了1071美金,比Claude Opus 4.7的4811美金便宜了四倍多。

      Agent能力方面,V4 Pro Max在GDPval-AA實測(面向真實工作任務(wù)的Agent基準(zhǔn))中拿到了1554分,全面領(lǐng)先一眾開源模型。



      然而,天下沒有免費的午餐。

      Aritificial Analysis的報告里也非常坦誠地指出了這種做法的代價:V4 pro在AA-Ominiscience上的幻覺率高達(dá)94%。


      這揭示了一個結(jié)構(gòu)性困境:要在有限算力預(yù)算下逼近頂級性能,就不得不在某些維度上做取舍。

      DeepSeek選擇把籌碼全壓在推理和Agent能力上,代價,就是知識都準(zhǔn)確性。


      為什么我們依然對DeepSeek充滿敬意?

      在這次V4的報告中,有人看到了「訓(xùn)練不穩(wěn)」的尷尬,有人看到了「幻覺嚴(yán)重」的短板。

      但在我們看來,這份報告最動人的地方在于透明。

      他們敢于承認(rèn)硬件適配陣痛,敢于披露那些看似「補丁」的解決方案,更敢于展示自己如何用最硬核的工程能力,在幾十萬個沙箱里一點點磨出Agent的靈魂。

      從V3的Multi-head Latent Attention到V4的OPD蒸餾和DSec沙箱,DeepSeek正在用一種近乎偏執(zhí)的「工程主義」,探索著大模型通往AGI的另一條路徑——

      如果架構(gòu)還沒完美,那就用工程把墻砌厚;如果算力不夠便宜,那就用算法把效率榨干。

      DeepSeek-V4也許不是最完美的終局,但它絕對是目前最真實的、最充滿活力的「中國AI現(xiàn)場」。

      參考資料:

      https://x.com/suchenzang/status/2047559677316325807

      https://x.com/ArtificialAnlys/status/2047735160544841953

      https://x.com/jakevin7/status/2047578619946664413

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      伊朗作出關(guān)鍵讓步,竟然軟成這樣

      伊朗作出關(guān)鍵讓步,竟然軟成這樣

      名人茍或
      2026-05-03 11:26:00
      一夜之間大跳水!最低不到2折!網(wǎng)友直呼“2000多元憑空蒸發(fā)”

      一夜之間大跳水!最低不到2折!網(wǎng)友直呼“2000多元憑空蒸發(fā)”

      魯中晨報
      2026-05-03 08:34:29
      剛剛,直線跳水!霍爾木茲,大消息

      剛剛,直線跳水!霍爾木茲,大消息

      中國基金報
      2026-05-04 00:15:45
      后背發(fā)涼!新司機被父親要求80時速占快車道,稱他人有本事飛過去

      后背發(fā)涼!新司機被父親要求80時速占快車道,稱他人有本事飛過去

      火山詩話
      2026-05-04 13:02:18
      許家印終于交代:月薪3萬60名女團員,養(yǎng)了恒大歌舞團,提供3服務(wù)

      許家印終于交代:月薪3萬60名女團員,養(yǎng)了恒大歌舞團,提供3服務(wù)

      貓叔東山再起
      2026-05-04 09:35:09
      公開認(rèn)罪后,人民日報對許家印稱呼變了,11字之差釋放信號不一般

      公開認(rèn)罪后,人民日報對許家印稱呼變了,11字之差釋放信號不一般

      歷史人文2
      2026-04-17 19:29:02
      四川弒母案:法學(xué)女殺母分尸,指認(rèn)現(xiàn)場,笑著說“肉好肥哦”

      四川弒母案:法學(xué)女殺母分尸,指認(rèn)現(xiàn)場,笑著說“肉好肥哦”

      墨策史
      2026-05-02 23:01:31
      “三哥,你尾款我不要了!”中國外貿(mào)人反殺印度老賴,招招絕了!

      “三哥,你尾款我不要了!”中國外貿(mào)人反殺印度老賴,招招絕了!

      生活新鮮市
      2026-05-04 10:23:16
      花幾百萬,換17歲男孩的血?

      花幾百萬,換17歲男孩的血?

      中國新聞周刊
      2026-05-04 12:36:50
      全線爆發(fā)!中國資產(chǎn),大漲!

      全線爆發(fā)!中國資產(chǎn),大漲!

      證券時報
      2026-05-04 10:32:18
      泰國普吉島游客嘟嘟車上公然發(fā)生性行為,引發(fā)眾議

      泰國普吉島游客嘟嘟車上公然發(fā)生性行為,引發(fā)眾議

      浮光驚掠影
      2026-05-03 20:24:27
      父親縣委書記離職后,老婆和我離婚了,半年后父親調(diào)任市委副書記

      父親縣委書記離職后,老婆和我離婚了,半年后父親調(diào)任市委副書記

      千秋文化
      2026-04-30 19:27:10
      手機正在打敗中國的大學(xué)教育制度

      手機正在打敗中國的大學(xué)教育制度

      回旋鏢
      2026-05-04 12:19:32
      劉國正談國乒男團兩連敗:王楚欽表現(xiàn)正常,林詩棟起伏還是太大了,比賽還沒結(jié)束,一切都有可能,國乒男團已沒有僥幸余地

      劉國正談國乒男團兩連敗:王楚欽表現(xiàn)正常,林詩棟起伏還是太大了,比賽還沒結(jié)束,一切都有可能,國乒男團已沒有僥幸余地

      瀟湘晨報
      2026-05-04 10:07:18
      騎士破猛龍:加雷特·阿倫的活力

      騎士破猛龍:加雷特·阿倫的活力

      張佳瑋寫字的地方
      2026-05-04 10:56:38
      曝張雨綺退租288㎡豪宅!季付23萬,中介證實已搬家,房源正招租

      曝張雨綺退租288㎡豪宅!季付23萬,中介證實已搬家,房源正招租

      樂天閑聊
      2026-05-04 02:10:09
      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      極目新聞
      2026-05-04 09:46:46
      中國機器人在美“出差”買票坐飛機:坐靠窗位,電池超標(biāo)致航班延誤,現(xiàn)場表演逗樂乘客

      中國機器人在美“出差”買票坐飛機:坐靠窗位,電池超標(biāo)致航班延誤,現(xiàn)場表演逗樂乘客

      紅星新聞
      2026-05-04 15:44:20
      曝科爾大概率續(xù)約勇士!ESPN高層仍在極力游說:希望他重返解說席

      曝科爾大概率續(xù)約勇士!ESPN高層仍在極力游說:希望他重返解說席

      羅說NBA
      2026-05-04 14:02:23
      廳級干部已經(jīng)成為了高危職業(yè)

      廳級干部已經(jīng)成為了高危職業(yè)

      風(fēng)向觀察
      2026-05-04 14:17:07
      2026-05-04 16:56:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      15129文章數(shù) 66835關(guān)注度
      往期回顧 全部

      科技要聞

      OpenAI“復(fù)活”了QQ寵物,網(wǎng)友直接玩瘋

      頭條要聞

      宇樹機器人在美坐飛機電池超標(biāo)被拆卸暫扣 致航班延誤

      頭條要聞

      宇樹機器人在美坐飛機電池超標(biāo)被拆卸暫扣 致航班延誤

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經(jīng)要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      家居
      教育
      手機
      數(shù)碼
      本地

      家居要聞

      靈動實用 生活藝術(shù)場

      教育要聞

      小升初附加題,求四邊形面積,難倒了不少人

      手機要聞

      消息稱小米Q5機型非MIX 5,而是小米18系列

      數(shù)碼要聞

      聯(lián)想來酷“W3259PS”31.5英寸顯示器發(fā)售:4K 240Hz,5499元

      本地新聞

      用青花瓷的方式,打開西溪濕地

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 蜜臀av一区二区三区精品| 国产主播福利在线观看| 成人免费无遮挡无码黄漫视频| av偷拍亚洲一区二区三区| 激情网先锋影音资源| 欧美日韩精品一区二区三区不卡91麻豆久久| 日本阿v片在线播放免费| 天天爽夜夜爱| 无码人妻一区二区三区免费n鬼沢| 欧美狠狠操| 亚洲日韩久久综合中文字幕| 成av人电影在线观看| 国产高清无遮挡内容丰富| 小嫩批日出水无码视频免费| 色av九九九 | 麻豆国产精品一二三在线观看| 久久美利坚合众国AV无码| 中文字幕少妇人妻精品| 中文字幕在线精品国产| 日本天堂网在线| 国产精品毛片在线完整版SAB| 久久久久影院美女国产主播| 日韩免费视频一一二区| 男女爽爽无遮挡午夜视频| 国产-第1页-浮力影院| 免费AA片在线观看视频| 熟妇人妻无码中文字幕老熟妇| 亚洲国产成人久久精品APP| 亚洲午夜无码久久久久蜜臀av| 熟妇人妻系列av无码一区二区| 亚洲乱码一区AV春药高潮| 亚洲欧美一区二区三区在线| 四虎影视一区二区精品| 久久久久亚洲AV无码专区导航| 日韩无码一区二| 国产精品色色| 中文日产乱幕九区无线码| 东京热一精品无码av| 67194欧洲| 亚洲精品无码a| 成人无码av一区二区三区|