<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛!DeepSeek更新V4論文,3000億獨角獸公開算力真相

      0
      分享至



      就在剛剛,五一休假剛結束,DeepSeek團隊悄悄更新了V4模型論文。

      盡管這份論文依舊是58頁,但增加了大量13天前V4預覽版論文中沒披露的信息。

      我看完之后發現,這份“完整版”DeepSeek V4論文當中,梁文鋒藏了半年的算力底牌一次性全曝光。

      以下是我總結的完整版論文的更新內容:

      1、相比預覽版,這次完整版V4論文中,大量增加FP4量化訓練過程的細節,以及首次公布獨有訓練穩定方案:預路由+SwiGLU clamping。

      2、新增生成式獎勵模型GRM、百萬級上下文加速細節,新增更多MegaMoE內核、DeepGEMM開源等信息,以及修正了包括Host Codegen、SMT 整數分析、位精度可復現性,以及KV Cache 異構結構、磁盤緩存策略,預訓練/微調的精確超參、學習率、batch size等信息。

      3、另外,這次完整版論文,DeepSeek修改了部分真實場景的測評結果,包括中文寫作、搜索、白領任務、代碼 Agent等。

      其中提到,中文寫作當中,DeepSeek V4系列模型勝率高達77.5%;白領專業任務下的30項高級任務中,DeepSeek V4完全不輸Claude Opus 4.6。



      整體來說,新的DeepSeek V4論文更加完整,很多數據更加嚴謹。

      實際上,過去兩周,圍繞DeepSeek V4的話題不斷,一方面新的V4模型接入華為昇騰的算力平臺,而導致推遲發布;另一方面,V4兩度大幅降價,使得全系列API服務的輸入緩存命中價格進一步降至原有價格的1/10,但模型性能比肩GPT-5.5、GLM的水平,引發廣泛關注。

      就在剛剛,DeepSeek再度被曝出融資消息。

      領投方包括半導體大基金(國家集成電路產業投資基金)等,其他入股投資方包括騰訊、阿里等,梁文鋒也可能會參與投資,但最終的投資者陣容尚未確定。

      最新的DeepSeek的估值達到約450億美元(約合人民幣3000億元),比兩周前曝光的200億美元估值,翻了一倍。



      V4算力秘訣:

      如何訓的穩、模型跑得快、顯存更省

      4月24日,DeepSeek-V4的預覽版本正式上線并同步開源。

      新的DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現領先水平,其最大的優勢在于同時實現英偉達和華為昇騰算力訓練。

      此次完整版V4論文,DeepSeek團隊進行了大量修正和增加內容。

      1、新增最多的一部分就是:FP4量化感知訓練信息。

      DeepSeek提到,V4在后期訓練里直接用上了FP4量化感知訓練,目的就是讓模型跑起來更快、更省顯存。

      其中,把最占顯存的MoE 專家權重和長文本注意力的QK 計算都壓成 FP4 精度,轉成FP8計算時完全不損失精度,還能直接兼容現有框架,速度直接快 2 倍,關鍵信息找回率還能保持 99.7%,而推理時直接用FP4權重運行,又快又省顯存,效果還不掉。

      具體來說,為了實現推理加速并減少部署時的內存流量,團隊將FP4(MXFP4)量化應用于兩個組件:(1)、MoE專家權重,這是GPU內存占用的主要來源;(2)、CSA索引器中的查詢-鍵(QK)路徑,其中QK激活值以FP4格式進行緩存、加載和乘法運算,從而加速長上下文場景中的注意力分數計算。

      此外,在此QAT過程中,團隊進一步將索引分數從FP32量化至BF16。這一優化使QK選擇器實現了2倍加速,同時保持了KV計算99.7%的召回率。



      論文指出,通過采用混合CSA與HCA,并對計算和存儲進行精度優化,DeepSeek-V4系列與DeepSeek-V3.2相比,推理FLOPs顯著降低,KV緩存大小大幅縮減,在長上下文場景下優勢尤為明顯。

      在1M tokens上下文場景中,即使是激活參數量更大的DeepSeek-V4-Pro,其單FLOPs(以等效FP8 FLOPs計算)僅為DeepSeek-V3.2的27%,KV緩存大小僅為后者的10%。

      此外,激活參數量更小的DeepSeek-V4-Flash進一步提升了效率:在1M令牌上下文設置下,它的單FLOPs僅為DeepSeek-V3.2的10%,KV緩存大小僅為后者的7%。

      另外,DeepSeek-V4系列的路由專家參數采用FP4精度。目前現有硬件上FP4×FP8運算的峰值FLOPs與FP8×FP8持平,但從理論上來說,未來硬件可以讓該運算的效率提升三分之一,這將進一步提高DeepSeek-V4系列的效率。

      2、DeepSeek首次公布獨有訓練穩定方案:預路由+SwiGLU clamping。

      DeepSeek提到,訓練萬億參數這種超大模型,本身就特別容易出問題 ——訓練崩、損失暴漲、訓著訓著就不穩定,DeepSeek-V4 也沒躲開這個行業難題。簡單的回滾操作只能臨時救場,沒法從根上解決反復炸損的問題。

      研究人員發現,不穩的根源主要在 MoE 層的異常數值,而且路由機制還會讓這種異常越來越嚴重,形成惡性循環。為了把訓練徹底穩住,他們從兩個方向下手,最終拿出兩套非常實用、能直接落地的穩定方案:

      第一個叫預判路由(Anticipatory Routing)

      簡單說就是不讓主模型和路由模塊同步更新,故意 “錯開”:當前步用最新參數算特征,但路由分配卻用之前的舊參數來算,提前算好、緩存起來,從邏輯上切斷惡性循環。這套做法還做了大量工程優化,只會增加大概 20% 的耗時,并且系統會自動監測,只有炸損失時才開啟,穩住之后自動切回普通模式,既解決崩潰問題,又幾乎不影響訓練效率和最終效果。

      第二個叫SwiGLU Clamping。直接在激活函數上做限制,把 SwiGLU 的線性部分強行約束在-10到10之間,門控部分上限也設為 10。這么一做,模型里的極端異常值直接被 “按住”,訓練瞬間穩了很多,而且不會損傷模型的能力。

      靠著一系列關鍵技術,DeepSeek-V4成功搞定了萬億MoE模型最頭疼的訓練穩定性難題,讓超大模型能穩穩訓完。



      新增生成式獎勵模型GRM能力,

      多項顯示V4比肩Opus 4.5

      過去做模型優化,簡單任務用規則檢查就行,難驗證的復雜任務只能靠RLHF 人類反饋,但這種方法需要大量人工標注,成本高、效率低。

      而論文首次提到,DeepSeek-V4直接拋棄了傳統的單值獎勵模型,改用了一套生成式獎勵模型(GRM)

      簡單說,就是不用額外訓練單獨的打分模型,而是讓模型自己當裁判:用同一個模型一邊生成答案、一邊評估答案,把“生成能力”和“評判能力”一起訓練、一起變強。

      訓練時,用帶評分標準的數據做引導,讓模型自己學會判斷回答好不好、對不對、邏輯嚴不嚴謹。好處非常明顯:

      1、只需要很少量的人工標注,模型就能靠自己的推理能力泛化到復雜任務;

      2、評判過程自帶邏輯思考,打分更穩、更準;

      3、生成和評判一體,效果比傳統獎勵模型強得多。

      這套GRM機制,讓DeepSeek-V4在沒有大量人工標注的情況下,依然把復雜任務的對齊能力拉到了很高水平。



      這是DeepSeek-V4系列的工具調用 schema,最終效果層面非常穩定和準確,整個過程也有了更多的思考能力。

      同時,完整版DeepSeek-V4論文,還增加了百萬級上下文加速等內容:

      1、全新工具調用格式與交互機制。完整版公開了 <|DSML|> 格式的 XML 工具調用規范,同時新增交錯思考(Interleaved Thinking) 機制,在工具交互場景下全程保留推理鏈內容,不再因用戶新消息清空歷史思考;還新增了 Quick Instruction 專用指令體系,通過特殊 token 讓模型直接復用 KV 緩存并行完成搜索、分類、標題生成等輔助任務,顯著降低首 token 延遲。

      2、百萬上下文推理工程全套實現。完整版大幅擴充了推理框架與 KV 緩存管理內容,首次公開百萬上下文工程化落地的完整方案:包括異構 KV 緩存結構、狀態緩存(State Cache)、磁盤緩存(On-disk KV Cache)以及共享前綴復用機制,并提供三種滑動窗口緩存策略用于工程部署。同時補充了上下文并行(Contextual Parallelism)的兩階段通信方案,解決超長序列跨卡壓縮與計算問題。 3、真實場景大規模人類評估。完整版新增大量真實業務場景的系統性測評,包括中文寫作、搜索增強問答、白領專業任務、代碼智能體等大規模人工對比數據,公開了在各類實用場景下 DeepSeek-V4-Pro 對比 Gemini、Claude 的勝率與得分,完整展現模型在真實使用中的落地效果,這些數據在精簡版中完全缺失。 4、完整基礎設施、作者與附錄。完整版將基礎設施章節拆分為專家并行、TileLang 內核、批不變與確定性算子、訓練框架、推理框架等精細小節,補充大量工程優化細節與加速數據;同時新增完整作者列表、致謝與評估細節附錄,是一份可復現、可核查、完全開放的正式技術報告。

      此外,完整版DeepSeek V4論文增加了基準測試的最新結果。

      其中,在附錄提到的搜索增強問答測試中,在DeepSeek網頁端和應用端,“非思考”模式采用檢索增強搜索(RAG),而“思考”模式則使用智能體搜索。



      對于檢索增強搜索,在客觀和主觀問答兩個類別中的評估中,DeepSeek-V4-Pro的表現大幅優于DeepSeek-V3.2,在兩個類別中均展現出穩定優勢,提升最顯著的是單值搜索以及規劃與策略任務。不過,DeepSeek-V3.2在對比和推薦任務中仍保有相當的競爭力,說明DeepSeek-V4-Pro在需要對搜索結果進行均衡、多視角推理的場景中仍有改進空間。

      而智能體搜索上,V4智能體搜索的表現始終優于RAG,在復雜任務上的優勢尤為明顯。此外,智能體搜索的成本效率依然很高,僅比標準RAG高出微不足道的成本。





      在中文寫作中,結果顯示,DeepSeek-V4-Pro以62.7%對34.1%的整體勝率,優于基準模型Gemini-3.1-Pro,這主要是因為Gemini在中文寫作場景中偶爾會因其固有的風格偏好而覆蓋用戶的明確要求。

      創意寫作方面,與Gemini-3.1-Pro相比,DeepSeek-V4-Pro在指令遵循方面取得了60.0%的勝率,在寫作質量方面取得了77.5%的勝率,表明其在指令遵循上略有提升,而在寫作質量上則有顯著進步。



      盡管DeepSeek-V4-Pro在整體用戶案例分析中表現更優,但針對最具挑戰性的提示詞(特別是涉及高復雜度約束或多輪場景)的評估顯示,Claude Opus 4.5以52.0%對45.9%的勝率領先。



      白領任務層,DeepSeek構建了一套包含30項高級中文專業任務的綜合評測套件,覆蓋13個關鍵行業如金融、教育、法律與科技等。

      結果顯示,DeepSeek-V4-Pro-Max在各類中文任務上的表現優于Opus-4.6-Max,取得了63%的出色不敗率,且在分析、生成與編輯類任務中均展現出穩定優勢。



      最后,DeepSeek還修改了編碼智能體測試結果。

      結果顯示,DeepSeek-V4-Pro編碼智能體能力顯著優于Claude Sonnet 4.5,并接近Claude Opus 4.5的水平。

      當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好作為他們的默認首選編碼模型時,52%的人表示肯定,39%的人傾向于肯定,而表示否定的人數不足9%。

      受訪者認為DeepSeek-V4-Pro在大多數任務中能提供令人滿意的結果,但也指出其存在細微錯誤、對模糊提示的誤解以及偶爾過度思考的問題。

      總結就是,DeepSeek-V4-Pro的性能和能力不輸給Claude和GPT能力,甚至中文寫作能力要高于谷歌Gemini-3.1,但距離Opus 4.5還略有一些差距。



      總結

      照例我還是要總結一下這篇文章。

      五一之前,DeepSeek多模態模型論文突然刪了,引發廣泛關注,也讓我們等待DeepSeek帶來新的moment。

      DeepSeek連夜刪新論文,梁文鋒到底怕什么|深度

      然而,五一之后,我們終于等來了DeepSeek-V4的論文更新:藏了半年的算力底牌一次性全曝光,核心技術全公開。

      我看完 DeepSeek-V4 完整版論文才真正明白,如今大模型的競爭早已不只是參數和效果,更是效率、穩定性、工程化的全面較量。

      從FP4量化到百萬上下文加速,從訓練防崩機制到生成式獎勵模型,每一處細節都在把“不可能”變成“可落地”,讓人真切感受到DeepSeek-V4大模型正在從追趕走向引領。

      然而,從我們感知上來說,DeepSeek-V4雖然沒引發去年R1時候的“DeepSeek時刻”,但V4再度鞏固了國產AI大模型在高性價比層面的重要優勢,令AI和投資行業印象深刻。

      這波,DeepSeek直接把開源大模型的效率天花板捅破了!

      據報道,一位考慮投資DeepSeek的人士透露,DeepSeek的編碼能力名列前茅,其同行公司如智譜、MiniMax預計營收將持續飆升,市值超過3000億。

      因此,鑒于 DeepSeek 的估值已大幅上漲,梁文鋒可能會考慮籌集更多資金,以增加未來投資計算能力的資金儲備。

      顯然,DeepSeek有望成為國內另一家AI大模型“巨龍”。

      我們有理由相信,隨著資源、人才、技術的進一步聚集和迭代,梁文鋒的下一代更輕、更快、更強的DeepSeek大模型,已經近在眼前。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普稱中美關系將會更好

      特朗普稱中美關系將會更好

      中國日報網
      2026-05-14 20:19:47
      新生兒腰斬、房價下跌?別怪政策了,這才是中國經濟的殘酷真相!

      新生兒腰斬、房價下跌?別怪政策了,這才是中國經濟的殘酷真相!

      冷夜說
      2026-05-11 20:31:08
      浙江一中學5名學生懷孕?官方回應

      浙江一中學5名學生懷孕?官方回應

      觀察者網
      2026-05-14 17:39:03
      印度,第一個被AI撕碎的國家?

      印度,第一個被AI撕碎的國家?

      美第奇效應
      2026-05-14 00:02:54
      夫妻性生活別急著進入!學會這招“延遲滿足”,爽感增倍

      夫妻性生活別急著進入!學會這招“延遲滿足”,爽感增倍

      精彩分享快樂
      2026-05-13 12:05:07
      太失禮?到韓國見完中方就走,都不跟主人打招呼,首爾炸了

      太失禮?到韓國見完中方就走,都不跟主人打招呼,首爾炸了

      魔都姐姐雜談
      2026-05-13 22:44:16
      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      一代人覺醒,三代人托舉:這篇文章,建議每個普通家庭都讀兩遍

      一代人覺醒,三代人托舉:這篇文章,建議每個普通家庭都讀兩遍

      心理觀察局
      2026-05-12 08:55:11
      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      華史談
      2026-04-14 13:00:13
      四川追打事件升級:哨兵出動有法撐腰,女子剛一出手,性質就變了

      四川追打事件升級:哨兵出動有法撐腰,女子剛一出手,性質就變了

      探源歷史
      2026-05-14 01:09:14
      拒絕伊朗提議,允許黃仁勛登機,美總統訪華前釋放哪些深意信號?

      拒絕伊朗提議,允許黃仁勛登機,美總統訪華前釋放哪些深意信號?

      貓智深
      2026-05-13 21:47:58
      17歲離家出走男孩已確認死亡!遺體在水中被找到,家屬已經崩潰

      17歲離家出走男孩已確認死亡!遺體在水中被找到,家屬已經崩潰

      慢半拍sir
      2026-05-14 15:48:22
      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      阿訊說天下
      2026-05-14 12:06:36
      CNN報道:向朝鮮運送核反應堆的俄方貨船可能是被西方國家擊沉的

      CNN報道:向朝鮮運送核反應堆的俄方貨船可能是被西方國家擊沉的

      戧詞奪理
      2026-05-13 18:07:23
      狼來了?外資將殺入電信業,三大運營商瑟瑟發抖?資費要降價了!

      狼來了?外資將殺入電信業,三大運營商瑟瑟發抖?資費要降價了!

      Thurman在昆明
      2026-05-13 11:39:22
      這段外賣小哥與交警的“神仙對話”,為何點贊破百萬?| 鋒面評論

      這段外賣小哥與交警的“神仙對話”,為何點贊破百萬?| 鋒面評論

      上觀新聞
      2026-05-14 11:01:05
      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      抽象派大師
      2026-05-12 20:12:00
      創歷史首人恥辱紀錄!坎寧安空砍39+7+9 季后賽12戰狂送69失誤

      創歷史首人恥辱紀錄!坎寧安空砍39+7+9 季后賽12戰狂送69失誤

      醉臥浮生
      2026-05-14 11:21:08
      中美元首共同參觀祈年殿!告訴你一個你所不知道的天壇

      中美元首共同參觀祈年殿!告訴你一個你所不知道的天壇

      中國網
      2026-05-14 17:44:08
      為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

      為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

      老特有話說
      2026-05-12 15:41:08
      2026-05-14 22:35:00
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2315文章數 10609關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      時尚
      健康
      家居
      手機
      房產

      大熱天,闊腿褲配什么上衣更清涼?

      專家揭秘干細胞回輸的安全風險

      家居要聞

      精神奢享 對話塔尖需求

      手機要聞

      vivo S60預熱開啟,超大面積一體冷雕玻璃

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV旡码高清在线观看| 亚洲综合黄色| 大尺度国产一区二区视频| 日本欧美视频在线观看三区| 日韩一区二区三区无码人妻视频| 国产精品毛片一区二区| 国产无码免费| 欧美精品一国产成人综合久久| 亚洲一区有码在线观看| 中文字幕一区二区精品区| 日韩精品中文乱码在线观看| 色综合色综合久久综合频道| 国产精品无码2021在线观看| 亚洲中文字幕无码日韩精品| 亚洲国产天堂久久综合226114| 亚洲AV狠狠爱一区二区三区| 国内成人激情在线视频| 免费看的一级黄色片永久| 亚洲二区av| 亚洲日韩av无码一区二区三区| 亚洲无码一区二区百度| 久草导航| 中文字幕乱码亚洲中文在线| 精品一卡2卡三卡4卡乱码精品视频| 手机看片国产日韩| 影音先锋在线资源观看视频| 十堰市| 国产明星精品无码AV换脸| 亚洲国产综合AV| av中文字幕一区二区| 免费人成年激情视频在线观看| 五月丁香影院| 国产大片黄在线观看| 欧美日韩亚洲国产天堂A| 国产激情久久久久久熟女老人| 久久久精品午夜免费不卡| 蜜臀av一区二区三区日韩| 夜夜嗨av一区二区| 欧美极品少妇×xxxbbb| 阜宁县| 国产成人在线午夜视频|