![]()
靴子落地。
4月24日消息,距離V3時隔482天,期待已久的DeepSeek V4終于來了!
今天上午,DeepSeek官網正式上線DeepSeek-V4接口和模型介紹,包括DeepSeek-V4-flash和DeepSeek-V4-pro兩個模型版本。
![]()
DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。API服務已同步更新,通過修改model_name為deepseek-v4-pro或deepseek-v4-flash即可調用。其中,在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平。
我也用了一下DeepSeek專家模式,但目測DeepSeek Chat官網還無法識別V4模型。
![]()
我也通過DeepSeek論文和官網,發現三個官方賬號沒有講的事實:
1、這次DeepSeek不止開源兩個模型,而是六個模型。
除了Pro、Flash之外,還包括Base系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。
2、隨著DeepSeek V4系列發布,V3系列和之前deepseek-chat系列模型API棄用。
其中,deepseek-chat (將于 2026/07/24 棄用),deepseek-reasoner (將于 2026/07/24 棄用)。當前階段內,這兩個模型名分別指向deepseek-v4-flash 的非思考模式與思考模式。
3、在推理和訓練算力層面,DeepSeek采用分布式訓練架構,由于強化學習(RL)下需要長尾的小批量數據,在推理層面則研發出細粒度EP(Fine-Grained EP)內核方案,并且進行開源。DeepSeek已經在英偉達GPU和華為昇騰 NPUs平臺上驗證了細粒度EP方案。
與強大的非融合基線相比,該方案在通用推理工作負載上可實現1.50至1.73倍的加速(173%),在對延遲敏感的場景(如強化學習展開和高速智能體服務)中,加速比甚至可達1.96倍(196%)。DeepSeek已將基于 CUDA 的超大規模內核實現 MegaMoE2 開源,作為 DeepGEMM 的一個組成部分。
![]()
換句話說,DeepSeek現在就一門心思干V4模型,而且已經將國產化AI算力當作可選項之一,形成了英偉達+昇騰兩格局,而且用一系列的技術和方案將國產算力利用率提升。
理論上看,DeepSeek V4開源大模型很強,但核心還是在于Agent、算力成本、世界理解和推理層面。顯然,DeepSeek不是你想象的成為世界最強模型,而是最好用的模型。
![]()
DeepSeek發六大模型:
高性能、性價比都有
DeepSeek首次公布兩個大的模型系列:
一個是性能比肩頂級閉源模型的DeepSeek-V4-Pro(1.6T參數,已激活 49B);
另一個是更快捷、高效的經濟之選的DeepSeek-V4-Flash (284B 參數,已激活 13B)。
兩者均支持一百萬個標記的上下文長度。
文章指出,DeepSeek-V4 開創了一種全新的注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。
![]()
這是DeepSeek-V4系列的全新整體架構。
1、混合注意力架構:DeepSeek設計了一種混合注意力機制,結合了壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以顯著提高長上下文效率。在 100 萬個詞元的上下文設置下,與 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 僅需27% 的單詞元推理浮點運算次數和10% 的鍵值緩存。
2、流形約束超連接(mHC):DeepSeek引入 mHC 來加強傳統的殘差連接,增強跨層信號傳播的穩定性,同時保持模型的表達能力。
3、Muon優化器:我們采用Muon優化器以實現更快的收斂速度和更高的訓練穩定性。
其中,DeepSeek-V4-Pro采用1.6相較前代模型實現全面升級,Agent能力顯著提升,Agentic Coding評測位列開源模型頂尖水準,實際使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式;同時其世界知識儲備大幅領先同類開源模型,僅略次于頂級閉源模型Gemini-Pro-3.1,在數學、STEM及競賽代碼等場景下推理性能突破開源上限,整體實力可媲美全球頂尖閉源模型。
![]()
而DeepSeek-V4-Flash是一款高效高性價比的選擇,其世界知識略弱于 V4-Pro,但推理能力相近;憑借更小的參數與激活規模,可提供更快速、低成本的API服務,簡單 Agent 任務表現與 V4-Pro 持平,僅在高難度任務上存在差距。
![]()
當然,DeepSeek不止發了兩款模型,其公號隱藏了其他四個模型:基礎系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。
![]()
我算了一下,這次V4共發布六款模型,這還不包括非推理的三個版本。
![]()
據悉,DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理模式,顯著提升了開源模型的知識能力,穩居目前最佳開源模型之列。它在編碼基準測試中取得了頂尖性能,并在推理和智能體任務方面顯著縮小了與領先的閉源模型之間的差距。
DeepSeek-V4-Flash也有一個Max版本,在擁有更大的推理預算時,其推理性能與 Pro 版本相當,但由于其參數規模較小,在純知識任務和最復雜的智能體工作流程方面自然略遜一籌。
總體而言,DeepSeek-V4系列保留了Transformer架構和多標記預測(MTP)模塊,同時在DeepSeek-V3的基礎上引入了若干關鍵升級。
![]()
華為+英偉達加持,
開源1.96倍推理加速的算力內核
早前很多媒體報道稱,DeepSeek推遲的核心原因,在于國產化算力訓練不足。
在論文當中,DeepSeek特別提到算力“踩坑”的問題,并且通過梳理大模型算力訓練和推理,研發了多種模塊和方案,形成V4國產化能力。
DeepSeek提到,在DeepSeek-V4系列中,每個MoE層主要可以分解為四個階段:兩個通信受限階段,分發(Dispatch)和合并(Combine),以及兩個計算受限階段,線性層1(Linear-1)和線性層2(Linear-2)。團隊的分析顯示,在單個MoE層內,通信的總時間少于計算的總時間。因此,在將通信和計算融合為統一管道后,計算仍然是主要的瓶頸,這意味著系統可以在不降低端到端性能的情況下容忍較低的互連帶寬。
![]()
為了進一步降低互連帶寬需求并放大重疊的好處,DeepSeek引入了一種更細粒度的專家分區方案:Fine-Grained EP。
受到許多相關工作的啟發,DeepSeek將專家拆分并調度成波次。每個波次包含一小部分專家。一旦波次內的所有專家完成通信,計算就可以立即開始,而無需等待其他專家。在穩態下,當前波次的計算、下一個波次的令牌傳輸和已完成專家的結果發送都同時進行,這在專家之間形成了細粒度的流水線,使計算和通信在整個波次中持續進行。基于波次的調度加快了速度。在極端情況下(如強化學習(RL)的 rollout),通常也會遇到長尾小批量。
因此,DeepSeek表示,其在 NVIDIA GPU 和華為Ascend NPU平臺上驗證了細粒度EP方案。與強大的非融合基線相比,它在通用推理工作負載上實現了 1.50-1.73 倍的加速,在對延遲敏感的場景(如 RL rollout 和高速代理服務)中最高可實現 1.96 倍的加速。
DeepSeek已經開源了基于CUDA的Mega-Kernel,命名為 MegaMoE2,作為DeepGEMM的一個組件。
此外,為最大限度地提高 GPU 資源利用率,并支持高優先級任務的快速硬件調配,DeepSeek還將GPU 集群,采用一種全集群范圍的搶占式任務調度器,任何正在運行的任務都可能隨時被搶占。
而在大規模GPU集群中,硬件故障較為常見。為此,DeepSeek實現了一項可搶占且具備容錯能力的大型語言模型生成服務,以支持強化學習/OPD 的部署。 具體而言,DeepSeek為每項生成請求實施了一種基于標記粒度的預寫日志(WAL)。每當為某項請求生成新標記時,我們會立即將其追加到該請求的 WAL 中。在搶占過程中,DeepSeek會暫停推理引擎,并保存KV 緩存。
總結,DeepSeek V4在大模型算力計算、通訊互聯、內存等方向都做了很多的工作,這確實是V4推遲發布的原因,也是V4依然能夠實現成本低廉下實現性能提升的關鍵原因。
![]()
如今,DeepSeek-V4-Flash版本價格低至2元輸出1M tokens上下文。
![]()
DeepSeek過去一年重要時刻點梳理如下
2024年12月28日:發布DeepSeek V3大模型,訓練周期2個月、成本低于600萬美元,推理性能對標OpenAI o1,代碼與邏輯推理能力接近GPT-4 Turbo。
2025年1月20日:推出R1推理優化模型(表現優于OpenAI o1)并開源多模態模型Janus-Pro。
當日DeepSeek遭遇峰值3.2 Tbps的DDoS攻擊導致部分區域服務中斷;1月27日,DeepSeek App登頂,引發美股科技股震蕩、英偉達股價暴跌16%。
2025年5月28日:推出DeepSeek R1-0528升級版本,參數量685B,代碼與推理能力直逼OpenAI o3、超越Claude 4,支持128K上下文長度,部署成本更低。
2025年8月-9月:8月18日在Hugging Face開源V3.1-Base版本(128K上下文、約685B參數);8月20日-21日發布DeepSeek V3.1并完成升級,定位為“邁向Agent時代的第一步”。
9月6日,DeepSeek調整API價格表、取消夜間優惠。
2025年12月1日:DeepSeek發布V3.2系列模型(含標準版與高性能版),性能逼近甚至超越同類閉源模型,128K上下文場景中預填充成本降低51%、解碼速度提升62.5%,推理總成本僅為同類閉源模型1/3,其中V3.2-Speciale在數學證明賽事中獲金牌,達到人類選手第二水平。
2026年1月20日:恰逢DeepSeek-R1開源一周年,開發者在GitHub的FlashMLA代碼庫中意外發現神秘標識符“MODEL-1”,其橫跨114個文件、出現28次,與現有V3.2模型并列引用且未沿用舊版命名規則,暗示DeepSeek將推出架構重構的新版本模型而非簡單迭代。
2026年2月10日:野村證券發布報告,預計2月中旬推出的DeepSeek V4模型不會重現去年V3發布時引發的全球AI算力需求恐慌,指出V4核心價值在于通過底層架構創新推動AI應用商業化落地。
2026年2月11日:DeepSeek App推送1.7.4版本更新,開啟新模型灰度測試,該版本疑似V4正式亮相前的終極灰度版。
3月:DeepSeek更新了專家模型,并且發布了多份研究論文。
發布稿的結尾,DeepSeek 自己引了一句話。
「不誘于譽,不恐于誹,率道而行,端然正己。」
這是荀子《非十二子》里的一句。字面意思是,不被贊譽誘惑,不被誹謗嚇到,按自己認定的道往前走,端正自己。放在今天這個場景里,有點意思。
過去半年,關于V4什么時候發、是不是跳票、是不是已經被別家超越、是不是已經被 Claude 蒸餾數據搞定了之類的傳言在中文和英文AI圈來來回回跑了好幾輪。
年初甚至還有人信誓旦旦說V4會在春節前發,結果等到了四月底。他們沒回應過一次。然后在某個周五的上午,把V4放出來,同步開源,同步上線官網和App,同步更新API,順便把內部員工已經棄用Claude的事實寫進發布稿。
沒有路線圖,沒有直播,沒有訪談。
率道而行這四個字,聽著像是一句口號。但如果你把過去半年 V3.2 那次「沒什么亮點」的 Exp 版本、DSA那套為V4鋪了半年的稀疏注意力、1M 上下文從王牌變成標配的這條路徑放在一起看。DeepSeek已經做到了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.