![]()
![]()
更便宜、更快,向Agent和國產替代更進一步。
作者|衛琳聰 周悅
終于,DeepSeek-V4 來了。
距離上次版本發布已經過去近5個月,期間多次有DeepSeek新版本發布的消息傳出,但都干打雷不下雨,等待的空氣里不免泛起一些懷疑。
4月24日,DeepSeek-V4 預覽版正式上線并同步開源,官方新聞稿里直接宣稱“邁入百萬上下文普惠時代”。
此次發布的版本包含兩款MoE語言模型——DeepSeek-V4-Pro和DeepSeek-V4-Flash。
前者總參數1.6T、激活參數49B,后者總參數284B、激活參數13B,兩者均支持一百萬token 上下文。
如果單看百萬上下文的能力,在V4之前市場上已有多款模型能夠實現,國外如谷歌Gemini ,國內如阿里Qwen、月之暗面Kimi等。
DeepSeek-V4 令人驚艷的地方,是又一次帶來效率革命,在性能提升的同時實現成本下降,尤其是讓Agent更便宜成為可能。
更重要的是,V4為打破算力束縛提供了更大可能性,大模型的算力底座從英偉達向華為邁出了堅實一步。
1.轉向Agent
DeepSeek官方表示,V4在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。
其中,DeepSeek-V4-Pro性能比肩頂級閉源模型。
在世界知識測評中,DeepSeek-V4-Pro大幅領先其他開源模型,僅稍遜于頂尖閉源模型Gemini-Pro-3.1。在推理性能上,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了世界頂級閉源模型相當的成績。
不過,技術報告顯示,最大推理強度模式DeepSeek-V4-Pro-Max性能仍略遜于GPT-5.4和Gemini 3.1-Pro,這表明其發展軌跡大致落后于最先進的前沿模型約3到6個月。
![]()
DeepSeek-V4-Pro-Max與同類模型的基準性能對比
值得注意的是,DeepSeek-V4-Pro的Agent 能力大幅提高。
在對DeepSeek-V4技術報告的深入分析中,「甲子光年」注意到,V4在更明顯地轉向Agent任務。從V3.1到V3.2,DeepSeek已經在強化工具調用和Agent能力,到了V4,這條線更清楚。
技術報告里出現了工具調用格式、推理內容管理、Quick Instruction、Agent沙箱基礎設施,以及Search、White-Collar Task、Code Agent等真實任務評測。重點考察模型能不能在多步任務中低成本地調用工具、保留狀態、繼續執行。
在Agent 能力提高的同時,V4提供的價格相當實惠。緩存命中場景下,Flash版輸入成本低至0.2元/百萬Token。對于需要大量、多輪次Token交互的Agent應用來說,這無疑是降低成本的好消息。
能力提高、價格下降,毫無疑問,V4在瞄準Agent 發力,也將進一步推動Agent 的普及。
2.更便宜、更快
DeepSeek-V4系列此次表現出的最大特點,是在長上下文場景中極高的效率。
在1M上下文設置下,V4-Pro的單token推理FLOPs只有V3.2的27%,所需KV緩存空間也僅為其10%。
而參數激活數量更少的DeepSeek-V4-Flash則進一步提升了效率:在百萬上下文中,其單token推理FLOPs僅為DeepSeek-V3.2的10%,KV緩存容量僅為7%。
![]()
DeepSeek-V4系列與DeepSeek-V3.2的推理FLOPs計算量及KV緩存容量
基于這種進步,DeepSeek官方宣布,“從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。”
這帶來了什么?最直觀的就是價格便宜。
處理一個Token所需的總計算量驟降,直接導致在云端處理每一條請求的電力、硬件磨損和運營成本都斷崖式下降。這是DeepSeek敢于將API定價打到行業地板價。
DeepSeek V4-Flash輸出價為2元/百萬token,不到同天發布的GPT-5.5 Pro輸出價(180美元)的千分之二。
![]()
除了更便宜,模型也會更快。KV緩存占用降低,也有助于提升并發能力,并在一定程度上改善長上下文請求的響應效率。
讓或許能讓許多曾經“奢侈”的應用場景成為現實。例如,將整個代碼庫塞進上下文進行跨文件的“智能體編程”(Agentic Coding)、讓AI進行長時間的自主規劃與反思等。
效率的提高源自工程層面的創新。
「甲子光年」認為,在延續底層工程哲學的基礎上,V4的重點進一步轉向兩個問題:一是如何低成本支持百萬token上下文,二是如何讓更復雜的模型結構和后訓練流程穩定運行。
最核心的結構創新是混合注意力機制(HybridAttention),這讓V4的長上下文效率大幅提升。
大模型在生成內容時,需要不斷回看此前上下文。上下文越長,需要保存和調用的KV緩存就越多,每生成一個新Token時的推理開銷也會隨之增加。DeepSeek-V4的思路是,將長上下文分層處理,將壓縮稀疏注意力(CSA)與重度壓縮注意力(HCA)相結合。
具體來說,V4將壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)結合:CSA先壓縮KV信息,再篩選與當前query最相關的部分參與計算;HCA則以更高壓縮率保留遠距離上下文的粗粒度信息。同時,滑動窗口注意力(SWA)處理近處上下文細節,彌補壓縮機制可能導致的局部信息損失。
通俗地說,傳統注意力機制更像把整本書逐頁攤開,每次答題都重新翻一遍;V4則更像更像是一個智能索引,把近處內容保留原文,把遠處內容壓縮成章節摘要。
另一項核心架構創新是流形約束超連接(mHC),用于增強底層穩定性。混合注意力機制解決的是模型“怎么看長文本”,mHC解決的是模型內部信息“如何穩定傳遞”。
技術報告中提到,通過重計算、融合算子等工程優化,mHC帶來的額外訓練時間開銷被控制在約6.7%。這表明它并非單純的理論構想,而是適配V4大規模生產訓練的實用設計。
DeepSeek對V4的架構很有信心,表示其性能可與GPT-5.2和Gemini-3.0-Pro相媲美,確立了其作為處理復雜推理任務的高性價比架構的地位。
![]()
DeepSeek-V4系列的整體架構
3.加速國產替代
另一個值得注意的地方是,此次DeepSeek-V4與華為的關聯更強。
技術報告中提到一個細節:DeepSeek的細粒度專家并行優化方案已經在英偉達GPU和華為昇騰NPU上驗證。
并且,這套方案在通用推理負載中帶來1.50—1.73倍加速,在強化學習采樣和高速智能體服務等低延遲場景中最高達到1.96倍加速。
這并不等于V4全棧已經完全適配昇騰,但意味著昇騰950超節點對V4-Pro的意義不只是增加算力,也在于提升多卡協同能力。若后續供給和適配順利,V4-Pro的吞吐和成本空間有望改善。
DeepSeek在V4發布的官宣文章中,用一行小字寫道:預計下半年昇騰950超節點批量上市后,pro的價格會大幅下調。
另一方面,技術報告還提到,DeepSeek-V4系列的路由專家參數均采用FP4精度。雖然在現有硬件上,FP4×FP8運算的峰值FLOPs性能與FP8 × FP8運算相同,但從理論上講,在未來硬件上其效率可提高三分之一,這將進一步提升DeepSeek-V4系列的運算效率。
據「甲子光年」觀察,從V3開始,DeepSeek就沒有單純依賴參數規模,而是持續優化訓練效率、顯存占用和硬件利用率。在訓練工程上,V4引入Muon優化器,并進一步使用FP4/FP8低精度訓練。前者用于提升收斂速度和訓練穩定性,后者用于降低顯存、帶寬和推理成本。
這可謂DeepSeek-V4 在技術選型上的一個“伏筆”:它在當前硬件上選擇了成熟的 FP8×FP8 路線,但架構設計已為未來的 FP4×FP8 混合精度運算做好了準備,一旦硬件成熟,效率將立刻躍升。
這意味著 V4 未來有望在單卡上運行更大模型,推理成本也有望繼續下降。
同時,基于DeepSeek的高效架構,即使國產AI芯片單卡算力絕對值不如英偉達等頂級產品,也能憑借其高吞吐、低顯存占用的優勢運行大模型。
這無疑進一步打破了算力束縛,國產替代的步伐加快了。
(封面圖由AI生成,文中配圖來自:DeepSeek)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.