網易首頁 > 網易號 > 正文申請入駐

新版本發布，DeepSeek再掀效率革命｜甲子光年

2026-04-24 22:29:38　來源: 甲子光年

北京舉報

分享至

更便宜、更快，向Agent和國產替代更進一步。

作者｜衛琳聰周悅

終于，DeepSeek-V4 來了。

距離上次版本發布已經過去近5個月，期間多次有DeepSeek新版本發布的消息傳出，但都干打雷不下雨，等待的空氣里不免泛起一些懷疑。

4月24日，DeepSeek-V4 預覽版正式上線并同步開源，官方新聞稿里直接宣稱“邁入百萬上下文普惠時代”。

此次發布的版本包含兩款MoE語言模型——DeepSeek-V4-Pro和DeepSeek-V4-Flash。

前者總參數1.6T、激活參數49B，后者總參數284B、激活參數13B，兩者均支持一百萬token 上下文。

如果單看百萬上下文的能力，在V4之前市場上已有多款模型能夠實現，國外如谷歌Gemini ，國內如阿里Qwen、月之暗面Kimi等。

DeepSeek-V4 令人驚艷的地方，是又一次帶來效率革命，在性能提升的同時實現成本下降，尤其是讓Agent更便宜成為可能。

更重要的是，V4為打破算力束縛提供了更大可能性，大模型的算力底座從英偉達向華為邁出了堅實一步。

1.轉向Agent

DeepSeek官方表示，V4在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。

其中，DeepSeek-V4-Pro性能比肩頂級閉源模型。

在世界知識測評中，DeepSeek-V4-Pro大幅領先其他開源模型，僅稍遜于頂尖閉源模型Gemini-Pro-3.1。在推理性能上，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了世界頂級閉源模型相當的成績。

不過，技術報告顯示，最大推理強度模式DeepSeek-V4-Pro-Max性能仍略遜于GPT-5.4和Gemini 3.1-Pro，這表明其發展軌跡大致落后于最先進的前沿模型約3到6個月。

DeepSeek-V4-Pro-Max與同類模型的基準性能對比

值得注意的是，DeepSeek-V4-Pro的Agent 能力大幅提高。

在對DeepSeek-V4技術報告的深入分析中，「甲子光年」注意到，V4在更明顯地轉向Agent任務。從V3.1到V3.2，DeepSeek已經在強化工具調用和Agent能力，到了V4，這條線更清楚。

技術報告里出現了工具調用格式、推理內容管理、Quick Instruction、Agent沙箱基礎設施，以及Search、White-Collar Task、Code Agent等真實任務評測。重點考察模型能不能在多步任務中低成本地調用工具、保留狀態、繼續執行。

在Agent 能力提高的同時，V4提供的價格相當實惠。緩存命中場景下，Flash版輸入成本低至0.2元/百萬Token。對于需要大量、多輪次Token交互的Agent應用來說，這無疑是降低成本的好消息。

能力提高、價格下降，毫無疑問，V4在瞄準Agent 發力，也將進一步推動Agent 的普及。

2.更便宜、更快

DeepSeek-V4系列此次表現出的最大特點，是在長上下文場景中極高的效率。

在1M上下文設置下，V4-Pro的單token推理FLOPs只有V3.2的27%，所需KV緩存空間也僅為其10%。

而參數激活數量更少的DeepSeek-V4-Flash則進一步提升了效率：在百萬上下文中，其單token推理FLOPs僅為DeepSeek-V3.2的10%，KV緩存容量僅為7%。

DeepSeek-V4系列與DeepSeek-V3.2的推理FLOPs計算量及KV緩存容量

基于這種進步，DeepSeek官方宣布，“從現在開始，1M（一百萬）上下文將是 DeepSeek 所有官方服務的標配。”

這帶來了什么？最直觀的就是價格便宜。

處理一個Token所需的總計算量驟降，直接導致在云端處理每一條請求的電力、硬件磨損和運營成本都斷崖式下降。這是DeepSeek敢于將API定價打到行業地板價。

DeepSeek V4-Flash輸出價為2元/百萬token，不到同天發布的GPT-5.5 Pro輸出價（180美元）的千分之二。

除了更便宜，模型也會更快。KV緩存占用降低，也有助于提升并發能力，并在一定程度上改善長上下文請求的響應效率。

讓或許能讓許多曾經“奢侈”的應用場景成為現實。例如，將整個代碼庫塞進上下文進行跨文件的“智能體編程”（Agentic Coding）、讓AI進行長時間的自主規劃與反思等。

效率的提高源自工程層面的創新。

「甲子光年」認為，在延續底層工程哲學的基礎上，V4的重點進一步轉向兩個問題：一是如何低成本支持百萬token上下文，二是如何讓更復雜的模型結構和后訓練流程穩定運行。

最核心的結構創新是混合注意力機制（HybridAttention），這讓V4的長上下文效率大幅提升。

大模型在生成內容時，需要不斷回看此前上下文。上下文越長，需要保存和調用的KV緩存就越多，每生成一個新Token時的推理開銷也會隨之增加。DeepSeek-V4的思路是，將長上下文分層處理，將壓縮稀疏注意力（CSA）與重度壓縮注意力（HCA）相結合。

具體來說，V4將壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）結合：CSA先壓縮KV信息，再篩選與當前query最相關的部分參與計算；HCA則以更高壓縮率保留遠距離上下文的粗粒度信息。同時，滑動窗口注意力（SWA）處理近處上下文細節，彌補壓縮機制可能導致的局部信息損失。

通俗地說，傳統注意力機制更像把整本書逐頁攤開，每次答題都重新翻一遍；V4則更像更像是一個智能索引，把近處內容保留原文，把遠處內容壓縮成章節摘要。

另一項核心架構創新是流形約束超連接（mHC），用于增強底層穩定性。混合注意力機制解決的是模型“怎么看長文本”，mHC解決的是模型內部信息“如何穩定傳遞”。

技術報告中提到，通過重計算、融合算子等工程優化，mHC帶來的額外訓練時間開銷被控制在約6.7%。這表明它并非單純的理論構想，而是適配V4大規模生產訓練的實用設計。

DeepSeek對V4的架構很有信心，表示其性能可與GPT-5.2和Gemini-3.0-Pro相媲美，確立了其作為處理復雜推理任務的高性價比架構的地位。

DeepSeek-V4系列的整體架構

3.加速國產替代

另一個值得注意的地方是，此次DeepSeek-V4與華為的關聯更強。

技術報告中提到一個細節：DeepSeek的細粒度專家并行優化方案已經在英偉達GPU和華為昇騰NPU上驗證。

并且，這套方案在通用推理負載中帶來1.50—1.73倍加速，在強化學習采樣和高速智能體服務等低延遲場景中最高達到1.96倍加速。

這并不等于V4全棧已經完全適配昇騰，但意味著昇騰950超節點對V4-Pro的意義不只是增加算力，也在于提升多卡協同能力。若后續供給和適配順利，V4-Pro的吞吐和成本空間有望改善。

DeepSeek在V4發布的官宣文章中，用一行小字寫道：預計下半年昇騰950超節點批量上市后，pro的價格會大幅下調。

另一方面，技術報告還提到，DeepSeek-V4系列的路由專家參數均采用FP4精度。雖然在現有硬件上，FP4×FP8運算的峰值FLOPs性能與FP8 × FP8運算相同，但從理論上講，在未來硬件上其效率可提高三分之一，這將進一步提升DeepSeek-V4系列的運算效率。

據「甲子光年」觀察，從V3開始，DeepSeek就沒有單純依賴參數規模，而是持續優化訓練效率、顯存占用和硬件利用率。在訓練工程上，V4引入Muon優化器，并進一步使用FP4/FP8低精度訓練。前者用于提升收斂速度和訓練穩定性，后者用于降低顯存、帶寬和推理成本。

這可謂DeepSeek-V4 在技術選型上的一個“伏筆”：它在當前硬件上選擇了成熟的 FP8×FP8 路線，但架構設計已為未來的 FP4×FP8 混合精度運算做好了準備，一旦硬件成熟，效率將立刻躍升。

這意味著 V4 未來有望在單卡上運行更大模型，推理成本也有望繼續下降。

同時，基于DeepSeek的高效架構，即使國產AI芯片單卡算力絕對值不如英偉達等頂級產品，也能憑借其高吞吐、低顯存占用的優勢運行大模型。

這無疑進一步打破了算力束縛，國產替代的步伐加快了。

（封面圖由AI生成，文中配圖來自：DeepSeek）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Moltbot作者被Claude刁難后：MiniMax M2.1是最優秀的開源模型

量子位 2026-01-29 13:17:17
13 跟貼 13
不是幻覺！Claude自下指令甩鍋人類，百萬上下文淪為降智重災區

新智元 2026-05-14 13:08:29
11 跟貼 11

國產GPU首獲全球頂級推理框架「原生門票」：MUSA合入SGLang主線

機器之心Pro 2026-05-14 16:03:08
0 跟貼 0

GPT-5.6曝光了！OpenAI砸錢宣戰：換掉Claude Code

新智元 2026-05-14 10:18:54
6 跟貼 6
熊媽媽帶四只幼崽過馬路，網友：嘴里那只一定最調皮

南陽日報 2026-05-13 19:44:30
582 跟貼 582

DeepSeek專家模式預測：未來升值最快3類房子，有錢人已悄悄入手

專業聊房君 2026-05-14 09:08:30
0 跟貼 0

AI摳圖GitHub爆火！實測3款開源工具：快是真快，糙也是真糙

雷科技 2026-05-13 20:07:54
0 跟貼 0
AI價值度量衡是時候重寫了

虎嗅APP 2026-05-13 18:25:08
0 跟貼 0

師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
3 跟貼 3
智譜首破5000億！六小虎與DeepSeek千億估值競賽，誰的拳頭最硬？

智東西 2026-05-14 15:26:37
1 跟貼 1
男孩一個月弄丟九次書包，媽媽偷偷跟著發現了真相

南陽日報 2026-05-13 19:40:39
101 跟貼 101
“省錢卷王”DeepSeek擬融資500億元？業內預測：算力集群與光模塊或成資金核心流向

每日經濟新聞 2026-05-14 15:53:26
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3041 跟貼 3041
Kimi總裁張予彤北大實錄：我們想要有抽象能力和偏執的人｜甲子光年

甲子光年 2026-05-13 19:23:59
0 跟貼 0
UE 5.8預覽版來了：Mesh Terrain是亮點，但MegaLights才真香

霧野尋蹤2 2026-05-12 23:22:44
0 跟貼 0
約0.01飛米！中國科學家重要發現，將改寫教科書

上觀新聞 2026-05-14 06:48:04
2413 跟貼 2413
一個不會寫代碼的中年男人，用一周業余時間手搓一個 APP

朱常在 2026-05-12 22:38:06
0 跟貼 0
不再提起他，但每一秒都在想

心事寄山海 2026-05-14 07:16:01
0 跟貼 0
改了兩個導出設置，我的照片終于不再"變臉"了

硅嶼手記 2026-05-10 05:04:56
0 跟貼 0
亞歷山大王回應一切：LeCun、Manus，“我的父母都是中國人”

量子位 2026-05-14 14:18:30
0 跟貼 0
1104女間諜喬裝混入我軍內部，還偷走了重要的文件！我的特一營78

長河電影 2026-05-11 16:14:59
1 跟貼 1
Switch，2危機：硬件漲價保利潤，軟件賣不動是致命傷

史鹷的生活科普 2026-05-14 05:04:31
1 跟貼 1
實錘了！伊朗真正的＂敵人＂，根本不是美軍！中國必須高度警覺！

地球記 2026-05-13 19:14:40
1 跟貼 1
2026，國產AI芯片，跨越天塹：從“推理”走向“訓練”

鈦媒體APP 2026-02-25 12:59:31
0 跟貼 0
國產GPU組了個開源局，把SGLang等核心開發者都搖來了！

量子位 2026-05-14 17:49:23
0 跟貼 0
5月8日，美國防部公布首批161份UFO相關解密文件

別跟我提回憶 2026-05-14 04:04:58
0 跟貼 0
送文件撞破老板秘密，場面瞬間尷尬，我該怎么自救！

松鼠的搞笑日記 2026-05-11 10:58:54
1 跟貼 1
8個AI頂流科學家，300億估值：他們要讓AI自我進化

DeepTech深科技 2026-05-14 17:51:57
0 跟貼 0
聯發科天璣開發者大會：全棧升級AI與游戲技術，開啟全場景智能體化

通信世界 2026-05-14 15:30:10
0 跟貼 0
這些絕密 UFO 文件，普通人第一次能看到

富貴春天 2026-05-14 07:58:05
39 跟貼 39
47歲貨拉拉司機，初二輟學，卻在AI圈建了Agents王國

36氪 2026-05-14 15:07:44
2 跟貼 2
最后一刻被特朗普撿上飛機！黃仁勛中國行，到底誰在給他穿小鞋？

菁菁子衿 2026-05-13 21:44:10
0 跟貼 0
豹5/豹8閃充版上市，底層硬件升級，顛覆傳統越野車？

苑叔聊車官方賬號 2026-05-14 10:57:48
4 跟貼 4
大輪盤帶動彈簧往復運動，看似永動機，實則巧妙機械模型

木子奇趣 2026-05-13 10:48:00
4 跟貼 4
意外！兩架F-35A阿曼灣失聯，美軍收到求救代碼緊急應對

奧利奧變薄了的 2026-05-14 09:23:42
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
俄總統新聞秘書：只要美國不再把經貿合作與烏克蘭問題掛鉤，俄愿同美開展商業往來

極目新聞 2026-05-14 09:58:58
990 跟貼 990
潤米招聘程序員，做AI時代的ITBP！

劉潤 2026-05-14 13:48:28
0 跟貼 0
生態治理還是高價釣魚？西昌邛海4000元釣魚年卡引質疑律師：如此收費無法律依據

封面新聞 2026-05-13 20:48:03
586 跟貼 586
英偉達MIT出手！華人團隊重磅開源，大模型推理內存暴降10倍

新智元 2026-05-14 15:59:29
0 跟貼 0

甲子光年

中國科技產業化前沿智庫

3445文章數 9265關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

數碼

家居

健康

旅游

手機 / 數碼

房產 / 家居

新版本發布，DeepSeek再掀效率革命｜甲子光年

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

媒體：中美元首會談超2小時15分鐘 兩國關系有新定位

媒體：中美元首會談超2小時15分鐘 兩國關系有新定位

爭議抽象天王山，和季后賽最穩定中鋒

何九華官宣當爸！全程不提孩子媽

習近平同美國總統特朗普會談

新時代傳統豪華是什么樣？ 上汽奧迪E7X給出了自己的答案

態度原創

這才是草書源頭法帖！揭露古人不外傳的筆法，王羲之也要叫“祖師爺”

酷冷至尊預熱冰神B360 TV一體式水冷散熱器：6"長方形大屏

精神奢享 對話塔尖需求

專家揭秘干細胞回輸的安全風險

2026年靜安文旅消費季來了，首輪文旅消費券將于5月18日開搶

馬斯克說會談很順利黃仁勛點贊庫克比耶

媒體：中美元首會談超2小時15分鐘兩國關系有新定位

媒體：中美元首會談超2小時15分鐘兩國關系有新定位

新時代傳統豪華是什么樣？上汽奧迪E7X給出了自己的答案

精神奢享對話塔尖需求