網易首頁 > 網易號 > 正文申請入駐

DeepSeek狂吞17萬億Tokens？國產AI算力，最關鍵一戰來了！

2026-05-29 13:17:47　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】DeepSeek三模型霸占OpenRouter前十，月調用合計超17萬億tokens。Agent負載正在碾壓一切基礎設施！現在，自主創新的國產生態，正在悄悄改寫下一代AI基礎設施的入場券。

打開OpenRouter最新的模型月榜，V4上線一個月，DeepSeek的存在感很強。

V4 Flash月調用9.13T tokens，穩坐第1。V4 Pro也沖到了3.89T排第9。再加上V3.2的4.07T排第8，DeepSeek三個模型同時擠進前十，月調用合計超過17萬億tokens。

應用方面，排名前兩位的Hermes Agent和OpenClaw，月調用量分別達到了10.8T和6.25T tokens。

換句話說，如今Token消耗的絕對主力，已經從傳統的聊天機器人，徹底讓位給了會規劃、檢索、調用工具并反復驗證的Agent系統。

它就像一個小型工作流，單次任務動輒觸發上百輪LLM調用，并伴隨數十次工具執行，再加上長記憶和自演進產生的數據，負載常常飆升至數百GB甚至TB級。

這種以「萬億」為單位的高強度并發，正在將底層基礎設施的每一個短板都無限放大。

同一套能力

接住了不同的頭部模型

而這，也呼應了幾個月前行業里流傳的一個似是而非的傳聞。

當時DeepSeek V4的發布有所推遲，坊間便出現一種猜測，是不是因為V4在跟昇騰做底層的深度適配，拖慢了節奏？

這甚至引發了一種錯覺，讓人以為昇騰正在成為某一家大模型廠商的「專有硬件」，不得不把大量精力耗費在特定模型的查漏補缺上。

這恰恰是對算力底座和模型演進關系最大的一個誤解。

DeepSeek V4之所以能在開源首日，真正做到「開箱即優」，并不是因為昇騰為了某款模型削足適履，而是因為LLM演進到今天，必然會撞上這幾堵墻。

而昇騰，只是恰好提前在那里等它。

放眼中國大模型的第一梯隊，就會發現一個事實，不管是智譜、MiniMax，還是這次引爆全網的DeepSeek，盡管各自的微觀算法、應用場景千差萬別，但在邁向「低精度量化、長上下文、萬億MoE」這幾個方向時，步調是一致的。

面對整條賽道的共性需求，昇騰交出的是一套通用的答卷。

就拿剛剛過去的4月來說，智譜GLM-5.1、MiniMax M2.7、DeepSeek V4三個頭部模型密集開源，昇騰全部做到了發布即支持。

能做到這種覆蓋速度，唯一的解釋是，其底層的能力是高度通用的。

頭部模型撞上「同一堵墻」

昇騰的能力之所以能實現通用，是因為頭部模型走到了同一個路口。

首先是MoE架構，它的好處是每次只激活一小部分專家來干活，計算效率高。但代價很明顯，專家分散在不同的卡上，每次推理都要大量卡間通信。

上下文方面，V4兩個版本都標配百萬token。模型側已經在用混合稀疏注意力（CSA/HCA）拼命壓成本，但百萬級KVCache對基礎設施的內存壓力仍然是實打實的。

精度方面，V4-Pro在HuggingFace上標注FP4+FP8混合精度，MoE專家參數用FP4，其他用FP8。低精度推理已經從「能不能壓縮」進入了「壓縮后是否可靠」的階段。

通信、內存、精度，是各大頭部模型在部署時都會面臨的難題。

而能夠系統性地解決這三件事的AI軟硬件平臺，將率先搶占下一代AI基礎設施的關鍵入口。

萬億MoE的通信瓶頸

一個算子打通

MoE的關鍵在于，計算被稀疏化以后，通信變成了第一瓶頸。

昇騰之前已經有MC2通算融合算子，在不同的并行方式下把矩陣計算和集合通信做了融合。

然而，在EP并行模式下，現有算子仍無法實現通信與Grouped Matmul計算的完全并行，因此并未達到真正的通算融合。

MegaMoE補上的，正是這個缺口。

它把MoE推理中原本分開執行的五個步驟（Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine）融成一個大算子，讓通信和計算盡可能同時進行。同時支持Prefill和Decode場景。

昇騰Atlas 800 A3上的實測數據顯示，DeepSeek V3.1和Qwen3-235B兩個模型接入MegaMoE融合算子后，Prefill場景可獲得20%到30%的性能提升，Decode場景也有10%以上的收益。

百萬上下文

先過內存這一關

百萬token上下文要真正跑好，有一個繞不過去的問題。

Prefix Cache（前綴緩存）是當前大模型推理服務中廣泛使用的優化技術。

它通過緩存多輪對話或長文檔中重復出現的前綴部分的KVCache，讓新請求可以跳過這部分的重復計算，從而降低首token時延、提升整體吞吐。多輪對話、RAG、Agent場景都離不開它。

但單機的Prefix Cache有一個根本局限，緩存只存在本機本地內存里。容量有限，容易被淘汰。更關鍵的是，跨機器的實例之間完全不共享，集群越大，緩存利用率反而越低。

而多機部署、PD分離、大規模專家并行，恰恰是所有萬億級MoE模型的標準部署方式，并且都對多機間的內存共享和數據調度提出了更高要求。

為此，昇騰提出了全新的KVCache池化方案，框架層通過KV Connector對接池化后端，去除冗余的三方轉發層。

通信層引入HIXL實現零拷貝傳輸，數據搬運下沉至設備側高帶寬鏈路，NPU間點對點直連免除CPU中轉。
借助MemFabric實現跨節點內存統一編址，將不同機器的物理內存融合成全局大池。

同時，長序列還有一個更底層的壓力。

在業界的普遍認知中，Prefill階段的計算量隨序列長度呈平方級增長，Decode階段的KVCache內存占用則隨序列長度線性增長，長序列同時帶來計算和內存的雙重瓶頸。

對此，昇騰采用了PCP做Prefill階段的算力切分，DCP做Decode階段的KVCache內存切分，兩者配合把雙重壓力同時分攤開。

這套方案讓Agentic場景下的Prefill性能提升4倍以上，并且不限于某一個模型，任何需要百萬級上下文的場景都能受益。

當超長上下文逐漸變成「基本需求」，長序列的基礎設施能力，已經是開發者選擇平臺時繞不開的一道題了。

低精量化

難的不是壓縮是可靠

通信和內存之外，精度是第三個繞不過去的難題。

傳統量化方式（INT4/INT8/FP8）用全局統一縮放因子，相當于一把尺子量所有參數，碰到異常值整個縮放范圍就被拽偏了。

在參數分布差異極大的MoE模型中，這一問題尤為致命。

為了解決這個矛盾，行業正在向Microscaling格式（MXFP4/MXFP8）收斂。它的原理是把參數分成小組，每組用獨立縮放因子，異常值只影響本組，不拖累全局。

但光有格式標準還不夠，關鍵是硬件和工具鏈能不能跟上。

昇騰950系列創新性地在架構層面提供了專用的塊縮放因子計算單元和MXFP矩陣乘法加速器，從硬件層原生支撐mx格式。

再往上，MindStudio工具支持一鍵生成MXFP4/MXFP8模型權重，開發者不需要手動處理量化細節。

從硬件到工具鏈全部打通之后，任何想走MXFP路線的模型，在昇騰上都能快速適配。

接得住巨浪

就能接得住江海

從低精量化到長序列池化再到MoE通算融合，這三個方向看似各自獨立，但背后對應的是同一個命題，Agent時代的推理基礎設施該怎么建。

而在這個命題上，昇騰全系列產品不僅已經實現了對DeepSeek的全面支持，更讓人看到了V4背后的一條完整鏈路，從底層芯片、底層編程語言到核心算子，關鍵環節都有中國自己的方案。

可以說，DeepSeek V4的出現，印證了中國已經可以依靠一整套自主創新的生態體系來打造頂尖大模型。

而昇騰，正是這條生態鏈路上的算力底座，一個面向全行業的通用AI軟硬件平臺。

Agent時代的推理負載還在膨脹，下一個萬億級模型隨時會來。這個平臺能接得住的，遠不止DeepSeek。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

超越TurboQuant，長上下文推理真2-bit KV Quantization算法問世

機器之心Pro 2026-05-29 16:01:28
0 跟貼 0
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
6 跟貼 6

階躍發布Step 3.7 Flash：一款為「燒錢時代」準備的Agent模型

機器之心Pro 2026-05-29 16:42:38
0 跟貼 0

清華系團隊給大模型織了一張“智能算力電網”

量子位 2026-05-29 10:44:47
1 跟貼 1
Claude Code上新，竟然是個“銷金窟”

智東西 2026-05-29 16:12:14
0 跟貼 0

Anthropic發布Claude Opus 4.8，重點是：“我不會騙你”

鈦媒體APP 2026-05-29 18:20:15
2 跟貼 2

你以為在養龍蝦，其實龍蝦在養你

孤獨大腦 2026-03-24 19:41:59
0 跟貼 0
X平臺瘋傳！這個國產開源模型，把信息圖生成整明白了 ? 附實測

智東西 2026-05-29 21:57:26
0 跟貼 0

剛剛，智元拿下WorldArena世界模型總分冠軍！

機器之心Pro 2026-05-29 21:54:56
0 跟貼 0
終于，清華快手養出了通人性的AI！

新智元 2026-05-29 18:45:18
0 跟貼 0
企業落地AI，不怕慢，就怕錯

虎嗅APP 2026-05-29 19:11:58
0 跟貼 0
新一輪大模型要來了！Blackwell加持下，AI能力更強了？

華爾街見聞官方 2026-05-29 14:46:14
0 跟貼 0
生物學變天：小扎的新開源模型，徹底掀翻谷歌AlphaFold王座！

新智元 2026-05-29 15:43:36
0 跟貼 0
科技巨頭瘋狂搶電，卻沒人看懂真正的戰場

DeepTech深科技 2026-05-29 19:11:07
0 跟貼 0
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
嫌內存太貴，他在自家花園里搓出了一塊RAM

DeepTech深科技 2026-05-29 19:07:00
1 跟貼 1
孩子去“光頭強家”，對著床上被子一頭栽下去，沒想到是模型！

笑出豬叫的趣聞閣 2026-05-26 17:08:43
1 跟貼 1
Anbernic掌機內存悄悄縮水，官方說是“意外錯誤”

山月不知2 2026-05-29 20:51:07
0 跟貼 0
5 月刊｜GPM 2.0 實現全場景可視化溯源、多維度數據解析與根因精準定位

侑虎科技UWA 2026-05-29 20:11:57
0 跟貼 0
DeepSeek V4芯模協同背后，國產算力生態開始飛輪加速

量子位 2026-05-28 21:33:32
2 跟貼 2
優衣庫等品牌收集非必要個人信息被通報

封面新聞 2026-05-29 12:10:44
1793 跟貼 1793
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0
內存正在毀掉一切，所有的AI都要算力

愛范兒 2026-05-13 09:43:34
0 跟貼 0
Opus 4.8來了，Anthropic估值即將突破萬億美元

虎嗅APP 2026-05-29 18:55:15
0 跟貼 0
官方通報低保老人被貸款20萬

看看新聞Knews 2026-05-29 15:25:38
1061 跟貼 1061
臨床實例，頭痛的病因分析與治療方案選擇

疼痛科岳劍寧醫生 2026-05-25 15:26:35
0 跟貼 0
10.68萬喜提L4同源算法，埃安N60駕駛輔助碾壓同級！

車市紅點 2026-05-28 17:43:38
1 跟貼 1
安世中國獨立運營體系已基本完成搭建

財聯社 2026-05-29 10:57:08
900 跟貼 900
他們把房地產線索接聽率提了400%，靠的只是個3分鐘語音AI

碼上閑敘 2026-05-29 08:22:05
0 跟貼 0
2899元起，vivo S60系列把動態照片和3D空間影像玩出花，自研算法立大功

智東西 2026-05-29 22:14:56
0 跟貼 0
Mac Pro合金大機箱，內存強大堅固耐用

裝甲鏟史官 2026-05-26 11:28:02
29 跟貼 29
NBA｜馬刺再勝雷霆追平系列賽，一場定勝負的西決要來了

澎湃新聞 2026-05-29 11:02:27
93 跟貼 93
DiffusionOPD：復旦聯合通義萬相提出擴散模型在線策略蒸餾新范式

機器之心Pro 2026-05-29 16:23:04
0 跟貼 0
收評：創業板指跌2.11% 大消費板塊走強

證券時報 2026-05-29 15:22:05
584 跟貼 584
北大才女將才華都用在美國！3分鐘一套算法，就能殺人在無形之中

小卓視野 2026-05-28 16:55:34
0 跟貼 0
宋Ultra DM-i上市：插混SUV的牌桌徹底變了

波帆說車 2026-05-29 21:19:23
0 跟貼 0
為什么說比亞迪這次的兜底，要比堆參數更狠？

愛活網Evolife 2026-05-29 16:45:05
11 跟貼 11
歐盟官員：中國占全球制造業的份額已從6%增長到30%

澎湃新聞 2026-05-29 14:22:13
307 跟貼 307
比亞迪率先承諾為城市領航安全兜底，開創全民城市領航時代

數碼V評測 2026-05-29 21:17:10
0 跟貼 0
貴州大學招聘管理崗引質疑，要求配偶須是本校在職博士，校方：不是“蘿卜崗”

封面新聞 2026-05-29 16:08:24
38 跟貼 38

新智元

AI產業主平臺領航智能+時代

15337文章數 66891關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

房產

藝術

家居

教育

手機 / 數碼

房產 / 家居

DeepSeek狂吞17萬億Tokens？國產AI算力，最關鍵一戰來了！

Claude Opus 4.8凌晨突發上線

"電影演員"稱住租金30多萬/年的酒店 摔了一跤被攆走

"電影演員"稱住租金30多萬/年的酒店 摔了一跤被攆走

即使是文班亞馬，也做不到這件事

奚夢瑤何猷君將于6月在法國舉行婚禮

近3個月跌超20% 黃金"猴市"下的眾生相

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

順德澐璟「澐冠」再出圈：頂階人群不是買房，是追加“傳世資產”

吳湖帆小品冊頁

云棲 舒展如流云

青年教師為何能撐起教育“半邊天”？！海淀這所學校亮出“破局密碼”

"電影演員"稱住租金30多萬/年的酒店摔了一跤被攆走

"電影演員"稱住租金30多萬/年的酒店摔了一跤被攆走

900V+3.2秒破百領克10+&領克10上市16.99萬元起

云棲舒展如流云