網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4省73%算力中國AI走出第二條路

2026-05-05 10:18:56　來源: BT財經

天津舉報

分享至

2026年4月，DeepSeek發布了V4版本。

總參數1.6T，激活參數49B，首次將百萬token上下文做到了"標配"。Agent Coding交付質量按內部評測，已經接近Anthropic Claude Opus 4.6的非思考模式。技術圈刷屏，朋友圈刷屏。

大眾媒體的解讀集中在三件事上：

一是性能再上一檔，對標海外頭部模型。二是開源繼續，國產替代再下一城。三是API限時優惠5月5日截止，緩存命中價格低到一杯咖啡都買不起。

但這次V4發布，最值得注意的，或許不是上面這些。

而是DeepSeek官方公告里的一行小字——"每token算力消耗僅為V3.2的27%"。

27%。換個說法，新模型只用舊模型27%的算力，就能跑同樣規模的token。

"這有什么？不就是模型架構升級，效率提升一些嗎？過去幾代模型都在做這件事。"

其實，不是的。

上一代V3.2是2025年9月發布的，到V4只過了半年。在僅僅半年里，把每token的算力消耗砍掉73%，幅度遠高于行業平均。更關鍵的是，DeepSeek這次沒有等英偉達B200、H200在國內放量，沒有等更高級的進口算力到位，而是選擇了一條幾乎反方向的路：在現有的算力規模上，讓模型自己學會"省"。

這中間，發生了什么？

老規矩，我爭取用一篇文章，幫你讀明白。

01 一個token的算力，到底是怎么花掉的？

要看懂"省了73%"是什么概念，得先看懂一個token的算力是怎么花掉的。

簡單說，大模型推理的成本主要由兩部分組成：

第一，參數計算。模型有多少參數，每生成一個token就要"過"多少次參數。GPT-4據傳是1.8T參數，Claude 4級別相近。DeepSeek V4總參數1.6T，但用了MoE（混合專家）架構，每次只激活其中49B——也就是說，1.6T參數里有1500B左右"待機"，每個token只過49B。

第二，KV緩存。模型生成每個token都要"記住"前文，前文越長，需要緩存的數據越多。這部分緩存通常占用GPU顯存最多，也是百萬token長上下文的瓶頸所在。

換一個生活場景。

想象你給朋友講一個長故事。講到第3萬字時，你需要回憶前面提過的人名、地點、時間、伏筆——這些就是"KV緩存"。如果你能整理出一個簡潔的"故事梗概+人物關系圖"，把30000字壓縮成5000字摘要，你的"工作內存"就輕了。

再換一個工作場景。

你做一份PPT，每翻一頁都要回看前面的邏輯鏈。如果你只翻"標題頁+關鍵圖表頁"就能記住整體節奏，你的效率會高得多。

DeepSeek V4做的，就是這件事。1.6T參數+百萬上下文，KV緩存占用降到了10%——把"故事梗概+關鍵頁"做到了極致。

02 DeepSeek為什么必須省，而不是必須快？

全球AI實驗室都在做模型架構優化。但路徑有兩條。

第一條是"做更聰明的模型"。OpenAI、Anthropic走的是這條——參數更大、推理鏈更長、Agent能力更強。前提是算力管夠，至少能用上H200/B200級別的最新GPU。

第二條是"在現有算力上做更高效的模型"。DeepSeek走的是這條——把每token的成本壓到極低，讓模型在已有的硬件上跑出最大產出。

這不是一道"哪條路更聰明"的題，而是"哪條路更現實"的題。

過去兩年，英偉達對中國市場的特供版從H800、H20一路降配，到2026年初才有限度地恢復部分供應。中國AI廠商面對的問題，不是"用最先進的算力做最強的模型"，而是"用受限的算力做最有用的模型"。

回到DeepSeek。它的訓練和推理，絕大多數跑在國產算力（華為昇騰系列）+少量H800/H20混合集群上。在這種條件下，"每token消耗減少73%"翻譯過來就是：同樣的國產卡集群，可以跑3倍以上的請求量。

——這是用算法的進步，去補硬件的代差。

03 昇騰950PR，能不能接得住？

5月初，華為給了第二個動作。

華為昇騰950PR，基于中芯國際7nm工藝，單卡推理算力較英偉達對華特供版H20提升約2.87倍。采購價為H200的1/3至1/4。阿里、字節、騰訊已下數十萬顆訂單。中國移動2026-2027年AI超節點采購20.6億元，全線華為CANN生態。

華為徐直軍2025年9月規劃的產品序列依次是：950PR、950DT、960、970。950PR負責推理Prefill階段，950DT針對訓練優化。

這兩件事——DeepSeek把每token算力壓到27%、華為把單卡算力翻到H20的2.87倍——放在一起，是一道很簡單的乘法。

如果說V3.2時代每張H20卡只能服務X個并發請求，到V4時代+昇騰950PR時代，同樣的卡數能服務的并發請求數變成了：X × (1/27%) × 2.87 ≈ 10.6X。

◆ DeepSeek V4：總參數1.6T，激活49B，每token算力消耗為V3.2的27%（來源：DeepSeek官方，2026年4月）

◆ DeepSeek V4：KV緩存占用降至10%，百萬token上下文標配（來源：DeepSeek技術文檔）

◆ 華為昇騰950PR：單卡推理算力較H20提升約2.87倍，采購價為H200的1/3至1/4（來源：華為公開資料）

◆ Atlas 950 SuperPoD：8192張950昇騰加速卡，160機柜規模，2026年Q4上市（來源：華為）

◆ 中國移動AI超節點采購：20.6億元，全線華為CANN生態（來源：中國移動招標公告）

◆ OpenRouter數據：2026年3月30日-4月5日，中國AI模型周調用量12.96萬億token，是美國的4.3倍

一張卡的能力漲2.87倍，每token的成本降至27%。疊加之后，原本"3張H200才能服務的請求"，現在"1張昇騰950PR + DeepSeek V4"就能服務。

代差被悄悄補回了一截。

04 可帶走資產：硬件代差 × 軟件優化 = 有效算力

有效算力 = 單卡硬件能力 × 算法效率

這個乘數公式是看懂中國AI產業過去三年和未來三年的鑰匙。當硬件被卡脖子（左側因子下降），算法的提升（右側因子放大）可以部分補回；當算法到了極限（右側因子收斂），硬件的釋放（左側因子放大）就成了下一階段的關鍵。一頭被壓住，可以靠另一頭補；兩頭同時打開，就是產業拐點。

這個乘數模型，可以解釋過去三年中國AI產業的幾乎所有大事件。

一是2024年初DeepSeek V2發布。當時英偉達對華制裁剛剛收緊，左側因子（單卡能力）被壓低。DeepSeek用MoE+架構創新拉高右側因子（算法效率），有效算力得到部分補償。

二是2024年底DeepSeek V3發布震動硅谷。同一規模的訓練成本只有同行約1/10，本質上是右側因子（算法效率）的另一次跳躍。

三是2026年4月V4發布+昇騰950PR路線圖明確。兩邊因子同時打開——算法效率再降73%（V4），單卡能力漲到H20的2.87倍（950PR）——一道乘法把"有效算力"拉到一個新臺階。

05 這個公式，怎么用在你不太熟的地方？

這個乘數公式不只是講AI的。

換一個最普通的家用場景。

你在租房，月租3000元（硬件預算被卡）。但你愿意花兩個周末把家里收納系統重做一遍——把雜物分門別類、把垂直空間用滿、把不常用的東西歸到儲物間——結果是同樣3000元的房子，住起來體驗有6000元的水平。這就是"每平米實用面積"的算法優化。

再換一個工作場景。

你的團隊預算有限，無法增加2個工程師（硬件被卡）。但你引入了AI輔助代碼評審、把重復勞動自動化、讓每個工程師從一周寫3個feature變成一周寫7個feature——同樣5個人的團隊，產出是10個人的。這就是"每個工位的有效產出"的算法優化。

回到DeepSeek。

華為昇騰950PR單卡能力是H20的2.87倍，但仍然不及H200。中國AI實驗室沒法等"和H200一樣的卡"放進國產服務器，那是2027-2028年的事。怎么辦？把V3.2的算力消耗砍到27%，讓同樣的卡多干3倍的活。

這是一道完全相同的題。

——硬件被卡，算法補回；算法收斂，硬件放開。

06 為什么這是"通關券"，不只是"省錢"？

如果只是"省錢"，DeepSeek V4也就是一次尋常的產品迭代。

但"省73%"在2026年這個時間點，意義遠不止省錢。

OpenRouter公開數據顯示，2026年3月30日至4月5日的一周，中國AI模型的總調用量達到12.96萬億token，是美國同期的4.3倍。

這個數字第一次出現時，硅谷許多人不相信。

但只要把"有效算力 = 單卡硬件能力 × 算法效率"這個公式套進去，就能解釋——美國靠左側因子（最強GPU）跑出大基數，中國靠右側因子（最優化的算法+開源生態）拉出大乘數。兩條路徑匯合，就形成了"調用量上中國是美國4.3倍"的奇觀。

對開發者而言，DeepSeek API限時優惠的價格已經讓"做應用"的門檻降到極低——Pro 2.5折，Flash緩存命中0.02元/百萬tokens。這意味著任何一個獨立開發者，可以在一個咖啡的錢里，跑出一個完整的應用Demo。

對企業而言，"昇騰950PR + V4"組合讓"私有化部署一個大模型"從"采購3000萬一套"降到"采購1000萬一套"。中型企業第一次有能力把大模型部署在自己的機房里。

07 你以為的"國產替代"，可能是個誤會

講到這里，需要糾正一個常見的理解。

許多讀者把"DeepSeek+昇騰"理解為"國產替代英偉達+OpenAI"。但這個表達，可能稀釋了真正發生的事情。

真正的事情是：中國AI找到了一條不必跟著英偉達走的路。

過去十年，全球AI產業的算力霸權由英偉達定義。"想做更大的模型，就要更多的H100/H200"是默認前提。所有國家、所有公司都在這條路上跑。

"算法補硬件"不是替代，而是繞開。

用更高效的算法+開源生態+受限但夠用的硬件，跑出和"無限堆卡"路線相近的產業產出。這條路的價值不在于"我們也有H200"，而在于"我們不需要等H200才能往前走"。

它的代價是中國AI實驗室必須比美國同行做得更聰明、更精細。它的紅利是中國可以在被卡脖子的環境里，仍然做出全球級別的產品。

引DeepSeek官方在V4發布說明里引用的那句《荀子·非十二子》——"不誘于譽，不恐于誹，率道而行，端然正己"。

08 產業鏈的真實位置：昇騰、CANN、A股

這條路徑上的產業鏈，正在被重新定價。

4月27日A股半導體板塊爆發：覆銅板指數+5.82%、半導體設備+5.68%、GPU+3.91%。芯源微+17.81%、富創精密+16.03%、長川科技+10.77%。這一輪上漲的邏輯，正是市場對"國產算力放量+下游模型放量"雙向定價的反應。

華為Atlas 950 SuperPoD（8192張950昇騰加速卡）將于2026年Q4上市。和英偉達NVL144對照——卡規模56.8倍、總算力6.7倍、內存容量15倍——這是"超節點"級別的算力堆疊。

中國信通院已啟動DeepSeek-V4國產化適配測試。這個測試的結果，會直接影響到"昇騰+DeepSeek"組合在2026年下半年的政企招標中的滲透率。

Bernstein預測，2026年華為昇騰為首的國產AI芯片市占率有望首次超過50%。這是一個"硬件代差被算法部分補回"之后的結果。

09 最后的話

我做完這次研究，有這么幾條收獲，供你參考。

一，硬件代差不是世界末日。任何一項硬件被卡的產業，都可以用"算法/工藝/流程"上的進步去部分補償。補償的代價是必須做得更聰明，紅利是不依賴外部供給。

二，AI產業的護城河不是"最強模型"，是"硬件×算法的乘數"。當你看一家AI公司是否有長期價值，不要只看它的模型在某個榜單上是第幾名，要看它在"既定硬件條件"下的有效算力是多少。

三，開源生態在算力受限的環境里，比閉源生態更有價值。DeepSeek之所以能成為這一輪中國AI的代表，不僅是因為它的模型好，更因為它把模型開源出來，讓整個生態的"右側因子"被反復推高。

當然，現實沒有這么簡單。"每token降到27%"是模型在內部測試的數據，實際部署中受任務類型、緩存命中率、并發量影響，差異會很大。"昇騰950PR的2.87倍"是單卡推理算力，訓練側的差距仍在。中國AI追趕英偉達和OpenAI的路，不會是一條直線。

V4比V3.2節省73%算力——這看起來是技術細節，實際上是中國AI拿到的最重要的一張通關券。

但有一件事是清楚的：當一個產業被告知"用最差的硬件做最好的產品"時，能做到的國家不多。中國是其中一個。

DeepSeek官方公告里的那行小字，藏著的就是這件事。

免責聲明

本文僅為信息分享與行業分析，不構成任何投資建議、投資分析意見或交易邀約。市場有風險，投資需謹慎。任何人依據本文內容作出的投資決策，風險與盈虧自行承擔，作者及發布平臺不承擔任何法律責任。

主要信源

1. DeepSeek官方公告，《DeepSeek V4模型發布說明》，2026年4月

2. DeepSeek API限時優惠公告，2026年4月-5月，截至2026年5月5日

3. 華為公司公開資料，《昇騰AI芯片產品路線圖》，徐直軍，2025年9月

4. 華為Atlas 950 SuperPoD技術規格，2026年公開發布

5. 中國移動招標公告，2026-2027年AI超節點采購，20.6億元

6. OpenRouter公開數據，2026年3月30日-4月5日全球AI模型調用量統計

7. A股半導體板塊行情數據，2026年4月27日盤面，公開市場數據

8. Bernstein研究報告，2026年中國AI芯片市占率預測，2026年初發布

9. 中國信通院公開信息，DeepSeek-V4國產化適配測試啟動消息

聲明：內容由AI生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.