網易首頁 > 網易號 > 正文申請入駐

DeepSeek攜手華為昇騰，推理成本暴降99%！

2026-04-27 09:15:13　來源: 芯智訊

廣東舉報

分享至

過去多年來，在人工智能（AI）算力市場上，英偉達的GPU憑借其強大的性能和CUDA生態優勢，幾乎所有大模型都奔跑在英偉達的芯片上。這也使得英偉達的GPU占據了超過90%的AI芯片市場份額，并且擁有著高達75%的毛利率，成為了AI市場上最大的贏家。

然而，這一格局正在被兩股力量同時撼動：一是AI產業重心從“訓練”向“推理”的轉移，改變了算力價值的衡量標準；二是DeepSeek V4等國產大模型在推理成本上的極致壓縮，直接挑戰了英偉達的定價權。

從按時計費到按Token計費，AI ASIC優勢凸顯

近日，云基礎設施提供商Nebius的一位專家在AlphaSense訪談中指出，隨著AI智能體的興起，AI算力需求正加速由“訓練”轉向“推理”，AI基礎設施行業的定價模式正在經歷一場深刻的變革。傳統上，算力價格取決于GPU型號、使用時長及是否預留，但這一體系正迅速被更直觀的“每百萬Token成本”所取代。

在傳統的按照特定GPU在按需計時付費的模式下，英偉達H100約為每小時2.95美元，H200約為3.50美元，最新的Blackwell B200則在4.90至6.50美元之間。若簽訂1-2年長期合同且保證采購至少1萬顆GPU算力，價格則會大幅下降，換算下來，H100每小時約1.50美元、H200約2.20美元、B200約3.50美元以上。

根據Omdia的數據，推理已占企業AI工作負載的90%至95%，企業更關心的是處理文本或生成內容的實際效率，這也推動了Token計價方式的崛起。這也意味著，未來決定勝負的不再是誰的芯片算力峰值最高，而是誰處理Token的成本最低。

而“每百萬Token成本”已經成為衡量推理效率的核心指標——即處理100萬個Token（相當于約75萬個英文單詞或40萬個中文字符）所消耗的算力成本。這是用戶端最直觀的計費方式，也是云服務商衡量自身硬件競爭力的標尺。

在此背景之下，谷歌、亞馬遜、Meta、OpenAI等巨頭都在自研面向推理的AI ASIC芯片上投入巨資，以期能夠降低每Token的成本，擺脫對英偉達GPU的依賴。

根據高盛最新發布的報告顯示，谷歌/博通合作的TPU正在迅速縮小與英偉達GPU在推理成本上的差距。從TPU v6升級至v7，單位Token推理成本下降了約70%，與英偉達GB200 NVL72基本持平，部分情形下甚至略具優勢。谷歌已利用TPU訓練了Gemini等自研模型，并將其部署給Anthropic、Meta等外部巨頭。分析師預測，若谷歌將TPU向第三方開放銷售，其有望在長期占據AI芯片市場20% 的份額。

與此同時，美國專用AI芯片創企公司Cerebras于4月17日提交IPO申請，目標融資30億美元，估值達350億美元。其核心支撐是一份與OpenAI簽訂的總額超200億美元合作協議，旨在為后者的“去英偉達化”戰略構建定制的AI推理芯片。

英偉達也看到了AI算力需求由“訓練”轉向“推理”的趨勢，以及AI ASIC在每Token成本上的優勢，因此于2025年以200億美元收購了在輕量化推理場景下具有優勢的Groq LPU架構。

根據Nebius專家數據，在速度方面，Groq每秒可處理800個Token，幾乎達英偉達芯片450個Token的兩倍。在成本方面，Groq芯片每百萬Token成本僅5至10美分，而英偉達B系列約為25美分。

不再依賴英偉達GPU，推理成本降至1/100

4月24日，中國人工智能（AI）技術廠商正式發布了DeepSeek V4系列模型并同步開源，性能比肩國際頂級閉源模型，并且DeepSeek V4系列模型已與華為昇騰等國產AI芯片深度適配，其提供的API服務也主要基于華為昇騰等國產AI芯片，不再依賴于英偉達GPU，且更具性價比。

據介紹，DeepSeek-V4-Pro和DeepSeek-V4-Flash分別采用 MoE 架構，總參數規模分別達到 1.6T（激活 490 億）和 284B（激活 130 億），并且都支持最大 100 萬個代幣的上下文。其中，DeepSeek-V4-Pro專注于性能的上限，在數學、STEM 和競技編程等高難度任務中表現優于目前公開評估的開源模型。其整體性能接近甚至可與 GPT - 5.4 和 Claude Opus 4.6 - Max 等頂級閉源模型相媲美；DeepSeek-V4-Flash 則大幅降低了參數規模和激活規模，以換取更低的延遲和更低的成本。

根據DeepSeek公布的API定價顯示，V4-Flash輸入價格為1元/百萬Token，輸出價格為2元/百萬Token；V4-Pro輸入價格為12元/百萬Token，輸出價格為24元/百萬Token。

作為對比，此前OpenAI上線的GPT-5.5 API輸出定價高達30美元（約合人民幣205元）/百萬Token。也就是說，DeepSeek-V4系列的API輸出價格僅為GPT-5.5的約1/100。

而DeepSeek-V4系列API成本大幅降低的關鍵在于，V4版本在架構設計上已顯著轉向推理優化。比如，1M超長上下文處理、KV Cache優化、FP4精度支持——這些技術升級都指向一個方向：降低單位Token推理成本。

此外，DeepSeek還在定價頁面指出，DeepSeek-V4 Pro版服務吞吐目前受限，預計下半年華為昇騰950超節點批量上市后，Pro版價格還將大幅下調。這似乎也意味著，當前DeepSeek-V4系列的API服務也是基于華為昇騰AI芯片。

根據DeepSeek官方技術報告，在推理性能方面，其創新的細粒度專家并行架構在華為昇騰芯片上完成了充分驗證。在通用推理任務中，相較傳統非融合基線方案，性能提升達1.50至1.73倍；在延遲敏感型場景中，最高可實現1.96倍加速效果。

截至目前，包括華為昇騰、寒武紀、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥真武、天數智芯在內的八家國內主流AI芯片廠商，均已確認完成DeepSeek V4的兼容性驗證與技術適配。

值得一提的是，就在DeepSeek-V4系列發布一周前，英偉達CEO黃仁勛在一場播客采訪中說了這樣一句話：如果DeepSeek率先在華為平臺上發布，對于美國而言將是災難性的。黃仁勛還進一步指出，限制對華出口AI芯片，短期確實會延緩中國AI的發展速度，但長期來看，這只會逼迫中國形成自己的生態鏈。顯然，黃仁勛的這個判斷正在走向現實。

編輯：芯智訊-浪客劍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.