![]()
過去多年來,在人工智能(AI)算力市場上,英偉達的GPU憑借其強大的性能和CUDA生態優勢,幾乎所有大模型都奔跑在英偉達的芯片上。這也使得英偉達的GPU占據了超過90%的AI芯片市場份額,并且擁有著高達75%的毛利率,成為了AI市場上最大的贏家。
然而,這一格局正在被兩股力量同時撼動:一是AI產業重心從“訓練”向“推理”的轉移,改變了算力價值的衡量標準;二是DeepSeek V4等國產大模型在推理成本上的極致壓縮,直接挑戰了英偉達的定價權。
從按時計費到按Token計費,AI ASIC優勢凸顯
近日,云基礎設施提供商Nebius的一位專家在AlphaSense訪談中指出,隨著AI智能體的興起,AI算力需求正加速由“訓練”轉向“推理”,AI基礎設施行業的定價模式正在經歷一場深刻的變革。傳統上,算力價格取決于GPU型號、使用時長及是否預留,但這一體系正迅速被更直觀的“每百萬Token成本”所取代。
在傳統的按照特定GPU在按需計時付費的模式下,英偉達H100約為每小時2.95美元,H200約為3.50美元,最新的Blackwell B200則在4.90至6.50美元之間。若簽訂1-2年長期合同且保證采購至少1萬顆GPU算力,價格則會大幅下降,換算下來,H100每小時約1.50美元、H200約2.20美元、B200約3.50美元以上。
根據Omdia的數據,推理已占企業AI工作負載的90%至95%,企業更關心的是處理文本或生成內容的實際效率,這也推動了Token計價方式的崛起。這也意味著,未來決定勝負的不再是誰的芯片算力峰值最高,而是誰處理Token的成本最低。
而“每百萬Token成本”已經成為衡量推理效率的核心指標——即處理100萬個Token(相當于約75萬個英文單詞或40萬個中文字符)所消耗的算力成本。這是用戶端最直觀的計費方式,也是云服務商衡量自身硬件競爭力的標尺。
在此背景之下,谷歌、亞馬遜、Meta、OpenAI等巨頭都在自研面向推理的AI ASIC芯片上投入巨資,以期能夠降低每Token的成本,擺脫對英偉達GPU的依賴。
根據高盛最新發布的報告顯示,谷歌/博通合作的TPU正在迅速縮小與英偉達GPU在推理成本上的差距。從TPU v6升級至v7,單位Token推理成本下降了約70%,與英偉達GB200 NVL72基本持平,部分情形下甚至略具優勢。谷歌已利用TPU訓練了Gemini等自研模型,并將其部署給Anthropic、Meta等外部巨頭。分析師預測,若谷歌將TPU向第三方開放銷售,其有望在長期占據AI芯片市場20% 的份額。
與此同時,美國專用AI芯片創企公司Cerebras于4月17日提交IPO申請,目標融資30億美元,估值達350億美元。其核心支撐是一份與OpenAI簽訂的總額超200億美元合作協議,旨在為后者的“去英偉達化”戰略構建定制的AI推理芯片。
英偉達也看到了AI算力需求由“訓練”轉向“推理”的趨勢,以及AI ASIC在每Token成本上的優勢,因此于2025年以200億美元收購了在輕量化推理場景下具有優勢的Groq LPU架構。
根據Nebius專家數據,在速度方面,Groq每秒可處理800個Token,幾乎達英偉達芯片450個Token的兩倍。在成本方面,Groq芯片每百萬Token成本僅5至10美分,而英偉達B系列約為25美分。
不再依賴英偉達GPU,推理成本降至1/100
4月24日,中國人工智能(AI)技術廠商正式發布了DeepSeek V4系列模型并同步開源,性能比肩國際頂級閉源模型,并且DeepSeek V4系列模型已與華為昇騰等國產AI芯片深度適配,其提供的API服務也主要基于華為昇騰等國產AI芯片,不再依賴于英偉達GPU,且更具性價比。
據介紹,DeepSeek-V4-Pro和DeepSeek-V4-Flash分別采用 MoE 架構,總參數規模分別達到 1.6T(激活 490 億)和 284B(激活 130 億),并且都支持最大 100 萬個代幣的上下文。其中,DeepSeek-V4-Pro專注于性能的上限,在數學、STEM 和競技編程等高難度任務中表現優于目前公開評估的開源模型。其整體性能接近甚至可與 GPT - 5.4 和 Claude Opus 4.6 - Max 等頂級閉源模型相媲美;DeepSeek-V4-Flash 則大幅降低了參數規模和激活規模,以換取更低的延遲和更低的成本。
![]()
根據DeepSeek公布的API定價顯示,V4-Flash輸入價格為1元/百萬Token,輸出價格為2元/百萬Token;V4-Pro輸入價格為12元/百萬Token,輸出價格為24元/百萬Token。
![]()
作為對比,此前OpenAI上線的GPT-5.5 API輸出定價高達30美元(約合人民幣205元)/百萬Token。也就是說,DeepSeek-V4系列的API輸出價格僅為GPT-5.5的約1/100。
而DeepSeek-V4系列API成本大幅降低的關鍵在于,V4版本在架構設計上已顯著轉向推理優化。比如,1M超長上下文處理、KV Cache優化、FP4精度支持——這些技術升級都指向一個方向:降低單位Token推理成本。
此外,DeepSeek還在定價頁面指出,DeepSeek-V4 Pro版服務吞吐目前受限,預計下半年華為昇騰950超節點批量上市后,Pro版價格還將大幅下調。這似乎也意味著,當前DeepSeek-V4系列的API服務也是基于華為昇騰AI芯片。
根據DeepSeek官方技術報告,在推理性能方面,其創新的細粒度專家并行架構在華為昇騰芯片上完成了充分驗證。在通用推理任務中,相較傳統非融合基線方案,性能提升達1.50至1.73倍;在延遲敏感型場景中,最高可實現1.96倍加速效果。
截至目前,包括華為昇騰、寒武紀、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥真武、天數智芯在內的八家國內主流AI芯片廠商,均已確認完成DeepSeek V4的兼容性驗證與技術適配。
值得一提的是,就在DeepSeek-V4系列發布一周前,英偉達CEO黃仁勛在一場播客采訪中說了這樣一句話:如果DeepSeek率先在華為平臺上發布,對于美國而言將是災難性的。黃仁勛還進一步指出,限制對華出口AI芯片,短期確實會延緩中國AI的發展速度,但長期來看,這只會逼迫中國形成自己的生態鏈。顯然,黃仁勛的這個判斷正在走向現實。
編輯:芯智訊-浪客劍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.