1. 市場分裂:兩條增長曲線正式分岔
AI芯片未來是否就是英偉達一家獨大?
先給大家看核心數據,來自彭博情報的預測,到2033年,整個AI加速器市場總規模會沖到6040億美元,其中通用GPU的年復合增長率是16.1%,而云廠商定制的ASIC芯片,年復合增長率達到了44.6%,是通用GPU的將近三倍。
2026年是個明確的轉折點,全球AI加速器市場已經走出了完全不一樣的兩條增長曲線。
市場細分領域
2024 年營收
2033 年預測值
復合年均增長率(CAGR)
主要應用場景
通用型 GPU(NVIDIA)
約 1300 億美元
約 2900 億美元
16.1%
模型訓練、靈活推理
定制 ASIC(云廠商自研)
約 180 億美元
約 1650 億美元
44.6%
優化推理、專用訓練
其他加速器(AMD、Intel)
約 120 億美元
約 550 億美元
約 18%
成本敏感型訓練、云端部署
AI 加速器市場整體
約 1600 億美元
約 6040 億美元
約 16%
全場景 AI 計算
2024-2033年AI加速器市場規模預測對比表
簡單說一下,為什么會出現這樣的分化?
通用GPU(主要就是英偉達)的優勢,至今沒人能撼動,在大模型訓練領域,CUDA生態十幾年積累的護城河,加上靈活可編程的特性,訓練新模型還是得靠它,未來十年這個位置沒人能替代,所以它保持16%的穩定增長沒問題。
但現在AI算力的結構已經變了——訓練一個大模型只需要做一次,最多微調幾次,而把模型給用戶用,也就是推理,現在已經占了所有AI算力的三分之二,這個比例還會越來越大。
推理的需求很明確:模型架構固定,對成本極度敏感,不需要那么強的通用性,剛好給定制ASIC留下了空間,拼成本拼效率,定制芯片比通用GPU強太多。
最直觀的例子是Midjourney公開的數據,把推理業務從英偉達GPU遷移到谷歌TPU之后,每月算力成本從210萬美元降到了70萬美元,直接砍了65%。
這個數字放大到云廠商百萬級的芯片部署量,一年就是幾十億上百億美元的節省,傻子才不做。
2026年全球頭部云廠商總資本開支達到了6600-6900億美元,其中75%都砸在了AI基礎設施上,每家都有600-800億美元的AI預算,越來越多的錢,流向了自己設計的定制芯片,而不是英偉達的GPU。
2. 四大云廠商的定制芯片軍火庫
現在谷歌、微軟、亞馬遜、Meta四家,每家都拿出了成熟的量產定制芯片,我們一個一個拆解參數和戰略意圖。
谷歌 TPU v7/V8 "Ironwood"
谷歌做TPU已經做了七代,從2015年到現在,這次Ironwood是谷歌架構升級最大的一代,完全為超大規模推理量身打造。
它用臺積電3nm工藝生產,單芯片峰值FP8算力達到4.6 PFLOPS,配192GB HBM3e內存,帶寬超過7.2TB/s,整個芯片從架構開始,就是給Gemini用的Transformer架構設計的,專門給注意力計算做了硬件優化。
谷歌把9216顆Ironwood組成一個Pod,用自己的定制光網狀互聯解決了GPU集群常見的網絡瓶頸。現在Anthropic已經部署了超過一百萬顆TPU v7跑Claude的推理,這也是定制AI芯片第一次單個客戶就突破百萬顆的部署量。
對谷歌來說,TPU既是自己用,也開放給谷歌云的客戶,直接和英偉達GPU的實例打性價比,走的是垂直整合從芯片到云的路線。
并且,Google的V8也發布了,推理和訓練也分開了。
微軟 Maia 200
微軟的第二代定制AI加速器2026年初剛出來,攢了好幾年,和AMD、臺積電一起磨出來的。
同樣臺積電3nm工藝,單芯片封裝了超過1400億晶體管,FP4算力超過10 PFLOPS,微軟說這個性能是亞馬遜Trainium 3的三倍以上,內存配了216GB HBM3e,是2026年量產定制芯片里容量最大的,峰值功耗750W,剛好卡在標準液冷機架的范圍內。
微軟的思路很清楚,Maia 200就是給OpenAI的GPT系列模型深度定制的,從固件、編譯器到算子全都是量身優化的,不是為了完全替換英偉達GPU,而是互補——訓練和通用推理還是用英偉達的實例,GPT專屬的推理流量全部走Maia集群,攤下來每token的成本優勢會越滾越大。
亞馬遜 Trainium 3
亞馬遜從2019年的Inferentia開始做定制硅,到2025年re:Invent已經更到第三代Trainium 3了,路線走得很穩。
同樣臺積電3nm,單芯片FP8算力2.52 PFLOPS,配144GB HBM3e內存,自帶專門的NeuronCore,同時支持訓練和推理,硬件層面就支持跨芯片的模型并行。
亞馬遜能把Trainium 3組成最多一百萬顆芯片的UltraCluster,用定制的EFA互聯,單節點帶寬3.2Tbps,官方說同等算力下,比英偉達的實例便宜一半。這個降價幅度,對英偉達的云GPU業務來說,是目前最兇的價格壓力。
而且亞馬遜的Neuron SDK已經做得很成熟了,PyTorch和JAX的任務只需要改很少的代碼就能跑,門檻比很多人想象的低。
Meta MTIA
Meta是四家里面推進最快的,2026年已經有三代芯片在走,全部自己用不對外賣,所以公開參數不多,目標很明確:就是滿足自己30億用戶的Llama推理需求。
現在已經大規模部署的是MTIA v2,主要跑Facebook和Instagram的排序推薦推理;今年中MTIA v3會量產,專門給Llama系列生成式AI推理做的;年底v4 "Santa Barbara"會出樣,這也是Meta第一款用HBM4內存的芯片,針對高帶寬需求的任務。
有意思的是Meta現在的分工很明確:訓練還是找英偉達買H100和B200,推理全部上自己的MTIA,其實這也是現在整個行業的普遍分工模式。
除此之外,OpenAI也和博通合作,投了大概100億美元設計定制推理芯片,目標到2029年部署10GW的容量,對應幾十萬顆芯片,現在還在設計階段,后續動靜肯定不小。
3. 2026年主流AI芯片參數橫評
我把現在市面上量產和即將出樣的主要芯片,包括各家定制ASIC和英偉達的新卡,整理了一個對比表,大家可以直接看參數差異:
規格參數
谷歌 TPU v7 Ironwood
微軟 Maia 200
亞馬遜 Trainium 3
NVIDIA Vera Rubin
NVIDIA B200 (Blackwell)
制程工藝
臺積電 3nm
臺積電 3nm
臺積電 3nm
臺積電 3nm(預計)
臺積電 4nm
晶體管數量
未披露
1400 億 +
未披露
3360 億
2080 億
峰值算力(FP8)
4.6 PFLOPS
約 5 PFLOPS(估算)
2.52 PFLOPS
約 25 PFLOPS(估算)
4.5 PFLOPS
峰值算力(FP4)
未披露
10+ PFLOPS
未披露
50 PFLOPS
9 PFLOPS
顯存
192GB HBM3e
216GB HBM3e
144GB HBM3e
288GB HBM4
192GB HBM3e
顯存帶寬
7.2+ TB/s
約 8 TB/s(估算)
約 5 TB/s(估算)
12+ TB/s(估算)
8 TB/s
熱設計功耗(TDP)
約 500W(估算)
750W
約 600W(估算)
約 1000W(估算)
1000W
最大集群 / 機柜規模
9216 顆芯片
Azure 機架級集群
100 萬顆芯片(超集群)
Vera Rubin NVL144
GB200 NVL72
互聯技術
自研光互聯網格
Azure 定制互聯
EFA 3.2 Tbps
NVLink 6(3.6 TB/s)
NVLink 5(1.8 TB/s)
主要負載
推理
推理(GPT 專項優化)
訓練 + 推理
訓練 + 推理
訓練 + 推理
上市 / 可用時間
量產(2025 年起)
2026 年初
2026 年中
2026 年末 / 2027 年初
量產(2025 年)
2026年主流AI加速器參數對比表
這個表里最受關注的,就是英偉達用來反擊的Vera Rubin,我們單獨拿出來說。
4. 英偉達的反擊:Vera Rubin架構
英偉達肯定不會坐以待斃,黃仁勛在2026年GTC直接放出了Vera Rubin,規格直接拉滿,就是要搶回推理的性價比優勢。
Vera Rubin用臺積電3nm工藝,集成了3360億晶體管,FP4算力達到50 PFLOPS,是全球第一款量產用288GB HBM4內存的AI加速器,英偉達官方說,推理性能比上一代Blackwell B200高5倍,每生成token的成本直接降十分之九。
新的NVLink 6互聯帶寬翻了一倍,達到3.6TB/s,可以把144顆Vera Rubin組成一個NVL144集群,專門給超過10萬億參數的超大模型訓練用。
但英偉達最大的優勢,至今還是CUDA生態——現在有超過500萬活躍開發者,二十年的庫優化,所有主流機器學習框架原生支持,這是所有定制ASIC都比不了的。定制芯片都要做自己的編譯器和SDK,不管是谷歌的XLA還是亞馬遜的Neuron,只要任務偏離芯片預設的架構,用起來就會有摩擦,這是英偉達的基本盤。
5. 推理經濟學,為什么定制芯片必然崛起
我們把訓練和推理的核心差異拉出來,你就能明白為什么市場必然走向分裂:
指標
訓練(TRAINING)
推理(INFERENCE)
占 AI 總算力比例(2026 年)
約 33%
約 67%
成本敏感度
中等(一次性投入)
極高(持續邊際成本)
負載可預測性
多變
高度可預測
所需架構靈活性
低(模型結構已知)
定制 ASIC 優勢
中等
顯著
英偉達優勢
強勁(CUDA、靈活性)
逐漸減弱(成本壓力)
訓練vs推理核心指標對比表
數據來源是New Street Research和摩根士丹利。
現在分析師一致預測:到2028年,英偉達在推理專用算力的市場份額,會從現在的90%以上掉到20%-30%,訓練市場英偉達還是穩穩的老大,但推理這塊,已經擋不住定制芯片的進攻了。
為什么定制芯片能把成本壓這么低?核心三個原因:
第一是架構專業化,針對Transformer里的注意力、前饋網絡、采樣這些常用操作做固定功能單元,去掉了通用GPU核心不必要的開銷,效率自然高。
第二是垂直整合,云廠商從芯片設計、編譯器到模型部署全鏈條自己控制,省掉了中間環節的利潤加成,成本自然降下來。
第三是規模攤薄成本,一次投幾百萬顆芯片給臺積電,設計一次性的NRE(非重復性工程)成本,攤到每顆芯片上就沒多少了。
6. 所有人都躲不開的臺積電瓶頸
一個很有意思的點:2026年所有這些主流AI芯片,不管是定制ASIC還是英偉達GPU,全都是臺積電3nm工藝做的,等于谷歌、微軟、亞馬遜、Meta、英偉達全都在搶同一個產能。
臺積電2026年上半年3nm產能利用率已經是100%了,需求大概是現有供應的三倍,新廠哪怕已經破土動工,從建好到量產也要18-24個月,缺口短期填不上。
臺積電 3nm 客戶
芯片型號
年度預估出貨量
狀態
谷歌
TPU v7 Ironwood
200 萬顆以上
量產中
微軟
Maia 200
50 萬~100 萬顆
產能爬坡
亞馬遜
Trainium 3
100 萬顆以上
產能爬坡
蘋果
M4/M5 系列
3 億顆以上
量產中
英偉達
Vera Rubin
100 萬顆以上
樣品送測
博通(為 OpenAI 定制)
定制推理芯片
待定
設計階段
AMD
MI400 系列
50 萬顆以上
樣品送測
臺積電3nm主要客戶年產能預估表
現在產能分配就是看誰下單早、下單多,谷歌和蘋果作為臺積電最大的3nm客戶,天然就有產能優先權,英偉達雖然晶圓量很大,但現在自己的客戶也要和這些直接做芯片的云廠商搶產能,情況就很微妙。
產能這塊已經變成了戰略資源,拿到分配比做好設計還重要,這是很多人沒注意到的點。
7. 基礎設施跟著變:電力、散熱、組網全要改
定制芯片起來之后,數據中心的基礎設施要求也跟著變了,我們一個個說。
功率密度和散熱
2026年云廠商幾千億的AI capex,直接轉換成了前所未有的電力需求。定制ASIC的功耗普遍比英偉達旗艦GPU低,TPU v7大概500W,Trainium 3大概600W,Maia 200是750W,而Vera Rubin和B200都是1000W。但哪怕單芯片功耗低,部署量上去之后,總功耗還是會瘋漲。
現在行業已經形成了明確的散熱分級:
散熱方案
風冷
直液冷
浸沒式液冷
熱設計功耗范圍
最高 500W
500W–1000W
700W 以上
機柜功率密度
15–25 kW / 機柜
40–80 kW / 機柜
80–150+ kW / 機柜
2026 年采用率
持續下降
新建機房的 22%
新建機房的 <5%
基礎設施成本
基準水平
基準的 1.3–1.8 倍
基準的 2.0–3.0 倍
不同TDP芯片對應散熱方案對比表
500W以下可以用風冷,現在占比越來越低
500W到1000W用直接液冷就夠,2025年新建數據中心已經有22%用了液冷
700W以上才需要浸沒式液冷,成本是風冷的2-3倍
所以定制芯片其實在散熱上有優勢,大部分不需要上最貴的浸沒式,基礎設施成本本身就更低。
互聯和組網
定制ASIC和英偉達GPU的互聯策略完全不一樣,英偉達用標準化的NVLink,現在NVLink 6已經到3.6TB/s,多GPU擴展有成熟的參考架構,直接照著做就行。
而云廠商的定制芯片,全都用自己的私有互聯:谷歌是光網狀,亞馬遜是EFA,微軟是Azure定制網絡,對基礎設施團隊來說,這就意味著不同芯片的機架布局、布線、故障域設計全都不一樣,要同時支持兩種路線,復雜度比以前高很多。
現在數據中心都變成了異構部署:英偉達GPU做訓練和靈活負載,定制ASIC做優化推理,一個數據中心里要同時跑不同架構、不同散熱、不同互聯的芯片,對部署和運維的專業要求比以前高太多了。
目前做這個全球部署的,Introl算是做得比較大的,在257個地點有550個專門做高性能計算的現場工程師,三年營收漲了9594%,上過Inc 5000,最多部署過十萬顆GPU,鋪了四萬多英里光纖,這種物理部署的經驗,不是軟件自動化能替代的。
8. 不同角色的行動建議
最后給不同位置的朋友整理幾個關鍵點,照著做就不會踩大坑。
對基礎設施規劃師
第一,一定要按異構來設計,電力、散熱、組網都要預留同時容納英偉達GPU和定制ASIC的空間,2026年之后的數據中心本來就是多架構并存。
第二,提前預算液冷,任何超過700W的新芯片都要液冷,舊改造價比新建貴1.5到2.5倍,早上比晚上好。
第三,提前鎖產能,3nm缺口三倍,不管GPU還是ASIC交貨周期都已經到12-18個月,2027年要部署的話,現在就得 commitments。
對運維團隊
第一,要準備新的管理工具,定制芯片有自己的監控、診斷、編排棧,和英偉達原來的DCGM/NVSMI完全不一樣,提前培訓。
第二,私有互聯和標準以太網、InfiniBand的維護流程不一樣,提前做好對應準備。
第三,接受混合散熱環境,同一個數據中心里可能同時有空冷舊服務器、直冷定制ASIC、浸沒冷英偉達集群,每個的維護流程都不一樣,提前梳理清楚。
對戰略決策者
第一,英偉達的護城河在訓練收窄,在推理還很穩,預算分配就是:訓練給英偉達,發揮CUDA的靈活性價值;高容量推理優先看定制ASIC,拼每token成本。
第二,盯著20-30%這個份額閾值,如果到2028年英偉達推理份額真掉到這個區間,整個定價邏輯都會變,不要做全英偉達的綁定,提前布局多供應商。
第三, capex越早規劃越好,2026年幾千億的總投入已經把芯片、網絡、電力、散熱整個供應鏈都擠緊張了,晚決策就可能拖18個月的交付。
9. 接下來會怎么走?
2026年只是拐點,不是終點,接下來兩三年還有幾個變量會加速變化:
第一,英偉達Vera Rubin的實際表現,如果真能兌現5倍性能10倍降本,那確實能搶回一部分推理市場,減慢定制芯片的滲透,關鍵要看實際產能夠不夠,不是看紙面參數。
第二,HBM4換代,Meta的MTIA v4和英偉達Vera Rubin都用了HBM4,帶寬是HBM3e的兩倍,提前適配新內存的芯片會拿到下一代優勢,還卡在HBM3e的會被動。
第三,OpenAI的定制芯片什么時候上量,OpenAI現在全靠英偉達和微軟,要是真幾十萬顆做出來,那整個行業都會跟著跟進做定制。
第四,臺積電新產能2027年底會逐步釋放,缺口會緩解一點,英特爾18A代工也會給大家多一個選擇,只是目前AI芯片設計廠商用得還不多。
說白了,AI加速器市場在2026年已經出現了任何廠商都控制不了的結構性分裂。
英偉達確實鋪好了整個大規模AI的底子,CUDA至今還是計算領域最重要的軟件生態,但大規模推理的經濟賬,加上云廠商想要自己掌握芯片成本的野心,已經把市場推向了多供應商的未來,未來十年的數據中心架構,就是由這個變化定義的。
不管是什么規模的組織,只要你部署AI基礎設施,現在都要回答一個問題:怎么在一個沒有單芯片贏家的世界里做規劃?
參考:https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu
文章來源于歪睿老哥,作者歪睿老哥
創芯大講堂芯片課程匯總
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.