網易首頁 > 網易號 > 正文申請入駐

TPU、Maia、Trainium、MTIA：四大云廠商圍堵英偉達，推理算力不再姓“黃”？

2026-04-27 11:36:38　來源: EETOP半導體社區

北京舉報

分享至

1. 市場分裂：兩條增長曲線正式分岔

AI芯片未來是否就是英偉達一家獨大？

先給大家看核心數據，來自彭博情報的預測，到2033年，整個AI加速器市場總規模會沖到6040億美元，其中通用GPU的年復合增長率是16.1%，而云廠商定制的ASIC芯片，年復合增長率達到了44.6%，是通用GPU的將近三倍。

2026年是個明確的轉折點，全球AI加速器市場已經走出了完全不一樣的兩條增長曲線。

市場細分領域

2024 年營收

2033 年預測值

復合年均增長率（CAGR）

主要應用場景

通用型 GPU（NVIDIA）

約 1300 億美元

約 2900 億美元

16.1%

模型訓練、靈活推理

定制 ASIC（云廠商自研）

約 180 億美元

約 1650 億美元

44.6%

優化推理、專用訓練

其他加速器（AMD、Intel）

約 120 億美元

約 550 億美元

約 18%

成本敏感型訓練、云端部署

AI 加速器市場整體

約 1600 億美元

約 6040 億美元

約 16%

全場景 AI 計算

2024-2033年AI加速器市場規模預測對比表

簡單說一下，為什么會出現這樣的分化？

通用GPU（主要就是英偉達）的優勢，至今沒人能撼動，在大模型訓練領域，CUDA生態十幾年積累的護城河，加上靈活可編程的特性，訓練新模型還是得靠它，未來十年這個位置沒人能替代，所以它保持16%的穩定增長沒問題。

但現在AI算力的結構已經變了——訓練一個大模型只需要做一次，最多微調幾次，而把模型給用戶用，也就是推理，現在已經占了所有AI算力的三分之二，這個比例還會越來越大。

推理的需求很明確：模型架構固定，對成本極度敏感，不需要那么強的通用性，剛好給定制ASIC留下了空間，拼成本拼效率，定制芯片比通用GPU強太多。

最直觀的例子是Midjourney公開的數據，把推理業務從英偉達GPU遷移到谷歌TPU之后，每月算力成本從210萬美元降到了70萬美元，直接砍了65%。

這個數字放大到云廠商百萬級的芯片部署量，一年就是幾十億上百億美元的節省，傻子才不做。

2026年全球頭部云廠商總資本開支達到了6600-6900億美元，其中75%都砸在了AI基礎設施上，每家都有600-800億美元的AI預算，越來越多的錢，流向了自己設計的定制芯片，而不是英偉達的GPU。

2. 四大云廠商的定制芯片軍火庫

現在谷歌、微軟、亞馬遜、Meta四家，每家都拿出了成熟的量產定制芯片，我們一個一個拆解參數和戰略意圖。

谷歌 TPU v7/V8 "Ironwood"

谷歌做TPU已經做了七代，從2015年到現在，這次Ironwood是谷歌架構升級最大的一代，完全為超大規模推理量身打造。

它用臺積電3nm工藝生產，單芯片峰值FP8算力達到4.6 PFLOPS，配192GB HBM3e內存，帶寬超過7.2TB/s，整個芯片從架構開始，就是給Gemini用的Transformer架構設計的，專門給注意力計算做了硬件優化。

谷歌把9216顆Ironwood組成一個Pod，用自己的定制光網狀互聯解決了GPU集群常見的網絡瓶頸。現在Anthropic已經部署了超過一百萬顆TPU v7跑Claude的推理，這也是定制AI芯片第一次單個客戶就突破百萬顆的部署量。

對谷歌來說，TPU既是自己用，也開放給谷歌云的客戶，直接和英偉達GPU的實例打性價比，走的是垂直整合從芯片到云的路線。

并且，Google的V8也發布了，推理和訓練也分開了。

微軟 Maia 200

微軟的第二代定制AI加速器2026年初剛出來，攢了好幾年，和AMD、臺積電一起磨出來的。

同樣臺積電3nm工藝，單芯片封裝了超過1400億晶體管，FP4算力超過10 PFLOPS，微軟說這個性能是亞馬遜Trainium 3的三倍以上，內存配了216GB HBM3e，是2026年量產定制芯片里容量最大的，峰值功耗750W，剛好卡在標準液冷機架的范圍內。

微軟的思路很清楚，Maia 200就是給OpenAI的GPT系列模型深度定制的，從固件、編譯器到算子全都是量身優化的，不是為了完全替換英偉達GPU，而是互補——訓練和通用推理還是用英偉達的實例，GPT專屬的推理流量全部走Maia集群，攤下來每token的成本優勢會越滾越大。

亞馬遜 Trainium 3

亞馬遜從2019年的Inferentia開始做定制硅，到2025年re:Invent已經更到第三代Trainium 3了，路線走得很穩。

同樣臺積電3nm，單芯片FP8算力2.52 PFLOPS，配144GB HBM3e內存，自帶專門的NeuronCore，同時支持訓練和推理，硬件層面就支持跨芯片的模型并行。

亞馬遜能把Trainium 3組成最多一百萬顆芯片的UltraCluster，用定制的EFA互聯，單節點帶寬3.2Tbps，官方說同等算力下，比英偉達的實例便宜一半。這個降價幅度，對英偉達的云GPU業務來說，是目前最兇的價格壓力。

而且亞馬遜的Neuron SDK已經做得很成熟了，PyTorch和JAX的任務只需要改很少的代碼就能跑，門檻比很多人想象的低。

Meta MTIA

Meta是四家里面推進最快的，2026年已經有三代芯片在走，全部自己用不對外賣，所以公開參數不多，目標很明確：就是滿足自己30億用戶的Llama推理需求。

現在已經大規模部署的是MTIA v2，主要跑Facebook和Instagram的排序推薦推理；今年中MTIA v3會量產，專門給Llama系列生成式AI推理做的；年底v4 "Santa Barbara"會出樣，這也是Meta第一款用HBM4內存的芯片，針對高帶寬需求的任務。

有意思的是Meta現在的分工很明確：訓練還是找英偉達買H100和B200，推理全部上自己的MTIA，其實這也是現在整個行業的普遍分工模式。

除此之外，OpenAI也和博通合作，投了大概100億美元設計定制推理芯片，目標到2029年部署10GW的容量，對應幾十萬顆芯片，現在還在設計階段，后續動靜肯定不小。

3. 2026年主流AI芯片參數橫評

我把現在市面上量產和即將出樣的主要芯片，包括各家定制ASIC和英偉達的新卡，整理了一個對比表，大家可以直接看參數差異：

規格參數

谷歌 TPU v7 Ironwood

微軟 Maia 200

亞馬遜 Trainium 3

NVIDIA Vera Rubin

NVIDIA B200 (Blackwell)

制程工藝

臺積電 3nm

臺積電 3nm（預計）

臺積電 4nm

晶體管數量

未披露

1400 億 +

未披露

3360 億

2080 億

峰值算力（FP8）

4.6 PFLOPS

約 5 PFLOPS（估算）

2.52 PFLOPS

約 25 PFLOPS（估算）

4.5 PFLOPS

峰值算力（FP4）

未披露

10+ PFLOPS

未披露

50 PFLOPS

9 PFLOPS

顯存

192GB HBM3e

216GB HBM3e

144GB HBM3e

288GB HBM4

192GB HBM3e

顯存帶寬

7.2+ TB/s

約 8 TB/s（估算）

約 5 TB/s（估算）

12+ TB/s（估算）

8 TB/s

熱設計功耗（TDP）

約 500W（估算）

750W

約 600W（估算）

約 1000W（估算）

1000W

最大集群 / 機柜規模

9216 顆芯片

Azure 機架級集群

100 萬顆芯片（超集群）

Vera Rubin NVL144

GB200 NVL72

互聯技術

自研光互聯網格

Azure 定制互聯

EFA 3.2 Tbps

NVLink 6（3.6 TB/s）

NVLink 5（1.8 TB/s）

主要負載

推理

推理（GPT 專項優化）

訓練 + 推理

上市 / 可用時間

量產（2025 年起）

2026 年初

2026 年中

2026 年末 / 2027 年初

量產（2025 年）

2026年主流AI加速器參數對比表

這個表里最受關注的，就是英偉達用來反擊的Vera Rubin，我們單獨拿出來說。

4. 英偉達的反擊：Vera Rubin架構

英偉達肯定不會坐以待斃，黃仁勛在2026年GTC直接放出了Vera Rubin，規格直接拉滿，就是要搶回推理的性價比優勢。

Vera Rubin用臺積電3nm工藝，集成了3360億晶體管，FP4算力達到50 PFLOPS，是全球第一款量產用288GB HBM4內存的AI加速器，英偉達官方說，推理性能比上一代Blackwell B200高5倍，每生成token的成本直接降十分之九。

新的NVLink 6互聯帶寬翻了一倍，達到3.6TB/s，可以把144顆Vera Rubin組成一個NVL144集群，專門給超過10萬億參數的超大模型訓練用。

但英偉達最大的優勢，至今還是CUDA生態——現在有超過500萬活躍開發者，二十年的庫優化，所有主流機器學習框架原生支持，這是所有定制ASIC都比不了的。定制芯片都要做自己的編譯器和SDK，不管是谷歌的XLA還是亞馬遜的Neuron，只要任務偏離芯片預設的架構，用起來就會有摩擦，這是英偉達的基本盤。

5. 推理經濟學，為什么定制芯片必然崛起

我們把訓練和推理的核心差異拉出來，你就能明白為什么市場必然走向分裂：

指標

訓練（TRAINING）

推理（INFERENCE）

占 AI 總算力比例（2026 年）

約 33%

約 67%

成本敏感度

中等（一次性投入）

極高（持續邊際成本）

負載可預測性

多變

高度可預測

所需架構靈活性

低（模型結構已知）

定制 ASIC 優勢

中等

顯著

英偉達優勢

強勁（CUDA、靈活性）

逐漸減弱（成本壓力）

訓練vs推理核心指標對比表

數據來源是New Street Research和摩根士丹利。

現在分析師一致預測：到2028年，英偉達在推理專用算力的市場份額，會從現在的90%以上掉到20%-30%，訓練市場英偉達還是穩穩的老大，但推理這塊，已經擋不住定制芯片的進攻了。

為什么定制芯片能把成本壓這么低？核心三個原因：

第一是架構專業化，針對Transformer里的注意力、前饋網絡、采樣這些常用操作做固定功能單元，去掉了通用GPU核心不必要的開銷，效率自然高。

第二是垂直整合，云廠商從芯片設計、編譯器到模型部署全鏈條自己控制，省掉了中間環節的利潤加成，成本自然降下來。

第三是規模攤薄成本，一次投幾百萬顆芯片給臺積電，設計一次性的NRE（非重復性工程）成本，攤到每顆芯片上就沒多少了。

6. 所有人都躲不開的臺積電瓶頸

一個很有意思的點：2026年所有這些主流AI芯片，不管是定制ASIC還是英偉達GPU，全都是臺積電3nm工藝做的，等于谷歌、微軟、亞馬遜、Meta、英偉達全都在搶同一個產能。

臺積電2026年上半年3nm產能利用率已經是100%了，需求大概是現有供應的三倍，新廠哪怕已經破土動工，從建好到量產也要18-24個月，缺口短期填不上。

臺積電 3nm 客戶

芯片型號

年度預估出貨量

狀態

谷歌

TPU v7 Ironwood

200 萬顆以上

量產中

微軟

Maia 200

50 萬～100 萬顆

產能爬坡

亞馬遜

Trainium 3

100 萬顆以上

產能爬坡

蘋果

M4/M5 系列

3 億顆以上

量產中

英偉達

Vera Rubin

100 萬顆以上

樣品送測

博通（為 OpenAI 定制）

定制推理芯片

待定

設計階段

AMD

MI400 系列

50 萬顆以上

樣品送測

臺積電3nm主要客戶年產能預估表

現在產能分配就是看誰下單早、下單多，谷歌和蘋果作為臺積電最大的3nm客戶，天然就有產能優先權，英偉達雖然晶圓量很大，但現在自己的客戶也要和這些直接做芯片的云廠商搶產能，情況就很微妙。

產能這塊已經變成了戰略資源，拿到分配比做好設計還重要，這是很多人沒注意到的點。

7. 基礎設施跟著變：電力、散熱、組網全要改

定制芯片起來之后，數據中心的基礎設施要求也跟著變了，我們一個個說。

功率密度和散熱

2026年云廠商幾千億的AI capex，直接轉換成了前所未有的電力需求。定制ASIC的功耗普遍比英偉達旗艦GPU低，TPU v7大概500W，Trainium 3大概600W，Maia 200是750W，而Vera Rubin和B200都是1000W。但哪怕單芯片功耗低，部署量上去之后，總功耗還是會瘋漲。

現在行業已經形成了明確的散熱分級：

散熱方案

風冷

直液冷

浸沒式液冷

熱設計功耗范圍

最高 500W

500W–1000W

700W 以上

機柜功率密度

15–25 kW / 機柜

40–80 kW / 機柜

80–150+ kW / 機柜

2026 年采用率

持續下降

新建機房的 22%

新建機房的 <5%

基礎設施成本

基準水平

基準的 1.3–1.8 倍

基準的 2.0–3.0 倍

不同TDP芯片對應散熱方案對比表

500W以下可以用風冷，現在占比越來越低

500W到1000W用直接液冷就夠，2025年新建數據中心已經有22%用了液冷

700W以上才需要浸沒式液冷，成本是風冷的2-3倍

所以定制芯片其實在散熱上有優勢，大部分不需要上最貴的浸沒式，基礎設施成本本身就更低。

互聯和組網

定制ASIC和英偉達GPU的互聯策略完全不一樣，英偉達用標準化的NVLink，現在NVLink 6已經到3.6TB/s，多GPU擴展有成熟的參考架構，直接照著做就行。

而云廠商的定制芯片，全都用自己的私有互聯：谷歌是光網狀，亞馬遜是EFA，微軟是Azure定制網絡，對基礎設施團隊來說，這就意味著不同芯片的機架布局、布線、故障域設計全都不一樣，要同時支持兩種路線，復雜度比以前高很多。

現在數據中心都變成了異構部署：英偉達GPU做訓練和靈活負載，定制ASIC做優化推理，一個數據中心里要同時跑不同架構、不同散熱、不同互聯的芯片，對部署和運維的專業要求比以前高太多了。

目前做這個全球部署的，Introl算是做得比較大的，在257個地點有550個專門做高性能計算的現場工程師，三年營收漲了9594%，上過Inc 5000，最多部署過十萬顆GPU，鋪了四萬多英里光纖，這種物理部署的經驗，不是軟件自動化能替代的。

8. 不同角色的行動建議

最后給不同位置的朋友整理幾個關鍵點，照著做就不會踩大坑。

對基礎設施規劃師

第一，一定要按異構來設計，電力、散熱、組網都要預留同時容納英偉達GPU和定制ASIC的空間，2026年之后的數據中心本來就是多架構并存。

第二，提前預算液冷，任何超過700W的新芯片都要液冷，舊改造價比新建貴1.5到2.5倍，早上比晚上好。

第三，提前鎖產能，3nm缺口三倍，不管GPU還是ASIC交貨周期都已經到12-18個月，2027年要部署的話，現在就得 commitments。

對運維團隊

第一，要準備新的管理工具，定制芯片有自己的監控、診斷、編排棧，和英偉達原來的DCGM/NVSMI完全不一樣，提前培訓。

第二，私有互聯和標準以太網、InfiniBand的維護流程不一樣，提前做好對應準備。

第三，接受混合散熱環境，同一個數據中心里可能同時有空冷舊服務器、直冷定制ASIC、浸沒冷英偉達集群，每個的維護流程都不一樣，提前梳理清楚。

對戰略決策者

第一，英偉達的護城河在訓練收窄，在推理還很穩，預算分配就是：訓練給英偉達，發揮CUDA的靈活性價值；高容量推理優先看定制ASIC，拼每token成本。

第二，盯著20-30%這個份額閾值，如果到2028年英偉達推理份額真掉到這個區間，整個定價邏輯都會變，不要做全英偉達的綁定，提前布局多供應商。

第三， capex越早規劃越好，2026年幾千億的總投入已經把芯片、網絡、電力、散熱整個供應鏈都擠緊張了，晚決策就可能拖18個月的交付。

9. 接下來會怎么走？

2026年只是拐點，不是終點，接下來兩三年還有幾個變量會加速變化：

第一，英偉達Vera Rubin的實際表現，如果真能兌現5倍性能10倍降本，那確實能搶回一部分推理市場，減慢定制芯片的滲透，關鍵要看實際產能夠不夠，不是看紙面參數。

第二，HBM4換代，Meta的MTIA v4和英偉達Vera Rubin都用了HBM4，帶寬是HBM3e的兩倍，提前適配新內存的芯片會拿到下一代優勢，還卡在HBM3e的會被動。

第三，OpenAI的定制芯片什么時候上量，OpenAI現在全靠英偉達和微軟，要是真幾十萬顆做出來，那整個行業都會跟著跟進做定制。

第四，臺積電新產能2027年底會逐步釋放，缺口會緩解一點，英特爾18A代工也會給大家多一個選擇，只是目前AI芯片設計廠商用得還不多。

說白了，AI加速器市場在2026年已經出現了任何廠商都控制不了的結構性分裂。

英偉達確實鋪好了整個大規模AI的底子，CUDA至今還是計算領域最重要的軟件生態，但大規模推理的經濟賬，加上云廠商想要自己掌握芯片成本的野心，已經把市場推向了多供應商的未來，未來十年的數據中心架構，就是由這個變化定義的。

不管是什么規模的組織，只要你部署AI基礎設施，現在都要回答一個問題：怎么在一個沒有單芯片贏家的世界里做規劃？

參考：https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu

文章來源于歪睿老哥，作者歪睿老哥

創芯大講堂芯片課程匯總

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.