網易首頁 > 網易號 > 正文申請入駐

訓練、推理“分家”：谷歌TPUv8雙芯片發布，直面英偉達Blackwell

2026-04-24 14:38:06　來源: 壹覽商業官方

浙江舉報

分享至

出品/未來科技界

作者/張永堃

編輯/李彥

頭圖/微博@Google黑板報

在智能體AI（Agentic AI）浪潮下，谷歌正試圖重新定義算力基礎設施。

美國太平洋時間2026年4月22日9點，在Google Cloud Next大會上，谷歌正式發布其“AI超級計算機”（AI Hypercomputer），該架構整合了其自研第八代 TPU、Axion CPU 以及 NVIDIA 新一代 Rubin GPU，旨在為 Agentic AI 時代提供核心的底層算力支撐。

此次發布同時涉及第七代TPU“Ironwood”的全面商用（GA）以及第八代架構（TPU v8）的首次分化。這反映了谷歌在應對巨額資本支出壓力時，正試圖通過硬件深度特化來優化其云業務的邊際利潤。

作為目前的旗艦產品，第七代TPU Ironwood在核心參數上已實現直接對標英偉達Blackwell B200。Ironwood單芯片可提供4.6 PetaFLOPS的FP8峰值算力，配備192GB HBM3e內存。單個Superpod通過集成9,216顆芯片，可提供42.5 ExaFLOPS的總算力。

英偉達在單芯片互連帶寬上保持領先，其NVLink 5技術可提供高達14.4 Tbps的雙向帶寬，而Ironwood的ICI帶寬為9.6 Tbps。此外，英偉達Blackwell架構原生支持FP4精度，這使得量化模型在推理時的吞吐量能夠實現翻倍，而Ironwood并不具備這一能力。

但Ironwood的核心賣點在于系統級效率——每瓦性能較前代提升2倍，且通過垂直整合的軟件棧優化，顯著降低推理成本。隨著Ironwood在本次大會正式進入GA階段，它已成為谷歌自研算力體系的中堅力量。

在Ironwood全面商用的同時，谷歌首次打破了TPU系列單一架構的傳統，針對訓練與推理兩個不同的經濟模型，推出了第八代TPU的兩種特化版本：針對訓練優化的TPU 8t 以及針對推理與Agentic AI優化的TPU 8i。

兩款芯片均采用臺積電2nm制程，目標于2027年末量產。這一架構拆分標志著AI算力工業化進入了“精細化階段”—— 面對生成式 AI 帶來的巨額成本壓力，廠商必須通過硬件深層特化來榨取極限能效，必須通過硬件特化來優化每一美元的產出。

谷歌CEO桑達爾·皮查伊發帖稱TPU v8兩款芯片“看起來還不錯”

面向訓練的TPU 8t

TPU 8t定位于訓練領域的性能旗艦，旨在將前沿模型的部署時間從數月縮短至數周。該芯片由博通設計，單pod FP4算力達到121 Exaflops，較Ironwood提升2.84倍。

在集群能力上，TPU 8t支持單個Superpod擴展至9,600顆芯片，配備2PB共享高帶寬內存，ICI帶寬較上一代翻倍。

在存儲與數據傳輸方面，TPU 8t通過將存儲訪問速度提升10倍，并結合TPUDirect技術繞過主機 CPU 實現數據直達HBM，顯著提升了系統的整體利用率。依托Virgo網絡以及JAX與Pathways軟件棧，TPU 8t可實現近線性擴展，并支持在單一邏輯集群中擴展至最多百萬顆芯片。

此外，據Data Center Dynamics報道，該芯片引入了原生FP4精度，在降低內存帶寬瓶頸的同時減少數據傳輸能耗。綜合來看，與Ironwood相比，TPU 8t在大規模訓練場景下實現了約2.7倍的單位成本性能提升。

面向推理的TPU 8i

TPU 8i專注優化低延遲與高吞吐能力。該芯片由聯發科設計，配備288GB HBM內存與384MB片上SRAM，片上容量較上一代提升3倍，使模型能夠在芯片內部保持活躍狀態。在架構優化方面，TPU 8i采用基于Arm架構的Axion CPU并結合NUMA架構提升性能。針對MoE模型，通過Boardfly架構將網絡直徑縮短超過50%。

TPU 8i通過片上CAE將部分全局操作卸載處理，使芯片內部延遲最高降低5倍。與Ironwood相比，TPU 8i在低延遲推理場景下實現約80%的單位成本性能提升。

兩款芯片均實現約2倍的性能功耗提升，并支持谷歌第四代液冷技術。

谷歌在芯片戰略上的“分而治之”，本質上是供應鏈定價權的重新配置。根據4月6日，博通向SEC提交的8-K文件，谷歌已與博通達成長期協議，將TPU合作延續至2031年，這就意味著博通將繼續谷歌主導高性能訓練芯片的物理實現。

與此同時，聯發科則接管了成本敏感型推理芯片的設計工作，其方案相比替代選項成本低20%至30%。此外，Marvell正在與谷歌洽談內存處理單元及另一款推理TPU的開發，預計設計定型于2027年完成。英特爾則提供Xeon處理器及定制IPU。

這種供應鏈重構的背后，是巨大的資本支出壓力。谷歌預測2026年資本支出將達1750億至1850億美元，較2025年的914億美元幾乎翻番。這種規模的投入要求谷歌必須通過自研芯片來規避外購GPU的“品牌溢價”。

自研TPU的核心商業邏輯正在于此：在推理規模持續擴大的背景下，定制ASIC的經濟模型優于通用GPU。TrendForce預測2026年定制AI芯片銷售增長45%，而GPU出貨量僅增長16%，行業共識正在形成。

在單點硬件突破之外，谷歌更大的野心在于系統級整合。AI超級計算機的核心在于統一計算、存儲、網絡、軟件及機器學習框架，構建一套高度集成的高性能架構。谷歌的策略清晰可見：利用英偉達維持生態多樣性，利用自研TPU守住核心業務的利潤率。

目前，這一超級計算機體系已經獲得了關鍵客戶的認可。Anthropic已成為谷歌自研算力體系的戰略錨定客戶。據DataCenterNews報道，Anthropic已簽署協議至2027年，協議包括3.5吉瓦的TPU算力資源，其2026年收入運行率已突破300億美元，對底層算力的性價比極其敏感，這正是谷歌自研推理芯片的核心價值主張。

TPU v8的拆分發布，標志著AI算力工業化進入了精細化階段。對于谷歌而言，AI的下半場競爭不再僅僅是比拼誰的算力更高，而是比拼誰能讓每一美金的投入產生更高的推理產出。在2nm制程與3.5吉瓦電力規模的博弈中，谷歌正在通過構建閉環的“AI超級計算機”生態，從底層硬件端完成對AI定價權的掌控。

AI的下半場，算力不再是唯一壁壘——每美元產出效率才是真正的護城河。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.