![]()
出品/未來科技界
作者/張永堃
編輯/李彥
頭圖/微博@Google黑板報
在智能體AI(Agentic AI)浪潮下,谷歌正試圖重新定義算力基礎設施。
美國太平洋時間2026年4月22日9點,在Google Cloud Next大會上,谷歌正式發布其“AI超級計算機”(AI Hypercomputer),該架構整合了其自研第八代 TPU、Axion CPU 以及 NVIDIA 新一代 Rubin GPU,旨在為 Agentic AI 時代提供核心的底層算力支撐。
![]()
此次發布同時涉及第七代TPU“Ironwood”的全面商用(GA)以及第八代架構(TPU v8)的首次分化。這反映了谷歌在應對巨額資本支出壓力時,正試圖通過硬件深度特化來優化其云業務的邊際利潤。
作為目前的旗艦產品,第七代TPU Ironwood在核心參數上已實現直接對標英偉達Blackwell B200。Ironwood單芯片可提供4.6 PetaFLOPS的FP8峰值算力,配備192GB HBM3e內存。單個Superpod通過集成9,216顆芯片,可提供42.5 ExaFLOPS的總算力。
英偉達在單芯片互連帶寬上保持領先,其NVLink 5技術可提供高達14.4 Tbps的雙向帶寬,而Ironwood的ICI帶寬為9.6 Tbps。此外,英偉達Blackwell架構原生支持FP4精度,這使得量化模型在推理時的吞吐量能夠實現翻倍,而Ironwood并不具備這一能力。
但Ironwood的核心賣點在于系統級效率——每瓦性能較前代提升2倍,且通過垂直整合的軟件棧優化,顯著降低推理成本。隨著Ironwood在本次大會正式進入GA階段,它已成為谷歌自研算力體系的中堅力量。
在Ironwood全面商用的同時,谷歌首次打破了TPU系列單一架構的傳統,針對訓練與推理兩個不同的經濟模型,推出了第八代TPU的兩種特化版本:針對訓練優化的TPU 8t 以及針對推理與Agentic AI優化的TPU 8i。
兩款芯片均采用臺積電2nm制程,目標于2027年末量產。這一架構拆分標志著AI算力工業化進入了“精細化階段”—— 面對生成式 AI 帶來的巨額成本壓力,廠商必須通過硬件深層特化來榨取極限能效,必須通過硬件特化來優化每一美元的產出。
![]()
谷歌CEO桑達爾·皮查伊發帖稱TPU v8兩款芯片“看起來還不錯”
面向訓練的TPU 8t
![]()
TPU 8t定位于訓練領域的性能旗艦,旨在將前沿模型的部署時間從數月縮短至數周。該芯片由博通設計,單pod FP4算力達到121 Exaflops,較Ironwood提升2.84倍。
在集群能力上,TPU 8t支持單個Superpod擴展至9,600顆芯片,配備2PB共享高帶寬內存,ICI帶寬較上一代翻倍。
在存儲與數據傳輸方面,TPU 8t通過將存儲訪問速度提升10倍,并結合TPUDirect技術繞過主機 CPU 實現數據直達HBM,顯著提升了系統的整體利用率。依托Virgo網絡以及JAX與Pathways軟件棧,TPU 8t可實現近線性擴展,并支持在單一邏輯集群中擴展至最多百萬顆芯片。
此外,據Data Center Dynamics報道,該芯片引入了原生FP4精度,在降低內存帶寬瓶頸的同時減少數據傳輸能耗。綜合來看,與Ironwood相比,TPU 8t在大規模訓練場景下實現了約2.7倍的單位成本性能提升。
面向推理的TPU 8i
![]()
TPU 8i專注優化低延遲與高吞吐能力。該芯片由聯發科設計,配備288GB HBM內存與384MB片上SRAM,片上容量較上一代提升3倍,使模型能夠在芯片內部保持活躍狀態。在架構優化方面,TPU 8i采用基于Arm架構的Axion CPU并結合NUMA架構提升性能。針對MoE模型,通過Boardfly架構將網絡直徑縮短超過50%。
TPU 8i通過片上CAE將部分全局操作卸載處理,使芯片內部延遲最高降低5倍。與Ironwood相比,TPU 8i在低延遲推理場景下實現約80%的單位成本性能提升。
![]()
兩款芯片均實現約2倍的性能功耗提升,并支持谷歌第四代液冷技術。
谷歌在芯片戰略上的“分而治之”,本質上是供應鏈定價權的重新配置。根據4月6日,博通向SEC提交的8-K文件,谷歌已與博通達成長期協議,將TPU合作延續至2031年,這就意味著博通將繼續谷歌主導高性能訓練芯片的物理實現。
與此同時,聯發科則接管了成本敏感型推理芯片的設計工作,其方案相比替代選項成本低20%至30%。此外,Marvell正在與谷歌洽談內存處理單元及另一款推理TPU的開發,預計設計定型于2027年完成。英特爾則提供Xeon處理器及定制IPU。
這種供應鏈重構的背后,是巨大的資本支出壓力。谷歌預測2026年資本支出將達1750億至1850億美元,較2025年的914億美元幾乎翻番。這種規模的投入要求谷歌必須通過自研芯片來規避外購GPU的“品牌溢價”。
自研TPU的核心商業邏輯正在于此:在推理規模持續擴大的背景下,定制ASIC的經濟模型優于通用GPU。TrendForce預測2026年定制AI芯片銷售增長45%,而GPU出貨量僅增長16%,行業共識正在形成。
在單點硬件突破之外,谷歌更大的野心在于系統級整合。AI超級計算機的核心在于統一計算、存儲、網絡、軟件及機器學習框架,構建一套高度集成的高性能架構。谷歌的策略清晰可見:利用英偉達維持生態多樣性,利用自研TPU守住核心業務的利潤率。
目前,這一超級計算機體系已經獲得了關鍵客戶的認可。Anthropic已成為谷歌自研算力體系的戰略錨定客戶。據DataCenterNews報道,Anthropic已簽署協議至2027年,協議包括3.5吉瓦的TPU算力資源,其2026年收入運行率已突破300億美元,對底層算力的性價比極其敏感,這正是谷歌自研推理芯片的核心價值主張。
TPU v8的拆分發布,標志著AI算力工業化進入了精細化階段。對于谷歌而言,AI的下半場競爭不再僅僅是比拼誰的算力更高,而是比拼誰能讓每一美金的投入產生更高的推理產出。在2nm制程與3.5吉瓦電力規模的博弈中,谷歌正在通過構建閉環的“AI超級計算機”生態,從底層硬件端完成對AI定價權的掌控。
AI的下半場,算力不再是唯一壁壘——每美元產出效率才是真正的護城河。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.