網易首頁 > 網易號 > 正文申請入駐

谷歌發布兩款第八代TPU：拆分訓練與推理，全面硬鋼英偉達GPU霸權！

2026-04-23 09:35:24　來源: EETOP半導體社區

北京舉報

分享至

北京時間4月24日凌晨，在谷歌年度云端與AI技術盛會「Google Cloud Next '26」谷歌第八代張量處理單元（TPU）的正式亮相。谷歌宣布，將徹底改變此前TPU“訓練與推理一體化”的設計模式，推出分別針對AI訓練與推理任務的兩款專用芯片——TPU 8t與TPU 8i，這一戰略調整既是對AI產業發展趨勢的精準響應，也是其在AI硬件領域向行業龍頭英偉達發起挑戰的最新舉措。

多年來，谷歌一直致力于研發可同時承擔AI模型訓練與推理工作的一體化芯片，而此次第八代TPU的“雙芯片、一系統”設計，標志著其AI硬件路線的重大轉向。谷歌高級副總裁兼AI與基礎設施首席技術官Amin Vahdat在博客中表示：“隨著AI代理的興起，我們認為行業將從針對訓練和服務各自需求專門優化的芯片中受益。”谷歌云執行長Thomas Kurian則在盛會上進一步闡述，AI產業正邁入「代理式企業（Agentic Enterprise）」新時代，第八代TPU的推出正是為了支撐這一轉型，讓AI代理從單純的聊天工具，升級為具備感知、推理并采取行動以推動實質成果的自主AI代理。

兩款新芯片各有側重、精準適配不同AI工作負載。其中，作為“訓練效能引擎”的TPU 8t經過專項優化，核心目標是提升大規模AI模型的訓練效率，可將前沿模型的開發時間從數個月縮短至數周。為實現這一突破，谷歌通過系統級設計，平衡了極致的運算吞吐量、共享記憶體和芯片間帶寬，同時兼顧最佳能源效率和高產能的運算時間。性能方面，TPU 8t在同等價格下，性能達到了去年11月發布的第七代Ironwood TPU的2.8倍，每瓦性能較上一代提升124%；在規模擴展上，TPU 8t最多可將9600塊芯片組合為單一超級計算節點，并通過JAX與Pathways框架將分布式訓練擴展至單一集群超過100萬塊TPU芯片，其全新的Virgo網絡架構更將數據中心網絡帶寬較上一代提升最高4倍，芯片間互聯帶寬提升2倍。

而作為“推理引擎”的TPU 8i，則專為驅動理想的代理式AI用戶體驗而打造，核心優勢在于低延遲和高并發，能夠讓用戶在委派任務給AI代理后立即獲得回應，無需漫長等待。這款芯片的一大亮點的是片上存儲的大幅升級，內建384MB的SRAM（靜態隨機存取記憶體），容量較上一代Ironwood提升3倍，同時結合288GB的高頻寬記憶體，可將模型使用中的工作集完全保存在芯片上，有效打破“內存墻”瓶頸，減少處理器空閑等待時間。此外，TPU 8i采用全新的Boardfly互聯拓撲，將任意兩芯片間的最大通信跳數從16跳壓縮至7跳，網絡直徑縮減56%，全對全通信延遲改善最高50%，完美適配混合專家模型和推理模型中頻繁的跨芯片令牌路由需求。性能上，TPU 8i較上一代提升80%，每瓦性能提升117%，兩款芯片的協同設計讓第八代TPU整體成本效能較前代提升達80%，意味著企業能以相同成本服務近乎雙倍的客戶量，助力其實現獲利成長。

此次谷歌拆分TPU功能，背后是全球AI芯片產業的激烈競爭與發展趨勢的推動。當前，全球大多數頂尖科技公司都在布局定制化AI半導體開發，以最大限度提升效率、適配專屬應用場景：蘋果多年來一直在自研iPhone芯片中集成神經網絡引擎AI組件；微軟于今年1月發布了第二代AI芯片；上周，Meta也宣布正與博通合作開發多個版本的AI處理器。谷歌在這一領域起步較早，2015年便開始使用自研處理器運行AI模型，2018年正式向云客戶開放TPU租賃服務，而亞馬遜AWS也在同年推出用于AI推理的Inferentia芯片，并于2020年發布訓練專用的Trainium處理器。

值得注意的是，盡管科技巨頭們紛紛加碼自研AI芯片，但目前尚無任何一家能夠取代英偉達的行業主導地位，谷歌也并未將新TPU的性能與英偉達產品直接對比。不過，兩者的競爭已在技術路線上形成呼應：今年3月，英偉達曾大力宣傳即將推出的Groq 3 LPU芯片，該芯片依托其以200億美元收購Groq公司獲得的技術，同樣主打低延遲推理，且大量采用SRAM；而谷歌TPU 8i也以SRAM為核心優化方向，與英偉達形成直接的技術對標。據悉，英偉達的Groq 3 LPU集成了500MB SRAM，提供高達150TB/s的帶寬，而谷歌TPU 8i的384MB SRAM則精準適配推理模型的KV緩存占用需求，各有優勢。

目前，谷歌TPU的市場認可度正持續提升。據谷歌透露，Citadel Securities已基于TPU開發了量化研究軟件，美國能源部旗下17家國家實驗室均在使用基于TPU構建的AI協同科學家軟件，Anthropic更是承諾將使用數吉瓦級別的谷歌TPU算力。DA Davidson分析師去年9月曾估算，TPU業務與Google DeepMind AI集團的總價值約為9000億美元，展現出巨大的市場潛力。此外，第八代TPU均運行在谷歌自研的Axion ARM CPU平臺上，由第四代液冷技術提供支持，同時延續了第七代的軟件體系，支持JAX、PyTorch、Keras及vLLM等主流框架，原生PyTorch對TPU的支持也已進入預覽階段，用戶可直接遷移模型無需修改代碼，進一步降低了企業的使用門檻。

谷歌表示，TPU 8t與TPU 8i兩款芯片預計于今年晚些時候正式推出。此次第八代TPU的發布，不僅是谷歌AI硬件戰略的重要升級，更折射出云端巨頭加速布局AI算力基礎設施的緊迫感——在AI代理成為產業新風口的當下，誰能掌握更高效、更精準的算力支撐，誰就能在下一代企業轉型與產業升級中搶占主導權。而谷歌的“雙芯片”策略，既順應了AI訓練與推理任務日益分化的趨勢，也為全球AI芯片產業的發展提供了新的思路，未來其與英偉達的競爭，以及在全球AI算力賽道的布局，值得持續關注。

創芯大講堂芯片課程匯總

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.