北京時間4月24日凌晨,在谷歌年度云端與AI技術盛會「Google Cloud Next '26」谷歌第八代張量處理單元(TPU)的正式亮相。谷歌宣布,將徹底改變此前TPU“訓練與推理一體化”的設計模式,推出分別針對AI訓練與推理任務的兩款專用芯片——TPU 8t與TPU 8i,這一戰略調整既是對AI產業發展趨勢的精準響應,也是其在AI硬件領域向行業龍頭英偉達發起挑戰的最新舉措。
多年來,谷歌一直致力于研發可同時承擔AI模型訓練與推理工作的一體化芯片,而此次第八代TPU的“雙芯片、一系統”設計,標志著其AI硬件路線的重大轉向。谷歌高級副總裁兼AI與基礎設施首席技術官Amin Vahdat在博客中表示:“隨著AI代理的興起,我們認為行業將從針對訓練和服務各自需求專門優化的芯片中受益。”谷歌云執行長Thomas Kurian則在盛會上進一步闡述,AI產業正邁入「代理式企業(Agentic Enterprise)」新時代,第八代TPU的推出正是為了支撐這一轉型,讓AI代理從單純的聊天工具,升級為具備感知、推理并采取行動以推動實質成果的自主AI代理。
![]()
兩款新芯片各有側重、精準適配不同AI工作負載。其中,作為“訓練效能引擎”的TPU 8t經過專項優化,核心目標是提升大規模AI模型的訓練效率,可將前沿模型的開發時間從數個月縮短至數周。為實現這一突破,谷歌通過系統級設計,平衡了極致的運算吞吐量、共享記憶體和芯片間帶寬,同時兼顧最佳能源效率和高產能的運算時間。性能方面,TPU 8t在同等價格下,性能達到了去年11月發布的第七代Ironwood TPU的2.8倍,每瓦性能較上一代提升124%;在規模擴展上,TPU 8t最多可將9600塊芯片組合為單一超級計算節點,并通過JAX與Pathways框架將分布式訓練擴展至單一集群超過100萬塊TPU芯片,其全新的Virgo網絡架構更將數據中心網絡帶寬較上一代提升最高4倍,芯片間互聯帶寬提升2倍。
而作為“推理引擎”的TPU 8i,則專為驅動理想的代理式AI用戶體驗而打造,核心優勢在于低延遲和高并發,能夠讓用戶在委派任務給AI代理后立即獲得回應,無需漫長等待。這款芯片的一大亮點的是片上存儲的大幅升級,內建384MB的SRAM(靜態隨機存取記憶體),容量較上一代Ironwood提升3倍,同時結合288GB的高頻寬記憶體,可將模型使用中的工作集完全保存在芯片上,有效打破“內存墻”瓶頸,減少處理器空閑等待時間。此外,TPU 8i采用全新的Boardfly互聯拓撲,將任意兩芯片間的最大通信跳數從16跳壓縮至7跳,網絡直徑縮減56%,全對全通信延遲改善最高50%,完美適配混合專家模型和推理模型中頻繁的跨芯片令牌路由需求。性能上,TPU 8i較上一代提升80%,每瓦性能提升117%,兩款芯片的協同設計讓第八代TPU整體成本效能較前代提升達80%,意味著企業能以相同成本服務近乎雙倍的客戶量,助力其實現獲利成長。
此次谷歌拆分TPU功能,背后是全球AI芯片產業的激烈競爭與發展趨勢的推動。當前,全球大多數頂尖科技公司都在布局定制化AI半導體開發,以最大限度提升效率、適配專屬應用場景:蘋果多年來一直在自研iPhone芯片中集成神經網絡引擎AI組件;微軟于今年1月發布了第二代AI芯片;上周,Meta也宣布正與博通合作開發多個版本的AI處理器。谷歌在這一領域起步較早,2015年便開始使用自研處理器運行AI模型,2018年正式向云客戶開放TPU租賃服務,而亞馬遜AWS也在同年推出用于AI推理的Inferentia芯片,并于2020年發布訓練專用的Trainium處理器。
值得注意的是,盡管科技巨頭們紛紛加碼自研AI芯片,但目前尚無任何一家能夠取代英偉達的行業主導地位,谷歌也并未將新TPU的性能與英偉達產品直接對比。不過,兩者的競爭已在技術路線上形成呼應:今年3月,英偉達曾大力宣傳即將推出的Groq 3 LPU芯片,該芯片依托其以200億美元收購Groq公司獲得的技術,同樣主打低延遲推理,且大量采用SRAM;而谷歌TPU 8i也以SRAM為核心優化方向,與英偉達形成直接的技術對標。據悉,英偉達的Groq 3 LPU集成了500MB SRAM,提供高達150TB/s的帶寬,而谷歌TPU 8i的384MB SRAM則精準適配推理模型的KV緩存占用需求,各有優勢。
目前,谷歌TPU的市場認可度正持續提升。據谷歌透露,Citadel Securities已基于TPU開發了量化研究軟件,美國能源部旗下17家國家實驗室均在使用基于TPU構建的AI協同科學家軟件,Anthropic更是承諾將使用數吉瓦級別的谷歌TPU算力。DA Davidson分析師去年9月曾估算,TPU業務與Google DeepMind AI集團的總價值約為9000億美元,展現出巨大的市場潛力。此外,第八代TPU均運行在谷歌自研的Axion ARM CPU平臺上,由第四代液冷技術提供支持,同時延續了第七代的軟件體系,支持JAX、PyTorch、Keras及vLLM等主流框架,原生PyTorch對TPU的支持也已進入預覽階段,用戶可直接遷移模型無需修改代碼,進一步降低了企業的使用門檻。
谷歌表示,TPU 8t與TPU 8i兩款芯片預計于今年晚些時候正式推出。此次第八代TPU的發布,不僅是谷歌AI硬件戰略的重要升級,更折射出云端巨頭加速布局AI算力基礎設施的緊迫感——在AI代理成為產業新風口的當下,誰能掌握更高效、更精準的算力支撐,誰就能在下一代企業轉型與產業升級中搶占主導權。而谷歌的“雙芯片”策略,既順應了AI訓練與推理任務日益分化的趨勢,也為全球AI芯片產業的發展提供了新的思路,未來其與英偉達的競爭,以及在全球AI算力賽道的布局,值得持續關注。
創芯大講堂芯片課程匯總
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.