網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌推出第八代TPU！3倍性能、2倍帶寬，搭配自研CPU

2026-04-22 22:33:23　來源: 芯東西

北京舉報(bào)

分享至

芯東西（公眾號(hào)：aichip001）
作者 ZeR0
編輯漠影

芯東西4月22日?qǐng)?bào)道，剛剛，谷歌推出全新自研AI芯片——第八代定制TPU，分別是面向訓(xùn)練的TPU 8t和面向推理的TPU 8i。

TPU 8t和TPU8i是與Google DeepMind合作設(shè)計(jì)的，旨在應(yīng)對(duì)最苛刻的AI工作負(fù)載，大規(guī)模適應(yīng)不斷演進(jìn)的模型架構(gòu)，從訓(xùn)練大模型到協(xié)調(diào)智能體集群，再到管理最復(fù)雜的推理任務(wù)。

這是谷歌首次將訓(xùn)練芯片和推理芯片分開。

谷歌在博客文章中解釋說，兩款芯片都能運(yùn)行各??種工作負(fù)載，但專業(yè)化可以顯著提高效率并獲得收益。

TPU 8t擅長(zhǎng)處理大規(guī)模、計(jì)算密集型的訓(xùn)練工作負(fù)載，以提供更大的計(jì)算吞吐量和更強(qiáng)的可擴(kuò)展帶寬，旨在將前沿模型開發(fā)周期從數(shù)月縮短至數(shù)周。

TPU 8i則擁有更高的內(nèi)存帶寬，專為對(duì)延遲最為敏感的推理工作負(fù)載而設(shè)計(jì)，旨在處理眾多專業(yè)智能體復(fù)雜、協(xié)作、迭代的工作。

這兩款芯片首次運(yùn)行在谷歌自家基于Arm的Axion CPU主機(jī)上，這使谷歌能夠優(yōu)化整個(gè)系統(tǒng)，以提高性能和效率。

TPU 8t和TPU8i將于今年晚些時(shí)候正式上市，并可作為谷歌AI超級(jí)計(jì)算機(jī)的一部分使用。

谷歌打造出一個(gè)基于TPU 8t的系統(tǒng)，每個(gè)Pod的計(jì)算性能比上一代產(chǎn)品提升近3倍。

單個(gè)TPU 8t超級(jí)芯片組現(xiàn)已可擴(kuò)展至9600張芯片和2PB共享高帶寬內(nèi)存，芯片間帶寬是上一代的2倍。該架構(gòu)可提供121ExaFlops的計(jì)算能力，并允許最復(fù)雜的模型利用單個(gè)海量?jī)?nèi)存池。

TPU 8t還集成了速度提升多達(dá)10倍的存儲(chǔ)訪問，并結(jié)合TPUDirect將數(shù)據(jù)直接拉入TPU，從而有助于確保端到端系統(tǒng)的最大利用率。

谷歌全新的Virgo網(wǎng)絡(luò)，結(jié)合JAX和Pathways軟件，意味著TPU 8t可以在單個(gè)邏輯集群中為多達(dá)100萬張芯片提供近乎線性擴(kuò)展。

此外，TPU 8t通過一套全面的可靠性、可用性和可維護(hù)性（RAS）功能，力求實(shí)現(xiàn)超過97%的有效吞吐量（衡量有效計(jì)算時(shí)間的指標(biāo)）。

這些功能包括：對(duì)數(shù)萬個(gè)芯片進(jìn)行實(shí)時(shí)遙測(cè)，自動(dòng)檢測(cè)并繞過故障的ICI 鏈路（無需中斷作業(yè)），以及光路交換（OCS）技術(shù)，無需人工干預(yù)即可在故障發(fā)生時(shí)重新配置硬件。

每次硬件故障、網(wǎng)絡(luò)停滯或檢查點(diǎn)重啟都會(huì)導(dǎo)致集群停止訓(xùn)練，而在前沿訓(xùn)練規(guī)模下，每一個(gè)百分點(diǎn)都可能轉(zhuǎn)化為數(shù)天的活躍訓(xùn)練時(shí)間。

TPU 8i采用分層式Boardfly拓?fù)浣Y(jié)構(gòu)，從4張完全連接的芯片構(gòu)建而成，逐步擴(kuò)展為8個(gè)完全連接的電路板組，36個(gè)這樣的電路板組可以完全連接成一個(gè)TPU 8i Pod。

谷歌通過4項(xiàng)關(guān)鍵創(chuàng)新重新設(shè)計(jì)了技術(shù)棧，以消除“等待室”效應(yīng)：

（1）突破“內(nèi)存墻”：為了防止處理器閑置，TPU 8i將288GB高帶寬內(nèi)存與384MB片上SRAM相結(jié)合，多達(dá)上一代的3倍。

（2）得益于Axion架構(gòu)，效率顯著提升：每臺(tái)服務(wù)器的物理CPU主機(jī)數(shù)量翻倍，并采用了其基于Axion Arm架構(gòu)的定制CPU。通過使用非均勻內(nèi)存架構(gòu)（NUMA）進(jìn)行隔離，谷歌優(yōu)化了整個(gè)系統(tǒng)。

（3）擴(kuò)展MoE模型：對(duì)于現(xiàn)代混合專家（MoE）模型，谷歌將互連（ICI）帶寬提高了1倍，達(dá)到19.2Tb/s。其新的Boardfly架構(gòu)將最大網(wǎng)絡(luò)直徑減少了超過50%，確保系統(tǒng)作為一個(gè)統(tǒng)一、低延遲的單元運(yùn)行。

（4）消除延遲：全新片上集體加速引擎（CAE）可卸載全局操作，將片上延遲降低至多5倍，從而最大限度地減少延遲。

與上一代產(chǎn)品相比，這些創(chuàng)新技術(shù)每美元的性能提高了80%，使企業(yè)能夠以相同成本服務(wù)近2倍的客戶量。

第八代TPU也是谷歌共同設(shè)計(jì)理念的最新體現(xiàn)：

Boardfly拓?fù)浣Y(jié)構(gòu)是專門為滿足當(dāng)今最強(qiáng)大的推理模型的通信需求而設(shè)計(jì)的。
TPU 8i中的SRAM容量是根據(jù)生產(chǎn)規(guī)模推理模型的KV Cache占用空間來確定的。
Virgo Network架構(gòu)的帶寬目標(biāo)源自萬億參數(shù)訓(xùn)練的并行性要求。

兩個(gè)平臺(tái)都原生支持JAX、MaxText、PyTorch、SGLang和vLLM等開發(fā)者常用的框架，并提供裸機(jī)訪問，讓客戶無需虛擬化即可直接訪問硬件。

MaxText參考實(shí)現(xiàn)、用于強(qiáng)化學(xué)習(xí)的Tunix等開源貢獻(xiàn)，為從功能實(shí)現(xiàn)到生產(chǎn)部署提供了便捷的途徑。

為了節(jié)省數(shù)據(jù)中心電力，谷歌優(yōu)化了整個(gè)堆棧的效率，并集成了電源管理功能，可根據(jù)實(shí)時(shí)需求動(dòng)態(tài)調(diào)整功耗。

TPU 8t和TPU 8i的每瓦性能可提升至上一代產(chǎn)品Ironwood的2倍。

谷歌在硬件和軟件方面不斷創(chuàng)新，使其數(shù)據(jù)中心單位電力下的計(jì)算能力提高到五年前的6倍。

TPU 8t和TPU 8i均采用谷歌第四代液冷技術(shù)，能夠維持風(fēng)冷無法實(shí)現(xiàn)的性能密度。

通過掌控從Axion主機(jī)到加速器的全棧設(shè)計(jì)，谷歌實(shí)現(xiàn)了系統(tǒng)級(jí)能效的優(yōu)化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.