![]()
芯東西(公眾號(hào):aichip001)
作者 ZeR0
編輯 漠影
芯東西4月22日?qǐng)?bào)道,剛剛,谷歌推出全新自研AI芯片——第八代定制TPU,分別是面向訓(xùn)練的TPU 8t和面向推理的TPU 8i。
TPU 8t和TPU8i是與Google DeepMind合作設(shè)計(jì)的,旨在應(yīng)對(duì)最苛刻的AI工作負(fù)載,大規(guī)模適應(yīng)不斷演進(jìn)的模型架構(gòu),從訓(xùn)練大模型到協(xié)調(diào)智能體集群,再到管理最復(fù)雜的推理任務(wù)。
這是谷歌首次將訓(xùn)練芯片和推理芯片分開。
谷歌在博客文章中解釋說,兩款芯片都能運(yùn)行各??種工作負(fù)載,但專業(yè)化可以顯著提高效率并獲得收益。
TPU 8t擅長(zhǎng)處理大規(guī)模、計(jì)算密集型的訓(xùn)練工作負(fù)載,以提供更大的計(jì)算吞吐量和更強(qiáng)的可擴(kuò)展帶寬,旨在將前沿模型開發(fā)周期從數(shù)月縮短至數(shù)周。
TPU 8i則擁有更高的內(nèi)存帶寬,專為對(duì)延遲最為敏感的推理工作負(fù)載而設(shè)計(jì),旨在處理眾多專業(yè)智能體復(fù)雜、協(xié)作、迭代的工作。
這兩款芯片首次運(yùn)行在谷歌自家基于Arm的Axion CPU主機(jī)上,這使谷歌能夠優(yōu)化整個(gè)系統(tǒng),以提高性能和效率。
TPU 8t和TPU8i將于今年晚些時(shí)候正式上市,并可作為谷歌AI超級(jí)計(jì)算機(jī)的一部分使用。
谷歌打造出一個(gè)基于TPU 8t的系統(tǒng),每個(gè)Pod的計(jì)算性能比上一代產(chǎn)品提升近3倍。
單個(gè)TPU 8t超級(jí)芯片組現(xiàn)已可擴(kuò)展至9600張芯片和2PB共享高帶寬內(nèi)存,芯片間帶寬是上一代的2倍。該架構(gòu)可提供121ExaFlops的計(jì)算能力,并允許最復(fù)雜的模型利用單個(gè)海量?jī)?nèi)存池。
![]()
TPU 8t還集成了速度提升多達(dá)10倍的存儲(chǔ)訪問,并結(jié)合TPUDirect將數(shù)據(jù)直接拉入TPU,從而有助于確保端到端系統(tǒng)的最大利用率。
谷歌全新的Virgo網(wǎng)絡(luò),結(jié)合JAX和Pathways軟件,意味著TPU 8t可以在單個(gè)邏輯集群中為多達(dá)100萬張芯片提供近乎線性擴(kuò)展。
此外,TPU 8t通過一套全面的可靠性、可用性和可維護(hù)性(RAS)功能,力求實(shí)現(xiàn)超過97%的有效吞吐量(衡量有效計(jì)算時(shí)間的指標(biāo))。
這些功能包括:對(duì)數(shù)萬個(gè)芯片進(jìn)行實(shí)時(shí)遙測(cè),自動(dòng)檢測(cè)并繞過故障的ICI 鏈路(無需中斷作業(yè)),以及光路交換(OCS)技術(shù),無需人工干預(yù)即可在故障發(fā)生時(shí)重新配置硬件。
每次硬件故障、網(wǎng)絡(luò)停滯或檢查點(diǎn)重啟都會(huì)導(dǎo)致集群停止訓(xùn)練,而在前沿訓(xùn)練規(guī)模下,每一個(gè)百分點(diǎn)都可能轉(zhuǎn)化為數(shù)天的活躍訓(xùn)練時(shí)間。
TPU 8i采用分層式Boardfly拓?fù)浣Y(jié)構(gòu),從4張完全連接的芯片構(gòu)建而成,逐步擴(kuò)展為8個(gè)完全連接的電路板組,36個(gè)這樣的電路板組可以完全連接成一個(gè)TPU 8i Pod。
![]()
谷歌通過4項(xiàng)關(guān)鍵創(chuàng)新重新設(shè)計(jì)了技術(shù)棧,以消除“等待室”效應(yīng):
(1)突破“內(nèi)存墻”:為了防止處理器閑置,TPU 8i將288GB高帶寬內(nèi)存與384MB片上SRAM相結(jié)合, 多達(dá)上一代的3倍。
(2)得益于Axion架構(gòu),效率顯著提升:每臺(tái)服務(wù)器的物理CPU主機(jī)數(shù)量翻倍,并采用了其基于Axion Arm架構(gòu)的定制CPU。通過使用非均勻內(nèi)存架構(gòu)(NUMA)進(jìn)行隔離,谷歌優(yōu)化了整個(gè)系統(tǒng)。
(3)擴(kuò)展MoE模型:對(duì)于現(xiàn)代混合專家(MoE)模型,谷歌將互連(ICI)帶寬提高了1倍,達(dá)到19.2Tb/s。其新的Boardfly架構(gòu)將最大網(wǎng)絡(luò)直徑減少了超過50%,確保系統(tǒng)作為一個(gè)統(tǒng)一、低延遲的單元運(yùn)行。
(4)消除延遲:全新片上集體加速引擎(CAE)可卸載全局操作,將片上延遲降低至多5倍,從而最大限度地減少延遲。
與上一代產(chǎn)品相比,這些創(chuàng)新技術(shù)每美元的性能提高了80%,使企業(yè)能夠以相同成本服務(wù)近2倍的客戶量。
![]()
第八代TPU也是谷歌共同設(shè)計(jì)理念的最新體現(xiàn):
- Boardfly拓?fù)浣Y(jié)構(gòu)是專門為滿足當(dāng)今最強(qiáng)大的推理模型的通信需求而設(shè)計(jì)的。
- TPU 8i中的SRAM容量是根據(jù)生產(chǎn)規(guī)模推理模型的KV Cache占用空間來確定的。
- Virgo Network架構(gòu)的帶寬目標(biāo)源自萬億參數(shù)訓(xùn)練的并行性要求。
兩個(gè)平臺(tái)都原生支持JAX、MaxText、PyTorch、SGLang和vLLM等開發(fā)者常用的框架,并提供裸機(jī)訪問,讓客戶無需虛擬化即可直接訪問硬件。
MaxText參考實(shí)現(xiàn)、用于強(qiáng)化學(xué)習(xí)的Tunix等開源貢獻(xiàn),為從功能實(shí)現(xiàn)到生產(chǎn)部署提供了便捷的途徑。
為了節(jié)省數(shù)據(jù)中心電力,谷歌優(yōu)化了整個(gè)堆棧的效率,并集成了電源管理功能,可根據(jù)實(shí)時(shí)需求動(dòng)態(tài)調(diào)整功耗。
TPU 8t和TPU 8i的每瓦性能可提升至上一代產(chǎn)品Ironwood的2倍。
谷歌在硬件和軟件方面不斷創(chuàng)新,使其數(shù)據(jù)中心單位電力下的計(jì)算能力提高到五年前的6倍。
TPU 8t和TPU 8i均采用谷歌第四代液冷技術(shù),能夠維持風(fēng)冷無法實(shí)現(xiàn)的性能密度。
![]()
通過掌控從Axion主機(jī)到加速器的全棧設(shè)計(jì),谷歌實(shí)現(xiàn)了系統(tǒng)級(jí)能效的優(yōu)化。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.