公眾號記得加星標??,第一時間看推送不會錯過。
谷歌一位網絡專家晉升為負責這家搜索引擎、廣告以及如今人工智能模型巨頭的架構開發的高層,這幾乎肯定不是巧合。尤其考慮到谷歌幾乎肯定也開發了我們十多年來一直強調的那種解耦式數據中心架構。
在這樣一個解耦且可組合的世界中,網絡始終處于一切的核心地位。我們始終需要一個不僅經過優化,而且專為特定任務或一組任務量身打造的網絡,其卓越性能甚至足以證明構建一個獨立網絡的必要性。這一點在以下情況下尤為重要:原本獨立的系統組件被拆分并安裝在機架中,從而可以構建各種計算/內存、I/O、加速器和存儲配置的虛擬系統,這些系統可以根據需要運行從處理大量任務的小型系統組合到處理單個大型任務的大型集群。這并非簡單地將一堆PCI-Express交換機和計算/內存、I/O及存儲設備放置在機架的托盤中那么簡單。
網絡和協議的激增不僅遍及傳統的分布式計算和存儲領域,覆蓋整個數據中心,更擴展到跨數據中心區域乃至全球的連接。以下僅舉幾例。谷歌于 2019 年發布了其自主研發的基于 Linux 的網絡操作系統 Snap 及其配套的 Pony Express 數據平面引擎 ,并自 2016 年左右開始在生產環境中使用。四年前,谷歌宣布開發了Aquila 協議,旨在為規模相對較小、緊密耦合的集群提供類似 InfiniBand 的低延遲,并推出了一款配套的機架頂部網絡接口卡 (TiN) 芯片,用于為擁有 1000 個節點、采用蜻蜓式全連接拓撲結構的集群實現定制網絡。此外,谷歌還與英特爾合作,為“埃文斯山”分布式處理器 (DPU) 設計了低延遲網絡接口傳輸協議 Falcon 。
在上周谷歌發布TPU 8系列產品時,我曾提到我們會回顧一下谷歌新推出的芯片間互連(Inter-Chip Interconnect)的Boardfly配置。該配置旨在將TPU AI計算引擎集群化,并保證這些計算引擎之間一定程度的內存一致性(具體程度尚不明確)。此外,我還想深入探討一下谷歌新開發的“Virgo”橫向擴展數據中心級以太網架構,該架構用于連接包括但不限于TPU pod在內的各種設備機架。
正如我在最初發表于 TPU 8 計算引擎文章中的那張巨型表格(為了方便起見,我將其重新印在下面)所示,之前的幾代 TPU 集群都采用了二維環面互連,或者對于計算單元中包含數千個 TPU 的超大規模機器,則采用三維環面互連。請看:
![]()
顧名思義,環面拓撲結構具有多個維度,并已在一些超級計算機架構中得到廣泛應用——例如,IBM 的 BlueGene 大規模并行計算機采用了三維環面拓撲結構,而富士通的“K”和“富岳”超級計算機則采用了六維“豆腐”互連結構。環面拓撲結構非常適合連接大量設備,但很難向其中添加新的機器。二維環面拓撲結構最多只能連接 256 個加速器,而谷歌在“Ironwood”TPU v7e 上使用的三維環面拓撲結構則將連接上限提升至 9,216 個加速器。借助全新的“Sunfish”TPU 8t 訓練集群,這一上限已擴展至單個系統映像中通過三維環面拓撲結構連接的 9,600 個 TPU。
環面拓撲結構雖然適合分布式處理,但設備間存在大量跳轉,導致延遲較高。這對于訓練來說尚可接受,但對于推理而言則不然,因為推理的唯一目標是降低推理成本。推理涉及大量的全歸約和全對全通信,尤其是在目前市面上主流的授權模型和API服務中,專家混合(MoE)推理模型占據主導地位。
這就是為什么“斑馬魚”TPU 8i采用了全新的Boardfly拓撲結構,該結構可以在單個內存和計算空間內擴展到1152個互連的TPU 8i設備,并將跳數從類似容量的3D環面結構的16跳減少到Boardfly配置的7跳。這意味著新的
Boardfly拓撲結構——其靈感源自過去十五年來在超級計算領域日益普及的蜻蜓拓撲結構——使谷歌能夠在大幅提升ICI網絡推理規模的同時,將網絡直徑降低56%,從而進一步降低數據傳輸的尾部延遲。谷歌表示,在Boardfly架構下,推理工作負載的數據傳輸延遲平均比3D環面拓撲低50%。
這意味著 Zebrafish TPU 8i 設備上的新型集體加速引擎 (CAE) 卸載芯片可以持續獲得充足的計算資源。更強大的原始計算能力、更扁平的 Boardfly 互連結構以及 CAE 單元的協同作用,使得 GenAI 推理的吞吐量在 Ironwood 和 Zebrafish 之間提升了三倍甚至更多。
以下是 Boardfly 拓撲結構的其中一種渲染圖:
![]()
這里還有另一個例子:
![]()
在 Boardfly 系統中,Zebrafish 系統板上的八個 TPU 8i 芯片通過 ICI 端口以全連接配置進行互連。每個設備上都預留了一些 ICI 端口,可用于將八個板連接成更高階的全連接,從而使該機架級系統中的 32 個 TPU 8i 芯片中的任何一個都能通過一到兩跳的鏈路訪問其他任何 TPU,而且僅需使用成本低廉的銅纜。為了實現 1152 個 TPU 互連的全部 36 個 TPU 組,谷歌使用其“Apollo”光路交換機(Jupiter 數據中心網絡的一部分)來提供 TPU 組之間的鏈路。
以下是 Boardfly ICI-Apollo OCS 網絡組合的最壞情況下的跳數:
![]()
ICI-OCS組合能夠降低跳數的原因很簡單:OCS交換機擁有數量驚人的光端口,因此Zebrafish TPU 8i系統板可以容納更多的光收發器,從而增加板載光導管的數量。(我們不知道具體增加了多少,但32路ICI集群之間的鏈路數量可能比使用3D環形陣列角落的光鏈路時增加了4到8倍。)
擴展人工智能訓練
人工智能訓練的需求不同,除非迫不得已,否則谷歌不想使用OCS設備。(它們比基于博通、思科或英偉達ASIC的以太網交換機貴得多,也稀少得多。)
谷歌對于即將與 TPU 8t 訓練集群一同亮相的 Virgo 橫向擴展網絡的硬件的饋送和速度語焉不詳,但它表示,谷歌并沒有僅僅關注高端口速度,而是在帶寬需求和擁有高基數設備(意味著擁有大量端口)的需求之間尋求平衡,以扁平化網絡(意味著再次減少跳數),并降低成本。
![]()
我們知道,最終形成的 Virgo 網絡提供了一種扁平化、無阻塞的雙層拓撲結構,用于互連加速器機架,這些加速器可以是 GPU 或 TPU。Apollo OCS 交換機并非用于橫向擴展 AI 集群,而是用于連接到 Google 數據中心內的其他計算和存儲資源。
谷歌表示,Virgo 架構可互連多達 134,000 個 TPU 8t 芯片,并在單個架構中提供 47 Pb/s 的無阻塞雙向帶寬。該公司在一篇深度分析博客文章中指出,Virgo 網絡在 Sunfish TPU 8t 加速器上每個加速器的帶寬為 400 Gb/s,是 Ironwood v7e 加速器橫向擴展端口提供的 100 Gb/s 帶寬的四倍,并且延遲比之前用于 Ironwood 訓練集群的橫向擴展以太網的架構延遲降低了 40%。
以下是谷歌構建超大型 TPU 訓練集群的方法。Sunfish TPU 8t 可以利用 3D 環面中的 ICI 擴展到 9,600 個計算引擎。借助 Virgo 數據中心網絡(該網絡具備各種 RDMA 增強功能,我們認為它借鑒了 Aquila 協議和 TiN 混合交換機-網卡架構的理念,并擴展了 JAX 和 Pathways AI 框架),谷歌可以在單個 Virgo 架構中擴展到 134,000 個芯片。此外,通過使用 OCS 交換機互連 Virgo 架構,谷歌可以在單個邏輯訓練集群中將 TPU 數量擴展到超過 100 萬個。
最后但同樣重要的是,谷歌正在為 TPU 8t 和網絡接口卡添加 RDMA 支持,以創建所謂的 TPUDirect RDMA 和 TPU Direct Storage,考慮到這些功能早已在英偉達 GPU 硬件和軟件堆棧中啟用,這些名稱可能聽起來很熟悉:
![]()
這兩個新功能無疑會大幅提升人工智能訓練速度,但谷歌并未透露具體提升幅度。該公司表示,在其托管的 Lustre 10T 存儲服務中使用 TPUDirect Storage,相比未使用該功能在 Ironwood TPU 上,存儲訪問速度提升了 10 倍。令我驚訝的是,TPU 內存和存儲訪問竟然還沒有 RDMA。
(來源:編譯自nextplatform)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4391內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.