![]()
GPU巨頭轉(zhuǎn)向光互聯(lián)擴(kuò)容,已是必然選擇。
如果你覺(jué)得英偉達(dá)GB200機(jī)架系統(tǒng)已經(jīng)足夠龐大,那CEO黃仁勛的布局才剛剛開始。在上個(gè)月的GTC大會(huì)上,這家全球市值最高的芯片企業(yè)公布了一項(xiàng)重磅計(jì)劃:到2028年,將利用光子互聯(lián)技術(shù),把超過(guò)1000顆GPU集成到一套超大規(guī)模系統(tǒng)中。
英偉達(dá)也沒(méi)有坐等供應(yīng)鏈成熟。過(guò)去一個(gè)月里,這家GPU巨頭已向Marvell、Coherent、Lumentum等專注于光通信與互聯(lián)技術(shù)的企業(yè)投入數(shù)十億美元,為這類系統(tǒng)的大規(guī)模部署做好準(zhǔn)備。
“對(duì)于我們生態(tài)中的所有伙伴來(lái)說(shuō),我們需要更多的算力容量,”黃仁勛在GTC主題演講中表示,“我們需要更多銅互聯(lián)容量,需要更多光互聯(lián)容量,需要更多共封裝光學(xué)(CPO)容量。這也是我們與各方合作,為這一量級(jí)的增長(zhǎng)打下基礎(chǔ)的原因。”
然而,英偉達(dá)走到這一步的歷程,其實(shí)早在更早之前就已開啟。事實(shí)上,當(dāng)OpenAI在2022年底向世界推出ChatGPT時(shí),英偉達(dá)就已經(jīng)意識(shí)到自己面臨一個(gè)難題。
當(dāng)時(shí),英偉達(dá)性能最強(qiáng)的系統(tǒng)僅支持8顆GPU,而推動(dòng)AI爆發(fā)的大模型,卻需要數(shù)千顆GPU才能完成訓(xùn)練。英偉達(dá)需要更大的系統(tǒng),或者至少是更快的網(wǎng)絡(luò),能夠高效地將任務(wù)分發(fā)到數(shù)十顆芯片上。
我們最早在2023年英偉達(dá)的Grace Hopper超級(jí)芯片上看到了這一方向的嘗試,但直到2024年初,完整的布局才浮出水面。同年GTC上發(fā)布的Grace Blackwell NVL72是一臺(tái)功耗高達(dá)120千瓦的巨型機(jī)器,它通過(guò)搭載長(zhǎng)達(dá)數(shù)米線纜的銅質(zhì)背板,讓36個(gè)節(jié)點(diǎn)、72顆GPU協(xié)同工作,如同一臺(tái)巨型AI加速器。
英偉達(dá)網(wǎng)絡(luò)高級(jí)副總裁吉拉德·謝納表示,銅材是當(dāng)時(shí)最順理成章的選擇。
“如果能用,銅就是最好的連接方式,”他說(shuō),“成本極低、幾乎不耗電、可靠性極高,也沒(méi)有有源器件。”
但銅互聯(lián)并非完美。在1.8TB/s的速率下,線纜只能延伸數(shù)英尺,信號(hào)就會(huì)因GPU之間的通信而衰減。如果你曾好奇NVL72的NVSwitch為何都放在機(jī)架中央,原因就是線纜長(zhǎng)度限制極短。銅材有限的傳輸距離,也迫使英偉達(dá)必須在單個(gè)機(jī)架內(nèi)塞進(jìn)盡可能多的GPU。
兩年后的今天,英偉達(dá)正快速逼近銅互聯(lián)的物理極限。如果想要搭建規(guī)模更大的GPU系統(tǒng),就必須轉(zhuǎn)向光互聯(lián)。
可插拔光模塊的難題
當(dāng)黃仁勛首次展示代號(hào)Oberon的NVL72機(jī)架時(shí),業(yè)界唯一商用可行的GPU光互聯(lián)方案,只有可插拔光模塊。
這類模塊大小接近一包口香糖,集成了激光器、重定時(shí)器、數(shù)字信號(hào)處理單元,負(fù)責(zé)將電信號(hào)轉(zhuǎn)為光信號(hào),再轉(zhuǎn)回電信號(hào)。
可插拔模塊在數(shù)據(jù)中心網(wǎng)絡(luò)中早已普及,但將其用于NVLink這類大規(guī)模計(jì)算架構(gòu),卻存在一系列問(wèn)題。
要達(dá)到1.8TB/s帶寬,每顆Blackwell GPU需要18個(gè)800Gbps可插拔模塊:加速器端9個(gè),交換機(jī)端9個(gè)。單個(gè)模塊功耗僅10–15瓦,但72顆GPU規(guī)模下,總功耗會(huì)迅速飆升。
正如黃仁勛在2024年GTC主題演講中指出,光互聯(lián)方案會(huì)額外增加約2萬(wàn)瓦功耗。
但自O(shè)beron機(jī)架發(fā)布以來(lái),行業(yè)發(fā)生了巨大變化。共封裝光學(xué)(CPO) 技術(shù)取得突破,它將光引擎直接與交換ASIC集成,顯著降低了功耗。
2025年,英偉達(dá)成為首批擁抱CPO的AI基礎(chǔ)設(shè)施廠商之一,將其直接整合進(jìn)Spectrum以太網(wǎng)與Quantum InfiniBand交換機(jī)(基于博通方案的Micas Networks也采取了類似路線)。
這大幅減少了搭建AI訓(xùn)練集群所需的可插拔模塊數(shù)量。不過(guò),直到近期,英偉達(dá)才開始公開討論在NVSwitch架構(gòu)中使用光互聯(lián)與CPO。
NVLink走向光互聯(lián)
兩年前還認(rèn)為光互聯(lián)功耗過(guò)高的黃仁勛,在今年春季GTC上重新提及這一話題,并發(fā)布了Vera Rubin NVL576與Rosa Feynman NVL1152兩款多機(jī)架系統(tǒng),它們將通過(guò)光子技術(shù),將計(jì)算域規(guī)模擴(kuò)大8倍。
NVL576這個(gè)名字聽起來(lái)并不陌生。事實(shí)上,在初代NVL72機(jī)架發(fā)布時(shí),英偉達(dá)就曾預(yù)告過(guò)這一GPU數(shù)量的配置,只是據(jù)我們所知,該系統(tǒng)從未實(shí)際部署。英偉達(dá)也曾短暫以NVL576命名Vera Rubin Ultra Kyber機(jī)架,后來(lái)才決定不再將每一顆獨(dú)立GPU裸片算作單獨(dú)加速器。
除非英偉達(dá)的市場(chǎng)策略或路線圖再次調(diào)整,真正的Vera Rubin NVL576將采用銅互聯(lián)+光互聯(lián)混合方案。“外界一直在討論‘英偉達(dá)會(huì)走銅互聯(lián)擴(kuò)容還是光互聯(lián)擴(kuò)容?’——我們兩者都會(huì)做。”黃仁勛在本屆GTC上表示。
據(jù)英偉達(dá)超算與高性能計(jì)算副總裁伊恩·巴克介紹,網(wǎng)絡(luò)第一層將在機(jī)架內(nèi)使用銅互聯(lián),GPU無(wú)需改動(dòng);第二層骨干網(wǎng)絡(luò)則采用可插拔模塊。
目前尚不清楚英偉達(dá)具體采用何種拓?fù)浣Y(jié)構(gòu),但兩層胖樹架構(gòu)非常契合,且僅需一個(gè)機(jī)架的交換機(jī)(共72顆ASIC)作為骨干層。在光模塊方案上,可插拔模塊是最簡(jiǎn)單的選擇,但英偉達(dá)也可能采用近封裝光學(xué)(NPO),就像Lightmatter上月展示的技術(shù)。
對(duì)于Vera Rubin,英偉達(dá)僅明確在Oberon NVL72機(jī)架上支持光擴(kuò)容,而非NVL144 Kyber系統(tǒng)。
我們尚無(wú)法確定英偉達(dá)做出這一選擇的具體原因,但值得注意的是:一旦支持光擴(kuò)容,就不必把所有硬件塞進(jìn)單一機(jī)架。從散熱與功耗角度看,支持8個(gè)機(jī)架之間的光互聯(lián)擴(kuò)容,顯然更為合理。
Feynman世代全面走向共封裝光學(xué)
真正令人期待的是英偉達(dá)Feynman世代產(chǎn)品,預(yù)計(jì)2028年中后期開始出貨。據(jù)悉,這些系統(tǒng)將同時(shí)支持銅互聯(lián)或共封裝光NVLink互聯(lián)。
英偉達(dá)對(duì)具體實(shí)現(xiàn)細(xì)節(jié)仍相對(duì)保密,但大致有兩條技術(shù)路徑。
最簡(jiǎn)單的方案是:將CPO集成到NVLink交換ASIC中,機(jī)架內(nèi)部繼續(xù)使用銅互聯(lián)。這需要兩層NVSwitch架構(gòu),以及兩到三款不同ASIC:半光、全光,以及不含CPO的型號(hào)。這種方式可以讓英偉達(dá)通過(guò)更換NVLink交換機(jī)托盤或增加骨干機(jī)架,靈活支持多種配置。
更具顛覆性的可能是:將CPO同時(shí)集成到交換機(jī)與GPU封裝中。這幾乎必然會(huì)推出多款Feynman GPU型號(hào)(帶光口與不帶光口),但可以將整個(gè)架構(gòu)壓縮為單層。謝納在上月GTC期間接受采訪時(shí),拒絕對(duì)具體路線置評(píng),但強(qiáng)調(diào)了單層計(jì)算架構(gòu)的優(yōu)勢(shì)。
“如果可以避免,擴(kuò)容架構(gòu)最好不要設(shè)計(jì)多層,因?yàn)橐M可能降低計(jì)算引擎之間的延遲。”他說(shuō)。
盡管將CPO集成進(jìn)GPU在技術(shù)上可行,但單層NVL1152系統(tǒng)需要極高端口數(shù)的大型交換機(jī)。考慮到Feynman要到2028年中后期才會(huì)出貨,這一目標(biāo)并非不可能實(shí)現(xiàn)。
鎖定供應(yīng)鏈產(chǎn)能
無(wú)論采用哪種方案,都需要充足的激光模塊供應(yīng)。雖然CPO將大量光學(xué)與信號(hào)處理功能集成到封裝中,但激光器通常仍獨(dú)立設(shè)計(jì),以方便維護(hù)。
這也解釋了為何英偉達(dá)在上個(gè)月向兩家激光巨頭Coherent、Lumentum分別注資20億美元,合計(jì)40億美元。如果要大規(guī)模落地CPO,供應(yīng)鏈必須提前做好準(zhǔn)備。另一項(xiàng)顯示英偉達(dá)正推進(jìn)加速器端CPO的證據(jù),是本周宣布對(duì)Marvell投資20億美元。
根據(jù)合作內(nèi)容,英偉達(dá)將與Marvell合作,把高速互聯(lián)技術(shù)授權(quán)版NVLink Fusion集成到定制XPU中,用于英偉達(dá)Vera CPU。雙方還將合作開發(fā)光I/O技術(shù),具體細(xì)節(jié)未披露。
這家初創(chuàng)公司的光子互聯(lián)技術(shù),可用于搭建跨機(jī)架的一致性內(nèi)存網(wǎng)絡(luò),對(duì)英偉達(dá)的吸引力,不亞于對(duì)Marvell大客戶(包括AWS)的吸引力。眾所周知,AWS是NVLink Fusion的重要客戶,計(jì)劃在下一代Trainium4計(jì)算集群中采用該技術(shù)。
無(wú)論如何,英偉達(dá)已經(jīng)看清光互聯(lián)擴(kuò)容的大勢(shì)。可以預(yù)見(jiàn),CPO將在其未來(lái)系統(tǒng)設(shè)計(jì)中扮演越來(lái)越核心的角色。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.