網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

銅纜見(jiàn)頂，英偉達(dá)全面擁抱光模塊

2026-04-07 18:28:58　來(lái)源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報(bào)

分享至

GPU巨頭轉(zhuǎn)向光互聯(lián)擴(kuò)容，已是必然選擇。

如果你覺(jué)得英偉達(dá)GB200機(jī)架系統(tǒng)已經(jīng)足夠龐大，那CEO黃仁勛的布局才剛剛開始。在上個(gè)月的GTC大會(huì)上，這家全球市值最高的芯片企業(yè)公布了一項(xiàng)重磅計(jì)劃：到2028年，將利用光子互聯(lián)技術(shù)，把超過(guò)1000顆GPU集成到一套超大規(guī)模系統(tǒng)中。

英偉達(dá)也沒(méi)有坐等供應(yīng)鏈成熟。過(guò)去一個(gè)月里，這家GPU巨頭已向Marvell、Coherent、Lumentum等專注于光通信與互聯(lián)技術(shù)的企業(yè)投入數(shù)十億美元，為這類系統(tǒng)的大規(guī)模部署做好準(zhǔn)備。

“對(duì)于我們生態(tài)中的所有伙伴來(lái)說(shuō)，我們需要更多的算力容量，”黃仁勛在GTC主題演講中表示，“我們需要更多銅互聯(lián)容量，需要更多光互聯(lián)容量，需要更多共封裝光學(xué)（CPO）容量。這也是我們與各方合作，為這一量級(jí)的增長(zhǎng)打下基礎(chǔ)的原因。”

然而，英偉達(dá)走到這一步的歷程，其實(shí)早在更早之前就已開啟。事實(shí)上，當(dāng)OpenAI在2022年底向世界推出ChatGPT時(shí)，英偉達(dá)就已經(jīng)意識(shí)到自己面臨一個(gè)難題。

當(dāng)時(shí)，英偉達(dá)性能最強(qiáng)的系統(tǒng)僅支持8顆GPU，而推動(dòng)AI爆發(fā)的大模型，卻需要數(shù)千顆GPU才能完成訓(xùn)練。英偉達(dá)需要更大的系統(tǒng)，或者至少是更快的網(wǎng)絡(luò)，能夠高效地將任務(wù)分發(fā)到數(shù)十顆芯片上。

我們最早在2023年英偉達(dá)的Grace Hopper超級(jí)芯片上看到了這一方向的嘗試，但直到2024年初，完整的布局才浮出水面。同年GTC上發(fā)布的Grace Blackwell NVL72是一臺(tái)功耗高達(dá)120千瓦的巨型機(jī)器，它通過(guò)搭載長(zhǎng)達(dá)數(shù)米線纜的銅質(zhì)背板，讓36個(gè)節(jié)點(diǎn)、72顆GPU協(xié)同工作，如同一臺(tái)巨型AI加速器。

英偉達(dá)網(wǎng)絡(luò)高級(jí)副總裁吉拉德·謝納表示，銅材是當(dāng)時(shí)最順理成章的選擇。

“如果能用，銅就是最好的連接方式，”他說(shuō)，“成本極低、幾乎不耗電、可靠性極高，也沒(méi)有有源器件。”

但銅互聯(lián)并非完美。在1.8TB/s的速率下，線纜只能延伸數(shù)英尺，信號(hào)就會(huì)因GPU之間的通信而衰減。如果你曾好奇NVL72的NVSwitch為何都放在機(jī)架中央，原因就是線纜長(zhǎng)度限制極短。銅材有限的傳輸距離，也迫使英偉達(dá)必須在單個(gè)機(jī)架內(nèi)塞進(jìn)盡可能多的GPU。

兩年后的今天，英偉達(dá)正快速逼近銅互聯(lián)的物理極限。如果想要搭建規(guī)模更大的GPU系統(tǒng)，就必須轉(zhuǎn)向光互聯(lián)。

可插拔光模塊的難題

當(dāng)黃仁勛首次展示代號(hào)Oberon的NVL72機(jī)架時(shí)，業(yè)界唯一商用可行的GPU光互聯(lián)方案，只有可插拔光模塊。

這類模塊大小接近一包口香糖，集成了激光器、重定時(shí)器、數(shù)字信號(hào)處理單元，負(fù)責(zé)將電信號(hào)轉(zhuǎn)為光信號(hào)，再轉(zhuǎn)回電信號(hào)。

可插拔模塊在數(shù)據(jù)中心網(wǎng)絡(luò)中早已普及，但將其用于NVLink這類大規(guī)模計(jì)算架構(gòu)，卻存在一系列問(wèn)題。

要達(dá)到1.8TB/s帶寬，每顆Blackwell GPU需要18個(gè)800Gbps可插拔模塊：加速器端9個(gè)，交換機(jī)端9個(gè)。單個(gè)模塊功耗僅10–15瓦，但72顆GPU規(guī)模下，總功耗會(huì)迅速飆升。

正如黃仁勛在2024年GTC主題演講中指出，光互聯(lián)方案會(huì)額外增加約2萬(wàn)瓦功耗。

但自O(shè)beron機(jī)架發(fā)布以來(lái)，行業(yè)發(fā)生了巨大變化。共封裝光學(xué)（CPO）技術(shù)取得突破，它將光引擎直接與交換ASIC集成，顯著降低了功耗。

2025年，英偉達(dá)成為首批擁抱CPO的AI基礎(chǔ)設(shè)施廠商之一，將其直接整合進(jìn)Spectrum以太網(wǎng)與Quantum InfiniBand交換機(jī)（基于博通方案的Micas Networks也采取了類似路線）。

這大幅減少了搭建AI訓(xùn)練集群所需的可插拔模塊數(shù)量。不過(guò)，直到近期，英偉達(dá)才開始公開討論在NVSwitch架構(gòu)中使用光互聯(lián)與CPO。

NVLink走向光互聯(lián)

兩年前還認(rèn)為光互聯(lián)功耗過(guò)高的黃仁勛，在今年春季GTC上重新提及這一話題，并發(fā)布了Vera Rubin NVL576與Rosa Feynman NVL1152兩款多機(jī)架系統(tǒng)，它們將通過(guò)光子技術(shù)，將計(jì)算域規(guī)模擴(kuò)大8倍。

NVL576這個(gè)名字聽起來(lái)并不陌生。事實(shí)上，在初代NVL72機(jī)架發(fā)布時(shí)，英偉達(dá)就曾預(yù)告過(guò)這一GPU數(shù)量的配置，只是據(jù)我們所知，該系統(tǒng)從未實(shí)際部署。英偉達(dá)也曾短暫以NVL576命名Vera Rubin Ultra Kyber機(jī)架，后來(lái)才決定不再將每一顆獨(dú)立GPU裸片算作單獨(dú)加速器。

除非英偉達(dá)的市場(chǎng)策略或路線圖再次調(diào)整，真正的Vera Rubin NVL576將采用銅互聯(lián)+光互聯(lián)混合方案。“外界一直在討論‘英偉達(dá)會(huì)走銅互聯(lián)擴(kuò)容還是光互聯(lián)擴(kuò)容？’——我們兩者都會(huì)做。”黃仁勛在本屆GTC上表示。

據(jù)英偉達(dá)超算與高性能計(jì)算副總裁伊恩·巴克介紹，網(wǎng)絡(luò)第一層將在機(jī)架內(nèi)使用銅互聯(lián)，GPU無(wú)需改動(dòng)；第二層骨干網(wǎng)絡(luò)則采用可插拔模塊。

目前尚不清楚英偉達(dá)具體采用何種拓?fù)浣Y(jié)構(gòu)，但兩層胖樹架構(gòu)非常契合，且僅需一個(gè)機(jī)架的交換機(jī)（共72顆ASIC）作為骨干層。在光模塊方案上，可插拔模塊是最簡(jiǎn)單的選擇，但英偉達(dá)也可能采用近封裝光學(xué)（NPO），就像Lightmatter上月展示的技術(shù)。

對(duì)于Vera Rubin，英偉達(dá)僅明確在Oberon NVL72機(jī)架上支持光擴(kuò)容，而非NVL144 Kyber系統(tǒng)。

我們尚無(wú)法確定英偉達(dá)做出這一選擇的具體原因，但值得注意的是：一旦支持光擴(kuò)容，就不必把所有硬件塞進(jìn)單一機(jī)架。從散熱與功耗角度看，支持8個(gè)機(jī)架之間的光互聯(lián)擴(kuò)容，顯然更為合理。

Feynman世代全面走向共封裝光學(xué)

真正令人期待的是英偉達(dá)Feynman世代產(chǎn)品，預(yù)計(jì)2028年中后期開始出貨。據(jù)悉，這些系統(tǒng)將同時(shí)支持銅互聯(lián)或共封裝光NVLink互聯(lián)。

英偉達(dá)對(duì)具體實(shí)現(xiàn)細(xì)節(jié)仍相對(duì)保密，但大致有兩條技術(shù)路徑。

最簡(jiǎn)單的方案是：將CPO集成到NVLink交換ASIC中，機(jī)架內(nèi)部繼續(xù)使用銅互聯(lián)。這需要兩層NVSwitch架構(gòu)，以及兩到三款不同ASIC：半光、全光，以及不含CPO的型號(hào)。這種方式可以讓英偉達(dá)通過(guò)更換NVLink交換機(jī)托盤或增加骨干機(jī)架，靈活支持多種配置。

更具顛覆性的可能是：將CPO同時(shí)集成到交換機(jī)與GPU封裝中。這幾乎必然會(huì)推出多款Feynman GPU型號(hào)（帶光口與不帶光口），但可以將整個(gè)架構(gòu)壓縮為單層。謝納在上月GTC期間接受采訪時(shí)，拒絕對(duì)具體路線置評(píng)，但強(qiáng)調(diào)了單層計(jì)算架構(gòu)的優(yōu)勢(shì)。

“如果可以避免，擴(kuò)容架構(gòu)最好不要設(shè)計(jì)多層，因?yàn)橐M可能降低計(jì)算引擎之間的延遲。”他說(shuō)。

盡管將CPO集成進(jìn)GPU在技術(shù)上可行，但單層NVL1152系統(tǒng)需要極高端口數(shù)的大型交換機(jī)。考慮到Feynman要到2028年中后期才會(huì)出貨，這一目標(biāo)并非不可能實(shí)現(xiàn)。

鎖定供應(yīng)鏈產(chǎn)能

無(wú)論采用哪種方案，都需要充足的激光模塊供應(yīng)。雖然CPO將大量光學(xué)與信號(hào)處理功能集成到封裝中，但激光器通常仍獨(dú)立設(shè)計(jì)，以方便維護(hù)。

這也解釋了為何英偉達(dá)在上個(gè)月向兩家激光巨頭Coherent、Lumentum分別注資20億美元，合計(jì)40億美元。如果要大規(guī)模落地CPO，供應(yīng)鏈必須提前做好準(zhǔn)備。另一項(xiàng)顯示英偉達(dá)正推進(jìn)加速器端CPO的證據(jù)，是本周宣布對(duì)Marvell投資20億美元。

根據(jù)合作內(nèi)容，英偉達(dá)將與Marvell合作，把高速互聯(lián)技術(shù)授權(quán)版NVLink Fusion集成到定制XPU中，用于英偉達(dá)Vera CPU。雙方還將合作開發(fā)光I/O技術(shù)，具體細(xì)節(jié)未披露。

這家初創(chuàng)公司的光子互聯(lián)技術(shù)，可用于搭建跨機(jī)架的一致性內(nèi)存網(wǎng)絡(luò)，對(duì)英偉達(dá)的吸引力，不亞于對(duì)Marvell大客戶（包括AWS）的吸引力。眾所周知，AWS是NVLink Fusion的重要客戶，計(jì)劃在下一代Trainium4計(jì)算集群中采用該技術(shù)。

無(wú)論如何，英偉達(dá)已經(jīng)看清光互聯(lián)擴(kuò)容的大勢(shì)。可以預(yù)見(jiàn)，CPO將在其未來(lái)系統(tǒng)設(shè)計(jì)中扮演越來(lái)越核心的角色。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.