<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達AMD英特爾博通聯手,堵上GPU算力浪費的漏洞

      0
      分享至


      芯東西(公眾號:aichip001)
      編譯 程茜
      編輯 Panken

      芯東西5月7日消息,昨日晚間,OpenAIAMD、博通、英特爾、微軟、英偉達聯合發布全新開放網絡協議MRC(多路徑可靠連接),可幫助大型AI訓練集群更快、更可靠地運行。OpenAI通過開放計算項目(OCP)發布了MRC。

      MRC已部署在OpenAI所有用于訓練前沿模型的超級計算機上,包括位于美國德克薩斯州阿比林的美國甲骨文云基礎設施(OCI)站點,以及微軟Fairwater超級計算機等。


      MRC是一種內置于最新800Gb/s網絡接口中的新網絡協議,可將單次數據傳輸分流至數百條路徑、微秒級繞開故障鏈路,同時還能簡化網絡控制面架構。

      OpenAI官方博客提到,近期為ChatGPT與Codex訓練一款前沿大模型時,他們不得不重啟四臺一級核心交換機,以往重啟交換機需運維團隊極度謹慎,引入MRC之后,他們甚至無需與集群訓練任務的運維團隊提前協調就可重啟

      在打造基建項目Stargate之前,OpenAI已與合作伙伴在幾年間開發并維護了前三代超級計算機,這使其認識到要在超級計算機上高效利用算力并成功完成任務,需要大幅降低堆棧每一層的復雜性,包括重新設計網絡設計。

      OpenAI官方賬號X的評論區有不少網友肯定了MRC的發布,稱其是真正的基礎設施進步、標志著基礎設施競爭轉向標準化集群通信效率時代。


      論文地址:https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf

      一、破解網絡難題,MRC對擴展超級計算機有三大助力

      訓練大模型時,一個步驟可能涉及數百萬次數據傳輸,而一次延遲傳輸可能會在整個作業中波動導致GPU處于空閑狀態,而網絡擁塞、鏈路和設備故障是傳輸延遲和抖動最常見的原因。

      隨著算力基建規模的增大,這些問題發生得更頻繁且更難解決。其面臨兩個關鍵的網絡挑戰:要盡可能降低網絡擁塞的發生概率,盡量減少網絡故障對訓練工作本身的影響。

      基于此,OpenAI聯合多家芯片公司打造了MRC。其目標是打造一個即使在出現故障時也能提供高度可預測性能的網絡,以保持訓練任務能持續推進。

      MRC是對聚合以太網RDMA(RoCE)的擴展。RoCE是由無限帶寬行業協會制定的標準,能夠在GPU與CPU之間實現硬件加速的遠程直接內存訪問。MRC借鑒了超以太網聯盟(UEC)研發的技術,并基于SRv6源路由對其進行能力擴展,從而支撐大規模AI網絡架構組網。

      該網絡架構已依托英偉達和博通的硬件,支撐多款OpenAI模型訓練。

      AMD為MRC貢獻了擁塞控制技術,以提升MRC的實際性能,且AMD已經與頭部云服務商合作,在測試集群中大規模部署MRC,在MRC規范開發之前,AMD已有改進版RoCEv2傳輸協議的預標準實現,該協議演變為今日的MRC標準。AMD的官方新聞稿提到,其是最早且唯一在400G網卡上實現MRC的公司之一,他們可以無縫過渡到AMD Pensando“Vulcano”800G AI NIC的應用,該NIC同樣支持MRC傳輸協議。

      MRC是首次在英偉達Spectrum-X以太網上驗證并優化的新傳輸協議,其故障繞過技術可以在僅幾微秒內檢測網絡路徑故障,并在硬件中自動重路由流量。英偉達官方博客提到,這種繞過失敗技術對于AI訓練集群尤為重要,因為成千上萬的GPU必須保持同步,即使是短暫的網絡中斷也可能減緩甚至中斷整個訓練任務。

      博通Thor Ultra是一款面向AI負載與多平面架構網絡設計的800Gbps高性能以太網卡。該產品基于數代RoCE網卡技術打造,新增支持MRC以及高級RoCE技術。博通官方博客稱,其將這項技術與經驗投入到了MRC生態合作研發當中。Thor Ultra集成了使用網絡編程語言(NPL)實現高帶寬線率可編程數據路徑,實現先進擁塞控制(基于發送端和接收端)、負載均衡以及可靠傳輸等功能,可以降低系統成本和復雜度。

      英特爾在官方X賬號發帖稱,借助MRC技術,英特爾正構建多平面以太網組網架構,該架構可實現超大規模集群部署,同時減少交換機層級、降低功耗、提升整體可靠性。

      MRC為其擴展超級計算機帶來三個關鍵優勢

      首先,該技術僅通過兩層以太網交換機,就能搭建出可承載十萬塊GPU規模超算的多平面高速網絡。這套架構具備充足冗余能力,可平穩抵御網絡故障;同時相比同等規模的三層、四層單平面網絡,功耗更低。

      其次,MRC的自適應數據包散射具備極佳的負載均衡能力,使得網絡核心基本不會出現擁塞。

      這降低了同步訓練中各數據流之間的吞吐量波動,而消除異常延遲正是同步訓練性能優化的核心關鍵。同時,即便多項任務共享同一個超算集群,彼此之間也不會產生性能干擾。

      最后,MRC采用SRv6源路由快速繞過故障鏈路,僅在正常可用路徑上轉發數據包。

      這使得其可以采用簡潔的靜態網絡控制面,并從根本上規避一大類動態路由特有的故障異常問題。

      二、支持多平面網絡,可實現更低成本、功耗

      MRC采用了多平面網絡,不再把每個網絡接口視作一條800Gb/s的鏈路,而是將其拆分為多條更小粒度的子鏈路。例如,單個網絡接口可同時連接八臺不同交換機。由此便可搭建八路獨立并行網絡(網絡平面),每路帶寬為100Gb/s,而非構建單一的800Gb/s網絡。

      這樣做的好處是,一臺原本支持64個800Gb/s端口的交換機,改用后可提供512個100Gb/s端口,借此僅用兩層交換機就能搭建出可全互聯約131000塊GPU的網絡;而傳統800Gb/s組網則需要三層甚至四層交換機架構。


      ▲支持多平面網絡

      這樣設計的網絡成本、功耗都更低,且比傳統網絡設計能提供更多路徑多樣性的網絡,還允許更多流量留在第0層交換機本地,從而提升性能。

      然而,這樣的路徑多樣性往往難以被充分利用。用于AI訓練的傳統網絡協議,通常要求每次數據傳輸固定走單一路徑,以保證數據包按序到達。


      在大規模多平面網絡中,這會帶來兩大問題:一是不同數據流可能爭搶同一條鏈路,引發網絡擁塞;二是單條數據流只能占用眾多網絡平面中的其中一條。如果不做針對性優化,多平面網絡反而會出現嚴重擁塞,整體性能表現會大打折扣。


      ▲數據包流相互碰撞導致擁塞

      三、跨數百條路徑進行數據包散射轉發

      MRC從根本上改變了這一模式。

      其不再將一次數據傳輸限定在單條路徑上,而是把單次傳輸的數據包分散分發到網絡中數百條路徑、跨所有獨立網絡平面并行傳輸。

      數據包可以亂序到達,但所有MRC數據包都攜帶最終內存地址,因此接收端無需等待排序,可隨到隨寫入內存。


      這樣一來,每條MRC連接都會為其所使用的眾多路徑維護少量狀態信息。一旦檢測到某條路徑出現擁塞,就會立刻切換至其他路徑,從而均衡全網負載。

      如果發生丟包,MRC會采取穩妥策略,默認該路徑可能已出現故障,隨即立即停用該路徑,并對可能丟失的數據包進行重傳。

      在淘汰某條路徑后,MRC會發送探測包核查是否確實存在故障;若確有故障,則進一步檢測鏈路是否已經恢復。

      還有一個丟包原因是目標端擁塞。MRC可以通過報文截斷機制處理這類場景:當交換機因擁塞即將丟棄報文時,并不會直接整包丟棄,而是裁減掉有效載荷,僅將報文頭部轉發至目的端,以此觸發顯式重傳請求。

      并且報文截斷能夠有效減少誤判,避免把單純擁塞導致的丟包,錯誤判定為路徑故障。

      結合多平面拓撲、數據包散射轉發、負載均衡與報文截斷這些機制,MRC連接能夠微秒級檢測網絡故障并完成迂回繞行,降低對同步訓練任務的影響。相比之下,傳統網絡架構往往需要數秒甚至數十秒才能完成收斂穩定、實現故障繞行。

      四、進一步簡化網絡,一旦丟包即停止路徑

      MRC在簡化網絡方面更進一步。

      傳統方案中,交換機都會運行BGP(邊界網關協議)這類動態路由協議,用以計算可用路徑并實現故障迂回。

      但交換機本身結構復雜、運行的軟件也十分龐雜。一旦出現隱匿性異常,這類問題往往難以排查,還會持續引發連接中斷,直至故障修復。

      采用MRC后,一旦某條路徑出現丟包,MRC便會停止使用該路徑。

      其采取的方案是,關閉動態路由,轉而采用IPv6分段路由(SRv6)。SRv6允許發送端直接指定每個數據包在網絡中的轉發路徑,實現方式是將交換機標識序列嵌入每個數據包的目的地址字段。


      拆解原理如下:

      交換機在轉發報文時,會檢查自身標識是否在路徑列表中。如果命中,就通過偏移目的地址字段移除當前自身標識,露出下一跳交換機的標識。

      隨后交換機在靜態路由表中查詢該標識,據此決定報文的下一跳轉發去向。

      與動態路由不同,這類靜態路由表在交換機初始配置階段一次性部署完成,后續不再變更。

      MRC利用SRv6在所有網絡平面間分散分發數據包,同時在每個平面內并行使用多條路徑。一旦某條路徑發生故障,MRC直接停止選用該路徑即可。

      交換機無需重新計算路由,只需嚴格按照預設的靜態路由規則進行轉發,無需額外做任何復雜處理。

      結語:大廠聯手,打破超算集群算力利用率瓶頸

      根據官方博客,MRC顯著提升了OpenAI訓練全新大模型的能力,同時讓網絡架構能夠匹配其AI發展路線圖。

      隨著訓練集群規模持續擴張,網絡設計愈發決定可用算力的實際利用率。MRC能夠讓GPU集群在遭遇擁塞、鏈路故障和運維維護時保持協同穩定運行,而這類事件在過去都會中斷訓練任務。

      在超大規模算力場景下,這種可靠性與運行效率或將成為支撐前沿大模型同步訓練得以實現的基礎前提。

      來源:OpenAI

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      愛吃全熟牛排的特朗普,卻對這兩道中國菜“上頭!

      愛吃全熟牛排的特朗普,卻對這兩道中國菜“上頭!

      冷桂零落
      2026-05-14 23:14:26
      伊朗總統府:不會永久限制互聯網訪問

      伊朗總統府:不會永久限制互聯網訪問

      澎湃新聞
      2026-05-14 01:11:38
      她的顏值,在香港演藝圈絕對是頂級的。可惜至今未婚基因沒人繼承

      她的顏值,在香港演藝圈絕對是頂級的。可惜至今未婚基因沒人繼承

      草莓解說體育
      2026-05-13 21:31:40
      海信董事長與黃仁勛、馬斯克同桌,難掩家電營收利潤雙下滑的尷尬

      海信董事長與黃仁勛、馬斯克同桌,難掩家電營收利潤雙下滑的尷尬

      本原財經
      2026-05-15 00:15:09
      姆巴佩:沒首發是因為教練跟我說,我是他的第四前鋒

      姆巴佩:沒首發是因為教練跟我說,我是他的第四前鋒

      懂球帝
      2026-05-15 07:03:08
      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      家住朝陽
      2026-05-14 19:10:23
      北京日報:國際足聯代表團來訪首要任務是談世界杯轉播權

      北京日報:國際足聯代表團來訪首要任務是談世界杯轉播權

      懂球帝
      2026-05-14 19:22:06
      車田正美70歲再開新坑,《天界篇》終于不鴿了

      車田正美70歲再開新坑,《天界篇》終于不鴿了

      晚星歸航2
      2026-05-14 16:06:36
      包貝爾自曝打肉毒致面癱影響演技:腦袋锃平 眉毛立著

      包貝爾自曝打肉毒致面癱影響演技:腦袋锃平 眉毛立著

      手工制作阿殲
      2026-05-14 16:05:33
      5月14日俄烏:烏克蘭回擊俄羅斯最大規模的空襲

      5月14日俄烏:烏克蘭回擊俄羅斯最大規模的空襲

      山河路口
      2026-05-14 19:20:07
      在《水滸傳》中,高俅經常被稱為高太尉,相當于今天的什么官職?

      在《水滸傳》中,高俅經常被稱為高太尉,相當于今天的什么官職?

      掠影后有感
      2026-05-14 11:46:53
      何九華官宣當爸!直言生女沒得選全程不提孩子媽,和王鷗真離了?

      何九華官宣當爸!直言生女沒得選全程不提孩子媽,和王鷗真離了?

      萌神木木
      2026-05-14 11:18:28
      伊朗隊正式發布世界杯球衣:豹子暗紋,由本國品牌贊助

      伊朗隊正式發布世界杯球衣:豹子暗紋,由本國品牌贊助

      懂球帝
      2026-05-15 00:09:05
      最后一刻才叫上黃仁勛,是誰想要晾著他?

      最后一刻才叫上黃仁勛,是誰想要晾著他?

      南風窗
      2026-05-14 12:21:15
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      美智庫報告:殲-20雷達反射面達F-22百倍,戰略目標不同

      美智庫報告:殲-20雷達反射面達F-22百倍,戰略目標不同

      錯過美好
      2026-05-14 22:35:37
      NBA名人堂中鋒用科比的名言,回擊湖人隊球迷對詹姆斯的冷嘲熱諷

      NBA名人堂中鋒用科比的名言,回擊湖人隊球迷對詹姆斯的冷嘲熱諷

      好火子
      2026-05-15 04:52:56
      一代人覺醒,三代人托舉:這篇文章,建議每個普通家庭都讀兩遍

      一代人覺醒,三代人托舉:這篇文章,建議每個普通家庭都讀兩遍

      心理觀察局
      2026-05-12 08:55:11
      歐媒:穆里尼奧執教的百分皇馬,至今仍是西甲歷史最佳表現

      歐媒:穆里尼奧執教的百分皇馬,至今仍是西甲歷史最佳表現

      懂球帝
      2026-05-14 15:26:15
      中美會談圓滿結束,中方當面對臺灣問題定調,特朗普反應值得細品

      中美會談圓滿結束,中方當面對臺灣問題定調,特朗普反應值得細品

      靜水流深003
      2026-05-14 21:23:03
      2026-05-15 07:15:00
      芯東西 incentive-icons
      芯東西
      智東西AI媒體矩陣品牌。芯東西,芯片產業新媒體。我們是一群追芯人,專注報道AI芯片和半導體產業創新。
      2325文章數 8156關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      本地
      家居
      手機
      數碼
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      精神奢享 對話塔尖需求

      手機要聞

      榮耀600/Pro手機規格曝光,搭載驍龍7 Gen4 /天璣8550

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲无人区码一码二码三码的含义| 国产一区二区三级久久| 欧美偷窥清纯综合图区| 蜜臂AV| 博罗县| 好男人WWW社区视频在线资源| 国产色a在线观看| 国产av丝袜旗袍无码网站| 日韩电影精品| 中文字幕精品无亚洲字幕| 免费看污视频的网站| 久久久久久免费视频| 蜜桃av无码免费看永久| 国产亚洲精品97在线视频一| 91视频网址| 中国字幕无码| 亚洲日本va午夜中文字幕久久 | 国产精品毛片内在线看| 日本va亚洲va欧洲va| 国产一区二区日韩在线| 岛国中文字幕一区二区| 久久亚洲中文字幕伊人久久大| 亚洲无码成| 亚洲 日韩 国产 制服 在线 | 国产成人精品久久一区二区| 性欧美精品xxxx| 一本色道久久无码| 午夜丁香婷婷| 内射毛片内射国产夫妻| 国产91色在线精品三级| 525f| 亚洲成av人片在线观看ww| 日本东京热高清一区二区| 国产一区二区福利视频| 五月婷之久久综合丝袜美腿| 人妻av资源先锋影音av资源| 精品自拍偷拍| 裸身美女无遮挡永久免费视频| 中文字幕国产三区| 国产精品成人AⅤ在线一二三四| 亚洲精品中文字幕毛片|