<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      全球首次單機降服萬億巨模DeepSeek-V4!RL后訓練框架Orbit開源!

      0
      分享至



      從數學、代碼、復雜推理,到多輪工具調用,大模型的很多能力的提升都離不開 RL 后訓練。但當模型規模進入 MoE 萬億參數級別之后,RL 不再只是一個算法問題,同時更加是一個系統問題。

      訓練側需要容納龐大的模型權重、梯度和優化器狀態;rollout 側需要持續生成樣本,并保持足夠高的吞吐;reference policy 又會進一步放大顯存和調度壓力。同時,很多 RL 系統在訓練時使用較高精度模型,而真正 rollout 或部署時使用低精度 serving 模型。這些精度差異,最終會體現在部署效果與 RL 效果的不一致上。

      通過將 base model 固定在部署時使用的低精度表示,并只更新 adapter,Orbit 將 Kimi-K2.6、DeepSeek V4 級別的 1T 模型 RL 后訓練壓縮到單臺 8×B200 上完成。同時,訓練和 rollout 使用同一條低精度 base + adapter 路徑,從系統層面消除了訓練模型與 rollout / 部署模型之間的精度不一致。

      Orbit 做到「讓萬億模型進入單節點 RL 區間」這件事的意義在于:

      1. 避免了「訓練精度」和「部署精度」不一致帶來的偏差,從而帶來更穩定更高效的 RL 后訓練;
      2. 單節點 RL 可以顯著降低多節點訓練時的通信時延與故障率;
      3. 在同樣的 HBM 預算下,模型會獲得更寬的訓練空間,過去需要多卡才能訓的模型,有機會被壓縮到單卡。



      • 官方博客:https://spherelab.ai/orbit/
      • Github:https://github.com/Sphere-AI-Lab/orbit

      Orbit:支持萬億參數模型 RL 微調的高效框架

      顯存控制:如下圖 1 所示的估算中,單節點 8×B200 的 HBM 預算約為 1536GB。對 1T 級模型而言,傳統全參微調的 weight + grad 顯存下界會遠超單機預算;而 Orbit 路徑由于凍結低精度 base,只訓練 adapter,可以把 1T 級模型的 RL 后訓練放進單節點預算內。



      圖 1 不同框架下大參數模型的單節點顯存需求估算

      訓推精度對齊:在很多 RL 系統里,訓練側可能使用 BF16 或 FP8 等高精度 ,而推理側使用 INT4、FP4 等低精度。對于監督微調來說,這種差異有時可以被視作推理優化的一部分;但在 RL 中,policy log-prob 本身就是訓練信號的一部分,訓練側和推理側之間的誤差 log-prob diff 會直接影響穩定性。

      Orbit 將這一問題前置到了系統設計中:訓練和推理使用相同的低精度 base ,并在其上加載同一個 BF16 adapter,從而保持訓推精度一致。

      Adapter-first 的系統設計:Orbit 圍繞 adapter 對 RL 訓練、推理、同步、reference policy 和低精度 MoE 做了一套整體設計。base 始終凍結,每次訓練更新后,只需要將 MB 級 adapter (不需將 GB 級的 base)從訓練引擎推送到推理引擎。這不僅減少了權重同步的體積,也避免了頻繁重建推理引擎的開銷。

      單節點 Kimi-K2.6 結果

      在這組實驗中,模型運行在單臺 8×B200 上,訓練精度為 INT4 base + BF16 adapter,rollout 精度使用相同的 INT4 base + BF16 adapter。也就是說,訓練和 rollout 走的是同一條低精度 base + adapter 路徑。

      在約 200 step 的 RL 過程中,Orbit 觀察到了幾個同時成立的信號:

      • reward 上升;
      • eval accuracy 上升;
      • pass@k 上升;
      • train-rollout log-prob diff 保持穩定。



      圖 2 Kimi-2.6 在 Orbit 下單機 RL 后訓練信號



      圖 3 Kimi-2.6 在 Orbit 下單機 RL 后訓練的顯存記錄

      圖 2 顯示,Kimi-K2.6 的 rollout raw reward、eval accuracy 和 pass@k 曲線隨訓練推進而穩定上升。同時,train-rollout log-prob diff 穩定維持在一個區間。

      對于一個對 log-prob 差異非常敏感的訓練范式來說,這些信號實際地證明了 Orbit 的 RL 后訓練閉環不僅在單機上把 1T 的模型上穩定能跑,同時跑對了且在測試任務上有效果。

      單節點 DeepSeek V4 Flash 結果

      在這組實驗中,DeepSeek V4 Flash 同樣運行在單臺 8×B200 上。訓練精度為 FP4 base + BF16 adapter,rollout 精度也使用相同的 FP4 base + BF16 adapter。



      圖 4 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練信號



      圖 5 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練的顯存記錄

      從結果看,DeepSeek V4 Flash 在 100 step 以上的 RL 過程中同樣保持穩定:reward、eval、pass@k 整體上升,train-rollout log-prob diff 保持在穩定區間。這些趨勢跟在 Kimi-K2.6 上的實驗結果類似。

      單節點 1.6T DeepSeek V4 Pro 初步驗證

      除了 Kimi-K2.6 和 DeepSeek V4 Flash 兩組穩定有效的訓練結果,Orbit 還在 DeepSeek V4 Pro 1.6T 上完成初步驗證。

      由于 DeepSeek V4 Pro base model 本身很強,實驗中用的 RL 訓練數據不能讓它漲點,因此該實驗更多是證明 Orbit 的系統路徑可以擴展到更大的 1.6T 級 MoE 模型。



      圖 6 DeepSeek V4 Pro 在 Orbit 下單機 RL 后訓練信號和顯存記錄

      在 1.6T DeepSeek V4 Pro 上,Orbit 完成了單節點 8×B200 的實驗,展示了穩定的 train-rollout log-prob diff 和可控穩定的 GPU 顯存。

      這組結果證明Orbit 的系統上限可在單節點 8×B200 達到 1.6T 級別,展示了其設計有機會覆蓋更大的 MoE 模型區間。

      從單節點萬億模型,到單卡更大模型

      單節點跑通萬億模型 RL 反過來也說明了同樣的硬件預算就可以覆蓋更大的模型區間。

      對萬億模型來說,這意味著原本可能需要多機協同的 RL 后訓練,可以被壓縮到單節點完成。對中小模型來說在 Orbit 的 adapter-first 框架下,單卡也有機會 RL 微調過去需要多卡才能支持的模型,或者在相同模型規模下支持更長 response、更大 batch、更高 rollout throughput 和更頻繁的更新。

      因此,Orbit 的價值并不只在于「讓大模型變得可訓練」,也在于讓小模型的 RL 后訓練變得更容易。

      技術細節

      Active-expert-chunked dequantization:對于 MoE 模型來說,每個詞元只會激活部分 experts。Orbit 動態地將 router 選中的 experts 分組成固定大小的 batch,臨時反量化后執行 grouped GEMM,并在計算結束后釋放高精度權重。這樣既能利用 grouped matrix multiplication 的吞吐,又能將臨時顯存峰值限制在較小 chunk 內,避免大規模低精度 MoE 訓練中的 OOM。

      Adapter-native async with double-buffered rollout:系統會為 adapter 維護版本號,并將新版本 adapter 流式寫入 inactive slot;當前 active slot 繼續服務 in-flight 請求,待新版本準備好后再原子切換。這樣可以減少 rollout bubble。在 Qwen3-4B + OFT、8×B200、TP=2 設置下,該設計帶來了 1.42 倍的單步時間優化和 44% 更高的 rollout throughput,同時 eval accuracy 保持不變。

      DeepSeek V4 相關優化:Orbit 支持 Full-CUDA graph decoding、DeepGEMM、DeepEP V2,并使用 tilelang / Triton / CUDA 實現高效 attention backward 和 fusion kernels。根據 adapter 訓練的特點,Orbit 還設計了 bypass-base-weight-grad 的高效 GEMM backward 算子,避免為凍結 base 計算不必要的梯度。

      結語

      過去,大模型 RL 后訓練往往意味著更復雜的多機系統:更多節點、更重的權重同步和更復雜的系統協同。

      Orbit 提供了另一條路徑:凍結低精度 base,只訓 adapter,讓訓練、rollout 和部署對齊,并把整模同步換成 adapter 同步。這讓萬億模型可以進入單節點訓練區間,更小模型也能在單卡或更有限的硬件上跑得更遠。

      從 Kimi-K2.6 到 DeepSeek V4 Flash,再到 DeepSeek V4 Pro 1.6T,Orbit 展示和提供了一套面向大模型后訓練的高效框架。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      注意了!印度來華人數飆升,深圳是最受歡迎城市,評論區全是擔憂

      注意了!印度來華人數飆升,深圳是最受歡迎城市,評論區全是擔憂

      譚談社會
      2026-05-28 11:41:20
      前調查記者揭礦難黑幕:逃生者被老板雇人砸回礦井里,因為死了比救治重傷賠得少

      前調查記者揭礦難黑幕:逃生者被老板雇人砸回礦井里,因為死了比救治重傷賠得少

      可達鴨面面觀
      2026-05-28 16:52:14
      貴州大學招聘管理崗要求配偶為本校在職博士,校方回應

      貴州大學招聘管理崗要求配偶為本校在職博士,校方回應

      現代快報
      2026-05-28 19:50:05
      “陪妻重新長大”900多天:愛妻胎停腦梗智力回到幼兒,丈夫回應質疑稱“時間能證明一切”

      “陪妻重新長大”900多天:愛妻胎停腦梗智力回到幼兒,丈夫回應質疑稱“時間能證明一切”

      紅星新聞
      2026-05-28 15:30:20
      曝俄羅斯或失去頓涅茨克全境!烏克蘭逐步掌握前線主動權

      曝俄羅斯或失去頓涅茨克全境!烏克蘭逐步掌握前線主動權

      項鵬飛
      2026-05-28 17:38:41
      四省政府領導班子調整,杭州原市長履新副省長

      四省政府領導班子調整,杭州原市長履新副省長

      上觀新聞
      2026-05-28 11:01:04
      廣廈被絕殺!大比分0-2落后,更絕望的是以下3個事實,打不過上海

      廣廈被絕殺!大比分0-2落后,更絕望的是以下3個事實,打不過上海

      小火箭愛體育
      2026-05-28 21:48:18
      減肥神藥存在巨大副作用!不只減少你的體重,也剝奪了你的多巴胺,讓人失去快樂

      減肥神藥存在巨大副作用!不只減少你的體重,也剝奪了你的多巴胺,讓人失去快樂

      風向觀察
      2026-05-28 15:31:33
      震驚!河南一足療店推出“反方向的鐘”,200多給技師洗腳70分鐘

      震驚!河南一足療店推出“反方向的鐘”,200多給技師洗腳70分鐘

      火山詩話
      2026-05-28 05:53:10
      “晾了三天,終于臭了”!不少人連夜搶購,已賣爆

      “晾了三天,終于臭了”!不少人連夜搶購,已賣爆

      深圳晚報
      2026-05-27 08:23:58
      72歲上海知青重回云南看初戀,得知自己竟兒孫滿堂:是我對不起你

      72歲上海知青重回云南看初戀,得知自己竟兒孫滿堂:是我對不起你

      紅豆講堂
      2024-10-07 10:57:14
      震驚!網傳武漢一婚介所男性資料只剩20多份,女性激增到3500多份

      震驚!網傳武漢一婚介所男性資料只剩20多份,女性激增到3500多份

      火山詩話
      2026-05-28 13:25:07
      141名中國乘客飛美國,飛機降落時突然墜毀,起飛前一名美國官員悄悄改簽了航班

      141名中國乘客飛美國,飛機降落時突然墜毀,起飛前一名美國官員悄悄改簽了航班

      明德閱讀
      2026-05-27 19:39:40
      同事蹭我車回家,路過超市時買了1800塊東西,要結賬時我笑著說:你稍等一下,我去地下2層把車開上來

      同事蹭我車回家,路過超市時買了1800塊東西,要結賬時我笑著說:你稍等一下,我去地下2層把車開上來

      品讀時刻
      2026-05-28 09:06:31
      證監會發聲!中國是世界經濟增長的主要貢獻者,境外投資者持有A股流通市值超過4萬億元

      證監會發聲!中國是世界經濟增長的主要貢獻者,境外投資者持有A股流通市值超過4萬億元

      每日經濟新聞
      2026-05-28 17:13:27
      杭州女子征婚:不要彩禮,能提供5分鐘夫妻生活,每月給男人3000

      杭州女子征婚:不要彩禮,能提供5分鐘夫妻生活,每月給男人3000

      譚談社會
      2026-05-28 18:34:27
      剛剛,黃仁勛加入清華大學

      剛剛,黃仁勛加入清華大學

      AppSo
      2026-05-28 13:03:25
      20萬飛天茅臺必須搭售40萬黔茅酒,企業老板受邀參加“茅臺合作峰會”后怒斥被耍

      20萬飛天茅臺必須搭售40萬黔茅酒,企業老板受邀參加“茅臺合作峰會”后怒斥被耍

      瀟湘晨報
      2026-05-28 12:47:31
      “楊梅第一大省”浙江多地主要領導為本地楊梅“站臺”

      “楊梅第一大省”浙江多地主要領導為本地楊梅“站臺”

      澎湃新聞
      2026-05-28 18:30:26
      萬萬沒想到,武契奇訪華僅4天,45歲妻子竟憑一個舉動給他長臉了

      萬萬沒想到,武契奇訪華僅4天,45歲妻子竟憑一個舉動給他長臉了

      黑鷹觀軍事
      2026-05-28 16:05:22
      2026-05-29 03:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13106文章數 142653關注度
      往期回顧 全部

      科技要聞

      利潤跌27%:快手只剩“可靈”這張牌?

      頭條要聞

      男子疑遭家暴跳樓身亡 母親:兒媳說"你不配活在世上"

      頭條要聞

      男子疑遭家暴跳樓身亡 母親:兒媳說"你不配活在世上"

      體育要聞

      唐斯經歷的一切,此刻的他與尼克斯

      娛樂要聞

      林俊杰七七與大哥嫂子的瓜剪不斷理還亂

      財經要聞

      小米仍需一次創業

      汽車要聞

      從智駕兜底到自研4nm芯片,再到迪迪蝦,比亞迪智能化戰略憑什么封神?

      態度原創

      旅游
      健康
      教育
      親子
      公開課

      旅游要聞

      游客在九寨溝被索要"照鏡費" 景區:店家隨口說的

      專家教你辨認“正規外泌體”!

      教育要聞

      中考數學:很多同學表示無解題,思維太局限

      親子要聞

      “家長聽豆包給嬰兒每頓只喂60ml奶”體重未增? 豆包回應

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻丝袜无码专区视频网站| 日韩AV片无码一区二区三区| 天堂网亚洲综合在线| 日本一本不卡| 国产av激情无码久久| 国产精品人妻熟女男人的天堂| 亚洲精品国产高清一线久久 | 在线欧美中文字幕农村电影| 377P欧洲日本亚洲大胆| 国内少妇高潮嗷嗷叫在线观看| 国产在线线精品宅男网址| 草莓AV| 在线99国产| 一区二区日韩激情视频| 女人下边被添全过视频的网址| 日本黄页网站免费观看| 亚洲天堂中文字幕| 95在线一区| 精品在线视频免费观看| 人妻色综合网站| 欧美人禽zozo动人物杂交| av资源站| 久久99久久99精品免视看国产成人| 日本激情视频一区在线观看| 色情电影网址| 不卡高清AV手机在线观看| 内射视频福利在线观看| 免费h动漫无码网站| 暖暖 在线 日本 免费 中文| 国产精品久久毛片| 91乱子伦国产乱子伦无码| 正阳县| 五月婷婷开心中文字幕| 丰满人妻一区二区三区在线视频53| 国产无遮挡裸体免费久久| 中文字幕无码A片| 岛国av无码免费无禁网站| 久久久久国产一级毛片高清版A| 精品福利视频导航| WWW丫丫国产成人精品| 亚洲AV无码久久精品日韩|