![]()
從數學、代碼、復雜推理,到多輪工具調用,大模型的很多能力的提升都離不開 RL 后訓練。但當模型規模進入 MoE 萬億參數級別之后,RL 不再只是一個算法問題,同時更加是一個系統問題。
訓練側需要容納龐大的模型權重、梯度和優化器狀態;rollout 側需要持續生成樣本,并保持足夠高的吞吐;reference policy 又會進一步放大顯存和調度壓力。同時,很多 RL 系統在訓練時使用較高精度模型,而真正 rollout 或部署時使用低精度 serving 模型。這些精度差異,最終會體現在部署效果與 RL 效果的不一致上。
通過將 base model 固定在部署時使用的低精度表示,并只更新 adapter,Orbit 將 Kimi-K2.6、DeepSeek V4 級別的 1T 模型 RL 后訓練壓縮到單臺 8×B200 上完成。同時,訓練和 rollout 使用同一條低精度 base + adapter 路徑,從系統層面消除了訓練模型與 rollout / 部署模型之間的精度不一致。
Orbit 做到「讓萬億模型進入單節點 RL 區間」這件事的意義在于:
- 避免了「訓練精度」和「部署精度」不一致帶來的偏差,從而帶來更穩定更高效的 RL 后訓練;
- 單節點 RL 可以顯著降低多節點訓練時的通信時延與故障率;
- 在同樣的 HBM 預算下,模型會獲得更寬的訓練空間,過去需要多卡才能訓的模型,有機會被壓縮到單卡。
![]()
- 官方博客:https://spherelab.ai/orbit/
- Github:https://github.com/Sphere-AI-Lab/orbit
Orbit:支持萬億參數模型 RL 微調的高效框架
顯存控制:如下圖 1 所示的估算中,單節點 8×B200 的 HBM 預算約為 1536GB。對 1T 級模型而言,傳統全參微調的 weight + grad 顯存下界會遠超單機預算;而 Orbit 路徑由于凍結低精度 base,只訓練 adapter,可以把 1T 級模型的 RL 后訓練放進單節點預算內。
![]()
圖 1 不同框架下大參數模型的單節點顯存需求估算
訓推精度對齊:在很多 RL 系統里,訓練側可能使用 BF16 或 FP8 等高精度 ,而推理側使用 INT4、FP4 等低精度。對于監督微調來說,這種差異有時可以被視作推理優化的一部分;但在 RL 中,policy log-prob 本身就是訓練信號的一部分,訓練側和推理側之間的誤差 log-prob diff 會直接影響穩定性。
Orbit 將這一問題前置到了系統設計中:訓練和推理使用相同的低精度 base ,并在其上加載同一個 BF16 adapter,從而保持訓推精度一致。
Adapter-first 的系統設計:Orbit 圍繞 adapter 對 RL 訓練、推理、同步、reference policy 和低精度 MoE 做了一套整體設計。base 始終凍結,每次訓練更新后,只需要將 MB 級 adapter (不需將 GB 級的 base)從訓練引擎推送到推理引擎。這不僅減少了權重同步的體積,也避免了頻繁重建推理引擎的開銷。
單節點 Kimi-K2.6 結果
在這組實驗中,模型運行在單臺 8×B200 上,訓練精度為 INT4 base + BF16 adapter,rollout 精度使用相同的 INT4 base + BF16 adapter。也就是說,訓練和 rollout 走的是同一條低精度 base + adapter 路徑。
在約 200 step 的 RL 過程中,Orbit 觀察到了幾個同時成立的信號:
- reward 上升;
- eval accuracy 上升;
- pass@k 上升;
- train-rollout log-prob diff 保持穩定。
![]()
圖 2 Kimi-2.6 在 Orbit 下單機 RL 后訓練信號
![]()
圖 3 Kimi-2.6 在 Orbit 下單機 RL 后訓練的顯存記錄
圖 2 顯示,Kimi-K2.6 的 rollout raw reward、eval accuracy 和 pass@k 曲線隨訓練推進而穩定上升。同時,train-rollout log-prob diff 穩定維持在一個區間。
對于一個對 log-prob 差異非常敏感的訓練范式來說,這些信號實際地證明了 Orbit 的 RL 后訓練閉環不僅在單機上把 1T 的模型上穩定能跑,同時跑對了且在測試任務上有效果。
單節點 DeepSeek V4 Flash 結果
在這組實驗中,DeepSeek V4 Flash 同樣運行在單臺 8×B200 上。訓練精度為 FP4 base + BF16 adapter,rollout 精度也使用相同的 FP4 base + BF16 adapter。
![]()
圖 4 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練信號
![]()
圖 5 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練的顯存記錄
從結果看,DeepSeek V4 Flash 在 100 step 以上的 RL 過程中同樣保持穩定:reward、eval、pass@k 整體上升,train-rollout log-prob diff 保持在穩定區間。這些趨勢跟在 Kimi-K2.6 上的實驗結果類似。
單節點 1.6T DeepSeek V4 Pro 初步驗證
除了 Kimi-K2.6 和 DeepSeek V4 Flash 兩組穩定有效的訓練結果,Orbit 還在 DeepSeek V4 Pro 1.6T 上完成初步驗證。
由于 DeepSeek V4 Pro base model 本身很強,實驗中用的 RL 訓練數據不能讓它漲點,因此該實驗更多是證明 Orbit 的系統路徑可以擴展到更大的 1.6T 級 MoE 模型。
![]()
圖 6 DeepSeek V4 Pro 在 Orbit 下單機 RL 后訓練信號和顯存記錄
在 1.6T DeepSeek V4 Pro 上,Orbit 完成了單節點 8×B200 的實驗,展示了穩定的 train-rollout log-prob diff 和可控穩定的 GPU 顯存。
這組結果證明Orbit 的系統上限可在單節點 8×B200 達到 1.6T 級別,展示了其設計有機會覆蓋更大的 MoE 模型區間。
從單節點萬億模型,到單卡更大模型
單節點跑通萬億模型 RL 反過來也說明了同樣的硬件預算就可以覆蓋更大的模型區間。
對萬億模型來說,這意味著原本可能需要多機協同的 RL 后訓練,可以被壓縮到單節點完成。對中小模型來說在 Orbit 的 adapter-first 框架下,單卡也有機會 RL 微調過去需要多卡才能支持的模型,或者在相同模型規模下支持更長 response、更大 batch、更高 rollout throughput 和更頻繁的更新。
因此,Orbit 的價值并不只在于「讓大模型變得可訓練」,也在于讓小模型的 RL 后訓練變得更容易。
技術細節
Active-expert-chunked dequantization:對于 MoE 模型來說,每個詞元只會激活部分 experts。Orbit 動態地將 router 選中的 experts 分組成固定大小的 batch,臨時反量化后執行 grouped GEMM,并在計算結束后釋放高精度權重。這樣既能利用 grouped matrix multiplication 的吞吐,又能將臨時顯存峰值限制在較小 chunk 內,避免大規模低精度 MoE 訓練中的 OOM。
Adapter-native async with double-buffered rollout:系統會為 adapter 維護版本號,并將新版本 adapter 流式寫入 inactive slot;當前 active slot 繼續服務 in-flight 請求,待新版本準備好后再原子切換。這樣可以減少 rollout bubble。在 Qwen3-4B + OFT、8×B200、TP=2 設置下,該設計帶來了 1.42 倍的單步時間優化和 44% 更高的 rollout throughput,同時 eval accuracy 保持不變。
DeepSeek V4 相關優化:Orbit 支持 Full-CUDA graph decoding、DeepGEMM、DeepEP V2,并使用 tilelang / Triton / CUDA 實現高效 attention backward 和 fusion kernels。根據 adapter 訓練的特點,Orbit 還設計了 bypass-base-weight-grad 的高效 GEMM backward 算子,避免為凍結 base 計算不必要的梯度。
結語
過去,大模型 RL 后訓練往往意味著更復雜的多機系統:更多節點、更重的權重同步和更復雜的系統協同。
Orbit 提供了另一條路徑:凍結低精度 base,只訓 adapter,讓訓練、rollout 和部署對齊,并把整模同步換成 adapter 同步。這讓萬億模型可以進入單節點訓練區間,更小模型也能在單卡或更有限的硬件上跑得更遠。
從 Kimi-K2.6 到 DeepSeek V4 Flash,再到 DeepSeek V4 Pro 1.6T,Orbit 展示和提供了一套面向大模型后訓練的高效框架。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.