網易首頁 > 網易號 > 正文申請入駐

全球首次單機降服萬億巨模DeepSeek-V4！RL后訓練框架Orbit開源！

2026-05-28 11:48:03　來源: 機器之心Pro

天津舉報

分享至

從數學、代碼、復雜推理，到多輪工具調用，大模型的很多能力的提升都離不開 RL 后訓練。但當模型規模進入 MoE 萬億參數級別之后，RL 不再只是一個算法問題，同時更加是一個系統問題。

訓練側需要容納龐大的模型權重、梯度和優化器狀態；rollout 側需要持續生成樣本，并保持足夠高的吞吐；reference policy 又會進一步放大顯存和調度壓力。同時，很多 RL 系統在訓練時使用較高精度模型，而真正 rollout 或部署時使用低精度 serving 模型。這些精度差異，最終會體現在部署效果與 RL 效果的不一致上。

通過將 base model 固定在部署時使用的低精度表示，并只更新 adapter，Orbit 將 Kimi-K2.6、DeepSeek V4 級別的 1T 模型 RL 后訓練壓縮到單臺 8×B200 上完成。同時，訓練和 rollout 使用同一條低精度 base + adapter 路徑，從系統層面消除了訓練模型與 rollout / 部署模型之間的精度不一致。

Orbit 做到「讓萬億模型進入單節點 RL 區間」這件事的意義在于：

避免了「訓練精度」和「部署精度」不一致帶來的偏差，從而帶來更穩定更高效的 RL 后訓練；
單節點 RL 可以顯著降低多節點訓練時的通信時延與故障率；
在同樣的 HBM 預算下，模型會獲得更寬的訓練空間，過去需要多卡才能訓的模型，有機會被壓縮到單卡。

官方博客：https://spherelab.ai/orbit/
Github：https://github.com/Sphere-AI-Lab/orbit

Orbit：支持萬億參數模型 RL 微調的高效框架

顯存控制：如下圖 1 所示的估算中，單節點 8×B200 的 HBM 預算約為 1536GB。對 1T 級模型而言，傳統全參微調的 weight + grad 顯存下界會遠超單機預算；而 Orbit 路徑由于凍結低精度 base，只訓練 adapter，可以把 1T 級模型的 RL 后訓練放進單節點預算內。

圖 1 不同框架下大參數模型的單節點顯存需求估算

訓推精度對齊：在很多 RL 系統里，訓練側可能使用 BF16 或 FP8 等高精度，而推理側使用 INT4、FP4 等低精度。對于監督微調來說，這種差異有時可以被視作推理優化的一部分；但在 RL 中，policy log-prob 本身就是訓練信號的一部分，訓練側和推理側之間的誤差 log-prob diff 會直接影響穩定性。

Orbit 將這一問題前置到了系統設計中：訓練和推理使用相同的低精度 base ，并在其上加載同一個 BF16 adapter，從而保持訓推精度一致。

Adapter-first 的系統設計：Orbit 圍繞 adapter 對 RL 訓練、推理、同步、reference policy 和低精度 MoE 做了一套整體設計。base 始終凍結，每次訓練更新后，只需要將 MB 級 adapter （不需將 GB 級的 base）從訓練引擎推送到推理引擎。這不僅減少了權重同步的體積，也避免了頻繁重建推理引擎的開銷。

單節點 Kimi-K2.6 結果

在這組實驗中，模型運行在單臺 8×B200 上，訓練精度為 INT4 base + BF16 adapter，rollout 精度使用相同的 INT4 base + BF16 adapter。也就是說，訓練和 rollout 走的是同一條低精度 base + adapter 路徑。

在約 200 step 的 RL 過程中，Orbit 觀察到了幾個同時成立的信號：

reward 上升；
eval accuracy 上升；
pass@k 上升；
train-rollout log-prob diff 保持穩定。

圖 2 Kimi-2.6 在 Orbit 下單機 RL 后訓練信號

圖 3 Kimi-2.6 在 Orbit 下單機 RL 后訓練的顯存記錄

圖 2 顯示，Kimi-K2.6 的 rollout raw reward、eval accuracy 和 pass@k 曲線隨訓練推進而穩定上升。同時，train-rollout log-prob diff 穩定維持在一個區間。

對于一個對 log-prob 差異非常敏感的訓練范式來說，這些信號實際地證明了 Orbit 的 RL 后訓練閉環不僅在單機上把 1T 的模型上穩定能跑，同時跑對了且在測試任務上有效果。

單節點 DeepSeek V4 Flash 結果

在這組實驗中，DeepSeek V4 Flash 同樣運行在單臺 8×B200 上。訓練精度為 FP4 base + BF16 adapter，rollout 精度也使用相同的 FP4 base + BF16 adapter。

圖 4 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練信號

圖 5 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練的顯存記錄

從結果看，DeepSeek V4 Flash 在 100 step 以上的 RL 過程中同樣保持穩定：reward、eval、pass@k 整體上升，train-rollout log-prob diff 保持在穩定區間。這些趨勢跟在 Kimi-K2.6 上的實驗結果類似。

單節點 1.6T DeepSeek V4 Pro 初步驗證

除了 Kimi-K2.6 和 DeepSeek V4 Flash 兩組穩定有效的訓練結果，Orbit 還在 DeepSeek V4 Pro 1.6T 上完成初步驗證。

由于 DeepSeek V4 Pro base model 本身很強，實驗中用的 RL 訓練數據不能讓它漲點，因此該實驗更多是證明 Orbit 的系統路徑可以擴展到更大的 1.6T 級 MoE 模型。

圖 6 DeepSeek V4 Pro 在 Orbit 下單機 RL 后訓練信號和顯存記錄

在 1.6T DeepSeek V4 Pro 上，Orbit 完成了單節點 8×B200 的實驗，展示了穩定的 train-rollout log-prob diff 和可控穩定的 GPU 顯存。

這組結果證明Orbit 的系統上限可在單節點 8×B200 達到 1.6T 級別，展示了其設計有機會覆蓋更大的 MoE 模型區間。

從單節點萬億模型，到單卡更大模型

單節點跑通萬億模型 RL 反過來也說明了同樣的硬件預算就可以覆蓋更大的模型區間。

對萬億模型來說，這意味著原本可能需要多機協同的 RL 后訓練，可以被壓縮到單節點完成。對中小模型來說在 Orbit 的 adapter-first 框架下，單卡也有機會 RL 微調過去需要多卡才能支持的模型，或者在相同模型規模下支持更長 response、更大 batch、更高 rollout throughput 和更頻繁的更新。

因此，Orbit 的價值并不只在于「讓大模型變得可訓練」，也在于讓小模型的 RL 后訓練變得更容易。

技術細節

Active-expert-chunked dequantization:對于 MoE 模型來說，每個詞元只會激活部分 experts。Orbit 動態地將 router 選中的 experts 分組成固定大小的 batch，臨時反量化后執行 grouped GEMM，并在計算結束后釋放高精度權重。這樣既能利用 grouped matrix multiplication 的吞吐，又能將臨時顯存峰值限制在較小 chunk 內，避免大規模低精度 MoE 訓練中的 OOM。

Adapter-native async with double-buffered rollout:系統會為 adapter 維護版本號，并將新版本 adapter 流式寫入 inactive slot；當前 active slot 繼續服務 in-flight 請求，待新版本準備好后再原子切換。這樣可以減少 rollout bubble。在 Qwen3-4B + OFT、8×B200、TP=2 設置下，該設計帶來了 1.42 倍的單步時間優化和 44% 更高的 rollout throughput，同時 eval accuracy 保持不變。

DeepSeek V4 相關優化：Orbit 支持 Full-CUDA graph decoding、DeepGEMM、DeepEP V2，并使用 tilelang / Triton / CUDA 實現高效 attention backward 和 fusion kernels。根據 adapter 訓練的特點，Orbit 還設計了 bypass-base-weight-grad 的高效 GEMM backward 算子，避免為凍結 base 計算不必要的梯度。

結語

過去，大模型 RL 后訓練往往意味著更復雜的多機系統：更多節點、更重的權重同步和更復雜的系統協同。

Orbit 提供了另一條路徑：凍結低精度 base，只訓 adapter，讓訓練、rollout 和部署對齊，并把整模同步換成 adapter 同步。這讓萬億模型可以進入單節點訓練區間，更小模型也能在單卡或更有限的硬件上跑得更遠。

從 Kimi-K2.6 到 DeepSeek V4 Flash，再到 DeepSeek V4 Pro 1.6T，Orbit 展示和提供了一套面向大模型后訓練的高效框架。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.