網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

SFT別急著接RL！你的多模態(tài)大模型可能一直在“帶傷訓(xùn)練”

2026-05-17 11:40:49　來源: 量子位

北京舉報(bào)

分享至

PRISM團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI

SFT之后，直接上強(qiáng)化學(xué)習(xí)就夠了嗎？

小心，你做的可能不是“訓(xùn)練”，而是“還債”。

在多模態(tài)大模型（MLLM）的后訓(xùn)練中，行業(yè)內(nèi)長期遵循著一個(gè)看似天經(jīng)地義的范式：先SFT，再RL，兩步到位。

從DeepSeek到Qwen，從GRPO到DAPO，大家拼命優(yōu)化RL算法的穩(wěn)定性、采樣效率、獎(jiǎng)勵(lì)設(shè)計(jì)……卻幾乎沒人回頭看一眼：

SFT到RL之間，是不是少了點(diǎn)什么？

但來自香港科技大學(xué)（廣州）、南洋理工大學(xué)、清華大學(xué)等機(jī)構(gòu)的最新研究Beyond SFT-to-RL(PRISM)給出了一個(gè)令人不安的發(fā)現(xiàn)：

SFT不僅沒有為RL鋪好路，反而在悄悄挖坑。

被忽視的“隱形斷層”：SFT到底做了什么？

先看一組比較有意思的數(shù)據(jù)（7個(gè)主流多模態(tài)benchmark的平均準(zhǔn)確率）：

階段

Qwen3-VL-4B

Qwen3-VL-8B

原始Instruct模型

59.7%

63.3%

SFT之后

56.8% (-3.0)

58.1% (-5.2)

SFT → GRPO

61.8%

63.3%

可以看到，SFT之后，模型性能反而下降了。

8B 模型要更為明顯一點(diǎn)：SFT掉了5.2個(gè)點(diǎn)，辛辛苦苦做完強(qiáng)化學(xué)習(xí)，才剛剛爬回基線(baseline)的水平（63.3%→58.1%→63.3%）。

也就是說，你的RL可能一直在“還債”，而不是在“提升”。

而且這絕不是個(gè)例。

在當(dāng)下主流的強(qiáng)Instruct模型上（Qwen3-VL等），只要SFT數(shù)據(jù)帶入一個(gè)與基座不一致的新分布（比如目前最常見的GPT/Gemini蒸餾數(shù)據(jù)）幾乎都會(huì)觀察到類似的掉點(diǎn)。

原因很直接：這類基座已經(jīng)經(jīng)過大規(guī)模、精細(xì)的后訓(xùn)練，能力本就處于一個(gè)相對穩(wěn)定的高位。

SFT逼著模型去模仿一套新分布，結(jié)果就是用一個(gè)更“窄”的分布去覆蓋一個(gè)更“廣”的能力，舊能力被沖掉、新能力又沒真正學(xué)到。

換句話說，模型越強(qiáng)、越接近實(shí)際部署的水平，SFT引入的分布偏移就越成為RL之前一道繞不開的“暗坑”。

這恰恰是PRISM必須存在的理由。

這背后的核心問題，是后訓(xùn)練里早已被反復(fù)討論的分布漂移（Distributional Drift）。

但在多模態(tài)場景下，它有一套更隱蔽、也更難治的表現(xiàn)形式。

問題根源：SFT引入的兩類偏差

SFT在多模態(tài)場景下，會(huì)引入兩類容易被忽視的偏差：

偏差一：表面模仿——token級loss把過程和結(jié)果同權(quán)處理

SFT的優(yōu)化目標(biāo)是在均勻的token級loss下模仿演示軌跡。

它不區(qū)分“過程”和“結(jié)果”：對模型來說，正確的推理步驟和格式化的模板套話，權(quán)重是一樣的。

結(jié)果就是模型學(xué)會(huì)了“長得像”正確答案，而不是“想得出”正確答案。它學(xué)到的是表面模式，而非忠實(shí)的推理能力。

偏差二：感知漂移與推理漂移在同一個(gè)loss里被混起來

這是多模態(tài)場景特有的麻煩。與純文本模型不同，多模態(tài)模型的漂移不是單一的，而是兩種定性不同的失敗模式在同時(shí)發(fā)生：

感知漂移：視覺定位出錯(cuò)，模型“看錯(cuò)了”
推理漂移：邏輯推導(dǎo)失敗，模型“想歪了”

這兩種漂移的成因不同、糾正方式不同，但SFT用同一個(gè)token loss把它們一起擬合。

而當(dāng)RL階段時(shí)，模型已經(jīng)在感知和推理兩端同時(shí)偏移，即一個(gè)“既看不準(zhǔn)、又想不對”的模型。

現(xiàn)有RL算法為什么救不了？

從GRPO，到DAPO，再到GSPO，RL算法這一段時(shí)間確實(shí)一直在進(jìn)步。

但它們解決的是RL階段內(nèi)部的問題：采樣效率、梯度方差、策略崩潰。沒有任何一個(gè)RL算法回頭去修復(fù)SFT留下的分布偏差。

這里舉個(gè)不太恰當(dāng)?shù)睦樱哼@里就好比你參加百米短跑，SFT不僅沒有讓你往前走，反而把你向后推了50米。

現(xiàn)有的RL算法都在研究怎么跑得更快，但起點(diǎn)還在坑里，而PRISM要做的，就是在SFT和RL之間補(bǔ)上這一步，不僅把你拉回起跑線，還順勢往前推一把，讓RL只用跑50米就能沖線。

PRISM的核心方案：三階段流水線(Pipeline)

PRISM打破了傳統(tǒng)的兩階段范式，提出了SFT → 分布對齊 (PRISM) → RLVR的三階段流水線。

關(guān)鍵創(chuàng)新在于中間的分布對齊階段。

混合專家判別器（MoE Discriminator）

感知漂移和推理漂移是兩類成因不同的偏差，需要分開處理。

PRISM為此設(shè)計(jì)了一個(gè)混合專家判別器，由兩個(gè)專門化的專家組成：

感知專家D_v：專門評估視覺描述，測量模型的輸出是否忠實(shí)于圖像內(nèi)容，解決感知漂移
推理專家D_r：專門評估推理軌跡，測量邏輯推導(dǎo)是否一致有效，解決推理漂移

最終判別得分為兩者的加權(quán)組合：

r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

這種設(shè)計(jì)的好處是提供解耦的糾正信號，避免將兩種完全不同的誤差模式塞進(jìn)一個(gè)標(biāo)量里，導(dǎo)致梯度信號變得嘈雜。

黑盒蒸餾：不需要教師logits

PRISM的另一個(gè)優(yōu)雅之處在于：它是黑盒的。

很多蒸餾方法需要訪問教師模型的logits（內(nèi)部概率分布），這意味著你得有教師模型的完整權(quán)重。

但在實(shí)際場景中，最強(qiáng)的模型往往只提供API，你只能看到輸出，看不到內(nèi)部狀態(tài)。

PRISM完全在響應(yīng)級別工作：從強(qiáng)模型（Gemini 3 Flash）采集高質(zhì)量輸出作為正樣本，從當(dāng)前策略采樣作為負(fù)樣本，通過對抗博弈來對齊分布。

只要能調(diào)API，就能用PRISM。

一個(gè)重要的設(shè)計(jì)決策：去掉KL正則化

傳統(tǒng)RL訓(xùn)練通常會(huì)加一個(gè)KL散度約束，防止策略偏離初始模型太遠(yuǎn)。但PRISM有意識地去掉了這個(gè)約束。

道理很簡單，對齊階段的目的，就是糾正SFT帶來的分布偏差。再加一個(gè)把策略拉回SFT分布的KL約束，本身就和這個(gè)目標(biāo)相互矛盾。

分布演變：對齊真的把模型拉回到更好的起始點(diǎn)

下圖直觀地展示了分布的演變過程：從Base到Post-SFT再到Post-Alignment，無論是推理步數(shù)還是視覺描述項(xiàng)數(shù)的分布，都在逐步向監(jiān)督數(shù)據(jù)靠攏：

可以清晰看到：Post-SFT（藍(lán)線）與Supervision（黑線）仍有明顯偏差，而Post-Alignment（橙線）則大幅縮小了這一差距，且這種改進(jìn)在Post-RLVR（綠線）階段得以保持。

實(shí)驗(yàn)驗(yàn)證

在Qwen3-VL的4B和8B兩個(gè)規(guī)模上，PRISM搭配GRPO/DAPO/GSPO三種主流RL算法，在4個(gè)數(shù)學(xué)推理基準(zhǔn)（MathVista、MathVerse、MathVision、WeMath）和3個(gè)通用多模態(tài)基準(zhǔn)（MMMU、MMMU-Pro、HallusionBench）上全面驗(yàn)證了有效性。

下表是論文Table 1的主結(jié)果（灰色行為PRISM）：

從主表里能讀出幾個(gè)值得展開的信號：

(1)模型越強(qiáng)，PRISM的增益越大：8B拿到+6.0的平均提升，4B為+4.4，更強(qiáng)的基座被SFT“傷害”得更深，也因此從對齊中受益更多；

(2)PRISM在絕大多數(shù)子基準(zhǔn)上拿到了同基座下的最佳分?jǐn)?shù)（表中加粗），覆蓋數(shù)學(xué)推理與通用視覺理解兩類任務(wù)，這意味著對齊帶來的不是某個(gè)領(lǐng)域的局部增益，而是分布層面的全局校準(zhǔn)。

消融實(shí)驗(yàn)：每一步都不可或缺

從消融表（論文Table 2）里能直接讀出每個(gè)組件的貢獻(xiàn)：

(1)去掉SFT階段直接掉16.8個(gè)點(diǎn)，說明SFT作為“冷啟動(dòng)”仍不可替代，PRISM不是要取代SFT，而是修復(fù)它帶來的副作用；

(2)去掉對齊階段掉4.4個(gè)點(diǎn)，與4B主表的提升幅度完全對應(yīng)，是分布對齊效果的直接證據(jù)；

(3)單個(gè)4B判別器替代MoE掉3.4，僅文本判別器掉3.9。

后者尤為有趣：沒有視覺感知的判別器只能捕捉表面模式（格式、模板、風(fēng)格），導(dǎo)致策略學(xué)會(huì)了“鸚鵡學(xué)舌式對齊”，聽起來像監(jiān)督數(shù)據(jù)，但實(shí)際上看不到所描述的內(nèi)容。

結(jié)語

PRISM的出現(xiàn)，給多模態(tài)大模型的后訓(xùn)練范式打上了一個(gè)“補(bǔ)丁”，但這個(gè)補(bǔ)丁可能比主程序還重要。

SFT 和RL之間不是無縫銜接，而是存在一道被長期忽略的分布斷層。RL算法再強(qiáng)，如果起點(diǎn)就歪了，跑得越快只會(huì)偏得越遠(yuǎn)。

讓多模態(tài)大模型在推理任務(wù)上再進(jìn)一步，未必要靠更復(fù)雜的RL算法或更多訓(xùn)練數(shù)據(jù)。

把SFT和RL之間這一步對齊補(bǔ)上，模型自然會(huì)跑得更穩(wěn)。

Arxiv：https://arxiv.org/abs/2604.28123

Github：https://github.com/XIAO4579/PRISM

合作詳詢：swang886@connect.hkust-gz.edu.cn

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.