PRISM團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI
SFT之后,直接上強(qiáng)化學(xué)習(xí)就夠了嗎?
小心,你做的可能不是“訓(xùn)練”,而是“還債”。
在多模態(tài)大模型(MLLM)的后訓(xùn)練中,行業(yè)內(nèi)長期遵循著一個(gè)看似天經(jīng)地義的范式:先SFT,再RL,兩步到位。
從DeepSeek到Qwen,從GRPO到DAPO,大家拼命優(yōu)化RL算法的穩(wěn)定性、采樣效率、獎(jiǎng)勵(lì)設(shè)計(jì)……卻幾乎沒人回頭看一眼:
SFT到RL之間,是不是少了點(diǎn)什么?
但來自香港科技大學(xué)(廣州)、南洋理工大學(xué)、清華大學(xué)等機(jī)構(gòu)的最新研究Beyond SFT-to-RL(PRISM)給出了一個(gè)令人不安的發(fā)現(xiàn):
SFT不僅沒有為RL鋪好路,反而在悄悄挖坑。
![]()
被忽視的“隱形斷層”:SFT到底做了什么?
先看一組比較有意思的數(shù)據(jù)(7個(gè)主流多模態(tài)benchmark的平均準(zhǔn)確率):
階段
Qwen3-VL-4B
Qwen3-VL-8B
原始Instruct模型
59.7%
63.3%
SFT之后
56.8% (-3.0)
58.1% (-5.2)
SFT → GRPO
61.8%
63.3%
可以看到,SFT之后,模型性能反而下降了。
8B 模型要更為明顯一點(diǎn):SFT掉了5.2個(gè)點(diǎn),辛辛苦苦做完強(qiáng)化學(xué)習(xí),才剛剛爬回基線(baseline)的水平(63.3%→58.1%→63.3%)。
也就是說,你的RL可能一直在“還債”,而不是在“提升”。
而且這絕不是個(gè)例。
在當(dāng)下主流的強(qiáng)Instruct模型上(Qwen3-VL等),只要SFT數(shù)據(jù)帶入一個(gè)與基座不一致的新分布(比如目前最常見的GPT/Gemini蒸餾數(shù)據(jù))幾乎都會(huì)觀察到類似的掉點(diǎn)。
原因很直接:這類基座已經(jīng)經(jīng)過大規(guī)模、精細(xì)的后訓(xùn)練,能力本就處于一個(gè)相對穩(wěn)定的高位。
SFT逼著模型去模仿一套新分布,結(jié)果就是用一個(gè)更“窄”的分布去覆蓋一個(gè)更“廣”的能力,舊能力被沖掉、新能力又沒真正學(xué)到。
換句話說,模型越強(qiáng)、越接近實(shí)際部署的水平,SFT引入的分布偏移就越成為RL之前一道繞不開的“暗坑”。
這恰恰是PRISM必須存在的理由。
這背后的核心問題,是后訓(xùn)練里早已被反復(fù)討論的分布漂移(Distributional Drift)。
但在多模態(tài)場景下,它有一套更隱蔽、也更難治的表現(xiàn)形式。
問題根源:SFT引入的兩類偏差
SFT在多模態(tài)場景下,會(huì)引入兩類容易被忽視的偏差:
偏差一:表面模仿——token級loss把過程和結(jié)果同權(quán)處理
SFT的優(yōu)化目標(biāo)是在均勻的token級loss下模仿演示軌跡。
它不區(qū)分“過程”和“結(jié)果”:對模型來說,正確的推理步驟和格式化的模板套話,權(quán)重是一樣的。
結(jié)果就是模型學(xué)會(huì)了“長得像”正確答案,而不是“想得出”正確答案。 它學(xué)到的是表面模式,而非忠實(shí)的推理能力。
偏差二:感知漂移與推理漂移在同一個(gè)loss里被混起來
這是多模態(tài)場景特有的麻煩。與純文本模型不同,多模態(tài)模型的漂移不是單一的,而是兩種定性不同的失敗模式在同時(shí)發(fā)生:
- 感知漂移:視覺定位出錯(cuò),模型“看錯(cuò)了”
- 推理漂移:邏輯推導(dǎo)失敗,模型“想歪了”
這兩種漂移的成因不同、糾正方式不同,但SFT用同一個(gè)token loss把它們一起擬合。
而當(dāng)RL階段時(shí),模型已經(jīng)在感知和推理兩端同時(shí)偏移,即一個(gè)“既看不準(zhǔn)、又想不對”的模型。
現(xiàn)有RL算法為什么救不了?
從GRPO,到DAPO,再到GSPO,RL算法這一段時(shí)間確實(shí)一直在進(jìn)步。
但它們解決的是RL階段內(nèi)部的問題:采樣效率、梯度方差、策略崩潰。沒有任何一個(gè)RL算法回頭去修復(fù)SFT留下的分布偏差。
這里舉個(gè)不太恰當(dāng)?shù)睦樱哼@里就好比你參加百米短跑,SFT不僅沒有讓你往前走,反而把你向后推了50米。
現(xiàn)有的RL算法都在研究怎么跑得更快,但起點(diǎn)還在坑里,而PRISM要做的,就是在SFT和RL之間補(bǔ)上這一步,不僅把你拉回起跑線,還順勢往前推一把,讓RL只用跑50米就能沖線。
PRISM的核心方案:三階段流水線(Pipeline)
PRISM打破了傳統(tǒng)的兩階段范式,提出了SFT → 分布對齊 (PRISM) → RLVR的三階段流水線。
關(guān)鍵創(chuàng)新在于中間的分布對齊階段。
混合專家判別器(MoE Discriminator)
感知漂移和推理漂移是兩類成因不同的偏差,需要分開處理。
PRISM為此設(shè)計(jì)了一個(gè)混合專家判別器,由兩個(gè)專門化的專家組成:
- 感知專家D_v:專門評估視覺描述,測量模型的輸出是否忠實(shí)于圖像內(nèi)容,解決感知漂移
- 推理專家D_r:專門評估推理軌跡,測量邏輯推導(dǎo)是否一致有效,解決推理漂移
最終判別得分為兩者的加權(quán)組合:
r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)
這種設(shè)計(jì)的好處是提供解耦的糾正信號,避免將兩種完全不同的誤差模式塞進(jìn)一個(gè)標(biāo)量里,導(dǎo)致梯度信號變得嘈雜。
![]()
黑盒蒸餾:不需要教師logits
PRISM的另一個(gè)優(yōu)雅之處在于:它是黑盒的。
很多蒸餾方法需要訪問教師模型的logits(內(nèi)部概率分布),這意味著你得有教師模型的完整權(quán)重。
但在實(shí)際場景中,最強(qiáng)的模型往往只提供API,你只能看到輸出,看不到內(nèi)部狀態(tài)。
PRISM完全在響應(yīng)級別工作:從強(qiáng)模型(Gemini 3 Flash)采集高質(zhì)量輸出作為正樣本,從當(dāng)前策略采樣作為負(fù)樣本,通過對抗博弈來對齊分布。
只要能調(diào)API,就能用PRISM。
一個(gè)重要的設(shè)計(jì)決策:去掉KL正則化
傳統(tǒng)RL訓(xùn)練通常會(huì)加一個(gè)KL散度約束,防止策略偏離初始模型太遠(yuǎn)。但PRISM有意識地去掉了這個(gè)約束。
道理很簡單,對齊階段的目的,就是糾正SFT帶來的分布偏差。再加一個(gè)把策略拉回SFT分布的KL約束,本身就和這個(gè)目標(biāo)相互矛盾。
分布演變:對齊真的把模型拉回到更好的起始點(diǎn)
下圖直觀地展示了分布的演變過程:從Base到Post-SFT再到Post-Alignment,無論是推理步數(shù)還是視覺描述項(xiàng)數(shù)的分布,都在逐步向監(jiān)督數(shù)據(jù)靠攏:
![]()
可以清晰看到:Post-SFT(藍(lán)線)與Supervision(黑線)仍有明顯偏差,而Post-Alignment(橙線)則大幅縮小了這一差距,且這種改進(jìn)在Post-RLVR(綠線)階段得以保持。
實(shí)驗(yàn)驗(yàn)證
在Qwen3-VL的4B和8B兩個(gè)規(guī)模上,PRISM搭配GRPO/DAPO/GSPO三種主流RL算法,在4個(gè)數(shù)學(xué)推理基準(zhǔn)(MathVista、MathVerse、MathVision、WeMath)和3個(gè)通用多模態(tài)基準(zhǔn)(MMMU、MMMU-Pro、HallusionBench)上全面驗(yàn)證了有效性。
下表是論文Table 1的主結(jié)果(灰色行為PRISM):
![]()
從主表里能讀出幾個(gè)值得展開的信號:
(1)模型越強(qiáng),PRISM的增益越大:8B拿到+6.0的平均提升,4B為+4.4,更強(qiáng)的基座被SFT“傷害”得更深,也因此從對齊中受益更多;
(2)PRISM在絕大多數(shù)子基準(zhǔn)上拿到了同基座下的最佳分?jǐn)?shù)(表中加粗),覆蓋數(shù)學(xué)推理與通用視覺理解兩類任務(wù),這意味著對齊帶來的不是某個(gè)領(lǐng)域的局部增益,而是分布層面的全局校準(zhǔn)。
消融實(shí)驗(yàn):每一步都不可或缺
![]()
從消融表(論文Table 2)里能直接讀出每個(gè)組件的貢獻(xiàn):
(1)去掉SFT階段直接掉16.8個(gè)點(diǎn),說明SFT作為“冷啟動(dòng)”仍不可替代,PRISM不是要取代SFT,而是修復(fù)它帶來的副作用;
(2)去掉對齊階段掉4.4個(gè)點(diǎn),與4B主表的提升幅度完全對應(yīng),是分布對齊效果的直接證據(jù);
(3)單個(gè)4B判別器替代MoE掉3.4,僅文本判別器掉3.9。
后者尤為有趣:沒有視覺感知的判別器只能捕捉表面模式(格式、模板、風(fēng)格),導(dǎo)致策略學(xué)會(huì)了“鸚鵡學(xué)舌式對齊”,聽起來像監(jiān)督數(shù)據(jù),但實(shí)際上看不到所描述的內(nèi)容。
結(jié)語
PRISM的出現(xiàn),給多模態(tài)大模型的后訓(xùn)練范式打上了一個(gè)“補(bǔ)丁”,但這個(gè)補(bǔ)丁可能比主程序還重要。
SFT 和RL之間不是無縫銜接,而是存在一道被長期忽略的分布斷層。RL算法再強(qiáng),如果起點(diǎn)就歪了,跑得越快只會(huì)偏得越遠(yuǎn)。
讓多模態(tài)大模型在推理任務(wù)上再進(jìn)一步,未必要靠更復(fù)雜的RL算法或更多訓(xùn)練數(shù)據(jù)。
把SFT和RL之間這一步對齊補(bǔ)上,模型自然會(huì)跑得更穩(wěn)。
Arxiv:https://arxiv.org/abs/2604.28123
Github:https://github.com/XIAO4579/PRISM
合作詳詢:swang886@connect.hkust-gz.edu.cn
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.