<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      SFT別急著接RL!你的多模態(tài)大模型可能一直在“帶傷訓(xùn)練”

      0
      分享至

      PRISM團(tuán)隊(duì) 投稿
      量子位 | 公眾號 QbitAI

      SFT之后,直接上強(qiáng)化學(xué)習(xí)就夠了嗎?

      小心,你做的可能不是“訓(xùn)練”,而是“還債”。

      在多模態(tài)大模型(MLLM)的后訓(xùn)練中,行業(yè)內(nèi)長期遵循著一個(gè)看似天經(jīng)地義的范式:先SFT,再RL,兩步到位

      從DeepSeek到Qwen,從GRPO到DAPO,大家拼命優(yōu)化RL算法的穩(wěn)定性、采樣效率、獎(jiǎng)勵(lì)設(shè)計(jì)……卻幾乎沒人回頭看一眼:

      SFT到RL之間,是不是少了點(diǎn)什么?

      但來自香港科技大學(xué)(廣州)、南洋理工大學(xué)、清華大學(xué)等機(jī)構(gòu)的最新研究Beyond SFT-to-RL(PRISM)給出了一個(gè)令人不安的發(fā)現(xiàn):

      SFT不僅沒有為RL鋪好路,反而在悄悄挖坑。



      被忽視的“隱形斷層”:SFT到底做了什么?

      先看一組比較有意思的數(shù)據(jù)(7個(gè)主流多模態(tài)benchmark的平均準(zhǔn)確率):

      階段

      Qwen3-VL-4B

      Qwen3-VL-8B

      原始Instruct模型

      59.7%

      63.3%

      SFT之后

      56.8% (-3.0)

      58.1% (-5.2)

      SFT → GRPO

      61.8%

      63.3%

      可以看到,SFT之后,模型性能反而下降了

      8B 模型要更為明顯一點(diǎn):SFT掉了5.2個(gè)點(diǎn),辛辛苦苦做完強(qiáng)化學(xué)習(xí),才剛剛爬回基線(baseline)的水平(63.3%→58.1%→63.3%)。

      也就是說,你的RL可能一直在“還債”,而不是在“提升”

      而且這絕不是個(gè)例。

      在當(dāng)下主流的強(qiáng)Instruct模型上(Qwen3-VL等),只要SFT數(shù)據(jù)帶入一個(gè)與基座不一致的新分布(比如目前最常見的GPT/Gemini蒸餾數(shù)據(jù))幾乎都會(huì)觀察到類似的掉點(diǎn)。

      原因很直接:這類基座已經(jīng)經(jīng)過大規(guī)模、精細(xì)的后訓(xùn)練,能力本就處于一個(gè)相對穩(wěn)定的高位。

      SFT逼著模型去模仿一套新分布,結(jié)果就是用一個(gè)更“窄”的分布去覆蓋一個(gè)更“廣”的能力,舊能力被沖掉、新能力又沒真正學(xué)到。

      換句話說,模型越強(qiáng)、越接近實(shí)際部署的水平,SFT引入的分布偏移就越成為RL之前一道繞不開的“暗坑”

      這恰恰是PRISM必須存在的理由。

      這背后的核心問題,是后訓(xùn)練里早已被反復(fù)討論的分布漂移(Distributional Drift)。

      但在多模態(tài)場景下,它有一套更隱蔽、也更難治的表現(xiàn)形式。

      問題根源:SFT引入的兩類偏差

      SFT在多模態(tài)場景下,會(huì)引入兩類容易被忽視的偏差:

      偏差一:表面模仿——token級loss把過程和結(jié)果同權(quán)處理

      SFT的優(yōu)化目標(biāo)是在均勻的token級loss下模仿演示軌跡。

      它不區(qū)分“過程”和“結(jié)果”:對模型來說,正確的推理步驟和格式化的模板套話,權(quán)重是一樣的。

      結(jié)果就是模型學(xué)會(huì)了“長得像”正確答案,而不是“想得出”正確答案。 它學(xué)到的是表面模式,而非忠實(shí)的推理能力。

      偏差二:感知漂移與推理漂移在同一個(gè)loss里被混起來

      這是多模態(tài)場景特有的麻煩。與純文本模型不同,多模態(tài)模型的漂移不是單一的,而是兩種定性不同的失敗模式在同時(shí)發(fā)生:

      • 感知漂移:視覺定位出錯(cuò),模型“看錯(cuò)了”
      • 推理漂移:邏輯推導(dǎo)失敗,模型“想歪了”

      這兩種漂移的成因不同、糾正方式不同,但SFT用同一個(gè)token loss把它們一起擬合。

      而當(dāng)RL階段時(shí),模型已經(jīng)在感知和推理兩端同時(shí)偏移,即一個(gè)“既看不準(zhǔn)、又想不對”的模型。

      現(xiàn)有RL算法為什么救不了?

      從GRPO,到DAPO,再到GSPO,RL算法這一段時(shí)間確實(shí)一直在進(jìn)步。

      但它們解決的是RL階段內(nèi)部的問題:采樣效率、梯度方差、策略崩潰。沒有任何一個(gè)RL算法回頭去修復(fù)SFT留下的分布偏差

      這里舉個(gè)不太恰當(dāng)?shù)睦樱哼@里就好比你參加百米短跑,SFT不僅沒有讓你往前走,反而把你向后推了50米。

      現(xiàn)有的RL算法都在研究怎么跑得更快,但起點(diǎn)還在坑里,而PRISM要做的,就是在SFT和RL之間補(bǔ)上這一步,不僅把你拉回起跑線,還順勢往前推一把,讓RL只用跑50米就能沖線

      PRISM的核心方案:三階段流水線(Pipeline)

      PRISM打破了傳統(tǒng)的兩階段范式,提出了SFT → 分布對齊 (PRISM) → RLVR的三階段流水線。

      關(guān)鍵創(chuàng)新在于中間的分布對齊階段

      混合專家判別器(MoE Discriminator)

      感知漂移和推理漂移是兩類成因不同的偏差,需要分開處理。

      PRISM為此設(shè)計(jì)了一個(gè)混合專家判別器,由兩個(gè)專門化的專家組成:

      • 感知專家D_v:專門評估視覺描述,測量模型的輸出是否忠實(shí)于圖像內(nèi)容,解決感知漂移
      • 推理專家D_r:專門評估推理軌跡,測量邏輯推導(dǎo)是否一致有效,解決推理漂移

      最終判別得分為兩者的加權(quán)組合:

      r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

      這種設(shè)計(jì)的好處是提供解耦的糾正信號,避免將兩種完全不同的誤差模式塞進(jìn)一個(gè)標(biāo)量里,導(dǎo)致梯度信號變得嘈雜。



      黑盒蒸餾:不需要教師logits

      PRISM的另一個(gè)優(yōu)雅之處在于:它是黑盒的。

      很多蒸餾方法需要訪問教師模型的logits(內(nèi)部概率分布),這意味著你得有教師模型的完整權(quán)重。

      但在實(shí)際場景中,最強(qiáng)的模型往往只提供API,你只能看到輸出,看不到內(nèi)部狀態(tài)。

      PRISM完全在響應(yīng)級別工作:從強(qiáng)模型(Gemini 3 Flash)采集高質(zhì)量輸出作為正樣本,從當(dāng)前策略采樣作為負(fù)樣本,通過對抗博弈來對齊分布。

      只要能調(diào)API,就能用PRISM。

      一個(gè)重要的設(shè)計(jì)決策:去掉KL正則化

      傳統(tǒng)RL訓(xùn)練通常會(huì)加一個(gè)KL散度約束,防止策略偏離初始模型太遠(yuǎn)。但PRISM有意識地去掉了這個(gè)約束

      道理很簡單,對齊階段的目的,就是糾正SFT帶來的分布偏差。再加一個(gè)把策略拉回SFT分布的KL約束,本身就和這個(gè)目標(biāo)相互矛盾。

      分布演變:對齊真的把模型拉回到更好的起始點(diǎn)

      下圖直觀地展示了分布的演變過程:從Base到Post-SFT再到Post-Alignment,無論是推理步數(shù)還是視覺描述項(xiàng)數(shù)的分布,都在逐步向監(jiān)督數(shù)據(jù)靠攏:



      可以清晰看到:Post-SFT(藍(lán)線)與Supervision(黑線)仍有明顯偏差,而Post-Alignment(橙線)則大幅縮小了這一差距,且這種改進(jìn)在Post-RLVR(綠線)階段得以保持。

      實(shí)驗(yàn)驗(yàn)證

      在Qwen3-VL的4B和8B兩個(gè)規(guī)模上,PRISM搭配GRPO/DAPO/GSPO三種主流RL算法,在4個(gè)數(shù)學(xué)推理基準(zhǔn)(MathVista、MathVerse、MathVision、WeMath)3個(gè)通用多模態(tài)基準(zhǔn)(MMMU、MMMU-Pro、HallusionBench)上全面驗(yàn)證了有效性。

      下表是論文Table 1的主結(jié)果(灰色行為PRISM):



      從主表里能讀出幾個(gè)值得展開的信號:

      (1)模型越強(qiáng),PRISM的增益越大:8B拿到+6.0的平均提升,4B為+4.4,更強(qiáng)的基座被SFT“傷害”得更深,也因此從對齊中受益更多;

      (2)PRISM在絕大多數(shù)子基準(zhǔn)上拿到了同基座下的最佳分?jǐn)?shù)(表中加粗),覆蓋數(shù)學(xué)推理與通用視覺理解兩類任務(wù),這意味著對齊帶來的不是某個(gè)領(lǐng)域的局部增益,而是分布層面的全局校準(zhǔn)

      消融實(shí)驗(yàn):每一步都不可或缺



      從消融表(論文Table 2)里能直接讀出每個(gè)組件的貢獻(xiàn):

      (1)去掉SFT階段直接掉16.8個(gè)點(diǎn),說明SFT作為“冷啟動(dòng)”仍不可替代,PRISM不是要取代SFT,而是修復(fù)它帶來的副作用;

      (2)去掉對齊階段掉4.4個(gè)點(diǎn),與4B主表的提升幅度完全對應(yīng),是分布對齊效果的直接證據(jù);

      (3)單個(gè)4B判別器替代MoE掉3.4,僅文本判別器掉3.9

      后者尤為有趣:沒有視覺感知的判別器只能捕捉表面模式(格式、模板、風(fēng)格),導(dǎo)致策略學(xué)會(huì)了“鸚鵡學(xué)舌式對齊”,聽起來像監(jiān)督數(shù)據(jù),但實(shí)際上看不到所描述的內(nèi)容。

      結(jié)語

      PRISM的出現(xiàn),給多模態(tài)大模型的后訓(xùn)練范式打上了一個(gè)“補(bǔ)丁”,但這個(gè)補(bǔ)丁可能比主程序還重要。

      SFT 和RL之間不是無縫銜接,而是存在一道被長期忽略的分布斷層。RL算法再強(qiáng),如果起點(diǎn)就歪了,跑得越快只會(huì)偏得越遠(yuǎn)。

      讓多模態(tài)大模型在推理任務(wù)上再進(jìn)一步,未必要靠更復(fù)雜的RL算法或更多訓(xùn)練數(shù)據(jù)。

      把SFT和RL之間這一步對齊補(bǔ)上,模型自然會(huì)跑得更穩(wěn)。

      Arxiv:https://arxiv.org/abs/2604.28123

      Github:https://github.com/XIAO4579/PRISM

      合作詳詢:swang886@connect.hkust-gz.edu.cn

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      老黃終于攤牌,公開回應(yīng)天賜媽媽的病情,自己盡所能陪伴,祝福!

      老黃終于攤牌,公開回應(yīng)天賜媽媽的病情,自己盡所能陪伴,祝福!

      觀察鑒娛
      2026-05-16 09:31:56
      沖在反華第一線的菲律賓,第一個(gè)意識到中美的風(fēng)向變了

      沖在反華第一線的菲律賓,第一個(gè)意識到中美的風(fēng)向變了

      鍋鍋愛歷史
      2026-05-17 11:34:31
      彈劾條款通過,菲防長下令,杜特爾特女兒噩夢降臨

      彈劾條款通過,菲防長下令,杜特爾特女兒噩夢降臨

      一曲一場談
      2026-05-17 04:25:20
      坐標(biāo)上海,30歲高薪程序員寧愿花7.2萬租房也不買房,評論區(qū)炸鍋

      坐標(biāo)上海,30歲高薪程序員寧愿花7.2萬租房也不買房,評論區(qū)炸鍋

      慧翔百科
      2026-05-15 08:41:18
      他們是純正漢族人,人口超過1億,說的正宗漢語,我們卻聽不懂

      他們是純正漢族人,人口超過1億,說的正宗漢語,我們卻聽不懂

      蔣南強(qiáng)讀歷史
      2026-05-17 07:25:07
      黃仁勛又來了后海,沒帶保鏢也沒發(fā)通稿,一杯白酒喝出人情味

      黃仁勛又來了后海,沒帶保鏢也沒發(fā)通稿,一杯白酒喝出人情味

      阿廢冷眼觀察所
      2026-05-17 11:08:25
      直到花彩香懷上胡三元的孩子,才懂米蘭被玷污后遠(yuǎn)嫁海外多明智

      直到花彩香懷上胡三元的孩子,才懂米蘭被玷污后遠(yuǎn)嫁海外多明智

      慢半拍sir
      2026-05-16 21:52:33
      曼聯(lián)兩天內(nèi)官宣卡里克轉(zhuǎn)正!英超末輪或用青訓(xùn)小妖,一人預(yù)定首發(fā)

      曼聯(lián)兩天內(nèi)官宣卡里克轉(zhuǎn)正!英超末輪或用青訓(xùn)小妖,一人預(yù)定首發(fā)

      羅米的曼聯(lián)博客
      2026-05-17 10:32:17
      羅貫中瞞了我們700年!赤壁之戰(zhàn)最大功臣不是周瑜諸葛亮,而是他

      羅貫中瞞了我們700年!赤壁之戰(zhàn)最大功臣不是周瑜諸葛亮,而是他

      春秋硯
      2026-05-17 12:20:12
      泰山痛苦過后的幸福煩惱!二次轉(zhuǎn)會(huì),馬德魯加換不換?

      泰山痛苦過后的幸福煩惱!二次轉(zhuǎn)會(huì),馬德魯加換不換?

      足球報(bào)
      2026-05-17 11:39:50
      伊朗也有司馬南:熒幕上罵美國是“大撒旦”,私下拿綠卡喝星巴克

      伊朗也有司馬南:熒幕上罵美國是“大撒旦”,私下拿綠卡喝星巴克

      壹家言
      2026-04-17 10:43:11
      離譜,特斯拉 Model Y 居然漲價(jià)了!

      離譜,特斯拉 Model Y 居然漲價(jià)了!

      花果科技
      2026-05-17 08:51:49
      中超第12輪積分榜:成都一路長虹14分領(lǐng)跑,西南F3重新合體

      中超第12輪積分榜:成都一路長虹14分領(lǐng)跑,西南F3重新合體

      懂球帝
      2026-05-16 22:13:40
      特朗普訪華第二天收到3個(gè)噩耗,本來想轉(zhuǎn)移注意力,沒想到翻車了

      特朗普訪華第二天收到3個(gè)噩耗,本來想轉(zhuǎn)移注意力,沒想到翻車了

      時(shí)尚的弄潮
      2026-05-17 11:10:45
      如果龍珠變成第一視角,壓迫感直接拉滿,只有真愛粉才能全部猜對

      如果龍珠變成第一視角,壓迫感直接拉滿,只有真愛粉才能全部猜對

      動(dòng)漫小天堂
      2026-05-17 12:05:19
      平壤街頭那些“國產(chǎn)車”的秘密:2002年以后,再?zèng)]造出一輛

      平壤街頭那些“國產(chǎn)車”的秘密:2002年以后,再?zèng)]造出一輛

      百姓識天下
      2026-04-20 08:43:49
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

      文史達(dá)觀
      2026-05-13 11:29:24
      中超形勢:蓉城14分領(lǐng)跑 衛(wèi)冕冠軍距降級區(qū)僅3分 下輪3場重磅對決

      中超形勢:蓉城14分領(lǐng)跑 衛(wèi)冕冠軍距降級區(qū)僅3分 下輪3場重磅對決

      我愛英超
      2026-05-16 22:00:43
      《敢死隊(duì)》官宣全女版,但有個(gè)問題

      《敢死隊(duì)》官宣全女版,但有個(gè)問題

      熱搜摘要官
      2026-05-16 00:21:09
      越來越多的縣城,只剩下體制內(nèi)經(jīng)濟(jì)了!

      越來越多的縣城,只剩下體制內(nèi)經(jīng)濟(jì)了!

      黯泉
      2026-05-13 11:15:55
      2026-05-17 12:55:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12638文章數(shù) 176464關(guān)注度
      往期回顧 全部

      科技要聞

      三大運(yùn)營商即將免月租?多方回應(yīng)

      頭條要聞

      福克斯主播在北京非機(jī)動(dòng)車道出鏡 美網(wǎng)友:簡直是恥辱

      頭條要聞

      福克斯主播在北京非機(jī)動(dòng)車道出鏡 美網(wǎng)友:簡直是恥辱

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      《主角》劉浩存上線,死別猝不及防

      財(cái)經(jīng)要聞

      OpenAI和蘋果的“聯(lián)盟”即將破裂

      汽車要聞

      大五座SUV卷王!樂道L80上市 租電15.68萬元起

      態(tài)度原創(chuàng)

      教育
      家居
      數(shù)碼
      親子
      時(shí)尚

      教育要聞

      軍事英語!快速記單詞,趣味學(xué)英語,你還知道哪些?

      家居要聞

      110㎡淡而有致的生活表達(dá)

      數(shù)碼要聞

      華碩ROG魔盒Pro?Max?電競路由器上架:雙萬兆,低至3199元

      親子要聞

      追問daily | 點(diǎn)外賣可緩解抑郁癥狀;幼兒能記住子宮內(nèi)的蔬菜氣味

      伊姐周六熱推:電視劇《雨霖鈴》;電視劇《黑夜告白》......

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩人妻无码网站| 东京热大轮奸| 狠狠色噜噜奇米777me第四| 婷婷丁香五月亚洲| 国产不卡免费一区二区| 精品素人AV无码不卡在线观看| 久久99精品国产麻豆婷婷| 国产在线观看不卡免费| 欧美又粗又大XXXXBBBB疯狂| 亚洲精品二区在线播放| 久久久精品2019免费观看| 精品va在线观看| 国产系列高清精品第一页| 久久精品国产99国产精品免费看| 亚洲vα中文字幕123| 亚洲精品日本中文字幕| 野花香视频在线观看免费高清版 | 久久韩国三级日本三级| 中文性爱片| 亚洲国产精品久久无人区| 国产精品18| 精品亚洲国产成人| 国产11一12周岁女毛片| 久久久久99精品成人片试看| 九九热视频在线观看一区| 日韩精品国产二区三区| 2021国产精品一卡2卡三卡4卡| 国产精品一区二区三区蜜臀| 中文字幕欧美日韩在线不卡| 中文字幕亚洲一区二区va在线| 色噜噜狠狠一区二区三区果冻| 99在线免费观看| 视频一区视频二区视频三| 中文字幕无字幕加勒比| 国产精品成人av大片| 无码专区一va亚洲v专区在线| 国产成人精品视频网站| jizz喷水| 中文字幕久久久久人妻中出 | 无码伊人久久大杳蕉中文无码| 久久人妻精品国产|