<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      重新審視SFT的泛化能力:優化動態、數據與模型能力的條件性分析

      0
      分享至


      SFT的泛化并非算法本身的屬性,而是同時依賴于優化、數據、基模型能力的條件屬性。

      在大模型后訓練領域,一個被廣泛流傳的敘事是:“監督微調(SFT)傾向于記憶,而強化學習(RL)實現泛化。” 這一觀點自Chu et al. 在合成任務上的實證研究后逐漸成為主流認知,并在后續的數學推理等場景中也被驗證(Huan et al.)。這一敘事極大地影響了學術界對后訓練方法的認識,促使研究者將注意力集中于理解RL相對于SFT的優勢,或是如何改進SFT的目標函數。

      然而,上海人工智能實驗室、上海交通大學、中國科學技術大學聯合發布的研究《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》對這一敘事的嚴謹性提出了質疑。該研究指出,“SFT是否泛化”這一問題本身是欠定義的(under-specified)。泛化并非SFT訓練目標的固有屬性,而是一個條件性現象,受到優化動態(optimization dynamics)、訓練數據(training data)以及基模型能力(model capability)三個因素的共同塑造。

      本文將梳理該論文的核心發現,為相關研究者和工程師提供完整的認知框架。


      論文信息

      論文標題:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

      作者:Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

      機構:上海人工智能實驗室、上海交通大學、中國科學技術大學

      arxiv鏈接:https://arxiv.org/abs/2604.06628

      github鏈接:

      https://github.com/Nebularaid2000/rethink_sft_generalization

      huggingface鏈接:

      https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

      01


      優化動態:表觀的 “不泛化”可能源于優化不充分

      1.1 現象復現與擴展觀察

      研究團隊首先在較短訓練輪次的設定下復現了先前研究的結論:使用20k包含長思維鏈的數學數據對Qwen3-14B-Base進行1個epoch的微調后,模型在分布內(ID)數學任務上獲得了顯著提升(如AIME24提升29.7%),但在分布外(OOD)任務上的收益有限甚至為負(科學推理僅提升2.9%,指令遵循降低9.8%)。這一結果與Huan et al. 的發現高度一致。


      然而,當訓練輪次延長至8個epoch并持續監控性能軌跡時,研究者觀察到了一個關鍵特征:跨領域性能呈現 “先降后升”(dip-and-recovery)的非單調軌跡。具體而言,在訓練初期,OOD任務性能會經歷明顯下降;但隨著訓練的持續深入,性能慢慢恢復并最終超越基模型的初始水平。

      這一現象在Qwen3-14B-Base、Qwen3-8B-Base、InternLM2.5-20B-Base等多個模型上均得到驗證,且在使用DeepSeek-R1生成的數據時同樣成立,表明該動力學特征并非特定模型或數據源的產物。


      1.2 回復長度作為優化階段的診斷指標

      為理解上述動力學的內在機制,研究者同步追蹤了模型回復長度(response length)在訓練過程中的變化。結果顯示,回復長度呈現”先升后降”的軌跡:訓練初期急劇攀升,隨后逐漸回落并趨于穩定。

      這一現象與性能變化存在對應關系:回復較長的checkpoint往往對應較弱的性能表現,而回復趨于精煉時性能也隨之恢復。研究者對此的解釋是:在長思維鏈SFT的早期階段,模型首先習得的是一種顯著的表層模式——生成冗長的類思考軌跡,而尚未可靠地習得更精細的推理模式(如問題分解、回溯、自我驗證等)。這種淺層模仿既限制了推理任務的遷移,也因冗長輸出和偶發的格式錯誤而影響指令遵循等通用能力。隨著優化的持續,模型逐漸習得更具遷移性的程序化模式和更精煉的語言風格,表現為更短、更有針對性的輸出以及更強的跨領域泛化。

      這一點給我們帶來的啟示是:回復長度可作為長思維鏈SFT優化進程的粗粒度診斷指標。當回復長度仍在顯著縮短時,即使分布內任務的性能已趨于合理,模型通常也尚未完成充分優化。

      1.3 重復曝光優于單次遍歷

      長思維鏈數據的擬合難度引出一個實踐問題:在固定的計算預算下,是應在小數據集上多輪訓練,還是在大數據集上單輪遍歷?

      研究者設計了嚴格的對照實驗:固定總梯度更新步數為640步,比較三種設定:設定1(20k樣本,batch size 256,8 epochs)、設定2(2.5k樣本,batch size 32,8 epochs)、設定3(20k樣本,batch size 32,1 epoch)。其中設定2與設定3的訓練預算完全相同,但曝光模式不同(8輪重復 vs. 1輪遍歷)。

      實驗結果表明,設定2在多數基準上顯著優于設定3,而設定1在固定epoch和步數的條件下進一步優于設定2。這說明在較少的訓練預算下,重復曝光比單次遍歷更為有效,而提升總數據量在重復曝光的基礎上仍能提供額外增益。


      1.4 過擬合的識別與邊界

      上述結果提示,在長思維鏈SFT中,欠擬合信號比過擬合更為常見。為厘清過擬合的邊界條件,研究者在Qwen3-14B-Base上進行了激進訓練策略的壓力測試,包括延長訓練輪次至16 epochs、移除學習率衰減、提升學習率至1e-4等。結果顯示,顯著的過擬合癥狀僅在最激進的條件組合下出現(高學習率 + 無學習率衰減 + 長訓練輪次),通常伴隨廣泛的性能下降和回復長度的反彈。


      02


      訓練數據:質量與結構的雙重作用

      2.1 數據質量的影響

      研究者構建了四種數據配置進行對比:

      • Math-CoT-20k:默認數據集,包含長思維鏈回復

      • Math-NoCoT-20k:移除思維鏈,僅保留最終的分步總結和答案

      • NuminaMath-20k:來自NuminaMath-1.5的人工編寫解答,無長思維鏈,質量參差不齊(常包含跳步和不清晰的解釋)

      • Countdown-CoT-20k:基于簡單算術游戲Countdown的長思維鏈數據

      實驗結果揭示了數據質量的關鍵作用:NuminaMath數據不僅對分布內任務提升有限,更導致OOD泛化能力的廣泛退化,且在整個訓練過程中幾乎無法觸發”先降后升”的恢復動態。低質量數據可能導致對SFT泛化能力的嚴重低估。

      2.2 長思維鏈的作用

      對比Math-CoT-20k與Math-NoCoT-20k(兩者共享相同的query和最終解答,僅前者包含探索性思考過程)可以隔離長思維鏈的效果。結果表明:長思維鏈監督在推理密集型任務上帶來更強的泛化,尤其在數學推理任務上優勢明顯。在OOD推理任務上,這一趨勢在大模型上更為顯著,而在較小的Qwen3-8B上收益相對較弱。

      2.3 程序化泛化:來自Countdown的證據

      Countdown數據集提供了一個獨特的實驗窗口。該游戲要求模型通過對給定的數字進行四則運算,來達到目標數字。其回復軌跡包含分解、回溯、驗證等結構化探索模式,但不包含任何顯式的領域知識。

      實驗結果頗具啟發性:僅憑Countdown數據,Qwen3模型在推理任務上的表現甚至超過了Math-NoCoT-20k數據,盡管Countdown的內容范圍極其狹窄。這一發現有力地表明,推理程序的結構(procedural patterns)而非領域內容,可能是跨領域泛化的關鍵驅動因素。

      然而,這種程序化泛化并非普適:對于InternLM2.5-20B,Countdown僅帶來邊際收益,提示程序化泛化的有效性同樣依賴于基模型的能力。這一點將在下一節詳述。


      03


      模型能力:泛化的必要條件

      3.1 能力依賴的泛化軌跡

      研究者在嚴格控制數據與訓練協議的條件下,橫向對比了Qwen3系列不同規模的模型(1.7B、4B、8B、14B)。結果呈現出清晰的能力依賴趨勢:

      • 14B模型展現出典型的”先降后升”軌跡,最終在各領域獲得廣泛收益

      • 8B和4B模型同樣出現恢復階段,但改善幅度較小

      • 1.7B模型在所有基準上的收益都極其有限甚至為負,即使在晚期檢查點也是如此

      這一模式表明,優化充分和數據高質量并不足以保證泛化,模型必須具備足夠的能力來內化可遷移的推理模式。

      回復長度的動態進一步印證了上述解釋:小模型在延長訓練后仍維持較長的回復長度,而大模型的回復長度收縮更快并穩定在更低水平。結合第一節的分析,持續處于 “冗長回復”階段的模型可能尚未內化真正的推理模式。小模型更容易滯留在這一階段,反映出有限的能力難以支撐更深層的學習。


      3.2 Token級別的分析

      為進一步理解能力差異的微觀機制,研究者分析了14B與1.7B模型在訓練數據上的token級對數概率差異。結果揭示了一個顯著模式:14B模型的優勢集中于推理轉折詞——therefore、alternatively、wait、however等。這些詞匯標志著模型切換推理策略、自我糾正、回溯或反思中間結果的時刻,是思維鏈推理的結構骨架。

      相比之下,1.7B模型在局部數學計算模式的學習上表現尚可,但在把握何時重新考慮、何時嘗試另一種方法、何時驗證這些高層次推理流程上存在明顯短板。


      04


      不對稱泛化:推理提升與安全退化的并存

      4.1 安全性能的系統性退化

      研究的最后部分揭示了長思維鏈SFT的一個重要副作用:推理能力的泛化伴隨著安全性能的退化

      在HEx-PHI安全基準上的評估顯示,經長思維鏈數據(Math-CoT-20k)訓練后,三個基模型的攻擊成功率(ASR)均大幅上升。作為對照,無思維鏈數據(Math-NoCoT-20k)訓練后的安全退化程度則小得多。這一對比表明安全退化更多地與長思維鏈中的程序化推理模式相關,而非數學內容本身。

      4.2 自我合理化機制

      對具體案例的分析揭示了安全退化的內在機制?;P驮诿鎸τ泻φ埱髸r通常直接拒絕;而經長思維鏈SFT后,模型會在思考過程中進行自我合理化,例如假設 “這可能是為了網絡安全課程的教育目的”。研究者推測,這種現象本身也可視為一種 “泛化”:長思維鏈SFT強化了模型 “探索替代方案、尋找可行路徑、克服障礙”的持久問題求解先驗。當面對有害請求時,拒絕策略本身成為需要克服的障礙,而延長的推理過程則提供了繞過安全護欄的空間。


      05


      結論與討論

      本研究系統性地表明,推理SFT的跨領域泛化能力是條件性的,而非先天缺失的。強基座在低質量數據下仍可能泛化失敗;高質量數據在欠優化條件下可能表現平平;弱模型在高質量數據的長訓練下也僅能獲得邊際收益。一個更具建設性的問題不是 “SFT是否泛化”,而是 “在什么條件下泛化,代價是什么”。

      這一相互依賴性對當前 “孤立測試單一因素”的研究范式提出了挑戰,提示未來的工作應將模型、數據、算法與訓練策略作為整體進行聯合優化。

      參考文獻

      Chu et al. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training. ICML, 2025.

      Huan et al. Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning. Arxiv 2507.00432

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      CCTV5直播!京滬大戰萬眾矚目,4大內線針鋒相對,盧偉力爭開門紅

      CCTV5直播!京滬大戰萬眾矚目,4大內線針鋒相對,盧偉力爭開門紅

      老葉評球
      2026-05-14 20:05:21
      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      以茶帶書
      2026-05-08 15:40:11
      西方眼里解放軍一旦封鎖臺海,全世界沒人能承受這個代價

      西方眼里解放軍一旦封鎖臺海,全世界沒人能承受這個代價

      深度解析熱點
      2026-05-13 10:02:59
      海頓·潘妮蒂爾自曝18歲被迫與名人發生關系

      海頓·潘妮蒂爾自曝18歲被迫與名人發生關系

      娛圈觀察員
      2026-05-12 13:14:49
      快訊丨特朗普乘車抵達歡迎宴會現場

      快訊丨特朗普乘車抵達歡迎宴會現場

      新京報
      2026-05-14 17:55:21
      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      大風新聞
      2026-05-14 13:40:08
      皇馬隊史第一陣容:可否得到最廣泛認可?

      皇馬隊史第一陣容:可否得到最廣泛認可?

      K唐伯虎
      2026-05-14 07:44:07
      【U17女足亞洲杯】中國隊止步四強 2比4不敵朝鮮隊

      【U17女足亞洲杯】中國隊止步四強 2比4不敵朝鮮隊

      體壇周報
      2026-05-14 21:48:25
      “1035元4只皮皮蝦”事件最新進展:涉事出租車司機徐某已被開除

      “1035元4只皮皮蝦”事件最新進展:涉事出租車司機徐某已被開除

      閃電新聞
      2026-05-13 18:11:40
      得罪楊坤20年沒工作,靠張嘉益翻身,今憑《主角》殺回央視

      得罪楊坤20年沒工作,靠張嘉益翻身,今憑《主角》殺回央視

      阿廢冷眼觀察所
      2026-05-14 17:52:15
      小楊阿姨確實被邊緣化了,滿臉落寞,霖兒生日缺席帶午飯公園直播

      小楊阿姨確實被邊緣化了,滿臉落寞,霖兒生日缺席帶午飯公園直播

      老吳教育課堂
      2026-05-14 18:01:20
      不吹不黑!鄭欽文現在就是標準的二流偏下的球員,您同意嗎?

      不吹不黑!鄭欽文現在就是標準的二流偏下的球員,您同意嗎?

      搏擊江湖
      2026-05-14 18:11:12
      最神秘雇傭兵:人數維持34人,專門獵殺特種兵,美國黑水也不敢惹

      最神秘雇傭兵:人數維持34人,專門獵殺特種兵,美國黑水也不敢惹

      聞識
      2026-05-14 16:40:54
      空腹采血=滴水不沾?醫生提醒:這些錯誤千萬別犯,別搞錯了

      空腹采血=滴水不沾?醫生提醒:這些錯誤千萬別犯,別搞錯了

      全球軍事記
      2026-05-14 21:49:33
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      黯泉
      2026-05-03 20:25:37
      雷軍宴會上“追星”馬斯克,握手并自拍合影,馬斯克配合做出Wink表情

      雷軍宴會上“追星”馬斯克,握手并自拍合影,馬斯克配合做出Wink表情

      每日經濟新聞
      2026-05-14 21:28:06
      加速糖尿病惡化的原因:喝酒排第4,排第1的,很多人還在天天做

      加速糖尿病惡化的原因:喝酒排第4,排第1的,很多人還在天天做

      醫學科普匯
      2026-05-07 22:35:04
      NBA球隊老板手撕華裔女獵手:100億的仙人跳 搞砸了

      NBA球隊老板手撕華裔女獵手:100億的仙人跳 搞砸了

      慕容律師
      2026-05-13 14:15:09
      “空軍一號”轟鳴而過,解放軍巋然不動,視頻火爆外網

      “空軍一號”轟鳴而過,解放軍巋然不動,視頻火爆外網

      極目新聞
      2026-05-14 10:08:46
      2026-05-14 22:24:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      本地
      旅游
      藝術
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      長江三峽翠屏林立 呈現碧水青山詩意畫卷

      藝術要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产人成在线观看69网站| 国产麻豆精品久久一二三| 中文字幕成熟丰满人妻| 国产福利影院在线观看| 亚洲免费成人小说| 国产成人精品视频不卡| 亚洲色大成网站WWW永久麻豆| 熟女人妻精品一区二区视频| 国产精品7m凸凹视频分类大全 | 亚洲免费一区二区三区揉搓| 天天躁日日躁狠狠躁中文字幕| 国产精品毛片av999999| 内射在线播放| 成人午夜福利视频后入| 国产97色在线?|?日韩| 亚洲色老汉AV无码专区最| 91人妻丰满熟妇| 国产中文字幕一区二区| 久久国产乱子精品免费女| 国产黄色精品高潮播放| 最新午夜男女福利片视频| 日韩免费**毛片在线播放一级| 国产精品一区二区久久岳| 丰满少妇高潮惨叫久久久| 日韩精品亚洲专区在线观看 | 亚洲综合网国产精品一区| 红河县| 国产免费高清视频在线观看不卡| 国产私拍大尺度在线视频| 久久精品伊人波多野结衣| 精品国精品国产自在久国产应用男| 国产精品久久777777| 尤物yw午夜国产精品视频| 亚洲a成人电影| 国产午夜毛片V一区二区三区| 婷婷六月在线精品免费视频观看| 人妻在线无码一区二区三区| 国产精品国产精品偷麻豆| 激情色播| 亚洲偷偷色| 国产AV高清精品久久|