<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

      0
      分享至



      如果有人告訴你:不用分階段做強化學習、不搞課程學習、不動態調參,只用最基礎的 RL 配方就能達到小模型數學推理能力 SOTA,你信嗎?

      清華團隊用兩個 1.5B 模型給出了答案:不僅可行,還特別高效。

      • 核心發現: 單階段訓練 + 固定超參數 = SOTA 性能 + 省一半算力
      • 意外之喜: 訓練曲線平滑得像教科書,4000 步沒遇到任何 "典型問題"
      • 關鍵啟示: 充分 scale 的簡單 baseline,可能比我們想象的強大得多





      • 技術博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
      • 開源模型:https://huggingface.co/collections/hbx/justrl
      • 評測腳本:https://github.com/thunlp/JustRL

      背景:RL 訓練小模型的 "技術軍備競賽"

      2025 年初,DeepSeek-R1 開源后,如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向。短短幾個月內,這個領域經歷了快速的技術演進:早期的工作嘗試超參數調優和長度控制;隨后出現了多階段漸進訓練,每個階段調整數據難度和 RL 超參數;也有方法引入了課程學習,用部分解作為提示精心設計難度梯度;最激進的做法直接將 rollout 數量提升到 512 次,用算力進行暴力探索。



      近期工作用到的技術對比

      這些方法都取得了不錯的效果,性能在不斷刷新。 動態采樣、KL 重置、自適應懲罰、長度控制…… 各種穩定技術和優化 trick 被逐一引入。每個新工作都在前人基礎上增加新的模塊和機制,整個訓練 pipeline 變得越來越復雜。

      然而,這種復雜度的增長也帶來了困惑:這些技術真的都是必要的嗎?當不同工作組合使用不同的技術子集時,我們很難分辨哪些是解決根本問題的,哪些只是在修補其他設計選擇帶來的副作用。更重要的是,如果 baseline 本身就不穩定,那么為了穩定它而加入的技術,可能只是在治標而非治本。

      清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

      于是就有了JustRL—— 名字的意思是 "就這樣"。

      方法:極簡到極致的訓練配方

      JustRL 的設計哲學是 "減到不能再減"。研究者刻意避免了近期工作中常見的復雜技術,只保留了最基礎的組件。

      訓練配方簡單到令人意外: 算法使用標準的 GRPO,沒有任何魔改;訓練只有一個階段,從頭到尾連續進行;超參數完全固定,不做任何動態調整;數據來自常規的數學問題集,不進行離線難度篩選、不做數據增強、不使用 dynamic sampling。

      更關鍵的是,同一套超參數在兩個完全不同的起點上都有效。 第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座,這是一個相對較弱的起點(AIME 2024 準確率 29%);第二個實驗使用 OpenMath-Nemotron-1.5B,這已經是一個相當強的基座(AIME 2024 準確率 61%)。研究者沒有針對不同模型調整任何參數,在 9 個數學推理基準(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評測顯示,JustRL 達到了 1.5B 模型的最高水平。



      一個關鍵問題:會不會是用了更多算力?正好相反,我們用了更少。

      從弱基座起步的 JustRL-DeepSeek-1.5B,最終在 9 項基準上平均達到 54.87%,超越了采用 9 階段訓練的 ProRL-V2(53.08%)。更值得注意的是計算效率:JustRL 使用的總 token 預算約為 1.4E+11,僅為 ProRL-V2 的一半,為 BroRL 的五分之一。在算力 - 性能的權衡上,JustRL 達到了一個新的平衡點。

      從強基座起步的 JustRL-Nemotron-1.5B 表現更加出色,平均準確率達到 64.32%,略微超過使用課程學習的 QuestA(63.81%)。關鍵的差異在于,QuestA 需要完整的推理軌跡來構建 hint,還要分階段調整提示難度;而 JustRL只需要標準的問題與標答,不需要額外的數據工程,總 token 預算也相對較小。

      整個訓練在 32 張 A800-80GB GPU 上進行,每個模型訓練約 15 天。相比一些需要多階段訓練、頻繁調參的方法,JustRL 的工程復雜度和計算開銷都顯著更低。這些結果的意義不僅在于數字本身,更在于它們揭示的一個可能性:很多時候,我們可能低估了簡單方法在充分 scale 下的潛力。

      意外發現:4000 步訓練,異常平穩

      也許比最終性能更令人驚訝的是訓練過程本身。研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態指標:策略熵、平均獎勵、響應長度。

      策略熵始終在 1.2-1.4 范圍內健康震蕩,沒有出現向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎勵從 - 0.6 單調上升到 +0.4,雖然有噪聲但趨勢清晰,沒有長時間的 plateau 或突然的下跌;響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens,并穩定在這個范圍,這一切都是在沒有使用 overlong penalty 的情況下發生的,僅僅設置了最大 16k 的上下文長度。



      JustRL-DeepSeek-1.5B 的訓練 dynamic

      這與很多現有工作報告的訓練困難形成鮮明對比。

      • ProRL:"我們觀察到熵崩潰和訓練不穩定性…"
      • BroRL:"訓練到瓶頸只能加 rollout 加大探索…"
      • QuestA:"需要課程學習避免熵崩塌(簡單題)或者減緩學習效率(難任務)…"

      而在 JustRL 的訓練中,這些問題都沒有出現。這給了我們一個有趣的觀察:也許在某些配置下,當 baseline 足夠簡單、訓練規模足夠充分時,一些在復雜系統中出現的穩定性問題可能就不容易發生。

      一個有趣的插曲:加 "優化" 反而更差

      訓練過程中,團隊嘗試了兩個 "按常理應該有幫助" 的修改。這兩個實驗的結果頗具啟發性。

      第一個實驗是加入顯式的長度懲罰。 動機很直接:不少工作證明長度懲罰有效,那么添加一個懲罰項應該能讓模型輸出更簡潔,提高訓練效率。結果卻令人意外:性能從 55% 下降到 50%。深入分析發現,顯式懲罰導致了熵崩塌,熵值從 1.2-1.4 降到 0.4-0.6 ,探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略,就被迫收斂到更短的響應上。

      第二個實驗是換用更寬松的驗證器。 邏輯同樣合理:減少假陰性(正確答案被誤判為錯誤)應該能提供更清晰的學習信號。但性能繼續下滑到 45%。可能的原因包括:更寬松的驗證器雖然減少了誤判,但也降低了學習信號的細粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區分;另一種可能是,嚴格的格式要求實際上在迫使模型發展更魯棒的內部推理,而寬松的驗證器消除了這種壓力。



      兩組 ablation 效果

      這說明什么?一方面,ablation 在接近 2ksteps 的尺度上才開始分道揚鑣,意味著現有的 RL tricks ablation 可能在小規模上(幾十 / 幾百步)得到的結論不一定適合于大規模 scaling,要驗證 tricks 的作用可能長期才能看出區別;另一方面,不是說這些技術本身不好(它們在其他工作中確實有效),而是:

      • 技術的價值高度依賴于baseline 的特性
      • 在一個穩定的 baseline 上,某些 "優化" 可能適得其反
      • 不是所有看起來合理的東西都該加

      這個工作想說什么?

      不是要證明 "簡單永遠最好"

      • 不是說: "復雜方法都沒用"
      • 而是說: "我們可能低估了簡單方法在充分 scale 下的潛力"
      • 不是說: "大家都做錯了"
      • 而是說: "建立清晰的簡單 baseline,能更準確地評估復雜技術的價值"
      • 不是說: "永遠別用復雜技術"
      • 而是說: "先驗證簡單方法的極限在哪,再決定是否需要復雜度"

      寫在最后:關于 "夠用" 的哲學

      "Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
      — Antoine de Saint-Exupéry, Airman's Odyssey

      JustRL 不是要證明 "簡單就是答案"。它想提醒的是:在不斷追求技術創新的同時,別忘了回頭看看 —— 最樸素的方法,在足夠的努力下,能做到什么程度。

      也許在 RL 訓練小模型這個領域,我們一直在做加法:加階段、加調度、加采樣策略、加穩定技巧。也許現在是時候試試奧卡姆剃刀的做法:減到不能再減,看看還剩什么。JustRL 的發現是:剩下的,可能已經夠用了。

      如果你正在做 RL,不妨試試:先把簡單配方訓練充分,看看它能帶你走多遠。

      也許你會發現:夠用了。

      也許你會發現:還不夠,但現在你知道差在哪了。

      無論哪種,都是有價值的收獲。"如無必要,勿增實體"。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5月8日,國內成品油價格將調整

      5月8日,國內成品油價格將調整

      海峽網
      2026-05-02 10:18:06
      影帝這么矮小!五一假期梁朝偉現身南京,身高與隨性穿搭引發熱議

      影帝這么矮小!五一假期梁朝偉現身南京,身高與隨性穿搭引發熱議

      火山詩話
      2026-05-02 08:30:27
      回不去臺島了?賴清德剛離境,洪秀柱咬死8個字,大陸喊話臺當局

      回不去臺島了?賴清德剛離境,洪秀柱咬死8個字,大陸喊話臺當局

      曉帝愛八卦
      2026-05-04 13:55:47
      劉國正談國乒男團兩連敗:王楚欽表現正常,林詩棟起伏還是太大了,比賽還沒結束,一切都有可能,國乒男團已沒有僥幸余地

      劉國正談國乒男團兩連敗:王楚欽表現正常,林詩棟起伏還是太大了,比賽還沒結束,一切都有可能,國乒男團已沒有僥幸余地

      瀟湘晨報
      2026-05-04 10:07:18
      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      小豫講故事
      2026-05-04 06:00:15
      公安部提醒:換身份證后別急著走!這3個關鍵步驟多數人忽略

      公安部提醒:換身份證后別急著走!這3個關鍵步驟多數人忽略

      老特有話說
      2026-05-04 16:04:22
      80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

      80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

      妍妍教育日記
      2026-04-27 09:20:13
      美軍中東基地戰后慘狀曝光:預警機被腰斬、控制中心被炸,6座雷達罩被摧毀5個

      美軍中東基地戰后慘狀曝光:預警機被腰斬、控制中心被炸,6座雷達罩被摧毀5個

      紅星新聞
      2026-05-03 17:21:14
      75歲陳百祥夫婦豪宅宴客,內地名廚帶海鮮赴港,別墅外景氣派不凡

      75歲陳百祥夫婦豪宅宴客,內地名廚帶海鮮赴港,別墅外景氣派不凡

      小俎娛樂
      2026-05-04 14:46:27
      化痰第一名!吃三天掃光肺里臟東西,比梨湯管用多了!

      化痰第一名!吃三天掃光肺里臟東西,比梨湯管用多了!

      寶哥精彩賽事
      2026-05-03 21:36:21
      一輛開了近17萬公里的東莞牌豐田蘭德酷路澤拍賣,拍出19萬

      一輛開了近17萬公里的東莞牌豐田蘭德酷路澤拍賣,拍出19萬

      天天話事
      2026-05-04 08:31:26
      你見過戾氣最重的人是啥樣?網友:別說自己過得好,沒人想看你好

      你見過戾氣最重的人是啥樣?網友:別說自己過得好,沒人想看你好

      帶你感受人間冷暖
      2026-05-03 02:08:30
      突發!一艘油輪在阿聯酋附近海域遭不明飛彈襲擊!美軍4日上午將有重大行動,“由特朗普親自指示”,伊朗:任何干涉都將被視為違反停火

      突發!一艘油輪在阿聯酋附近海域遭不明飛彈襲擊!美軍4日上午將有重大行動,“由特朗普親自指示”,伊朗:任何干涉都將被視為違反停火

      每日經濟新聞
      2026-05-04 11:08:19
      不要錯過!5月4日下午17:00比賽!中央5套CCTV5、CCTV5+直播表

      不要錯過!5月4日下午17:00比賽!中央5套CCTV5、CCTV5+直播表

      寶哥精彩賽事
      2026-05-04 10:36:29
      Skip:我從未在搶7大戰中信任過哈登,他的隊友帶飛了他

      Skip:我從未在搶7大戰中信任過哈登,他的隊友帶飛了他

      林子說事
      2026-05-04 11:05:36
      香港老板含淚述:當初勸我別賣大陸摩托的朋友,現在天天求我留車

      香港老板含淚述:當初勸我別賣大陸摩托的朋友,現在天天求我留車

      藍色海邊
      2026-05-03 17:04:18
      騎士4-3猛龍!阿特金森承認一事實,米切爾賽后談哈登也把話挑明

      騎士4-3猛龍!阿特金森承認一事實,米切爾賽后談哈登也把話挑明

      魚崖大話籃球
      2026-05-04 12:15:23
      各科醫生最想跟你說的大實話,很有用!收藏好常看看

      各科醫生最想跟你說的大實話,很有用!收藏好常看看

      華人星光
      2026-04-23 12:00:20
      1993年,張學良被拜訪:看到馮鞏十分驚訝,為東北題了3個字

      1993年,張學良被拜訪:看到馮鞏十分驚訝,為東北題了3個字

      歷史龍元閣
      2026-05-03 17:55:10
      伊朗武裝部隊稱將打擊接近或進入霍爾木茲海峽的美軍

      伊朗武裝部隊稱將打擊接近或進入霍爾木茲海峽的美軍

      新華社
      2026-05-04 14:37:11
      2026-05-04 17:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12905文章數 142639關注度
      往期回顧 全部

      科技要聞

      OpenAI“復活”了QQ寵物,網友直接玩瘋

      頭條要聞

      宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

      頭條要聞

      宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      本地
      旅游
      游戲
      時尚
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      旅游要聞

      “向往的生活就在眼前!”:多面海南圈粉全球游客

      索尼PS5最新獨占大作不是“鑰匙盤”!玩家高興壞了

      這幾條裙子太適合度假了,減齡又時髦!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 悠悠色成人综合在线观看| 国产精品免费看久久久香蕉| 成人午夜在线播放| av在线观看免费网站| 国产成人在线系列| 国产年成美女网站视频免费看| 亚洲精品国产中文字幕| 中文字幕无码视频播放| 讷河市| 午夜福利视频自拍偷拍| 东京热人妻丝袜无码AV一二三区观| 久久老司机视频| 狠狠操在线| 免费播放在线观看av| 国产精品福利自产拍久久 | 日本大片在线看黄a∨免费| 国产亚洲AV片在线观看16女人| 免费毛片在线观看av| 人人超碰人人| 国产激情第一区二区三区| 欧美精| 成年女人免费毛片视频永久| 日韩av免费观看在线| 国产精品亚洲二区在线看| 微拍福利导航| 舞钢市| 精品久久久无码中字| 国产一区二区a毛片色欲| 国产精品中文av专线| 欧美老少配性行为| 国产www在线观看| 91久久偷偷做嫩草影院免费看| 日韩毛片在线视频x| 美女露出奶头扒开尿口免费网站| 538亚洲欧美国产日韩在线精品| 国产在线精品免费播放| 日韩精品福利一二三专区| 亚洲5555| 天天做天天爱天天做| 99精品众筹模特在线视频| 天天夜碰日日摸日日澡性色av|