<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      科研問題變AI反復試錯環境,斯坦福等提出的自動循環執行LLM流程

      0
      分享至



      編輯丨%

      為了加速各類生產研究的進度,使用 AI 大模型來進行決策或者提出新穎的想法已經不算少見。但絕大部分研究思路本身看似合理,實際是否有用還有待商榷。

      過去一年,多項系統評測已經反復驗證一個事實:LLM 生成的研究構想,往往“看起來很對”,但一執行就失效。它們善于組合概念,卻很少真正接受過“實驗結果”的懲罰。

      來自斯坦福大學等的研究團隊選擇了一條更為激進的路線。他們構建了一套自動執行器的循環,通過進化搜索與獎勵學習,來強化 LLM 生成更為有效的想法。相關內容以「Towards Execution-Grounded Automated AI Research」為題,于 2026 年 1 月 20 日刊登在 arxiv。



      論文鏈接:https://arxiv.org/abs/2601.14525

      進入反復試錯的環境

      研究團隊的設想可以這么總結:將 AI 生成的想法付諸于代碼,并從實驗結果中汲取經驗回滾想法。如果成功,這些自動化 AI 研究人員可以在龐大的搜索空間中自動開發和識別有效的研究想法,從而將計算轉化為科學發現;這些發現的理念反過來又可能改進前沿 AI 模型本身,實現遞歸自我改進。

      這也正是本研究中提出的核心系統:Execution-Grounded Automated AI Research(執行落地型自動科研)

      它基于特定的環境,并在構建時力求開放式的研究問題,以此空出足夠的空間容納創新算法,并建立完善的基線與基準指標。



      圖 1:自動化的執行器。

      為了避免空談,團隊將研究場景壓縮為兩個高度真實、但可控的執行環境

      一個是預訓練:

      • 任務:加速 nanoGPT 的預訓練過程
      • 指標:在固定 GPU 預算下,更快達到目標驗證損失
      • 對照基線:nanoGPT speedrun(35.9 分鐘)

      另一個是后訓練:

      • 任務:改進 GRPO 算法的后訓練效果
      • 指標:數學推理任務(MATH)驗證準確率
      • 對照基線:48.0%

      執行反饋與強化學習

      執行反饋的核心引導部分在于,它融合了探索與利用,用這兩者模擬科研迭代過程。

      作為核心的自動化創意執行器由三個核心模塊組成:Implementer 實現者、Scheduler 調度器、Worker 工作單位



      圖 2:GRPO 和 nanoGPT 環境中自執行(上行)與 GPT-5(下行)的模型性能比較。

      通過這三個模塊,AI 輸出的想法都會轉化為實際的數值反饋,反復自我修正,通過不斷控制執行,直到確認想法可行或失敗。在這個環節,初始探索 / 利用比例 5:5,后續逐步提高利用比例,共進行十次迭代

      而在其后的獎勵強化學習部分,則以實驗性能為獎勵,這與實驗效果直接關聯。這種應用模式可通過梯度更新持續提升想法質量,突破進化搜索的限制。

      實驗驗證里,后訓練在僅有50 個想法采樣的情況下,Claude-4.5-Sonnet 的最大準確率為 60.4%,遠超 48.0% 的基線標準。并且在 nanoGPT 上,Claude-4.5-Opus 的損耗最低,為 3.237,低于基線的 3.255。

      在預訓練環境里,模型達到目標損失的訓練時間 19.7 分鐘,遠超 nanoGPT 基線(35.9 分鐘),僅落后人類頂尖解(2.1 分鐘),但無需人工干預。

      表 1:在整個執行引導搜索中,超參數調優與算法思想的細分。



      更多的實驗思路此處不做過多贅述。

      探索算法直覺的道路

      在執行日志的分析中,研究團隊發現一個耐人尋味的現象:模型并非只是在簡單地調參,它嘗試在算法層間進行修改,這其中包括訓練流程,更新策略,資源調度等方式。但這也凸顯了當下比較明顯的幾個問題,比如多數模型早期就出現的性能飽和,與少數模型才擁有的較清晰的“搜索隨規模提升”的趨勢。

      未來的更新中,可能需要針對 RL 的模式崩潰引入多種獎勵補丁,平衡有效性與創新性。執行器也需要進一步升級,以應對復雜任務帶來的處理能力需要。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海日料餐廳傷人案 目擊者稱人生最恐怖經歷 受傷者按腹鮮血直流

      上海日料餐廳傷人案 目擊者稱人生最恐怖經歷 受傷者按腹鮮血直流

      東瀛萬事通
      2026-05-21 14:26:05
      爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

      爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

      念洲
      2026-05-21 08:02:07
      大模型狂飆的盡頭,這家國產 GPU 廠商要把算力放在客廳

      大模型狂飆的盡頭,這家國產 GPU 廠商要把算力放在客廳

      愛范兒
      2026-05-21 17:11:34
      國宴上桌,高層調研:一家民企密集被“看見”,什么信號?

      國宴上桌,高層調研:一家民企密集被“看見”,什么信號?

      智谷趨勢
      2026-05-20 17:04:05
      “同一批楊梅,合格飛歐洲,泡藥發全國”,這拷問讓人更扎心!

      “同一批楊梅,合格飛歐洲,泡藥發全國”,這拷問讓人更扎心!

      迷世書童
      2026-05-21 17:53:04
      日本公務員有多窮?你既然選擇穩定,就必須接受清貧

      日本公務員有多窮?你既然選擇穩定,就必須接受清貧

      生活時尚導刊
      2026-05-20 21:48:34
      烏戰熱點:呂特對俄發出毀滅性警告,俄名嘴狂言斬首澤連斯基

      烏戰熱點:呂特對俄發出毀滅性警告,俄名嘴狂言斬首澤連斯基

      史政先鋒
      2026-05-21 17:03:55
      606票:16票,歐盟報復開始,對中國進口鋼鐵征收50%關稅

      606票:16票,歐盟報復開始,對中國進口鋼鐵征收50%關稅

      流史歲月
      2026-05-21 14:25:07
      小米YU7標準版發布,售價23.35萬元起

      小米YU7標準版發布,售價23.35萬元起

      界面新聞
      2026-05-21 19:45:42
      日本宮城縣附近海域發生5.2級地震

      日本宮城縣附近海域發生5.2級地震

      財聯社
      2026-05-15 19:28:05
      生產線上87個攝像頭的全球壟斷:350億美元反壟斷大案,7名中國高管全球通緝

      生產線上87個攝像頭的全球壟斷:350億美元反壟斷大案,7名中國高管全球通緝

      風向觀察
      2026-05-21 17:02:11
      法國法院裁定法航和空客在2009年空難中“過失殺人”罪名成立

      法國法院裁定法航和空客在2009年空難中“過失殺人”罪名成立

      新華社
      2026-05-21 21:03:03
      女子華為手機漏液要求免費維修,被客服反問:你賬號粉絲量多少?

      女子華為手機漏液要求免費維修,被客服反問:你賬號粉絲量多少?

      互聯網大觀
      2026-05-21 10:42:06
      法網女單抽簽:鄭欽文首輪戰資格賽選手 32號種子王欣瑜戰塔格爾

      法網女單抽簽:鄭欽文首輪戰資格賽選手 32號種子王欣瑜戰塔格爾

      醉臥浮生
      2026-05-21 20:42:34
      人民大會堂女服務萬里挑一!她們是啥編制?選拔標準有多嚴?

      人民大會堂女服務萬里挑一!她們是啥編制?選拔標準有多嚴?

      復轉這些年
      2026-05-20 19:44:43
      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

      觀史搜尋著
      2026-05-21 05:41:15
      河南村鎮銀行:儲戶存款無法兌付!時間已逾4年,儲戶欲哭無淚

      河南村鎮銀行:儲戶存款無法兌付!時間已逾4年,儲戶欲哭無淚

      胡侃社會百態
      2026-05-21 17:30:06
      61歲郭富城參觀方媛舅舅的飯店,和一幫親戚喝酒,獲外婆擁抱送別

      61歲郭富城參觀方媛舅舅的飯店,和一幫親戚喝酒,獲外婆擁抱送別

      一盅情懷
      2026-05-21 16:23:41
      菜市場泡“藥水”的7種蔬菜,業內人從不食用,普通人卻天天買

      菜市場泡“藥水”的7種蔬菜,業內人從不食用,普通人卻天天買

      復轉這些年
      2026-05-21 19:34:04
      上海交大對樊同學的“嚴重警告”,有多嚴重?

      上海交大對樊同學的“嚴重警告”,有多嚴重?

      呦呦鹿鳴
      2026-05-21 17:18:49
      2026-05-21 21:43:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      中紀委連打三"虎":一人被指違規核發機動車號牌

      頭條要聞

      中紀委連打三"虎":一人被指違規核發機動車號牌

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      教育
      時尚
      旅游
      家居
      軍事航空

      教育要聞

      深化“五有”育人!湖北宜昌發布十六條工作指引

      亞麻,讓人愛的高級清爽

      旅游要聞

      美麗中國行|灘涂變綠廊 群雁伴舟游——探訪信江生態走廊

      家居要聞

      風格碰撞 個性與藝術

      軍事要聞

      伊朗警告:任何新襲擊將促使戰場擴大到中東以外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国精品国产自在久国产应用男| 国产95在线| 日韩AV片无码一区二区三区不卡 | 精品国产伦理国产无遮挡| 三级免费进入又大又粗又爽| 精品人妻午夜一区二区三区四区| 岛国一级| 国产精品一区二区黄色片| 久久综合色最新久久综合色| 91黄色视频在线观看| 影音先锋AV中文字幕| 午夜福利电影在线观看| 日韩欧美精品| 女同AV在线播放| 内射囯产旡码丰满少妇| 一本色道久久88综合无码| 口爆少妇在线视频免费观看| 中文字幕第一页国产| 亚洲欧美偷拍另类A∨| 欧美777| 欧美日韩国产综合草草| 粉嫩一区二区三区四区| 先锋天堂资源在线| 六月婷婷激情综合| 色噜噜久久综合伊人一本| 日本日本乱码伦专区| 国产亚洲tv在线观看| 国产黄色一区二区三区四区| 亚洲一级毛片免费看| 人妻偷人精品| 黄频视频大全免费的国产| 丁香五月天堂| 少妇人妻偷人精品无码视频新浪 | 国产精品色内内在线播放| 中文字幕精品熟女人妻 | 亚洲中文字幕精品| 国产97在线 | 免费| 丁香五月av| 日韩精品国产另类专区| 国产成人自拍小视频在线| 亚洲中文字幕无码中字|