<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI從論文走到實驗室:人大高瓴提出長程研究工程系統AiScientist

      0
      分享至



      作者 | 論文團隊

      編輯丨ScienceAI

      如果說 AI for Science 的一個長期目標,是讓模型不只回答科學問題、解釋實驗現象,而是真正幫助研究者完成一整條研究流程,那么機器學習研究工程無疑是最具挑戰性的場景之一。

      因為在這里,系統面對的并不是一道題、一次生成,或者某個孤立的編碼任務,而是一條跨越論文理解、環境搭建、資源獲取、代碼實現、實驗運行、結果診斷與反復修復的連續任務鏈。每個環節本身都很難,而把這些環節在數十小時的跨度中真正接起來、持續推進,則更難。

      近日,中國人民大學高瓴人工智能學院提出了一個名為 AiScientist 的系統,嘗試解決這一設定:long-horizon ML research engineering。



      論文地址:https://arxiv.org/pdf/2604.13018

      代碼地址:https://github.com/AweAI-Team/AiScientist

      它試圖回答一個更具體、也更接近真實科研的問題:如果給 AI 一篇論文或者一道科學任務、一個基礎環境和有限預算,它能否從頭開始,把研究工程一步一步做下去?

      答案正在變得越來越清晰。

      在 MLE-Bench Lite 的 Detecting Insults 任務上,AiScientist 在 23 小時內自主完成了 74 輪實驗循環,將 validation AUC 從 0.903 提升到 0.982。在更具挑戰性的 PaperBench 上,它相對最佳匹配基線平均提升 10.54 分;在 MLE-Bench Lite 上,系統達到 81.82% Any Medal。進一步的機制分析還表明,真正決定長程研究工程能否持續推進的,關鍵不只是單步推理夠不夠強,而是系統能否在跨階段迭代中維護、繼承并利用不斷演化的項目狀態。



      為什么研究工程比「會寫代碼」更難?

      過去一年,AI for Research 的進展非常快。從 idea generation、literature synthesis,到代碼實現、實驗輔助、科學寫作,越來越多系統已經展現出實用價值。

      但研究工程和單點能力不同。它不是把幾個能力模塊簡單拼起來就能完成的任務,而是一種典型的「長程、延遲反饋、狀態敏感」問題。

      論文把這種困難概括得很準確。首先,研究規格往往是不完備的。論文不會把所有實現細節都寫清楚,模型需要自己補足缺失決策。其次,系統 setup 本身就很重,環境、依賴、數據和模型資源都可能成為阻塞點。再次,真正有價值的反饋往往要等實驗跑起來之后才會出現,而且問題來源常常是混雜的:可能是理解偏差,也可能是代碼實現、數據處理、超參選擇,甚至是基礎設施配置。

      更關鍵的是,項目狀態必須被持續保留。一輪實驗產出的日志、配置、結果和診斷,都會直接影響下一輪決策。如果這些狀態在多輪推進中丟失,系統就很難判斷「哪里出了問題」,更難真正進入后續 refinement。

      也正因如此,ML research engineering 不只是很多 local problem 的疊加,它本身還是一個更難的 systems problem。

      AiScientist 的核心,不僅僅是「更會分工」,而且是「更會把狀態存住」



      AiScientist 的核心思路,可以用論文中的一句話概括:thin control over thick state。

      直白來說,就是把「控制」和「狀態」拆開。

      一方面,系統保留一個輕量的頂層 Orchestrator,負責階段級決策與流程推進;另一方面,真正承載項目記憶的,不是不斷膨脹的對話上下文,而是 workspace 中持續演化的分析、計劃、代碼、實驗日志和結果記錄。

      這套設計包含兩個互相配合的關鍵部分。

      第一,是層級化 orchestration。

      AiScientist 并不是把所有事都交給同一個 agent 去完成,而是讓不同角色分別處理論文理解、任務規劃、代碼實現、實驗執行與診斷修復等環節。這樣做的目的,不只是「多幾個 agent」,而是讓每個角色都在更合適的局部上下文里工作。

      第二,是 File-as-Bus。

      這是 AiScientist 更有辨識度的一點。它把共享工作區視為系統的「外部記憶」。論文分析、任務計劃、實現代碼、實驗日志、錯誤記錄等,都被持續寫回文件系統,成為后續階段可以重新讀取和利用的 durable artifacts。系統因此不需要每一輪都把歷史重新塞回 prompt,而是可以圍繞真實存在的項目證據繼續推進。

      換句話說,AiScientist 的關鍵,不只是多智能體組織形式本身,而是它把狀態連續性做成了系統能力。

      結果之外,更值得注意的是什么?

      在 PaperBench 上,AiScientist 相對最佳匹配基線平均提升約 10.54 分。這意味著,它并不是只在個別 case 上有效,而是在從論文復現到完整工程實現的高難度任務中,穩定拉開了與現有方法的差距。



      在 MLE-Bench Lite 上,AiScientist 達到了 81.82% Any Medal,說明它不只擅長「先跑出一個版本」,也能在更接近真實實驗優化的場景中持續改進結果。



      但論文里最值得注意的,其實不只是這些數字,還有一個很重要的判斷:More interaction alone is not enough.

      這句話背后對應的是一個常見誤解:很多人會自然地以為,只要讓系統多試幾次、多跑幾輪,就能自動獲得更強的長程能力。但論文的結論恰恰相反。額外的輪次只有建立在前面正確積累的狀態之上,才會真正轉化為有效進步;否則,更多交互反而可能意味著更高成本和更多噪聲。

      File-as-Bus 為什么值得單獨看?

      論文的消融實驗給出了一個非常清晰的信號。

      移除 File-as-Bus 后,AiScientist 在 PaperBench 上下降 6.41 分,在 MLE-Bench Lite 上 Any Medal 下降 31.82 個百分點。這說明,狀態連續性并不是一個「有更好、沒有也行」的輔助設計,而是長程研究工程里真正決定系統能否持續推進的重要機制。



      更有意思的是,這種退化并不是平均落在所有階段上。論文顯示,去掉 File-as-Bus 后,系統未必立刻連基礎可運行性都失去,但在更依賴后期 refinement 的指標上,退化會更明顯。

      這意味著,File-as-Bus 的價值不只是幫助系統先搭一個能跑的腳手架,更重要的是讓系統在后續的診斷、修補、結果對齊與迭代優化中,真正把每一輪試錯都建立在前一輪留下的有效證據之上。

      從這個角度看,它解決的并不只是 executability,更是 fidelity。

      這項工作對 AI for Science 意味著什么?

      AiScientist 之所以值得 AI for Science 社區關注,并不只是因為它在某個 benchmark 上拿到了更高分數,而是因為它觸及了一個更深層的問題:

      如果 AI 想真正進入科學研究流程,它需要的不只是更強的單步能力,還需要在長程任務中維持項目狀態、銜接異構階段、持續吸收實驗反饋。

      對于科學研究而言,這一點非常關鍵。因為真正高價值的科研任務,很少是一次生成就結束的。無論是算法復現、實驗設計、參數迭代,還是結果分析與修正,研究者都在和一種「不斷演化的項目狀態」打交道。

      也正因為如此,AiScientist 給出的啟示并不局限于機器學習研究工程本身。它更像是在提醒整個 AI for Science 社區:未來更強的科學智能體,也許不僅要「會推理、會生成、會調用工具」,還要學會在長時間跨度里記住什么、保留什么、繼承什么、繼續推進什么。

      從 benchmark 走向研究工具

      論文還有一點值得注意:團隊并沒有把 AiScientist 停留在 benchmark 評測對象上,而是在繼續把它推進為真實可用的軟件系統。



      這件事很重要。因為 benchmark 回答的是「能不能做」,而工具真正回答的是「能不能被用起來」。

      如果 AI 研究系統未來真的要進入實驗、復現、調參與迭代的日常流程,那么它最終必須以工具形態存在,成為研究者工作流的一部分,而不只是論文中的一個分數。

      小結

      AiScientist 試圖推動的,并不只是一個更強的科研 agent,而是一種對長程研究工程的新理解:在真實科研任務中,真正重要的往往不是單次生成得多漂亮,而是系統能否在跨階段、跨輪次、跨文件的任務鏈中,把項目狀態穩定存住,并據此持續推進。

      如果這一點成立,那么 AI 進入科研流程的方式,也將從「輔助某一步」逐漸走向「接手整條鏈路」。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本91歲退役老兵放言:若有機會要繼續侵略中國,說出三個原因

      日本91歲退役老兵放言:若有機會要繼續侵略中國,說出三個原因

      抽象派大師
      2026-05-20 01:33:40
      影后視后都在追《主角》!柯藍夸孫浩該得金獎,觀眾入戲集集飆淚

      影后視后都在追《主角》!柯藍夸孫浩該得金獎,觀眾入戲集集飆淚

      露珠聊影視
      2026-05-21 18:59:50
      連續19天,太陽異乎尋常地向宇宙輸出了一個強烈信號

      連續19天,太陽異乎尋常地向宇宙輸出了一個強烈信號

      星空天文
      2026-05-20 08:00:57
      建國后,被問當年為何沒殺掉毛主席,趙恒惕苦笑:他的能量太大了

      建國后,被問當年為何沒殺掉毛主席,趙恒惕苦笑:他的能量太大了

      談古論今歷史有道
      2026-05-21 08:10:03
      新華網評多位知名教授被舉報論文造假:領軍者失守一寸,跟隨者便可能潰退一丈

      新華網評多位知名教授被舉報論文造假:領軍者失守一寸,跟隨者便可能潰退一丈

      澎湃新聞
      2026-05-21 19:36:18
      WNBA:李月汝末節稱霸,全場最高+18,戰勝舊主

      WNBA:李月汝末節稱霸,全場最高+18,戰勝舊主

      體娛荒原
      2026-05-21 12:14:25
      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      觀察者網
      2026-05-21 16:49:06
      洛杉磯最大懸念揭曉!不是樊振東回不回歸,這兩個人正式上位了

      洛杉磯最大懸念揭曉!不是樊振東回不回歸,這兩個人正式上位了

      酷侃體壇
      2026-05-21 09:53:10
      最新慈銘北京百萬人群健康體檢數據出爐,肺結節檢出率居首

      最新慈銘北京百萬人群健康體檢數據出爐,肺結節檢出率居首

      新京報
      2026-05-21 11:40:53
      歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

      歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

      菁菁子衿
      2026-05-21 19:58:19
      數十名防汛救災人員忙到晚上10點半到餐館吃飯 即將打烊的店主夫妻叫來活魚、蔬菜熱情招待

      數十名防汛救災人員忙到晚上10點半到餐館吃飯 即將打烊的店主夫妻叫來活魚、蔬菜熱情招待

      閃電新聞
      2026-05-21 21:18:49
      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      《主角》張嘉益哭到哽咽,劉浩存全程眼神呆滯,老戲骨都帶不動

      一娛三分地
      2026-05-20 14:20:51
      特朗普要搞大動作,突破47年對臺禁令?

      特朗普要搞大動作,突破47年對臺禁令?

      經點星娛
      2026-05-21 15:06:56
      騎士、尼克斯更新明日傷病;哈登不如布倫森!騎士勝率僅20%!

      騎士、尼克斯更新明日傷病;哈登不如布倫森!騎士勝率僅20%!

      郝小小看體育
      2026-05-21 19:06:03
      深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

      深蹲,被嚴重低估了!研究提示:每天堅持5分鐘,能預防6種疾病

      增肌減脂
      2026-04-30 19:15:09
      小米YU7 GT正式發布,售價38.99萬元

      小米YU7 GT正式發布,售價38.99萬元

      界面新聞
      2026-05-21 20:22:32
      換機無數才敢說真話:iPhone 14 Pro Max,才是蘋果無可替代的巔峰

      換機無數才敢說真話:iPhone 14 Pro Max,才是蘋果無可替代的巔峰

      叮當當科技
      2026-05-10 15:22:07
      深圳大外援14分15板6帽化身定海神針 末節拼到抽筋燃盡一戰

      深圳大外援14分15板6帽化身定海神針 末節拼到抽筋燃盡一戰

      狼叔評論
      2026-05-21 22:06:05
      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      健康科普365
      2026-05-19 09:25:22
      自盡前,她跪請丈夫:一定將孩子撫養成人!自盡時,丈夫躺床裝睡

      自盡前,她跪請丈夫:一定將孩子撫養成人!自盡時,丈夫躺床裝睡

      興趣知識
      2026-05-20 00:41:43
      2026-05-21 23:39:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      家居
      手機
      健康
      本地
      公開課

      家居要聞

      風格碰撞 個性與藝術

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      本地新聞

      用云錦的方式,打開江蘇南京

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人妻一区二区色欲产成人| 天天爱天天做天天爽| 欧美熟妇乱子伦XX视频| 在线黄色A| 日韩av中文字幕有码| 国产真实乱对白精彩久久| 99在线精品视频观看免费| 国产精品九九九久久九九| 思思99热精品在线| 一级a一级a爱片免费免免…-百度-百度- | 丁香五月亭亭| va亚洲三区| 亚洲精品区午夜亚洲精品区| 午夜精品福利一区二区三| 国产女人18毛片18精品| 久久只有这里有精品4| av高清| 亚洲成av人片天堂网| 999福利激情视频| 女人爽到高潮免费视频大全| www.youjizz.com国产| 国产精品v欧美精品∨日韩| 国产愉拍精品手机| 精品国产AⅤ一区二区三区V免费 | 久久久亚洲欧洲日产国码AⅤ| 2019香蕉在线观看直播视频| 强奷漂亮人妻系列老师 | 国产精品久久国产精品99 gif| 日韩av最新| 超碰热| 久久久久高潮喷水无码| 国产精品中文字幕观看| 91热视频| 【_undefined?-?P站免费版?-?永久免费的福利视频平台】https://17630364268551281430832.nx37lbnqvd.com/column/all/show?t=&tags=%E5%90%8E%E5%85%A5%E9%AA%91%E9%A9%AC&page=2&orderBy=createTime&expanded=1 | 国产理论最新国产精品视频| 激情综合一区二区三区| 欧美亚洲另类自拍偷在线拍| 一区精品| 国产suv精品一区二区四| 人妻少妇被猛烈进入中文字幕| 色偷偷久久一区二区三区|