<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Auto Research 來了:當 AI 開始接管科研里最苦的活,意味著什么

      0
      分享至


      Frontier-Eng Bench 揭示了一種新的 Agent 范式:真正的智能不在于一次性生成答案,而在于長期反饋中的持續優化能力。

      來源:極客公園

      如果幾年前有人告訴我,AI 不僅能寫代碼、生成論文摘要,還能像一個真正的工程師那樣,在實驗室里反復尋找可行的策略、持續優化一個方案——我大概會覺得這個人科幻片看多了。

      但最近讀到一篇論文的時候,我的想法變了。

      過去兩年,大模型的能力突飛猛進,從寫詩到寫代碼,從做數學題到跑實驗流程,AI 擅長的事情越來越多。但真正做過科研和工程的人都清楚,最耗人的部分,往往不是提出第一個可行方案,而是后面那段漫長的「長期優化」——一個實驗跑通了,但指標還差一點;一個算法能用了,但速度還不夠快;一個電池快充策略成立了,但溫度、壽命和析鋰之間還需要反復平衡。

      現實中的高價值成果,很多都不是「做出來」的,而是被持續優化出來的。而這,恰恰是過去大多數 AI Agent 系統最缺失的一環。

      最近,Einsia AI 旗下 Navers Lab 發布了一個叫 Frontier-Eng Bench 的新基準測試,正試圖衡量這種能力。它沒有再把 AI 放進「一問一答」的選擇題里,而是直接把 Agent 扔進真實工程優化環境——Agent 必須不斷提出方案、運行仿真器、讀取反饋、修改策略,在長期迭代中持續逼近更優解。


      論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

      Arxiv: https://arxiv.org/abs/2604.12290

      Github: https://github.com/EinsiaLab/Frontier-Engineering

      這讓我想到一個歷史參照:AlphaGo 之所以強大,并不在于它每一步棋都能算對,而在于它能在數百萬次自我對弈中持續進化。某種程度上,Frontier-Eng 試圖回答的,也是同一個問題——當 AI 開始進入真實世界的長期反饋循環后,智能的本質,究竟該怎么衡量?

      01

      從「一次性答對」到「持續優化」,

      范式正在切換

      要理解 Frontier-Eng Bench 的意義,得先看清楚它在反對什么。

      過去幾年,大模型領域的 benchmark 越來越多,但本質上都在評估同一件事:模型能不能「一次性生成正確答案」。無論是代碼生成、數學推理,還是任務執行,大多數測試的邏輯仍然是——答案對,或者錯;任務完成,或者失敗。


      Frontier-Eng Bench 總覽

      但這里有一個被忽視的問題:真實的科研與工程,從來不是一個「對或錯」的過程。

      一個量子線路已經正確了,但保真度還能不能再往上摳一點?一個 GPU kernel 已經可用了,但速度還不夠快?這些問題沒有「標準答案」,只有「更優解」。而找到更優解的過程,往往需要成百上千次的迭代、試錯和微調。

      事實上,這正是 Frontier-Eng Bench 提出的核心命題——論文將其定義為「Generative Optimization」(生成式優化)。它認為,下一代 Agent 的核心能力,不應該只是「一次性給出看起來合理的答案」,而是能否在環境反饋里持續修正自己的軌跡,并在有限預算下不斷優化結果。

      換句話說,真正的 intelligence,可能本質上是一種長期反饋閉環中的持續優化能力。

      這個判斷并不只是理論推演。Frontier-Eng 設計了 47 個橫跨五大領域的實驗任務——量子計算與信息、運籌與決策科學、機器人與控制系統、光學與通信、物理科學與工程設計。在每一個任務中,Agent 都不是簡單地「回答問題」,而是需要提出優化方案、運行仿真器、獲取真實反饋、修改代碼與策略,并在固定的計算預算里持續迭代。


      Frontier-Eng Bench 體系概覽

      不只有「答對題」的聰明,更有「不斷變好」的韌性。這可能才是真正長程智能的起點。

      02

      深度 vs 寬度:Agent 架構的關鍵抉擇

      在 Frontier-Eng 揭示的所有發現中,有一個結論讓我印象最深:關于「推理算力分配」的討論。

      論文通過大量實驗發現,Agent 的性能提升遵循一套雙重冪律衰減規律——隨著任務進入「深水區」,獲得顯著性能提升的難度呈指數級上升。這是一個殘酷但真實的規律:越往后優化,每一個百分點的進步都越來越貴。


      工程優化的雙重冪律衰減

      但更有意思的發現在于一個架構層面的核心爭議:到底是讓 Agent 并行嘗試 100 種可能性(寬度),還是讓它在 1 個路徑上通過「反思—修正」遞歸 100 次(深度)?

      Frontier-Eng 給出了一個非常清晰的信號:深度才是那個能撬動真正突破的杠桿。


      深度 vs 寬度

      這讓我想到一個日常的類比。面對一道難題,是同時翻開十本參考書碰運氣更有效,還是沿著一條思路反復推敲、不斷修正更容易找到答案?大多數有經驗的工程師和科學家都會選后者。Frontier-Eng 的數據,某種程度上用實驗驗證了這種直覺。

      論文將這種能力稱為「Deep Iterative Reasoning」(深度迭代推理)。在這背后,其實指向了一個更大的趨勢:下一代 Agent 的核心競爭力,可能正在從「知道多少知識」轉向「能不能在長期反饋中持續自我修正」。

      一個有趣的現象是,這個結論和人類專家解決復雜問題的方式高度一致。頂級的工程師和科學家,幾乎從來不靠「靈光一閃」解決核心難題,而是在漫長的試錯循環中一步步逼近最優解。某種程度上,Frontier-Eng 證明了:AI 要變得真正聰明,也得學會這種「慢功夫」。

      更重要的是,這個發現正在直接改變 Agent 架構設計的方向。過去,開發者們的注意力大多放在 prompt engineering 上——怎么寫出更好的提示詞,讓模型一次就給出好答案。但如果深度迭代推理才是關鍵,那么未來真正重要的可能是 reasoning architecture——如何構建更強的推理側架構,讓模型能夠像人類專家一樣進行「慢思考」。

      03

      推理側的算力紅利,才剛剛開始

      從產業角度看,Frontier-Eng 釋放出的信號其實非常強烈。

      過去幾年,大模型行業的核心護城河主要來自三件事:參數規模、訓練算力、高質量數據。誰的模型更大、訓練數據更多、GPU 集群更強,誰就占據優勢。

      但 Frontier-Eng 的實驗結果暗示,護城河可能正在發生轉移——從訓練側轉向推理側。


      不同模型的詳細評測結果

      換句話說,未來真正重要的,可能不只是模型「知道什么」,而是它能否在長期環境反饋中持續優化、在復雜搜索空間里穩定收斂、在有限算力下完成遞歸推理、在真實仿真器中不斷自我修正。

      這會直接改變整個 Agent 基礎設施的競爭方向。因為一旦智能開始更多地來自 inference-time optimization(推理時優化),而不是一次性的預訓練,那么幾件事將同時發生:

      首先,AI for Science 可能將迎來真正的爆發。科學研究本身就是最完美的「生成式優化」場景——提出假設、實驗驗證、修正假設、再驗證,這個循環和 Frontier-Eng 測試的過程幾乎完全一致。

      其次,Agent 的開發范式會從 prompt engineering 轉向 reasoning architecture。開發者將不再僅僅盯著提示詞的措辭,而是去思考如何構建更強的推理鏈、更高效的搜索策略、更智能的反思機制。

      此外,長程記憶、工具調用、搜索和反思能力將變得越來越關鍵,而算力分配本身也會成為一種新的基礎設施能力。

      從這個角度看,Frontier-Eng 不只是一個學術 benchmark,它更像是一張路線圖——告訴整個行業,下一階段的競爭焦點在哪里。

      04

      尾聲

      回到開頭那個問題:AI 做科研,最難替代人類的是哪個環節?

      在讀 Frontier-Eng 這篇論文之前,我的回答可能是「直覺」和「創造力」。但現在我覺得,答案可能正在被改寫。

      Frontier-Eng 告訴我們,Agent 正在走出文字游戲的「溫室」,進入物理規律的「競技場」。它們開始學習的,不再只是如何給出一個漂亮的答案,而是如何在成千上萬次失敗中,一點一點地摳出那 1% 的性能突破。

      而身處其中,我們往往后知后覺。但把時間維度拉長,也許多年后回看,2025 年前后這段時間,正是 AI 從「聰明的回答者」變成「執著的優化者」的轉折點。

      不只有聚光燈下的 OpenAI、Google DeepMind 們在推動這個進程,更有像 Einsia AI 這樣的團隊,在用嚴謹的實驗框架丈量智能的真實邊界。

      而下一代 Agent 真正比拼的,可能不再是誰「知道得多」,而是誰能在長期環境反饋中,持續逼近最優解。這場關于「深度」與「反饋」的競賽,才剛剛鳴槍。

      *頭圖來源:Frontier-Eng Bench

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5244人全扒完!黑龍江26年公務員錄取名單曝光,發現三個讓家長失眠真相

      5244人全扒完!黑龍江26年公務員錄取名單曝光,發現三個讓家長失眠真相

      老滿說高考
      2026-05-18 20:54:36
      太炸了!李冰冰戛納紅毯封神,53歲水墨高定禮服驚艷老外

      太炸了!李冰冰戛納紅毯封神,53歲水墨高定禮服驚艷老外

      調侃國際觀點
      2026-05-16 19:42:22
      夫妻倆退休后跟朋友一起自駕游,最后一人獨自回來:再也不去了

      夫妻倆退休后跟朋友一起自駕游,最后一人獨自回來:再也不去了

      青青會講故事
      2025-01-11 14:12:36
      手機號迎來重大變革!移動全面推行無卡化,老用戶務必留意

      手機號迎來重大變革!移動全面推行無卡化,老用戶務必留意

      Thurman在昆明
      2026-05-18 03:31:07
      楊鳴給弗格出主意!鞍山雙子星合體!吳昌澤大婚,付豪新身份曝光

      楊鳴給弗格出主意!鞍山雙子星合體!吳昌澤大婚,付豪新身份曝光

      君馬體育
      2026-05-19 01:40:56
      浙江楊梅能不能放心吃?5個重點產區完成首輪巡查,未發現類似違規添加

      浙江楊梅能不能放心吃?5個重點產區完成首輪巡查,未發現類似違規添加

      吃貨的分享
      2026-05-19 02:41:26
      梅根赴歐前曬女兒新照,紅裙莉莉貝特好暖心充當媽媽的“小能手”

      梅根赴歐前曬女兒新照,紅裙莉莉貝特好暖心充當媽媽的“小能手”

      看盡落塵花q
      2026-05-19 03:50:13
      世乒賽表彰名單公出爐:9人上榜,1人落榜,孫穎莎、王楚欽在列

      世乒賽表彰名單公出爐:9人上榜,1人落榜,孫穎莎、王楚欽在列

      樂天閑聊
      2026-05-19 04:18:04
      穆里尼奧大清洗!皇馬三大功勛集體離隊,姆巴佩命運徹底定了

      穆里尼奧大清洗!皇馬三大功勛集體離隊,姆巴佩命運徹底定了

      瀾歸序
      2026-05-19 04:31:21
      空歡喜啊!18萬彩禮被老丈人如數退回,女婿抱怨女方無額外陪嫁

      空歡喜啊!18萬彩禮被老丈人如數退回,女婿抱怨女方無額外陪嫁

      火山詩話
      2026-05-16 10:44:29
      利雅得青年主帥:C羅比賽中曾問我,為什么踢勝利的時候那么賣力

      利雅得青年主帥:C羅比賽中曾問我,為什么踢勝利的時候那么賣力

      懂球帝
      2026-05-18 12:17:29
      美媒集體震驚:這次訪華,才真正見識到中國溫度!

      美媒集體震驚:這次訪華,才真正見識到中國溫度!

      福建睿平
      2026-05-18 11:56:20
      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      油價要漲破天了!5月18日油價迎來大幅暴漲,調價后全國油價價格

      油價要漲破天了!5月18日油價迎來大幅暴漲,調價后全國油價價格

      沙雕小琳琳
      2026-05-19 00:12:00
      大家怎么看待人體藝術?

      大家怎么看待人體藝術?

      文一史二
      2026-05-18 07:35:12
      德國“大神”來華手術,被中國病歷嚇到:“我的天...”

      德國“大神”來華手術,被中國病歷嚇到:“我的天...”

      醫脈圈
      2026-05-18 22:32:12
      白酒最怕的解藥,不是茶水,而是常見的它,三分鐘快速解酒!

      白酒最怕的解藥,不是茶水,而是常見的它,三分鐘快速解酒!

      展望云霄
      2026-05-18 22:30:18
      別傻信“只做熱愛的事”!黃仁勛:90%工作都很苦,強者先謀生

      別傻信“只做熱愛的事”!黃仁勛:90%工作都很苦,強者先謀生

      眼界看視野
      2026-05-17 11:01:27
      李英愛問:張凌赫很有名嗎?

      李英愛問:張凌赫很有名嗎?

      秋別離
      2026-05-18 15:35:26
      特朗普剛走,又有4國爭先恐后訪華,名單公開,全都是中國好兄弟

      特朗普剛走,又有4國爭先恐后訪華,名單公開,全都是中國好兄弟

      瞻史
      2026-05-19 02:33:35
      2026-05-19 05:12:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數 37464關注度
      往期回顧 全部

      科技要聞

      蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

      頭條要聞

      前CIA資助研究員:美國從飛碟里撈出4種外星人

      頭條要聞

      前CIA資助研究員:美國從飛碟里撈出4種外星人

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少?

      態度原創

      藝術
      數碼
      游戲
      房產
      健康

      藝術要聞

      總投資11億!王老吉新總部,三個“大蛋殼”立在廣州

      數碼要聞

      聯想拯救者自帶線移動電源P5發售,169元

      《GTA6》多個取景地在現實已消失!開發太久的弊端

      房產要聞

      突發!海口重磅調規!碧桂園要解套;新埠島要起飛了!

      專家揭秘干細胞回輸的安全風險

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久青草国产精品一区| 亚洲日本一区二区一本一道| 茄子视频毛片免费观看| 久久亚洲AV无码精品色午夜麻 | 亚洲中文字幕第一页在线| 亚洲欧美日韩成人一区| 亚洲一区二区av免费| 免费看无码自慰一区二区| 亚州无码人妻| 国产欧美亚洲精品第3页在线| 人妻熟女一二三区夜夜爱| 国产不卡一区二区在线视频| 色偷偷www.8888在线观看| 人妻无码中出| 超碰熟女| 亚洲日本国产精品高清| 亚洲成a人v欧美综合天堂下载 | 久久中文精品无码中文字幕下载| 蜜桃成人无码区免费视频网站| 777米奇色狠狠俺去啊| 精品亚洲国产成人| 少妇伦子伦情品无吗| jizzjizz国产| 欧美视频亚洲| 欧美日韩国产va在线观看免费| 亚洲国产日韩欧美一区二区三区 | 久久国产国内精品国语对白| 成人综合婷婷国产精品久久| 欧美精品1卡二卡三卡四卡| 超碰狠狠| 中文字幕在线精品国产| 日韩丰满少妇无码内射| 亚洲精品国产一区二区精华液| 亚洲真人无码永久在线| 日本高清一区免费中文视频| 国产zzjjzzjj视频全免费| 亚洲欧美精品日韩欧美| 日韩 一区二区在线观看| 成人深夜福利av在线| 亚洲中文波霸中文字幕| 亚洲精品国精品久久99热|