<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Auto Research最后一塊拼圖,Frontier-Eng Bench,工程閉環里最優

      0
      分享至




      機器之心發布

      科研,能被 AI 全程加速嗎?

      過去兩年,Auto Research 被寄予厚望:讀論文、找方向、寫代碼、跑實驗,甚至生成新假設 ——AI 仿佛要成為科研全能助手。

      但做過科研的人都知道,真正燒腦、耗時間的不是「能跑」,而是「夠好」:調參數、改代碼、看輸出,再跑,再調…… 每一次優化都瑣碎又重復,卻幾乎無法跳過。

      于是問題來了:能不能把這些繁瑣的迭代交給 AI?Researcher 只提供方向,后續的「看反饋 → 調代碼 → 逼近最優」,全交給 Agent 自動完成?

      Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。



      • 論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
      • 項目主頁:https://lab.einsia.ai/frontier-eng/
      • Arxiv: https://arxiv.org/abs/2604.12290
      • Github repo: https://github.com/EinsiaLab/Frontier-Engineering

      這不是又一個「模型會不會做題」的 benchmark。恰恰相反,它在問一個更接近真實 Auto Research 的問題:AI 到底能把一個可行方案優化到多好?

      當 Agent 不再只「答題」,而是真正開始做優化

      過去兩年,大家見過太多 Agent benchmark:有的考檢索,有的考代碼,有的看任務能不能完成。但這些測試,大多還是「對就是對,錯就是錯」的二元評估邏輯。

      可真實世界里的 Research 從來不是這樣的。

      很多時候,一個方法已經能跑,結果也說得過去,但真正決定它有沒有競爭力的,是后面那一點點持續「拱」出來的提升。

      • 實驗快一點,意味著 researcher 少等幾輪結果;
      • 顯存省一點,意味著更大的模型、更長的上下文、更復雜的設置終于能跑起來;
      • 指標漲一點,意味著離 SOTA 更近一步,離榜單前排更近一步,甚至可能就是 paper 能不能站得住的差別。

      在 Auto Research 里,最重要的不是 Agent 能不能一次性給出一個看起來合理的答案,而是它能不能接過這段漫長的迭代過程:持續讀反饋、改方案、跑實驗、壓指標,把研究員們從最重復、最煩人的調優里解放出來。

      而 Frontier-Eng Bench 想測的,正是 AI 能不能接過這一段過程。



      Frontier-Eng 總覽

      論文把這類問題定義為一種新的評測范式:Generative Optimization(生成式優化)。它本質上是在讓 Agent 不再只「交一次答案」,而是真正進入一個工程閉環:

      1. 提出方案
      2. 運行程序或仿真器
      3. 獲取詳細反饋
      4. 繼續修改方案
      5. 在固定預算內不斷逼近更優解

      這其實就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個最終答案,而是不斷試、不斷調、不斷被現實打臉,再反過來修。

      把 Agent 扔進大量真實工程問題里

      為了把這件事做成一個靠譜的 benchmark,Navers Lab 搭了一個相當硬核的評測系統。

      研究團隊邀請了各個工程領域的 PhD 、Master student,提供他們在各自領域經常遇到的真實問題,并將其轉化成安全、可靠、可驗證的代碼庫。換句話說,Frontier-Eng 背后的每一個任務,都來自領域專家的一手經驗。

      Frontier-Eng v1 一共覆蓋 47 個任務,橫跨 5 大工程方向,包括:

      • 計算與量子信息
      • 運籌與決策科學
      • 機器人 / 控制 / 能源系統
      • 光學與通信系統
      • 物理科學與工程設計

      任務類型也不是紙上談兵,而是直接把 Agent 扔進了大量真實工程問題里,包括:

      • GPU kernel 優化
      • 電池快充策略
      • 機械臂運動時間壓縮
      • 量子線路優化
      • 數據中心控制
      • 結構拓撲設計
      • 作業車間調度
      • 光學相位設計
      • 單細胞分析
      • 化學反應優化



      Frontier-Eng Bench 與已有評測基準的對比

      這意味著 Frontier-Eng Bench 測的不是某一個窄領域里的「技巧題」,而是在問:

      當 Agent 面對不同學科、不同目標函數、不同仿真器、不同硬約束時,它持續優化的能力到底怎么樣

      一個專門防止 Agent「鉆空子」,只拼「硬實力」的 Benchmark

      Frontier-Eng Bench 明顯吸取了過去很多評測容易 “被鉆空子” 的教訓。在這里:

      • 評測器和參考數據是只讀的,Agent 改不了;
      • 候選方案在隔離環境里跑,沒法直接碰評分器;
      • 最終分數來自 verifier 自己吐出來的日志,而不是 Agent 自己報喜不報憂。

      也就是說,想拿高分,只有一條路:真的把方案做得更好

      這件事為什么難?因為它要求的已經不是單點能力,而是能力的組合。

      模型既要懂領域知識,知道電池為什么會析鋰、機械臂為什么會撞、庫存策略為什么會失效;又要會寫和改代碼,把這些想法變成可執行方案;還要會讀反饋,理解 simulator 給出的結果到底意味著什么;最后還得在有限預算里做搜索決策:是大改一版,還是小修一刀?

      論文里舉了一個很典型的例子:電池快充任務。目標很簡單,大家都能聽懂 —— 充得越快越好。

      但現實一點都不簡單:電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖,它必須在充電速度、熱安全和壽命損耗之間找平衡。

      這就不是「會不會寫一個函數」的問題了,而是能不能在真實物理反饋里做優化決策

      這也是 Frontier-Eng 最有意思的地方:

      它不再問「答案對不對」,而是問「你能不能在現實約束里持續變好」。



      不同模型的詳細評測結果

      結果揭示:gpt 5.4 最穩健,但前路尚遠

      從結果看,這套 benchmark 也確實夠難。

      論文系統評測了多種前沿模型和代表性搜索框架,結論很直接:gpt 5.4整體表現最穩健,但對所有模型來說,Frontier-Eng 都遠沒被做穿

      換句話說,今天最強的一批模型,已經能在一些工程任務上展現出明顯的優化能力,但距離「像資深工程師一樣穩定地跨領域做復雜優化」,還差得很遠。

      比排名更有意思的,是這篇論文順手揭示出的兩個規律。



      工程優化的雙重冪律衰減

      第一個規律是:越往后,提升越難

      論文發現,Agent 的改進頻率和幅度都呈現冪律衰減:改進頻率 ∝ 1 / 迭代輪數,改進幅度 ∝ 1 / 改進次數。簡單說就是:前面幾輪漲得最快,后面越來越難、越來越小。

      這很像真實研發:第一版能干掉大量低垂果實,但越往后越接近瓶頸,想再摳一點性能都得下狠功夫。

      那是不是多開幾條路并行試會更劃算?答案在第二個規律。



      深度 vs 寬度

      第二個規律:寬度有用,但深度不可或缺

      并行多跑幾條線能避免卡殼,但預算固定時,每多開一條鏈就會壓淺深度。很多工程突破不是靠「多試幾次」,而是靠持續積累、不斷修正,才出現結構性躍遷。

      這提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在長程反饋里持續迭代、自我進化的系統。

      Frontier-Eng Bench:意義不止于榜單

      Frontier-Eng Bench 把行業注意力從「能不能答對」拽到了更現實的問題上:AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒

      評測尺度變了 —— 不再是「對或錯」,而是「你能優化到什么程度」。

      從這個角度看,Frontier-Eng Bench 測的是:AI 距離成為幫人類干臟活累活的工程優化執行者,還有多遠?

      迭代優化是 Research 中永遠無法規避的一環。繞開它,方案永遠停在「差不多」。如果 AI 能扛下這一環呢?

      對科研人員來說,意味著從磨人的調優中解放出來

      對 Auto Research,則意味著能把方案落地到極致,才能真正地開啟飛輪。

      這比又一組刷榜數字,更值得行業認真對待。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不止張雪機車!錢江摩托WSBK雨戰登頂

      不止張雪機車!錢江摩托WSBK雨戰登頂

      沙雕小琳琳
      2026-05-12 01:10:42
      iOS 27,下月見

      iOS 27,下月見

      果粉俱樂部
      2026-05-12 13:15:04
      還在做2元中500萬的夢?看完彩民中大獎的真實概率,你該醒醒了

      還在做2元中500萬的夢?看完彩民中大獎的真實概率,你該醒醒了

      平說財經
      2026-05-12 12:28:53
      悉尼妹即興發揮,網紅主播當場愣住

      悉尼妹即興發揮,網紅主播當場愣住

      灰度測試中
      2026-05-12 06:59:13
      俄羅斯警告波蘭:瘋狂擴軍的代價,最后全由老百姓買單

      俄羅斯警告波蘭:瘋狂擴軍的代價,最后全由老百姓買單

      桂系007
      2026-05-07 23:36:15
      只漲票價不提速!綠皮變身動集惹爭議,小縣城出行權益誰來保障

      只漲票價不提速!綠皮變身動集惹爭議,小縣城出行權益誰來保障

      復轉這些年
      2026-05-11 17:01:47
      A股,突變!多只熱門股回調

      A股,突變!多只熱門股回調

      證券時報e公司
      2026-05-12 12:42:43
      蛇吞象?生產殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

      蛇吞象?生產殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

      趣文說娛
      2026-04-23 19:52:36
      出乎預料,特朗普修改訪華計劃,中方官宣行程延長,必須多待一天

      出乎預料,特朗普修改訪華計劃,中方官宣行程延長,必須多待一天

      黑鷹觀軍事
      2026-05-11 18:19:32
      3萬入刑,不是針對一線小醫生的,你不配

      3萬入刑,不是針對一線小醫生的,你不配

      醫護健康科普
      2026-05-12 09:08:08
      剛通過彈劾案,轉頭自家老巢就被抄了!菲律賓這出大戲太狗血了

      剛通過彈劾案,轉頭自家老巢就被抄了!菲律賓這出大戲太狗血了

      菁菁子衿
      2026-05-12 09:29:01
      高齡產女的夫妻又搬家了!丈夫老黃近況堪憂,親戚前來幫忙

      高齡產女的夫妻又搬家了!丈夫老黃近況堪憂,親戚前來幫忙

      冷紫葉
      2026-05-11 18:12:57
      5299元起!大疆ROMO 2系列正式發布:無人機同款避障太逆天

      5299元起!大疆ROMO 2系列正式發布:無人機同款避障太逆天

      雷科技
      2026-05-11 22:06:31
      維生素B12立大功!研究發現:老人吃維生素B12,或能緩解5慢性病

      維生素B12立大功!研究發現:老人吃維生素B12,或能緩解5慢性病

      健康之光
      2026-05-11 13:33:31
      不出意外的話,中國未來有超過一半的人口,或將會流入到這些地方

      不出意外的話,中國未來有超過一半的人口,或將會流入到這些地方

      墨蘭史書
      2026-05-11 20:00:09
      林詩棟的姐姐是誰?世界冠軍的秘密揭曉!

      林詩棟的姐姐是誰?世界冠軍的秘密揭曉!

      觀察鑒娛
      2026-05-12 09:24:07
      人社部最新動態,2026年養老金有好消息,企退人員補發700元難嗎

      人社部最新動態,2026年養老金有好消息,企退人員補發700元難嗎

      浪子阿邴聊體育
      2026-05-11 12:25:59
      凌晨3點3場大戰,絕殺+絕平,保級亂成一鍋粥

      凌晨3點3場大戰,絕殺+絕平,保級亂成一鍋粥

      田心生活
      2026-05-12 13:08:02
      于和偉越來越不對勁!不是演技退步,而是整個人肉眼可見的變化

      于和偉越來越不對勁!不是演技退步,而是整個人肉眼可見的變化

      科學發掘
      2026-05-12 07:54:56
      廣東省為什么建好了深中通道,還要繼續建設穗深通道呢?

      廣東省為什么建好了深中通道,還要繼續建設穗深通道呢?

      王姐懶人家常菜
      2026-05-12 12:07:31
      2026-05-12 13:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12976文章數 142648關注度
      往期回顧 全部

      科技要聞

      納德拉法庭爆料:拒當“AI時代的IBM”

      頭條要聞

      特朗普訪華企業團名單披露:馬斯克在列 沒有黃仁勛

      頭條要聞

      特朗普訪華企業團名單披露:馬斯克在列 沒有黃仁勛

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區變許愿池

      財經要聞

      特朗普要來了,我們且淡定

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      教育
      藝術
      本地
      公開課

      房產要聞

      50億資本布局!寧德時代,突然重倉三亞!

      教育要聞

      AI時代,雅思閱讀的人文素養才是你的“不可替代內核”

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲乱码中文字幕综合| 愛爱视频在线3| 国产午夜精品无码理论片| 欧洲精品色在线观看| 国产91丝袜在线播放动漫| 日产精品一区二区免费| 国产高清自产拍av在线| 先锋影音一区二区三区网站| 68日本xxxxxxxxx视频| 中文国产不卡一区二区| 国产成人精品AA毛片| 国产九九在线观看| 国产精品无码制服丝袜网站| 国产极品美女高潮无套| 国产午夜福利高清在线观看| 精品久久久久久成人AV| 中文字幕乱码亚洲无线三区 | 中文字幕久久久久人妻| 一区二区视频在线看| 狠狠色噜噜狠狠狠777米奇| 一起cao网站免费入口在线观看| 四虎网址| 国产精品高清一区二区三区| 色五月五月丁香亚洲综合网| 我国产码在线观看av哈哈哈网站| 99久久国产自偷自偷免费一区| 免费观看又污又黄网站日本| 丝袜国产在线| 国内精品大秀视频日韩精品| 肏屄视频在线观看| 亚洲国产成人高清在线观看| 天天摸天天做天天爽水多| 日韩精品一区二区蜜臀av| 欧美疯狂xxxx乱大交| 秋霞电影网久久久精品| 18岁日韩内射颜射午夜久久成人| 亚洲少妇| 精品国产你懂的在线观看| 免费看亚洲一区二区三区| 日本亚洲色大成网站www久久 | 亚洲日韩看片无码超清 |