<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI科學家還在刷靜態榜?基準主動反擊,重塑自動科研評價標準

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】AI Scientist正把「自動科研」推向新階段,但一個更危險的問題也在浮出水面:當evaluator是靜態的,系統學到的可能不是科學機制,而只是「怎么把這張考卷做高分」。

      自動科研真正的危險,已經不是「不會搜」,而是「太會刷靜態評測」。

      過去一年,AI Scientist一類系統已經展示出驚人的能力:提出想法、寫代碼、跑實驗、分析結果,甚至自動生成論文。但系統越強,一個更本質的問題就會越尖銳:如果評測環境是凍結的,系統完全可能學會「贏過評測」,卻沒有真正學會任務背后的科學機制。

      這篇論文最重要的判斷,就在這里。

      德州農工大學、伊利諾伊大學厄巴納-香檳分校等機構的研究人員指出,autonomous scientific discovery面臨的核心風險,不再只是搜索不夠強,而是cognitive overfitting to the benchmark itself:一個足夠強的搜索過程,可能會比理解科學更快地學會「如何贏這張考卷」。


      論文鏈接:https://arxiv.org/abs/2603.29045

      這也是論文標題 Let the Abyss Stare Back 的真正含義。所謂「讓深淵回望」,不是一句修辭,而是在方法論上把評測從靜態、凍結、被動的「考試卷」,改成會主動反擊、主動找漏洞、主動逼近脆弱點的 falsifier。不是候選只去適應 benchmark,而是 benchmark 開始反過來審問候選。

      DASES(Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution)改寫的,不是搜索能力,而是「什么才算發現」。

      DASES把「提出候選—打分—保留」,改寫成「提出候選—主動反證—解釋失敗—最小修正—繼續進化」。

      在這個框架里,有三個彼此咬合的角色:

      • Innovator負責提出新的科學候選;

      • Abyss Falsifier不再是被動打分器,而是會圍繞當前候選,動態構造新的反例環境,專門去找它的 shortcut、脆弱假設、尾部風險和組合失穩;

      • Mechanistic Causal Extractor則不只報告「失敗了」,還要回答兩個更關鍵的問題:為什么失敗,以及下一輪最小應該改什么。

      這里最關鍵的一點是:DASES生成的不是「隨便攻擊一下」的 adversarial case,而是科學上可接受的反證環境

      環境可以變難,可以推到尾部,可以加入反事實和組合擾動,但任務語義不能被破壞,它要做的不是通過篡改問題定義來「強行打穿」,而是在問題仍然成立的前提下,主動挖出候選最不該有的脆弱性。

      所以,DASES 追求的不是「在固定 benchmark 上分數最高的候選」,而是在當前最強、且仍然合法的 falsification frontier 下,依然活下來的候選。這也是它和很多現有 autonomous scientist 框架最根本的區別:不是搜索更大了,而是評價標準被改寫了

      實驗設計

      最聰明的設計,是把實驗做得極其「干凈」:整場 discovery game 里,只允許改 loss

      為了把這個方法學問題講清楚,作者沒有一上來就做一個邊界模糊的大任務,而是故意挑了一個窄,但科學解釋力極強的問題:自動發現一個更強的圖像分類 loss function,并允許帶regularization。

      但真正厲害的地方在于,整個 discovery 過程被設計得非常嚴格:唯一允許被編輯的地方,只有loss。

      backbone、optimizer、訓練 schedule、數據增強、數據管線、評測邏輯,全部凍結。系統不能通過偷偷改訓練策略、順手調超參數、或者碰其他模塊來「刷出一個更好結果」。任何提升,最后都只能歸因到loss本身。

      這就是論文強調的single editable scientific locus。它看似只是一個實現約束,實際上是整套方法的科學底座:如果你不把可編輯位點鎖死,自動科研系統就很容易在你沒有意識到的地方「動手腳」,結果看起來像發現,本質上卻只是 protocol gaming。

      作者專門搭了一個「誘導模型走捷徑」的discovery lab,用來證明靜態驗證為什么會騙人。

      在實驗里,作者構造了一個 synthetic discovery environment。表面上看,它只是一個四分類圖像識別任務;但真正決定標簽的機制只有一個:前景形狀幾何。也就是說,模型本來應該根據圓形、方形、三角形和其他多邊形的形狀來分類。

      問題在于,訓練分布被故意做成了一個「很容易讓模型學歪」的環境: 每一類前景,會高概率對應某種背景顏色—紋理家族。于是模型最容易學到的,不是前景幾何,而是背景統計。

      更關鍵的是,這些背景并不是簡單模板,而是包含豐富隨機變化的紋理族。換句話說,這不是一個粗糙的玩具設置,而是一個可復現、可審計、專門用來暴露 shortcut reliance 的 falsification lab

      因此,這篇論文真正要證明的,并不是「AI 能不能找到一個更強的 loss」這么簡單,而是另一個更關鍵的問題:

      如果 test set 會持續追著候選的脆弱點打,那么那些在靜態驗證下看起來已經足夠好的候選,還能不能撐到最后?

      實驗結果

      表1和圖1說明了:靜態驗證一路高歌,真正的失敗模式卻被一輪輪逼了出來。



      因為它們展示的不是「某個方法分數更高」,而是一個更本質的事實:靜態 ID validation 可能一直在制造「模型已經很好」的幻覺,但只要 falsifier 往前推進一步,隱藏失敗模式就會立刻暴露。

      表1把DASES的discovery軌跡拆成了一輪輪非常清楚的事件。最開始,系統在一個 shortcut-biased 的環境里前進;隨后,Falsifier先加入neutral-background counterfactuals,再加入更難的background-family swaps,再到更強調幾何穩定性的invariance-heavy geometry stress,最后是把多種有效擾動疊加在一起的compositional tail interactions

      這張表最精彩的地方,在于它讓讀者一眼看出「誰到底在學什么」。

      早期候選一遇到背景反事實就明顯崩掉,說明它們主要學的是背景shortcut;CE成為第一個 bottleneck,說明它修復了最粗淺的一層shortcut,但還遠沒有真正學到穩定機制;

      當Falsifier 繼續加入幾何不變性壓力后,CE的test表現明顯回落,說明模型還沒有形成穩健的幾何表征; 隨后CE+L2成為第二個 bottleneck,它比CE更穩,但一旦進入組合式tail stress,依然會被繼續打穿;

      最后,FNG-CE在D4上達到54.4%,而到最后一次D5擴張時僅下降0.1,成為第一個真正跨過當前falsification frontier的候選。

      所以表1真正證明的,不是「FNG-CE 比 CE 高了多少」,而是:不是誰先在靜態驗證上得高分,誰就算發現;而是誰在一輪輪更強、但仍然合法的反證里不崩,誰才配被保留下來。

      再看圖1,這個邏輯就更直觀了。圖里灰線是靜態 ID validation accuracy,幾乎始終維持在高位;藍線是 discovery-lab test accuracy,每當紅色菱形標記的 falsifier 擴張出現時,藍線都會突然掉一截。這個圖最有沖擊力的地方就在于:「看起來一直很好」與「真的經得起反證」根本不是一回事。

      灰線告訴你,如果只看靜態 validation,你會誤以為系統一直在穩定進步; 藍線則告訴你,每一次新的合法反證,都會把一個之前看不見的失敗模式拽到臺前。 直到最后,FNG-CE 才第一次把「高分」和「抗打」真正統一到一起。

      換句話說,表1是逐輪證據,圖1是整體故事:靜態評測給的是樂觀幻覺,動態 falsification 才在真正篩掉「只會考試」的候選。

      FNG-CE 不是拍腦袋堆 regularization,而是被 falsification trace 一步步「逼」出來的最小修正

      這篇論文還有一個非常重要的點:FNG-CE 不是作者主觀挑出來的「更復雜的 loss」,而是順著前面每一輪 falsification 暴露出的失敗模式,被一步步逼出來的。

      在 CE+L2 之后,Mechanistic Causal Extractor 發現還剩下兩類關鍵問題沒有解決。

      第一,模型仍然可能通過放大 feature norm 來「靠長度取勝」,也就是置信度看起來更高了,但不代表它真的學到了更穩的判別機制; 第二,特征空間的幾何結構仍然不夠均勻,存在冗余和各向異性,因此一旦反事實和組合擾動疊加,類間分離仍然會塌。

      于是,DASES構造了FNG-CE: 在 CE 的基礎上,同時加入feature norm regularizationfeature covariance geometry regularizationL2 weight decay

      三個部分分別在修三種不同的問題:

      norm項,抑制「靠模長刷置信度」;

      covariance項,讓特征幾何更均勻、更不容易在復雜擾動下失穩;

      L2項,繼續提供標準的容量控制。

      所以這篇論文真正想說明的,不是這些ingredient在歷史上從未出現過,而是:在固定協議、單一編輯位點和動態falsification的共同約束下,這個具體組合是第一個能撐過完整前沿的最小機制性答案。

      這也是FNG-CE最有說服力的地方:它不是「設計出來」的,而更像是被反證鏈條一路「逼出來」的。

      表2和表3回答了最關鍵的問題:它不只是適配 synthetic lab,而是真的遷移到了標準 benchmark


      說到這里,一個最自然的問題就是:FNG-CE會不會只是特別適配這個 synthetic falsification lab?

      論文用表2表3給出了非常正面的回答。作者把FNG-CE的解析形式原樣遷移到標準自然圖像分類benchmark上,在ResNet-18和ResNet-50下做受控比較。

      結果非常整齊,如表2所示,在ResNet-18上,FNG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六個數據集上全部優于 CE; 而如表3所示,在ResNet-50上,FNG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七個數據集上同樣全部取得最好結果。

      其中最有傳播力的一個數字,就是ImageNet。在ResNet-50上,FNG-CE達到71.56%,相比CE的70.73%提升了0.83個百分點。這意味著DASES逼出來的,不只是一個「更適合 discovery lab」的技巧,而是一種更可遷移的 loss-level inductive bias

      這里還有一個很值得強調的細節:CE+L2 并沒有呈現出這種一致提升。

      也就是說,事情不是「多加一點 regularization 就能贏」,也不是「在 synthetic 環境里更穩一點,就一定能遷移出去」。

      真正起作用的,是 DASES 通過動態 falsification 找到的那條機制線索:模型不僅要擺脫 shortcut,還要減少幾何脆弱性,并在合法的組合擾動下保持穩定。只有沿著這條線逼出來的 loss,才會在真實 benchmark 上繼續成立。

      總結

      這篇工作的真正價值,不只是發現了一個新 loss,而是把自動科研往前推了一步

      如果只把這篇工作理解成「找到一個新的圖像分類 loss」,其實是低估了它。

      它真正重要的地方在于,它改寫了 autonomous scientific discovery 的評價標準:

      不是高分即發現,而是經得起主動反證,才算發現。

      過去的自動科研系統,更像是在刷一張固定考卷; 而 DASES 做的,是讓考卷自己長出反擊能力。 過去大家更關心的問題,是「AI 能不能更快搜索」; 而這篇論文在追問一個更關鍵的問題:

      當 benchmark / test set開始主動找你的脆弱點時,你的發現還能不能站住?

      從這個意義上說,FNG-CE 的意義不只是它在論文給出的受控比較中優于 CE 和 CE+L2,更在于它是一個被「合法反證」一路逼出來,并最終跨過 falsification frontier 的候選。它代表的不是「更會刷分」,而是更難被科學上合理的反例擊穿。

      這也許正是 AI Scientist 下一階段最關鍵的方法學信號:

      讓 benchmark / test set fight back。讓評測從被動驗收,變成主動找脆弱點。讓自動發現不再由「誰看起來最好」定義,而由「誰最難被合法擊穿」定義。

      參考資料:

      https://arxiv.org/abs/2603.29045

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗作出關鍵讓步,竟然軟成這樣

      伊朗作出關鍵讓步,竟然軟成這樣

      名人茍或
      2026-05-03 11:26:00
      一夜之間大跳水!最低不到2折!網友直呼“2000多元憑空蒸發”

      一夜之間大跳水!最低不到2折!網友直呼“2000多元憑空蒸發”

      魯中晨報
      2026-05-03 08:34:29
      剛剛,直線跳水!霍爾木茲,大消息

      剛剛,直線跳水!霍爾木茲,大消息

      中國基金報
      2026-05-04 00:15:45
      后背發涼!新司機被父親要求80時速占快車道,稱他人有本事飛過去

      后背發涼!新司機被父親要求80時速占快車道,稱他人有本事飛過去

      火山詩話
      2026-05-04 13:02:18
      許家印終于交代:月薪3萬60名女團員,養了恒大歌舞團,提供3服務

      許家印終于交代:月薪3萬60名女團員,養了恒大歌舞團,提供3服務

      貓叔東山再起
      2026-05-04 09:35:09
      公開認罪后,人民日報對許家印稱呼變了,11字之差釋放信號不一般

      公開認罪后,人民日報對許家印稱呼變了,11字之差釋放信號不一般

      歷史人文2
      2026-04-17 19:29:02
      四川弒母案:法學女殺母分尸,指認現場,笑著說“肉好肥哦”

      四川弒母案:法學女殺母分尸,指認現場,笑著說“肉好肥哦”

      墨策史
      2026-05-02 23:01:31
      “三哥,你尾款我不要了!”中國外貿人反殺印度老賴,招招絕了!

      “三哥,你尾款我不要了!”中國外貿人反殺印度老賴,招招絕了!

      生活新鮮市
      2026-05-04 10:23:16
      花幾百萬,換17歲男孩的血?

      花幾百萬,換17歲男孩的血?

      中國新聞周刊
      2026-05-04 12:36:50
      全線爆發!中國資產,大漲!

      全線爆發!中國資產,大漲!

      證券時報
      2026-05-04 10:32:18
      泰國普吉島游客嘟嘟車上公然發生性行為,引發眾議

      泰國普吉島游客嘟嘟車上公然發生性行為,引發眾議

      浮光驚掠影
      2026-05-03 20:24:27
      父親縣委書記離職后,老婆和我離婚了,半年后父親調任市委副書記

      父親縣委書記離職后,老婆和我離婚了,半年后父親調任市委副書記

      千秋文化
      2026-04-30 19:27:10
      手機正在打敗中國的大學教育制度

      手機正在打敗中國的大學教育制度

      回旋鏢
      2026-05-04 12:19:32
      劉國正談國乒男團兩連敗:王楚欽表現正常,林詩棟起伏還是太大了,比賽還沒結束,一切都有可能,國乒男團已沒有僥幸余地

      劉國正談國乒男團兩連敗:王楚欽表現正常,林詩棟起伏還是太大了,比賽還沒結束,一切都有可能,國乒男團已沒有僥幸余地

      瀟湘晨報
      2026-05-04 10:07:18
      騎士破猛龍:加雷特·阿倫的活力

      騎士破猛龍:加雷特·阿倫的活力

      張佳瑋寫字的地方
      2026-05-04 10:56:38
      曝張雨綺退租288㎡豪宅!季付23萬,中介證實已搬家,房源正招租

      曝張雨綺退租288㎡豪宅!季付23萬,中介證實已搬家,房源正招租

      樂天閑聊
      2026-05-04 02:10:09
      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      莫氏雞煲上線湯料包5分鐘售罄4000多份,累計賣出4萬多份,總銷售額破160萬元,記者實測:1分鐘搶到兩包

      極目新聞
      2026-05-04 09:46:46
      中國機器人在美“出差”買票坐飛機:坐靠窗位,電池超標致航班延誤,現場表演逗樂乘客

      中國機器人在美“出差”買票坐飛機:坐靠窗位,電池超標致航班延誤,現場表演逗樂乘客

      紅星新聞
      2026-05-04 15:44:20
      曝科爾大概率續約勇士!ESPN高層仍在極力游說:希望他重返解說席

      曝科爾大概率續約勇士!ESPN高層仍在極力游說:希望他重返解說席

      羅說NBA
      2026-05-04 14:02:23
      廳級干部已經成為了高危職業

      廳級干部已經成為了高危職業

      風向觀察
      2026-05-04 14:17:07
      2026-05-04 16:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15129文章數 66835關注度
      往期回顧 全部

      科技要聞

      OpenAI“復活”了QQ寵物,網友直接玩瘋

      頭條要聞

      宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

      頭條要聞

      宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      家居
      房產
      游戲
      親子
      教育

      家居要聞

      靈動實用 生活藝術場

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      索尼PS5最新獨占大作不是“鑰匙盤”!玩家高興壞了

      親子要聞

      韓網友熱議:這世上會有沒有母愛的媽媽嗎?

      教育要聞

      小升初附加題,求四邊形面積,難倒了不少人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品一区二| 亚洲视频a| 日照市| 免费精品国产一区二区三区| 欧美一区二区三区激情| 人禽交300部| 婷婷五月天网| 波多野结衣网站| 丝袜无码一区二区三区| 亚洲香蕉av一区二区蜜桃| 成人欧美一区二区三区在线| 五月天婷婷社区| 中文午夜乱理片无码| 制服.丝袜.亚洲.中文.综合懂 | 尤物tv国产精品看片在线| 欧美亚洲制服| 五月天久久综合国产一区二区| 99久久综合国产精品免费| 黄色舔女人逼一区二区三区| 91免费高清| 亚洲精品字幕| 国内精品久久久久影院不卡| 风间由美性色一区二区三区 | 亚洲精品一区二区三区中文字幕| 久久国产精品99精品国产| 最新97超级碰碰碰碰久久久久| 五月综合激情婷婷六月| 亚洲AV美女在线播放啊| 日韩城人网站| 男人天堂2024手机在线| 成人av专区精品无码国产| 国产av麻豆mag剧集| 国产一级毛片高清完整| AV天堂无码| 成人福利一区二区视频在线 | AV大香蕉| 成人午夜福利视频一区二区| 午夜欧美日韩在线视频播放| 久热免费观看视频在线| 人人超碰人人| 国产精品一码二码三码|