<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      距離“數字科學家”還有多遠?從“死記硬背”到“邏輯博弈”

      0
      分享至


      潘 展|編譯

      在實驗室的幽暗燈光下,科學家常年與實驗數據和復雜的理論公式博弈。而如今,一個全新的“協作者”出現在了實驗臺上。大語言模型(LLMs)已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。

      然而,當一個AI系統提出一種新的催化劑分子,或是預測了一種全新的蛋白質結構時,我們如何確定它是真的通過“理解”科學原理得出的結論,還是僅僅在進行一場精密的統計游戲?


      近日,《科學》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學研究?

      01


      從“死記硬背”到“邏輯博弈”

      在過去幾年中,AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU(大規模多任務語言理解)還是其他通用學科測試,AI的得分屢創新高。然而,這引發了研究界深層的擔憂:這些測試是否正在失效?


      前沿LLMs在流行基準和HLE上的性能,圖源:HLE

      AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。

      當模型面對一道復雜的物理競賽題時,它給出的正確答案可能并非基于對物理定律的深刻推演,而是基于海量訓練數據中的相似模式匹配。也由此,這種“記憶力驅動的智能”在科學研究中是危險的,科學家將它稱之為“數據污染”——科學的本質在于探索未知,而記憶只能復述已知。

      為了甄別真正的科學智能,研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中,生物、化學、物理領域的GPQA(研究生級別谷歌驗證問答集)成為衡量這一能力的標桿。


      各流行模型GPQA分數排行榜,圖片來源Frontier

      GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家,在擁有無限互聯網訪問權限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試,正確率往往會大幅跌落。

      當新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測試中取得超過80%的正確率時,科研界感受到了震動。

      他們認為,這不再是簡單的記憶檢索,而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進行嚴謹的外推。

      02


      從“結果導向”轉向“過程審計”

      在科學發現中,結論的正確性固然重要,但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。


      FrontierScience奧林匹克與科學研究上各模型準確率,圖源:OpenAI

      這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評估一個AI是否具備合成復雜有機分子的能力時,評估者不再只看最終產量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應環境的溫度與壓力?是否識別并避開了可能發生的副反應?在實驗失敗時,它能否根據異常數據進行正確的歸因分析?

      這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語,但在嚴密的邏輯審查下,其推導鏈條往往存在致命的科學漏洞。

      03


      從“實戰測試”到回歸科學的本質

      衡量AI性能的最終戰場是真實的實驗室。目前,最前沿的評估方式被稱為“閉環自動化發現”。

      在這種模式下,AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標,如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線,指導機器人進行實驗,并根據實驗回傳的實時數據,動態調整自己的假設。

      當實驗數據與初始理論沖突時,AI能否迅速識別出是模型偏差還是實驗誤差的反思能力,成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI,才被認為具備了真正的科學直覺。

      然而,即便是最先進的AI,在科學領域的表現依然面臨界限。我們衡量AI,并非為了證明它能取代科學家,而是為了確立一種全新的協作范式。

      科學研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化,但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面,人類科學家依然掌握著主導權。

      04


      結語

      我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠?《科學》這篇文章的結論或許可以給予我們啟發:這取決于我們的評估體系演進得有多快。

      當我們不再僅僅以“考試成績”來衡量模型,而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時,我們不僅在篩選更好的工具,更是在重新定義科學本身。

      在這個人機共進的時代,衡量AI的過程,本質上也是人類在不斷審視自身如何理解自然界的過程。

      https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

      Deep Science預印本



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      每體:巴薩投入不到3000萬歐便衛冕西甲,德科的引援堪稱教科書

      每體:巴薩投入不到3000萬歐便衛冕西甲,德科的引援堪稱教科書

      懂球帝
      2026-05-12 09:50:23
      姚來英已任中國煙草總公司總經理

      姚來英已任中國煙草總公司總經理

      界面新聞
      2026-05-12 11:12:28
      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      財聞
      2026-05-12 14:53:07
      普京已經開始絕望:戰爭發生轉折了

      普京已經開始絕望:戰爭發生轉折了

      黔有虎
      2026-05-11 20:02:09
      深圳夫妻囤存儲芯片:5個月后身價狂漲320億元

      深圳夫妻囤存儲芯片:5個月后身價狂漲320億元

      快科技
      2026-05-12 11:18:38
      蔣友青:我不認識蔣萬安,平時完全沒來往!他們之間發生了什么?

      蔣友青:我不認識蔣萬安,平時完全沒來往!他們之間發生了什么?

      凡人侃史
      2026-05-12 14:37:12
      女子車禍住院遭男醫生侵犯,錄下全過程并主動反問,為何不立案

      女子車禍住院遭男醫生侵犯,錄下全過程并主動反問,為何不立案

      一絲不茍的法律人
      2026-05-11 11:45:38
      人民幣危機來襲!特朗普剛到北京就掀起貨幣大戰!

      人民幣危機來襲!特朗普剛到北京就掀起貨幣大戰!

      菁菁子衿
      2026-05-12 09:38:38
      全球進入北京時間

      全球進入北京時間

      環球時報國際
      2026-05-12 14:44:04
      失焦的白象,開始焦慮

      失焦的白象,開始焦慮

      智谷趨勢
      2026-05-11 23:11:11
      僅1個月,莫氏雞煲無人排隊涼了?網友:流量之后,一地雞毛...

      僅1個月,莫氏雞煲無人排隊涼了?網友:流量之后,一地雞毛...

      品牌新
      2026-05-12 11:21:21
      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      奇思妙想草葉君
      2026-05-12 02:14:56
      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      還沒出發前,特朗普就提出要求:中國向美采購小麥,為何這么急迫?

      還沒出發前,特朗普就提出要求:中國向美采購小麥,為何這么急迫?

      麓谷隱士
      2026-05-12 10:52:08
      消費者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費

      消費者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費

      山西經濟日報
      2026-05-12 15:19:36
      以總理稱伊朗導彈有中國的零部件?外交部:反對沒有事實依據的無端指責

      以總理稱伊朗導彈有中國的零部件?外交部:反對沒有事實依據的無端指責

      澎湃新聞
      2026-05-12 15:48:26
      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      無人傾聽無人傾聽
      2026-05-11 16:48:33
      “野爹機”事件給所有公司敲響了警鐘

      “野爹機”事件給所有公司敲響了警鐘

      老端的觀點
      2026-05-11 19:32:12
      河南55歲女子跟鄰居吵架后越想越氣,頭痛嘔吐緊急送醫不幸去世:血壓飆升引發腦干出血

      河南55歲女子跟鄰居吵架后越想越氣,頭痛嘔吐緊急送醫不幸去世:血壓飆升引發腦干出血

      大象新聞
      2026-05-12 14:46:07
      黃仁勛真是被白宮徹底封殺了

      黃仁勛真是被白宮徹底封殺了

      大貓財經Pro
      2026-05-12 14:04:28
      2026-05-12 18:04:49
      深究科學 incentive-icons
      深究科學
      科學、技術、創新。
      223文章數 11關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      老人游泳館溺水6分鐘無人施救 家屬:救生員在玩手機

      頭條要聞

      老人游泳館溺水6分鐘無人施救 家屬:救生員在玩手機

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區變許愿池

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      健康
      手機
      游戲
      教育
      藝術

      干細胞能讓人“返老還童”嗎

      手機要聞

      iOS 26.5正式版來了!新變化匯總與更新建議

      英國零售商員工稱《GTA6》標準版定價69.99英鎊

      教育要聞

      牛!玄外41人、明道30人、金中河西26人、求真24....特長生牛娃上岸附中!

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人无码小说| 欧美牲交40_50a欧美牲交aⅴ| 国产精品18久久久久久麻辣| 男人又大又硬又粗视频| 精品人妻少妇嫩草AV无码AI| 国产传媒_色哟哟| 国产精品久久久久尤物| 99在线精品国自产拍中文字幕| av一本久道久久综合久久鬼色| 日韩精品久久久免费观看| 中文字幕无码不卡在线| 少妇熟女视频一区二区三区| 日韩国产亚洲三区在线| 夜夜躁狠狠躁日日躁视频| 亚洲高潮喷水无码AV电影| 9118禁| 亚洲av日韩综合一区尤物| 开心一区二区三区激情| 亚洲欧洲AV| 亚洲最大的成人av在线观看| 在线亚洲午夜理论AV大片| 色综合视频一区二区三区| 亚洲偷偷自拍码高清视频| 精品国产AⅤ一区二区三区V免费| 国产精品无码专区| 韩色区| 我国产码在线观看av哈哈哈网站 | 人妻偷人精品| 人妻系列无码专区久久五月天| 实拍女处破www免费看| 国产99视频精品免费专区| 在线激情天天干| 亚洲AV日韩AV激情亚洲| 色av综合| 国内精品自在欧美一区| 亚洲国产成人久久精品app| 国产成人一区二区三区小说| 亚洲欧美日韩精品| 亚洲一二三区精品美妇| 成人精品动漫一区二区| 精品无码专区久久久水蜜桃|