<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      如何判斷 AI 是否具備開展科學研究的智能?|深度報道

      0
      分享至


      原文發(fā)表于 《科技導報》2026年第6期科技新聞-深度報道

      如何判斷 AI 是否具備開展科學研究的智能?——新型測試評估大語言模型能否運用海量知識實現(xiàn)真正科學發(fā)現(xiàn)


      圖片來源:攝圖網(wǎng)

      多年來,人工智能(AI)研究者夢想開發(fā)能通過提出新問題、設計實驗乃至執(zhí)行實驗來加速科學進程的工具。近期,大語言模型(large language models,LLM)已取得若干發(fā)現(xiàn),部分AI開發(fā)者宣稱這使我們更接近該未來。但尚不知道如何測試AI模型是否真能開展科學研究?

      為尋求答案,研究者轉向基準測試:用于評估AI能力并與其他模型比較的標準化問題或任務集。但科學的復雜性使評判其科研能力尤為困難。美國伊利諾伊大學厄巴納-香檳分校計算機科學家Hao Peng表示:“模型擁有海量知識,但它們懂得如何運用嗎?”

      過去1年涌現(xiàn)數(shù)10項面向科學的新基準測試以回答該問題,但科學家尚未就最佳方法達成共識。其中最受歡迎者之一是2026年1月28日發(fā)表于Nature的“人類終極考試”(Humanity's Last Exam,HLE)。該測試采用2500道源自“人類知識前沿”的問題考驗LLM。例如其中一題詢問蜂鳥籽骨支撐多少對肌腱。HLE開發(fā)者、非營利組織人工智能安全中心研究工程師Long Phan表示:“我們希望構建僅長期深耕該領域的專家才能回答的多樣化數(shù)據(jù)集。”

      HLE自2025年1月24日首次以預印本形式發(fā)布以來,已成為LLM的重要試金石——HLE得分現(xiàn)已成為AI公司彰顯產品能力的常見談資。HLE發(fā)布時,知名開發(fā)者OpenAI的o1模型以僅8.3%的得分位居榜首。2026年3月早些時候,Google宣稱其最新科學推理模型Gemini 3 Deep Think創(chuàng)下48.4%的HLE新紀錄。

      但部分科學家指出,HLE諸多問題測試的是晦澀乃至瑣碎的知識,而非開展有意義研究的能力。AI for Science公司Deep Principle創(chuàng)始人段辰儒質疑:“知曉世界上磷同素異形體有多少種顏色,如何助人實現(xiàn)科學發(fā)現(xiàn)?”

      OpenAI研究者表示,他們開發(fā)了朝此方向邁進的新基準測試。2025年12月16日發(fā)布的FrontierScience借助700道化學、生物學與物理學問題,旨在識別“專家級科學推理”能力。部分問題類似數(shù)學與科學奧林匹克競賽題目:通常基于簡短場景、答案明確,OpenAI研究科學家Miles Wang稱之為“純推理努力的合理代理”。例如識別系列化學反應的產物。其他問題則基于博士科學家在實際工作中處理的復雜開放式研究問題,如推理修飾特定分子可能影響其性質的多種途徑。

      Wang表示,該基準測試的關鍵優(yōu)勢在于可驗證性——這是公平測試的最重要特征之一。奧林匹克題目易于評分,而對于開放式研究問題,LLM因識別中間推理步驟而獲分。截至目前,OpenAI自家產品GPT-5.2取得最佳FrontierScience成績:奧林匹克題目正確率77%,研究挑戰(zhàn)得分25%

      其他研究者認為這一巨大分差頗具啟示性。他們主張基準測試應聚焦直接衡量AI開展現(xiàn)實世界研究的能力。這正是段辰儒及其合作者與FrontierScience同期發(fā)布的“科學發(fā)現(xiàn)評估”(Scientific Discovery Evaluation,SDE)基準測試的指導原則。該測試不提困難但孤立的問題,而是向AI呈現(xiàn)源自8項進行中、數(shù)據(jù)尚未發(fā)表的真實研究項目的1125項任務,關聯(lián)43種研究場景。例如要求LLM推導如何將目標分子分解為更簡單、市售可得的組分。模型評估不僅基于單個答案,更基于其整合完整項目的能力——在多步驟中提出、檢驗并完善假設。段辰儒表示:“我們確保回答每個問題都關聯(lián)真實科學發(fā)現(xiàn)的微小片段。”

      SDE得分顯示,LLM正確回答單個問題的能力并不總能轉化為完整項目的穩(wěn)健表現(xiàn),反之亦然。段辰儒表示:“知曉宏觀前進方向往往比知曉特定分子的精確性質更重要。”該基準測試還發(fā)現(xiàn),來自OpenAI、Anthropic、xAI和DeepSeek等不同供應商的頂尖模型常在同一最難問題上受阻。這一模式暗示它們可能遭遇相同局限,很可能因其在相似科學數(shù)據(jù)池上訓練所致。

      然而SDE方法仍僅捕捉科學工作流的片段。AI for Science初創(chuàng)公司FutureHouse推出的生物學導向新基準測試LABBench2,旨在測試面向科學的AI能否將項目從初始構想推進至完成論文。2月發(fā)布的該測試采用近1900項任務,評估所謂“代理型www.kjdb.orgAI模型”(能獨立完成多步驟任務的系統(tǒng))執(zhí)行文獻檢索、數(shù)據(jù)獲取與基因序列構建等工作的能力。

      目前結果喜憂參半。多數(shù)領先LLM在全文專利與實驗室試驗論文檢索方面表現(xiàn)良好,但在LABBench2更復雜的任務上常遇困難,例如交叉引用多個數(shù)據(jù)庫,或在密集論文中定位并解讀特定圖表或數(shù)據(jù)。FutureHouse商業(yè)衍生公司Edison Scientific 的Jon Laurent表示,這表明邁向真正AI科學家的進展,部分也取決于改進模型檢索與導航信息的方式。

      研究者強調,基準測試不僅用于記錄當前贏家。更嚴格的基準測試還可通過為LLM及其他AI工具提供新目標來驅動創(chuàng)新。Laurent表示:“基準測試的目的之一是領先時代,衡量潛在能力,并推動其發(fā)展。”

      在諸多領域,或不存在衡量AI是否“擅長”科學的單一標準。美國佐治亞理工學院認知神經(jīng)科學與AI研究者Anna Ivanova表示:“這正是我們看到所用基準測試高度異質的原因。系統(tǒng)繪制數(shù)據(jù)的能力與其分析化學事實知識截然不同——盡管科學家可能兩者都需要。”

      鑒于科學所需技能的廣泛性,AI專家認為研究界或宜依賴測試組合,每項測試針對并催化科學工作流不同環(huán)節(jié)的改進。Wang表示:“我們正邁向需要更多元化評估體系的世界。”

      無論采用何種方法,被衡量的內容很可能引導改進方向。Peng表示:“要取得進展,你必須能夠衡量它。

      文 /Celina Zhao

      (譯自Science,2026,391(6790))

      《科技導報》創(chuàng)刊于1980年,中國科協(xié)學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發(fā)表促進經(jīng)濟社會發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學文化、促進科技創(chuàng)新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本網(wǎng)民的真正破防,開始了

      日本網(wǎng)民的真正破防,開始了

      這里是東京
      2026-05-15 17:19:46
      女生退機票問豆包虧600后把豆包告上法庭!這問答記錄和網(wǎng)友神評把人笑瘋

      女生退機票問豆包虧600后把豆包告上法庭!這問答記錄和網(wǎng)友神評把人笑瘋

      不二表姐
      2026-05-15 22:37:09
      52歲董卿重慶聚餐容顏依舊,婚姻狀況穩(wěn)定

      52歲董卿重慶聚餐容顏依舊,婚姻狀況穩(wěn)定

      罐頭告訴貓迷
      2026-05-16 10:04:27
      5萬人怒砸東京街,高市早苗終于服軟認慫,中方冷回:不糾錯免談

      5萬人怒砸東京街,高市早苗終于服軟認慫,中方冷回:不糾錯免談

      泠泠說史
      2026-05-14 21:52:49
      22筆房貸斷供、貸款人集體失聯(lián),警方披露案件細節(jié)

      22筆房貸斷供、貸款人集體失聯(lián),警方披露案件細節(jié)

      澎湃新聞
      2026-05-15 15:46:05
      未雨綢繆!即將擔任皇馬主帥的穆帥,要求皇馬今夏補強后防線

      未雨綢繆!即將擔任皇馬主帥的穆帥,要求皇馬今夏補強后防線

      福醬的小時光
      2026-05-16 07:26:54
      保時捷中國高管喊話被抄襲無奈,羅永浩怒懟:論流氓誰能跟保時捷比,新能源抄了保時捷的,不是只有那個誰和那個誰嗎

      保時捷中國高管喊話被抄襲無奈,羅永浩怒懟:論流氓誰能跟保時捷比,新能源抄了保時捷的,不是只有那個誰和那個誰嗎

      大風新聞
      2026-05-15 12:21:07
      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      籃球實戰(zhàn)寶典
      2026-05-15 19:22:06
      消費者在神州租車平臺租車,因提前還車1分鐘被多收20元違約金;租車平臺:提前還車致優(yōu)惠券不能使用,系統(tǒng)問題導致

      消費者在神州租車平臺租車,因提前還車1分鐘被多收20元違約金;租車平臺:提前還車致優(yōu)惠券不能使用,系統(tǒng)問題導致

      山西經(jīng)濟日報
      2026-05-15 11:16:53
      英超歐冠形勢:維拉鎖定資格 3隊爭最后1席 利物浦盼曼城曼聯(lián)幫忙

      英超歐冠形勢:維拉鎖定資格 3隊爭最后1席 利物浦盼曼城曼聯(lián)幫忙

      我愛英超
      2026-05-16 05:46:53
      以色列清除哈馬斯最高領導人,系新瓦爾繼任者

      以色列清除哈馬斯最高領導人,系新瓦爾繼任者

      移光幻影
      2026-05-16 08:33:19
      女高中生私密視頻被男友校園傳播,母親希望能夠追究刑責

      女高中生私密視頻被男友校園傳播,母親希望能夠追究刑責

      映射生活的身影
      2026-05-15 22:14:42
      重磅:曝德國計劃用烏克蘭“火烈鳥”導彈替代戰(zhàn)斧!

      重磅:曝德國計劃用烏克蘭“火烈鳥”導彈替代戰(zhàn)斧!

      項鵬飛
      2026-05-15 18:33:53
      “摸奶子”惹爭議!OPPO的流量反噬來了?莫奈:我背鍋?!

      “摸奶子”惹爭議!OPPO的流量反噬來了?莫奈:我背鍋?!

      品牌新
      2026-05-13 17:03:19
      央視拿下2026年美加墨世界杯版權!知名主持韓喬生喊話“妥了”,中國球迷可在家看世界杯了

      央視拿下2026年美加墨世界杯版權!知名主持韓喬生喊話“妥了”,中國球迷可在家看世界杯了

      新民晚報
      2026-05-15 15:45:13
      斯諾克冠中冠:吳宜澤趙心童領銜8將入選,2人待定,火箭變受害者

      斯諾克冠中冠:吳宜澤趙心童領銜8將入選,2人待定,火箭變受害者

      劉姚堯的文字城堡
      2026-05-16 08:43:16
      為什么老外都愛天壇?

      為什么老外都愛天壇?

      民察秋毫
      2026-05-15 17:32:27
      訪華剛結束,東南亞就變天,高市緊急起飛,中菲關系或迎轉機

      訪華剛結束,東南亞就變天,高市緊急起飛,中菲關系或迎轉機

      鐵錘侃侃而談
      2026-05-16 08:57:05
      中紀委再次重拳出擊!這4個領域將被嚴查,這4種行為將被嚴肅處理

      中紀委再次重拳出擊!這4個領域將被嚴查,這4種行為將被嚴肅處理

      細說職場
      2026-05-15 14:01:05
      妻子晉升副總和我離婚,七天后她住院,我只回了一句話:新婚快樂

      妻子晉升副總和我離婚,七天后她住院,我只回了一句話:新婚快樂

      千秋文化
      2026-05-11 20:43:27
      2026-05-16 11:00:49
      科技導報 incentive-icons
      科技導報
      中國科協(xié)學術會刊
      5327文章數(shù) 8364關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      火遍全網(wǎng)后消失 網(wǎng)紅小胖如今樣貌大變:做了心臟搭橋

      頭條要聞

      火遍全網(wǎng)后消失 網(wǎng)紅小胖如今樣貌大變:做了心臟搭橋

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經(jīng)要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      本地
      旅游
      游戲
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      閉園、停運!暴雨即將抵達!河南多家景區(qū)發(fā)布緊急通知→

      老粉狂喜!曝刺客大師艾吉奧將在刺客信條新作“回歸”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      聯(lián)合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩欧美人妻一区二区三区| 精品一卡2卡三卡4卡乱码精品视频| 欧美嫩交一区二区三区| 国产乱人伦1区2区3区| 国产亚洲AV无码AV男人的天堂| 欧美午夜福利| 极品虎白女一线天在线看| 中文字幕av久久波多野结| 97久久超碰成人精品网站| 睡熟迷奷系列新婚之夜| 欧美福利在线观看| 国产成人av电影在线观看第一页| av网在线看| 日本高清视频网站www| 日韩三级片网站| 中文字幕国产精品av| 国产乱子伦精品视频| 中文字幕av久久| 亚洲中文欧美在线视频| 她也色tayese在线视频| 制服丝袜中文字幕图片在线| 国产V^在线| 五月婷婷成人| 精品国产高清一区二区三区| 亚洲中文字幕日韩精品| 亚洲日韩人妻在线| 亚洲中文字幕第一页在线| 精品熟女视频专区| 亚洲av蜜臀在线播放| 欧洲精品一二三在线| 一区二区三区四区精品视频| 在线国产毛片| jlzzjlzz欧美大全| 国产高清在线男人的天堂| japanese无码中文字幕| 女同欧美亚洲| 成人午夜在线观看刺激| 国内精品久久人妻无码网站| 三级黄色电影网站| 亚洲最大的熟女水蜜桃AV网站 | 伊人五月婷婷|