<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      聚焦·人工智能 | 如何判定人工智能的科研能力

      0
      分享至


      人工智能技術飛速發展并持續向科研領域滲透,如何判斷AI是否真正具備開展科學研究的能力已成為學界關注的核心議題。當前,各類新型基準測試接連問世,試圖從不同維度衡量模型在科學任務中的表現。近日,研究者塞莉娜·趙(Celina Zhao)在《科學》雜志刊發《如何判定人工智能的科研能力?》(How will we know if AI is smart enough to do science?)一文,分析了目前不同評估體系對AI科研能力的考察維度,并提出應構建多元化、互補型評估體系,推動AI向更高階的科研能力邁進。

      原文 :《如何判定人工智能的科研能力》

      編譯 |張譯丹 楊勇

      圖片 |網絡

      長期以來,人工智能領域的研究者一直希望研發出能助力科學研究實現突破的智能工具,這類工具可自主提出創新性研究問題、設計實驗方案,甚至獨立完成實驗操作。最近,大語言模型接連取得多項研究發現,不少人工智能開發者認為,這讓行業離上述愿景又近了一步。但問題在于,該如何檢驗一款AI模型是否真正具備開展科學研究的核心能力?為解答這一問題,研究人員將目光投向基準測試,通過標準化問題與任務評估AI能力、實現模型橫向對比,而這也成為當前衡量AI科研能力的核心手段。

      多元測試工具各有側重

      過去一年,數十款面向科學研究的新型基準測試應運而生,試圖回答這一問題,不過科學界至今尚未就最優評估方法達成共識。

      其中最受關注的,是今年1月發表于《自然》期刊的“人類最后考試”(HLE)。該測試選取2500道源自“人類知識前沿”的問題,以此檢驗大語言模型的能力。該測試由非營利組織人工智能安全中心研發,其研究工程師朗·范(Long Phan)表示:“我們希望打造一套多元數據集,其中的問題只有長期深耕某一領域的專家才能解答。”“人類最后考試”自首次發布后,便成為檢驗大語言模型的重要試金石,該測試的得分也成為AI企業彰顯自身產品能力的重要依據。測試推出之初,行業頭部企業OpenAI的人工智能模型雖拔得頭籌,但其正確率僅有8.3%;近日,谷歌宣布其最新科學推理模型Gemini 3 Deep Think在該測試中取得48.4%正確率的高分,創下該測試的歷史紀錄。


      不過,有部分科學家質疑,認為其中的諸多問題考察的只是晦澀難懂甚至細枝末節的知識,而非開展有價值科學研究的能力。與“人類最后考試”同期發表的《自然》期刊社論,也認同這一擔憂:“我們認為,更多科學家應當思考,想要研發出能真正衡量專家級思維能力的AI基準測試,究竟需要具備哪些條件?”

      OpenAI研究團隊表示,其新推出的基準測試正朝著這一方向穩步推進。2025年12月發布的前沿科學基準測試(Frontier Science)包含約700道化學、生物、物理領域的問題,旨在檢驗模型的“專家級科學推理能力”。其中部分題目與數學、科學奧林匹克競賽題型異曲同工,這類題目以簡短場景為背景,答案明確。正如OpenAI研究科學家邁爾斯·王(Miles Wang)所言,這類題目是“衡量純推理能力的優質參考指標”,比如判斷一系列化學反應能生成的產物。另一類題目則圍繞復雜的開放性研究問題展開,這類問題正是科研工作者在博士階段及后續工作中需要攻克的難題,例如推導改變某一分子結構會從哪些方面影響其性質。

      邁爾斯·王表示,該基準測試的核心優勢在于可驗證性,這也是公平合理的測試最關鍵的特征之一。奧林匹克競賽類題目評分標準清晰,而針對開放性研究問題,大語言模型若能梳理出完整的中間推理步驟,便可按步計分。截至目前,OpenAI自研的GPT-5.2模型在前沿科學基準測試中表現最佳,不僅答對77%的奧賽類題目,還在研究挑戰類題目中取得25%的正確率。

      有研究人員認為,兩類題目間懸殊的得分差距本身就很能說明問題。他們主張,基準測試的研發應聚焦于直接評估AI開展真實世界研究的能力,這正是段辰儒及其研究團隊與前沿科學基準測試同期發布的科學發現評估(SDE)基準測試的核心理念。科學發現評估并未設置難度頗高卻互不關聯的問題,而是為AI布置了1125項任務,對應43個研究場景,這些場景均來自8個正在開展且相關數據尚未發表的真實科研項目。例如,該測試要求大語言模型設計具體方案,將目標分子拆解為結構更簡單且可商業化采購的原料。該評估的評分依據不僅包括答案的準確性,還包括模型整合整個項目的能力,即能否在多步驟研究中提出假設、驗證假設并優化假設。段辰儒表示:“我們可以保證,每一道測試題都圍繞解決真實科學研究中的問題展開,即便是微小的問題也不例外。”

      AI科研能力尚存明顯瓶頸

      科學發現評估(SDE)的測試結果顯示,大語言模型正確回答單個問題的能力,并非總能轉化為其在完整科研項目中的優異表現,反之亦然。“把握研究的整體方向,往往比掌握某類分子的精準屬性更為重要。”段辰儒說。該測試還發現,來自OpenAI、Anthropic、xAI、深度求索等企業的頂尖模型,往往會在同一類高難度問題上陷入瓶頸。這一現象表明,這些模型或許面臨著相同的能力天花板,究其原因,大概率是它們的訓練數據均來自相似的科學數據池。

      但即便如此,科學發現評估的方法也僅能覆蓋科學研究流程的部分環節。另一款新型基準測試LABBench2則聚焦生物領域,由科學智能初創企業Future House研發,其核心目標是檢驗面向科研的人工智能,是否具備將一個研究項目從最初構想推進至論文成稿的全流程能力。該測試于近日推出,通過近1900項任務評估“代理式AI模型”在文獻檢索、數據獲取、基因序列構建等工作中的表現,這類模型是能自主執行操作、完成多步驟任務的智能系統。


      迄今為止,該測試的結果好壞參半。諸多領先的大語言模型在檢索專利全文、實驗室試驗相關論文方面表現良好,但在應對LABBench2中更復雜的任務時卻常常力不從心,例如交叉引用多個數據庫,或是在內容繁雜的論文中定位并解讀特定的圖表與數據。Future House 旗下商業公司Edison Scientific的喬恩·洛朗(Jon Laurent)表示,這一現象說明,想要打造真正的AI科學家,其發展進程在一定程度上取決于模型信息檢索與信息導航能力的優化。

      以基準測試引領未來發展

      研究人員表示,值得關注的是,基準測試的價值并非僅在于記錄當下各模型的優劣排名。更為嚴苛的基準測試還能為大語言模型及其他AI工具設定全新發展目標,進而推動行業創新。Future House旗下喬恩·洛朗表示,基準測試的核心目的之一是做好前瞻性布局,衡量模型潛在能力并推動其持續發展,而OpenAI邁爾斯·王也對此深表認同,他以ImageNet大規模視覺識別挑戰賽為例,指出該賽事的冠軍模型AlexNet極大地推動了卷積神經網絡發展,成為現代AI的技術基石,印證了優質基準測試對科技突破的重要引領作用。

      事實上,在科研領域,或許并不存在衡量AI是否“擅長開展科學研究”的單一標準。佐治亞理工學院研究認知神經科學與人工智能交叉領域的安娜·伊萬諾娃(Anna Ivanova)表示:“這正是當前各類基準測試呈現多樣化的根本原因。一個智能系統的繪圖可視化能力,與其掌握的分析化學領域事實性知識截然不同,盡管科研工作者需要同時具備這兩種能力。”

      鑒于科學研究所需的技能范圍廣泛,AI領域專家認為,科研界最理想的方式是構建一套多元化的測試體系,每項測試都旨在針對性地推動科學研究流程中不同環節的能力提升。正如業內所言:“我們正邁向一個需要多元化評估體系的新時代。”

      無論采用何種評估方法,被納入衡量范疇的指標,往往會成為技術改進的方向。正如行業共識:“唯有可衡量,方能求進步。”

      文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第1997期第7版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。

      本期責編:程鑫云


      《社會科學報》2026年征訂

      點擊下方圖片網上訂報↓↓↓



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿德巴約:維金斯是最佳隊友,他總是笑瞇瞇的,也很務實

      阿德巴約:維金斯是最佳隊友,他總是笑瞇瞇的,也很務實

      懂球帝
      2026-05-09 08:16:59
      重慶直轄內幕:四川當初硬塞“兩大包袱”,中央為何死活不肯收?

      重慶直轄內幕:四川當初硬塞“兩大包袱”,中央為何死活不肯收?

      朗威談星座
      2026-05-09 02:03:29
      吳宜澤好友實錘:別造神了!所謂寒門勵志是誤會,經濟壓力大≠窮

      吳宜澤好友實錘:別造神了!所謂寒門勵志是誤會,經濟壓力大≠窮

      一盅情懷
      2026-05-08 09:07:04
      郵輪暴發漢坦病毒疫情!張文宏緊急發聲:這一點比新冠更可怕

      郵輪暴發漢坦病毒疫情!張文宏緊急發聲:這一點比新冠更可怕

      娛樂圈的筆娛君
      2026-05-09 00:46:51
      “年薪40萬,不能坐9小時的硬座嗎?”:永遠不要替別人做決定

      “年薪40萬,不能坐9小時的硬座嗎?”:永遠不要替別人做決定

      精讀君
      2026-05-08 09:00:18
      出貨量暴跌35%,小米手機9年來首次跌出前五

      出貨量暴跌35%,小米手機9年來首次跌出前五

      ZAKER新聞
      2026-05-08 16:26:28
      “機車女神”痞幼拿下張雪!評論區淪陷了!

      “機車女神”痞幼拿下張雪!評論區淪陷了!

      4A廣告文案
      2026-05-07 09:13:48
      掘金老板:約基奇是唯一非賣品 很喜歡戈登但有些事不得不評估

      掘金老板:約基奇是唯一非賣品 很喜歡戈登但有些事不得不評估

      羅說NBA
      2026-05-09 06:17:30
      湖人vs雷霆G3傷病報告:東契奇杰倫繼續傷停 范德彪出戰成疑

      湖人vs雷霆G3傷病報告:東契奇杰倫繼續傷停 范德彪出戰成疑

      醉臥浮生
      2026-05-09 08:18:36
      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      三農老歷
      2026-05-08 19:20:12
      江蘇省體育局發布退役運動員安置情況:錢天一、何冰嬌均自主擇業

      江蘇省體育局發布退役運動員安置情況:錢天一、何冰嬌均自主擇業

      懂球帝
      2026-05-08 09:54:18
      深圳官方通報:28歲女子墜亡,多人涉謊報被建議處理

      深圳官方通報:28歲女子墜亡,多人涉謊報被建議處理

      南方都市報
      2026-05-07 19:26:11
      劉楚恬:2歲出道年入百萬,因長相甜美被禁止整容,如今長什么樣

      劉楚恬:2歲出道年入百萬,因長相甜美被禁止整容,如今長什么樣

      蹲坑看世界
      2026-05-07 15:09:16
      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      德魯克博雅管理
      2026-04-28 17:04:30
      為什么要“較真”一頂頭盔?

      為什么要“較真”一頂頭盔?

      新華社
      2026-05-08 17:43:42
      美國政府突然公開UFO檔案,看完有點無語

      美國政府突然公開UFO檔案,看完有點無語

      萬物皆可科普2啊
      2026-05-09 03:36:41
      開車1600公里找“僅退款”買家 對話當事商家:沒想到過程會這么艱難,拒絕協商只要一個公道

      開車1600公里找“僅退款”買家 對話當事商家:沒想到過程會這么艱難,拒絕協商只要一個公道

      紅星新聞
      2026-05-08 23:09:21
      工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

      工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

      細說職場
      2026-05-06 13:45:18
      央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

      央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

      軍武速遞
      2026-05-08 19:20:06
      月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

      月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

      李將平老師
      2026-05-08 09:42:27
      2026-05-09 08:36:49
      社會科學報 incentive-icons
      社會科學報
      社會科學院主辦社會科學報
      4154文章數 23455關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      房產
      游戲
      健康
      本地
      公開課

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      《生化危機9》為何不做極致恐怖 卡普空道出了原因

      干細胞能讓人“返老還童”嗎

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品无码久久千人斩| 老王av| 亚洲中文无码永久免| 亚洲乱码中文字幕久久孕妇黑人| 尤物福利导航| 麻豆精产国品一二三产| 永久不封国产av毛片| 秋霞鲁丝片成人无码国产| 日韩秘 无码一区二区三区 | 国产人妻人伦精品婷婷| 国产精品香蕉| 精品久久久久久综合日本| 久久亚洲AV无码一区二区综合| 亚洲欧洲AV| 亚洲av免费成人在线| 任我爽精品视频在线播放| 成人在线超碰| 99RE6在线观看国产精品| 中文字幕韩国三级理论无码| 久久这里只有精品66| 久热这里只有精品视频3| 国产精品国产三级国av| 麻豆人妻| 18禁无遮挡啪啪无码网站| 人人爽人人澡人人妻| 久久香蕉国产线看观看精品蕉| 午夜精品乱人伦小说区| 亚洲影院丰满少妇中文字幕无码| 边吃奶边添下面好爽| 日韩伦理片| 天堂资源中文| 麻豆传媒在线视频| 99精品国产丝袜在线拍国语| 久久精品农村毛片| 日韩人妻系列无码专区| 人妻少妇精品视频无码综合| 一本二本无码| 屁屁影院ccyy备用地址| 萝北县| 久久88香港三级台湾三级播放| 国产真实乱XXXⅩ视频|