<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      如何判斷 AI 是否具備開展科學研究的智能?|深度報道

      0
      分享至


      圖片來源:攝圖網

      來源:科技導報

      文章來源:原文發表于《科技導報》2026年第6期科技新聞-深度報道

      文:Celina Zhao

      多年來,人工智能(AI)研究者夢想開發能通過提出新問題、設計實驗乃至執行實驗來加速科學進程的工具。近期,大語言模型(large language models,LLM)已取得若干發現,部分AI開發者宣稱這使我們更接近該未來。但尚不知道如何測試AI模型是否真能開展科學研究?

      為尋求答案,研究者轉向基準測試:用于評估AI能力并與其他模型比較的標準化問題或任務集。但科學的復雜性使評判其科研能力尤為困難。美國伊利諾伊大學厄巴納-香檳分校計算機科學家Hao Peng表示:“模型擁有海量知識,但它們懂得如何運用嗎?”

      過去1年涌現數10項面向科學的新基準測試以回答該問題,但科學家尚未就最佳方法達成共識。其中最受歡迎者之一是2026年1月28日發表于Nature的“人類終極考試”(Humanity's Last Exam,HLE)。該測試采用2500道源自“人類知識前沿”的問題考驗LLM。例如其中一題詢問蜂鳥籽骨支撐多少對肌腱。HLE開發者、非營利組織人工智能安全中心研究工程師Long Phan表示:“我們希望構建僅長期深耕該領域的專家才能回答的多樣化數據集。”

      HLE自2025年1月24日首次以預印本形式發布以來,已成為LLM的重要試金石——HLE得分現已成為AI公司彰顯產品能力的常見談資。HLE發布時,知名開發者OpenAI的o1模型以僅8.3%的得分位居榜首。2026年3月早些時候,Google宣稱其最新科學推理模型Gemini 3 Deep Think創下48.4%的HLE新紀錄。

      但部分科學家指出,HLE諸多問題測試的是晦澀乃至瑣碎的知識,而非開展有意義研究的能力。AI for Science公司Deep Principle創始人段辰儒質疑:“知曉世界上磷同素異形體有多少種顏色,如何助人實現科學發現?”

      OpenAI研究者表示,他們開發了朝此方向邁進的新基準測試。2025年12月16日發布的FrontierScience借助700道化學、生物學與物理學問題,旨在識別“專家級科學推理”能力。部分問題類似數學與科學奧林匹克競賽題目:通常基于簡短場景、答案明確,OpenAI研究科學家Miles Wang稱之為“純推理努力的合理代理”。例如識別系列化學反應的產物。其他問題則基于博士科學家在實際工作中處理的復雜開放式研究問題,如推理修飾特定分子可能影響其性質的多種途徑。

      Wang表示,該基準測試的關鍵優勢在于可驗證性——這是公平測試的最重要特征之一。奧林匹克題目易于評分,而對于開放式研究問題,LLM因識別中間推理步驟而獲分。截至目前,OpenAI自家產品GPT-5.2取得最佳FrontierScience成績:奧林匹克題目正確率77%,研究挑戰得分25%

      其他研究者認為這一巨大分差頗具啟示性。他們主張基準測試應聚焦直接衡量AI開展現實世界研究的能力。這正是段辰儒及其合作者與FrontierScience同期發布的“科學發現評估”(Scientific Discovery Evaluation,SDE)基準測試的指導原則。該測試不提困難但孤立的問題,而是向AI呈現源自8項進行中、數據尚未發表的真實研究項目的1125項任務,關聯43種研究場景。例如要求LLM推導如何將目標分子分解為更簡單、市售可得的組分。模型評估不僅基于單個答案,更基于其整合完整項目的能力——在多步驟中提出、檢驗并完善假設。段辰儒表示:“我們確保回答每個問題都關聯真實科學發現的微小片段。”

      SDE得分顯示,LLM正確回答單個問題的能力并不總能轉化為完整項目的穩健表現,反之亦然。段辰儒表示:“知曉宏觀前進方向往往比知曉特定分子的精確性質更重要。”該基準測試還發現,來自OpenAI、Anthropic、xAI和DeepSeek等不同供應商的頂尖模型常在同一最難問題上受阻。這一模式暗示它們可能遭遇相同局限,很可能因其在相似科學數據池上訓練所致。

      然而SDE方法仍僅捕捉科學工作流的片段。AI for Science初創公司FutureHouse推出的生物學導向新基準測試LABBench2,旨在測試面向科學的AI能否將項目從初始構想推進至完成論文。2月發布的該測試采用近1900項任務,評估所謂“代理型www.kjdb.orgAI模型”(能獨立完成多步驟任務的系統)執行文獻檢索、數據獲取與基因序列構建等工作的能力。

      目前結果喜憂參半。多數領先LLM在全文專利與實驗室試驗論文檢索方面表現良好,但在LABBench2更復雜的任務上常遇困難,例如交叉引用多個數據庫,或在密集論文中定位并解讀特定圖表或數據。FutureHouse商業衍生公司Edison Scientific 的Jon Laurent表示,這表明邁向真正AI科學家的進展,部分也取決于改進模型檢索與導航信息的方式。

      研究者強調,基準測試不僅用于記錄當前贏家。更嚴格的基準測試還可通過為LLM及其他AI工具提供新目標來驅動創新。Laurent表示:“基準測試的目的之一是領先時代,衡量潛在能力,并推動其發展。”

      在諸多領域,或不存在衡量AI是否“擅長”科學的單一標準。美國佐治亞理工學院認知神經科學與AI研究者Anna Ivanova表示:“這正是我們看到所用基準測試高度異質的原因。系統繪制數據的能力與其分析化學事實知識截然不同——盡管科學家可能兩者都需要。”

      鑒于科學所需技能的廣泛性,AI專家認為研究界或宜依賴測試組合,每項測試針對并催化科學工作流不同環節的改進。Wang表示:“我們正邁向需要更多元化評估體系的世界。”

      無論采用何種方法,被衡量的內容很可能引導改進方向。Peng表示:“要取得進展,你必須能夠衡量它。

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      王力宏承認用代言費購買比亞迪股票 “如果10年前投資了比亞迪,現在翻了多少倍了,這次會把握好機會”

      王力宏承認用代言費購買比亞迪股票 “如果10年前投資了比亞迪,現在翻了多少倍了,這次會把握好機會”

      每日經濟新聞
      2026-05-18 20:20:13
      萬萬沒想到!瓦倫丁的首個商業代言正式官宣,居然是一家游戲公司

      萬萬沒想到!瓦倫丁的首個商業代言正式官宣,居然是一家游戲公司

      火山詩話
      2026-05-18 19:13:32
      上海交通大學女生貪污隊友獎金的瓜

      上海交通大學女生貪污隊友獎金的瓜

      吃瓜體
      2026-05-18 15:46:14
      澤連斯基很生氣!打向基輔的俄導彈,竟能拆出一百多種西方零件!

      澤連斯基很生氣!打向基輔的俄導彈,竟能拆出一百多種西方零件!

      青青子衿
      2026-05-18 02:26:44
      馬斯克的上海同學任宇翔,他在上海辦廠離不開他的幫忙,人生贏家

      馬斯克的上海同學任宇翔,他在上海辦廠離不開他的幫忙,人生贏家

      魔都姐姐雜談
      2026-05-18 17:30:25
      宜興龍背山森林公園攻略|城市里的綠野仙蹤

      宜興龍背山森林公園攻略|城市里的綠野仙蹤

      我不愛喝冰美式
      2026-05-16 16:22:00
      0-6!輸球不丟人,丟2分仍奪冠,樊振東賽后這番話,格局直接拉滿

      0-6!輸球不丟人,丟2分仍奪冠,樊振東賽后這番話,格局直接拉滿

      阿振觀點
      2026-05-18 05:29:20
      馬斯克沒坐空軍一號回去,發布了與母親的合影,他的母親定居上海

      馬斯克沒坐空軍一號回去,發布了與母親的合影,他的母親定居上海

      世界圈
      2026-05-17 14:28:13
      官宣!皇馬連續6年告別隊長:34歲卡瓦哈爾離隊 23年白衣生涯27冠

      官宣!皇馬連續6年告別隊長:34歲卡瓦哈爾離隊 23年白衣生涯27冠

      風過鄉
      2026-05-18 19:59:42
      天津一高空跳傘項目發生事故,知情人稱“兩人跳傘溺水”,多方回應:一女員工和教練遇難,項目已被叫停

      天津一高空跳傘項目發生事故,知情人稱“兩人跳傘溺水”,多方回應:一女員工和教練遇難,項目已被叫停

      極目新聞
      2026-05-18 17:06:52
      又遙遙領先?國產“固態電池”宣布裝車,充電10分鐘續航1000公里

      又遙遙領先?國產“固態電池”宣布裝車,充電10分鐘續航1000公里

      胖福的小木屋
      2026-05-18 16:36:53
      當智能體開始“上崗”,誰來支撐它們大規模運行?

      當智能體開始“上崗”,誰來支撐它們大規模運行?

      智谷趨勢
      2026-05-17 17:04:13
      烏克蘭稱俄羅斯攻擊黑海的中國船只!為俄烏戰爭以來首次

      烏克蘭稱俄羅斯攻擊黑海的中國船只!為俄烏戰爭以來首次

      項鵬飛
      2026-05-18 19:17:01
      Here we go!羅馬諾:穆里尼奧將重返皇馬,雙方簽約兩年

      Here we go!羅馬諾:穆里尼奧將重返皇馬,雙方簽約兩年

      懂球帝
      2026-05-18 16:54:43
      曝蔡卓妍含淚控訴丈夫,官宣結婚僅20天便傳出婚變,通過媒體回應

      曝蔡卓妍含淚控訴丈夫,官宣結婚僅20天便傳出婚變,通過媒體回應

      韓小娛
      2026-05-18 23:29:06
      白宮官方披露特朗普訪華成果,中國將購200架波音,恢復美國牛肉市場準入

      白宮官方披露特朗普訪華成果,中國將購200架波音,恢復美國牛肉市場準入

      西游日記
      2026-05-18 13:53:39
      莫斯科自此無眠!烏克蘭大舉空襲報復,大批俄羅斯軍事目標被擊中

      莫斯科自此無眠!烏克蘭大舉空襲報復,大批俄羅斯軍事目標被擊中

      鷹眼Defence
      2026-05-18 16:50:10
      脫離董明珠十幾年,格力遭遇百億巨虧后,才明白她當初有多艱難

      脫離董明珠十幾年,格力遭遇百億巨虧后,才明白她當初有多艱難

      楓塵余往逝
      2026-05-18 02:40:53
      看完劉浩存《主角》,再看楊紫《家業》,我想說沒比較就沒傷害

      看完劉浩存《主角》,再看楊紫《家業》,我想說沒比較就沒傷害

      一娛三分地
      2026-05-18 14:53:42
      美媒:沒有私人飛機的黃仁勛,因沒打電話險些錯過中國行

      美媒:沒有私人飛機的黃仁勛,因沒打電話險些錯過中國行

      財聞
      2026-05-18 16:57:48
      2026-05-19 00:04:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數 37464關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

      態度原創

      本地
      時尚
      游戲
      家居
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      夏天別總穿黑衣黑褲,這幾款格紋單品也很實用,百搭又高級

      SCS廣州站落幕:中國格斗選手,正在這里成長

      家居要聞

      觀山隱秀 心靈沉淀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产婷婷精品av在线| 一本色道久久综合精品婷婷| 国产色悠悠在线免费观看| 国产品无码一区二区三区在线| 日韩亚洲产在线观看| 国产果冻豆传媒麻婆| 日韩精品一区二区三区蜜臀| 潮喷在线播放| 夜夜做日日做夜夜爽| 67194熟妇在线直接进入| 成人午夜激情网| 亚洲天堂AV无码一区二区| 亚洲男人天堂网| 国产精品午夜福利合集| 精品韩国一区| 亚洲色网导航| 国产精品视频中文字幕| 本道久久综合无码中文字幕| youwu视频在线一区二区| 精品国产国产2021| 亚洲gv天堂无码男同在线观看| 精品人妻久久| 中文天堂在线www| 少妇被无套内谢免费看| 黄色AV电影| 日韩中文字幕区一区有砖一区| 日韩国产欧美| 久久人与动人物a级毛片| 中文毛片无遮挡高潮免费| 女人国产香蕉久久精品| 国产精品一区免费在线看| 色www88| 尤物视频在线播放一区| 日韩不卡一区二区在线观看| 亚洲男人AV天堂午夜在| 国内精品伊人久久久久影院对白| 人人妻人人添人人爽日韩欧美| 日韩熟女乱综合一区二区| 春梦视频站| 隆德县| 在线观看国产精美视频|