![]()
原文發(fā)表于 《科技導報》2026年第6期科技新聞-深度報道
如何判斷 AI 是否具備開展科學研究的智能?——新型測試評估大語言模型能否運用海量知識實現(xiàn)真正科學發(fā)現(xiàn)
![]()
圖片來源:攝圖網(wǎng)
多年來,人工智能(AI)研究者夢想開發(fā)能通過提出新問題、設計實驗乃至執(zhí)行實驗來加速科學進程的工具。近期,大語言模型(large language models,LLM)已取得若干發(fā)現(xiàn),部分AI開發(fā)者宣稱這使我們更接近該未來。但尚不知道如何測試AI模型是否真能開展科學研究?
為尋求答案,研究者轉向基準測試:用于評估AI能力并與其他模型比較的標準化問題或任務集。但科學的復雜性使評判其科研能力尤為困難。美國伊利諾伊大學厄巴納-香檳分校計算機科學家Hao Peng表示:“模型擁有海量知識,但它們懂得如何運用嗎?”
過去1年涌現(xiàn)數(shù)10項面向科學的新基準測試以回答該問題,但科學家尚未就最佳方法達成共識。其中最受歡迎者之一是2026年1月28日發(fā)表于Nature的“人類終極考試”(Humanity's Last Exam,HLE)。該測試采用2500道源自“人類知識前沿”的問題考驗LLM。例如其中一題詢問蜂鳥籽骨支撐多少對肌腱。HLE開發(fā)者、非營利組織人工智能安全中心研究工程師Long Phan表示:“我們希望構建僅長期深耕該領域的專家才能回答的多樣化數(shù)據(jù)集。”
HLE自2025年1月24日首次以預印本形式發(fā)布以來,已成為LLM的重要試金石——HLE得分現(xiàn)已成為AI公司彰顯產品能力的常見談資。HLE發(fā)布時,知名開發(fā)者OpenAI的o1模型以僅8.3%的得分位居榜首。2026年3月早些時候,Google宣稱其最新科學推理模型Gemini 3 Deep Think創(chuàng)下48.4%的HLE新紀錄。
但部分科學家指出,HLE諸多問題測試的是晦澀乃至瑣碎的知識,而非開展有意義研究的能力。AI for Science公司Deep Principle創(chuàng)始人段辰儒質疑:“知曉世界上磷同素異形體有多少種顏色,如何助人實現(xiàn)科學發(fā)現(xiàn)?”
OpenAI研究者表示,他們開發(fā)了朝此方向邁進的新基準測試。2025年12月16日發(fā)布的FrontierScience借助700道化學、生物學與物理學問題,旨在識別“專家級科學推理”能力。部分問題類似數(shù)學與科學奧林匹克競賽題目:通常基于簡短場景、答案明確,OpenAI研究科學家Miles Wang稱之為“純推理努力的合理代理”。例如識別系列化學反應的產物。其他問題則基于博士科學家在實際工作中處理的復雜開放式研究問題,如推理修飾特定分子可能影響其性質的多種途徑。
Wang表示,該基準測試的關鍵優(yōu)勢在于可驗證性——這是公平測試的最重要特征之一。奧林匹克題目易于評分,而對于開放式研究問題,LLM因識別中間推理步驟而獲分。截至目前,OpenAI自家產品GPT-5.2取得最佳FrontierScience成績:奧林匹克題目正確率77%,研究挑戰(zhàn)得分25%。
其他研究者認為這一巨大分差頗具啟示性。他們主張基準測試應聚焦直接衡量AI開展現(xiàn)實世界研究的能力。這正是段辰儒及其合作者與FrontierScience同期發(fā)布的“科學發(fā)現(xiàn)評估”(Scientific Discovery Evaluation,SDE)基準測試的指導原則。該測試不提困難但孤立的問題,而是向AI呈現(xiàn)源自8項進行中、數(shù)據(jù)尚未發(fā)表的真實研究項目的1125項任務,關聯(lián)43種研究場景。例如要求LLM推導如何將目標分子分解為更簡單、市售可得的組分。模型評估不僅基于單個答案,更基于其整合完整項目的能力——在多步驟中提出、檢驗并完善假設。段辰儒表示:“我們確保回答每個問題都關聯(lián)真實科學發(fā)現(xiàn)的微小片段。”
SDE得分顯示,LLM正確回答單個問題的能力并不總能轉化為完整項目的穩(wěn)健表現(xiàn),反之亦然。段辰儒表示:“知曉宏觀前進方向往往比知曉特定分子的精確性質更重要。”該基準測試還發(fā)現(xiàn),來自OpenAI、Anthropic、xAI和DeepSeek等不同供應商的頂尖模型常在同一最難問題上受阻。這一模式暗示它們可能遭遇相同局限,很可能因其在相似科學數(shù)據(jù)池上訓練所致。
然而SDE方法仍僅捕捉科學工作流的片段。AI for Science初創(chuàng)公司FutureHouse推出的生物學導向新基準測試LABBench2,旨在測試面向科學的AI能否將項目從初始構想推進至完成論文。2月發(fā)布的該測試采用近1900項任務,評估所謂“代理型www.kjdb.orgAI模型”(能獨立完成多步驟任務的系統(tǒng))執(zhí)行文獻檢索、數(shù)據(jù)獲取與基因序列構建等工作的能力。
目前結果喜憂參半。多數(shù)領先LLM在全文專利與實驗室試驗論文檢索方面表現(xiàn)良好,但在LABBench2更復雜的任務上常遇困難,例如交叉引用多個數(shù)據(jù)庫,或在密集論文中定位并解讀特定圖表或數(shù)據(jù)。FutureHouse商業(yè)衍生公司Edison Scientific 的Jon Laurent表示,這表明邁向真正AI科學家的進展,部分也取決于改進模型檢索與導航信息的方式。
研究者強調,基準測試不僅用于記錄當前贏家。更嚴格的基準測試還可通過為LLM及其他AI工具提供新目標來驅動創(chuàng)新。Laurent表示:“基準測試的目的之一是領先時代,衡量潛在能力,并推動其發(fā)展。”
在諸多領域,或不存在衡量AI是否“擅長”科學的單一標準。美國佐治亞理工學院認知神經(jīng)科學與AI研究者Anna Ivanova表示:“這正是我們看到所用基準測試高度異質的原因。系統(tǒng)繪制數(shù)據(jù)的能力與其分析化學事實知識截然不同——盡管科學家可能兩者都需要。”
鑒于科學所需技能的廣泛性,AI專家認為研究界或宜依賴測試組合,每項測試針對并催化科學工作流不同環(huán)節(jié)的改進。Wang表示:“我們正邁向需要更多元化評估體系的世界。”
無論采用何種方法,被衡量的內容很可能引導改進方向。Peng表示:“要取得進展,你必須能夠衡量它。
文 /Celina Zhao
(譯自Science,2026,391(6790))
《科技導報》創(chuàng)刊于1980年,中國科協(xié)學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發(fā)表促進經(jīng)濟社會發(fā)展、完善科技管理、優(yōu)化科研環(huán)境、培育科學文化、促進科技創(chuàng)新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.