網易首頁 > 網易號 > 正文申請入駐

Google與康奈爾用1726篇論文測試大模型理解科學的極限

2026-03-18 12:14:45　來源: ScienceAI

河北舉報

分享至

編輯丨&

在過去幾年里，大語言模型已經在寫作、編程和知識問答上展示出驚人的能力。它們可以總結論文、解釋概念，甚至提出科研假設。

但一個關鍵問題始終存在：

當面對真正的科學研究問題時，這些模型是否真的「理解」科學？

為了回答這個問題，Google Research 與康奈爾大學的一組物理學家設計了一場不同尋常的實驗：不是用考試題，也不是用標準 AI benchmark，而是直接把真實的科學研究問題交給大語言模型。

他們選擇的測試領域是高溫超導。這個研究方向擁有幾十年的理論爭論、復雜的實驗結果以及大量彼此矛盾的解釋，被認為是凝聚態物理中最難理解的問題之一。如果一個 AI 模型真的能夠理解科學文獻，那么它應該能在這樣的領域中給出接近專家水平的回答。

于是，一場前所未有的測試開始了。

這些研究內容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題，于 2026 年 3 月 10 日發布在《Proceedings of the National Academy of Sciences》。

論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2533676123

專家級科學考試

高溫超導是自 1987 年諾貝爾獎發現以來的一個開放研究領域。本次研究案例中的銅酸鹽便是已知的相關材料之一。它可在遠高于傳統超導材料的溫度下導電零電阻的電子（即使最高溫度閾值仍為 -140℃），理解這種行為背后的機制，可能有助于發現更多具有類似性質的化合物，甚至可能在更高溫度下，并為更多應用鋪平道路。

研究團隊邀請了共計六個大型語言模型，包括四個完全訪問網絡的模型與兩個封閉系統。他們首先構建了一套高度專業化的知識基礎，整理了1,726 篇關于銅氧化物高溫超導體（cuprates）的研究論文，覆蓋這一領域幾十年的實驗和理論成果，并在此基礎上設計了一組67 個專家級研究問題。

圖示：封閉系統的創建。

這些問題將在六個指標上對模型進行評判：

平衡視角：是否考慮了不同的科學觀點。
全面性：事實深度且不遺漏相關實驗。
：提供簡明明快的答案。
證據：有證據支持，并附有來源鏈接。
視覺相關性：任何提供圖像的質量（適用于持續包含圖像的兩個大型語言模型）。
定性反饋：開放式專家評論。

圖示：文獻數據庫的組成。

AI 能讀懂論文，但不一定理解科學

實驗結果呈現出一個耐人尋味的圖景。

在某些問題上，大語言模型確實表現出令人印象深刻的能力。它們能夠快速總結多篇論文的結果，提取關鍵實驗結論，并組織出結構清晰的回答。尤其是在使用檢索增強系統（RAG）的情況下，一些模型的表現甚至超過了傳統閉源模型，在多個指標上取得更高評分。

圖示：六名大型語言模型在回答專家提出的問題時的平均得分。

不過，盡管 RAG 系統表現更優，但專家們在評估中指出了所有模型的共同且嚴重的局限性，揭示了它們與「真正理解」的差距：模型常能找到包含相同關鍵詞的論文，卻無法建立概念上的聯系；模型會不加區分地引用早期和近期的文獻，無法識別出某些早期結論已被后續研究修正。

最后，所有模型都有一個顯著的短板：雖然自定義 RAG 系統能返回相關圖片，但它無法像人類專家那樣，從圖像的坐標軸、刻度、標尺、圖注和曲線趨勢中定量地提取信息并進行推理。

通向可信 AI 科學助手的漫漫長路

盡管當前模型仍存在局限，這項研究并不意味著 AI 在科學研究中沒有價值。

事實上，AI 可以協助瀏覽大量文獻，總結實驗結果。在材料科學等領域，一些研究已經開始利用 LLM 從論文中自動提取實驗數據，并構建新的材料數據庫。這些工作表明，AI 可能成為科學發現流程中的一種新工具，但真正的科學推理仍然需要人類專家的參與。

https://research.google/blog/testing-llms-on-superconductivity-research-questions/

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.