![]()
編輯丨&
在過去幾年里,大語言模型已經在寫作、編程和知識問答上展示出驚人的能力。它們可以總結論文、解釋概念,甚至提出科研假設。
但一個關鍵問題始終存在:
當面對真正的科學研究問題時,這些模型是否真的「理解」科學?
為了回答這個問題,Google Research 與康奈爾大學的一組物理學家設計了一場不同尋常的實驗: 不是用考試題,也不是用標準 AI benchmark,而是直接把真實的科學研究問題交給大語言模型。
他們選擇的測試領域是高溫超導。這個研究方向擁有幾十年的理論爭論、復雜的實驗結果以及大量彼此矛盾的解釋,被認為是凝聚態物理中最難理解的問題之一。如果一個 AI 模型真的能夠理解科學文獻,那么它應該能在這樣的領域中給出接近專家水平的回答。
于是,一場前所未有的測試開始了。
這些研究內容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題,于 2026 年 3 月 10 日發布在《Proceedings of the National Academy of Sciences》。
![]()
論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2533676123
專家級科學考試
高溫超導是自 1987 年諾貝爾獎發現以來的一個開放研究領域。本次研究案例中的銅酸鹽便是已知的相關材料之一。它可在遠高于傳統超導材料的溫度下導電零電阻的電子(即使最高溫度閾值仍為 -140℃),理解這種行為背后的機制,可能有助于發現更多具有類似性質的化合物,甚至可能在更高溫度下,并為更多應用鋪平道路。
研究團隊邀請了共計六個大型語言模型,包括四個完全訪問網絡的模型與兩個封閉系統。他們首先構建了一套高度專業化的知識基礎,整理了1,726 篇關于銅氧化物高溫超導體(cuprates)的研究論文,覆蓋這一領域幾十年的實驗和理論成果,并在此基礎上設計了一組67 個專家級研究問題。
![]()
圖示:封閉系統的創建。
這些問題將在六個指標上對模型進行評判:
- 平衡視角:是否考慮了不同的科學觀點。
- 全面性:事實深度且不遺漏相關實驗。
- :提供簡明明快的答案。
- 證據:有證據支持,并附有來源鏈接。
- 視覺相關性:任何提供圖像的質量(適用于持續包含圖像的兩個大型語言模型)。
- 定性反饋:開放式專家評論。
![]()
圖示:文獻數據庫的組成。
AI 能讀懂論文,但不一定理解科學
實驗結果呈現出一個耐人尋味的圖景。
在某些問題上,大語言模型確實表現出令人印象深刻的能力。它們能夠快速總結多篇論文的結果,提取關鍵實驗結論,并組織出結構清晰的回答。尤其是在使用檢索增強系統(RAG)的情況下,一些模型的表現甚至超過了傳統閉源模型,在多個指標上取得更高評分。
![]()
圖示:六名大型語言模型在回答專家提出的問題時的平均得分。
不過,盡管 RAG 系統表現更優,但專家們在評估中指出了所有模型的共同且嚴重的局限性,揭示了它們與「真正理解」的差距:模型常能找到包含相同關鍵詞的論文,卻無法建立概念上的聯系;模型會不加區分地引用早期和近期的文獻,無法識別出某些早期結論已被后續研究修正。
最后,所有模型都有一個顯著的短板:雖然自定義 RAG 系統能返回相關圖片,但它無法像人類專家那樣,從圖像的坐標軸、刻度、標尺、圖注和曲線趨勢中定量地提取信息并進行推理。
通向可信 AI 科學助手的漫漫長路
盡管當前模型仍存在局限,這項研究并不意味著 AI 在科學研究中沒有價值。
事實上,AI 可以協助瀏覽大量文獻,總結實驗結果。在材料科學等領域,一些研究已經開始利用 LLM 從論文中自動提取實驗數據,并構建新的材料數據庫。這些工作表明,AI 可能成為科學發現流程中的一種新工具,但真正的科學推理仍然需要人類專家的參與。
https://research.google/blog/testing-llms-on-superconductivity-research-questions/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.