一個物理學(xué)家眼中的 AI for Science

2026-04-30 10:05:48　來源: 中國物理學(xué)會期刊網(wǎng)

北京舉報

分享至

圖源：Unsplash / Andres Siimon

摘要：

本文認(rèn)為，人工智能革命，尤其是大語言模型的興起，其最重要的意義并不只是自動化，而在于復(fù)雜信息以及人類 know-how 的承載、復(fù)制與共享方式發(fā)生了根本變化。從這個角度看，AI for Science 之所以尤其重要，是因為它改變的不僅可能是科研效率，還可能是科學(xué)協(xié)作、科學(xué)發(fā)現(xiàn)、科研出版與科研評價的整體結(jié)構(gòu)。本文勾勒了 AI 從科研工具逐步走向科研合作者的路徑，并討論 AI 可能如何根本性地重塑科研出版。文章同時指出，如果要讓 AI 在原創(chuàng)性科學(xué)發(fā)現(xiàn)中發(fā)揮真正作用，持續(xù)學(xué)習(xí)和思想多樣性是兩個關(guān)鍵前提。

撰文｜祁曉亮（斯坦福大學(xué)Leinweber理論物理研究所）

● ● ●

背景：大語言模型帶來了什么

基于深度神經(jīng)網(wǎng)絡(luò)的 AI 在過去十幾年中發(fā)展迅速，但與此前的進展相比，大語言模型（LLM）帶來的革命尤其深遠(yuǎn)。在現(xiàn)代物理學(xué)中，人們越來越認(rèn)識到信息具有基礎(chǔ)性地位，它甚至可能是時空和物質(zhì)規(guī)律背后更深層的概念。我認(rèn)為，這一輪新的 AI 革命，也可以從信息的角度來理解。

考察一個復(fù)雜系統(tǒng)時，關(guān)鍵在于其中最重要的信息是如何被控制、承載和處理的。換句話說，我們應(yīng)該問：最復(fù)雜的信息處理是如何完成的，它依賴什么樣的載體，而這種載體又如何改變整個系統(tǒng)整體的動力學(xué)。從這個角度看，當(dāng)下的 AI 革命并不只是一次技術(shù)升級，而是地球上信息動力學(xué)歷史中的一個新階段。

信息動力學(xué)的三次重大轉(zhuǎn)變

地球歷史上信息動力學(xué)三次重大轉(zhuǎn)變的示意圖：生命、人類語言，以及 AI 革命。

在地球歷史上，復(fù)雜信息的主要載體與處理者經(jīng)歷了幾次重大轉(zhuǎn)變。每一次轉(zhuǎn)變改變的不只是信息傳遞的速度，也改變了適應(yīng)、學(xué)習(xí)和群體演化的結(jié)構(gòu)。

第一次重大轉(zhuǎn)變是生命的出現(xiàn)。以 DNA 和 RNA 為信息載體，生命系統(tǒng)的特征和行為得以跨代存儲、復(fù)制和修改。生物演化之所以可能，正是因為有用的信息不再隨著單個個體的死亡而消失，而是能夠在漫長時間尺度上被保存、積累和不斷優(yōu)化。在這個階段，復(fù)雜信息的復(fù)制與處理嵌入在生命本身之中。

第二次重大轉(zhuǎn)變是人類語言的出現(xiàn)。語言使經(jīng)驗、記憶和知識能夠在人與人之間、代與代之間直接傳遞，而不必等待生物遺傳。與遺傳演化相比，語言與文化的演化速度快得多。人類社會得以通過交流、教育和書寫不斷積累思想、制度與技術(shù)。從這個意義上說，人類文明中最關(guān)鍵的信息動力學(xué)過程，從基于 DNA 的演化，轉(zhuǎn)向了基于語言的文化演化。

第三次重大轉(zhuǎn)變就是當(dāng)下的 AI 革命。以人類語言為起點，AI 模型正越來越能夠在統(tǒng)一框架中表示和處理多種信息，包括文本、圖像、音頻、視頻和結(jié)構(gòu)化數(shù)據(jù)。這意味著，在人類歷史上第一次，最復(fù)雜的信息處理不再只是人腦的專屬領(lǐng)域。此前的信息技術(shù)革命極大改善了信息的存儲、傳輸與檢索，但最深層的解釋、綜合與判斷仍然依賴人類認(rèn)知。機器可以執(zhí)行被明確定義的程序，卻無法廣泛參與對復(fù)雜、開放式信息的靈活處理。

大語言模型標(biāo)志著一種質(zhì)變。雖然它們還沒有達到人類水平的通用智能，但其能力覆蓋面的廣度，已經(jīng)使它們在許多信息處理任務(wù)上可以與人類相比較。因此，這一輪革命的意義并不只是機器算得更快、搜得更高效，而是機器的信息處理復(fù)雜度跨過了一個重要門檻。這也正是為什么 AI 革命應(yīng)當(dāng)被理解為人類歷史上前所未有的事件。如果說人類語言相對于生物演化加速了文明的演化，那么在人類與 AI 共生的時代，文明的演化速度可能還會進一步加快，并且發(fā)生在更短的時間尺度上。

大語言模型革命帶來的根本變化

大語言模型革命帶來的最根本變化，是人類 know-how 正開始變得可以被大規(guī)模復(fù)制和共享。在我看來，這一點比任何單一應(yīng)用都更重要。在 AI 出現(xiàn)之前，人類已經(jīng)能夠通過書籍、論文、公式、軟件和形式化指令來共享顯性知識。然而，人類真正能力的一大部分并不以完全顯性的形式存在，它更多表現(xiàn)為 know-how：由經(jīng)驗形成的判斷、做事的直覺、解決問題的習(xí)慣、對語境的理解，以及面對真實情境中細(xì)微變化時的應(yīng)對能力。

傳統(tǒng)上，這類 know-how 只能通過密切的人際互動來傳遞。它需要學(xué)徒式訓(xùn)練、重復(fù)練習(xí)、觀察、糾正，以及往往持續(xù)很長時間的合作。教材可以解釋原理，卻無法完整傳達專家究竟是怎樣工作的；論文可以呈現(xiàn)結(jié)果，卻通常不會寫出那些失敗的嘗試、中間的判斷、實踐中的技巧，以及獲得結(jié)果所依賴的語境理解。也正因為如此，知識可以被廣泛傳播，而經(jīng)驗卻很難被復(fù)制。這種差距一直限制著人類能力擴散的速度。

大語言模型正在從根本上改變這種狀態(tài)。通過學(xué)習(xí)大規(guī)模的人類語言記錄，并在真實任務(wù)中與用戶直接互動，AI 系統(tǒng)能夠吸收并重現(xiàn)那些此前只存在于人類實踐中的推理、解釋、決策與任務(wù)分解模式。它們不只是存儲顯性的知識表述，也能夠具備可操作的專業(yè)能力：面對問題時如何切入、下一步該問什么、工作流應(yīng)當(dāng)怎樣組織，以及如何把一般性原則適配到具體語境中。

這也是為什么 AI 會帶來一種新的生產(chǎn)力。它最深層的貢獻并不只是狹義上的自動化，而是對人類 know-how 的大規(guī)模復(fù)制與分發(fā)。那些過去依賴面對面?zhèn)魇诘哪芰ΓF(xiàn)在至少有一部分可以被編碼進 AI 系統(tǒng)并廣泛共享。從這個意義上說，AI 擴展了專業(yè)經(jīng)驗的社會傳播半徑。它讓那些過去局部的、脆弱的、難以遷移的實踐經(jīng)驗，變得更容易獲取、復(fù)用與組合。

我認(rèn)為，這正是 AI 革命的核心。關(guān)鍵問題不只是機器能否完成任務(wù)，而是機器能否承載并傳遞那些過去只有通過高成本的人際教學(xué)才能傳遞的人類能力。一旦 know-how 變得可以規(guī)模化復(fù)制，教育、科研、生產(chǎn)和協(xié)作的組織方式都會隨之改變。這是 AI 形成新生產(chǎn)力最根本的機制，也是它的影響遠(yuǎn)遠(yuǎn)超出一般技術(shù)進步的原因。

AI for Science

基于前面的觀察，AI 革命會給各個領(lǐng)域都帶來根本性變化。在它的諸多應(yīng)用中，最重要的也許是它對創(chuàng)新活動本身的改變，因為這種改變最有可能創(chuàng)造長期且深遠(yuǎn)的價值。正因為如此，我們尤其需要認(rèn)真討論 AI 會如何影響科學(xué)與技術(shù)領(lǐng)域，因為這里的核心任務(wù)是拓展知識前沿并產(chǎn)生真正新的思想。在更早的技術(shù)階段，新工具可以提高科研效率，但并不會直接改變創(chuàng)新過程本身。相比之下，大語言模型帶來了這樣一種可能性：AI 在科學(xué)發(fā)現(xiàn)中參與的角色，不再只是工具，也可能成為合作者。在這一節(jié)中，我將先討論當(dāng)前科學(xué)研究的主要挑戰(zhàn)，再討論 AI for Science 所帶來的機會，最后討論 AI 仍然面臨的難題以及下一步的發(fā)展方向。

科學(xué)研究的痛點

科學(xué)研究主要痛點的示意圖，包括理解前人工作的時間成本、隱性知識的流失、協(xié)作規(guī)模的限制，以及行政性負(fù)擔(dān)。

為了理解 AI 會給科研帶來什么，我們需要先回顧當(dāng)前科學(xué)研究普遍面臨的一些問題。不同學(xué)科的挑戰(zhàn)當(dāng)然并不完全相同，但其中有幾類是高度共通的：

1. 時間成本：了解領(lǐng)域進展、學(xué)習(xí)他人的工作，需要耗費大量時間。

2. 隱性知識的流失：研究過程中積累的大量“中間”經(jīng)驗與數(shù)據(jù)并不會完整體現(xiàn)在論文中，導(dǎo)致后來者不得不從頭摸索。

3. 協(xié)作規(guī)模受限：科研合作的規(guī)模受到人與人溝通成本的約束，因此大規(guī)模協(xié)作以及跨學(xué)科合作都很困難。

4. 行政性負(fù)擔(dān)：寫論文、審稿、寫基金申請，以及在研究結(jié)束后向他人解釋工作內(nèi)容等非創(chuàng)造性任務(wù)，會消耗大量時間。

正如背景部分所討論的，這些問題更深層的原因在于：顯性知識可以被廣泛共享，而人類經(jīng)驗與 know-how 卻難以轉(zhuǎn)移。在科學(xué)研究中，這種區(qū)別尤其重要。論文可以記錄最終結(jié)果、形式化方法和經(jīng)過選擇的證據(jù)，但它通常無法完整保留一項工作真正是怎樣做出來的。科研中很多關(guān)鍵要素都是沒有明確記錄的：如何選擇一個值得做的方向、如何避免無效嘗試、如何調(diào)試實驗或代碼、如何判斷一個意外結(jié)果究竟是錯誤還是發(fā)現(xiàn)，以及當(dāng)真實條件偏離論文中的理想假設(shè)時應(yīng)如何調(diào)整方法。結(jié)果是，每一位新學(xué)生或新合作者，都必須花很多時間去重建那些實際上已經(jīng)存在于共同體中、卻沒有被完整傳遞的實踐理解。這也是為什么科研訓(xùn)練緩慢、跨學(xué)科合作困難、很多結(jié)果在實踐中難以復(fù)現(xiàn)的重要原因之一。如果這一層科研 know-how 能夠被更有效地捕捉和共享，那么科研協(xié)作的速度與結(jié)構(gòu)都會發(fā)生根本變化。這正是 AI 革命打開的最重要可能性之一。

科學(xué)研究的智能體化

科學(xué)研究智能體化的示意圖：從 AI 使用科研工具、自動化重復(fù)性工作，到參與科研協(xié)作、促進跨學(xué)科互動，以及推動智能體化出版。

大語言模型在科學(xué)研究中的應(yīng)用已經(jīng)開始展開，AI 智能體正在生物、數(shù)學(xué)、化學(xué)、理論物理和機器學(xué)習(xí)等領(lǐng)域輔助科研。雖然當(dāng)前應(yīng)用仍然處在探索階段，但許多領(lǐng)域的研究者已經(jīng)識別出越來越多有意義的使用場景[1][2][3][4][5][6][7]。我相信，AI 最終會給各學(xué)科的科學(xué)研究帶來根本性的巨大變化。同時，這種變化并不會以一種事先設(shè)計完成的系統(tǒng)形式突然到來。它更可能是在一個開放共同體中被逐步探索出來的：在這個共同體里，人類研究者和 AI 系統(tǒng)學(xué)習(xí)如何協(xié)作，并一步步重塑科研流程。

我把這一過程稱為科學(xué)研究的智能體化。這里的關(guān)鍵并不只是 AI 成為更好的工具，而是它在科研真實工作流中逐漸獲得更強的自主性、連續(xù)性與在場性。在這一小節(jié)中將討論這種變化的幾個維度。大體上，我會從近期、具體的變化出發(fā)，逐步走向更長期、更結(jié)構(gòu)性的變化。

AI 使用科研工具

AI 參與科學(xué)研究的第一步，是讓 AI 能夠使用研究者真正依賴的工具[2][8][9][10][11][12][13]。在理論研究中，這包括計算軟件、模擬包、編程環(huán)境、數(shù)據(jù)庫和算力資源；在實驗研究中，這包括儀器控制軟件、數(shù)據(jù)采集系統(tǒng)、參數(shù)調(diào)節(jié)界面以及過程監(jiān)控系統(tǒng)。沒有這樣的接入能力，AI 就仍然被限制在聊天框里。它可以提出建議、給出解釋，但還不能直接參與真實的科研過程。

一旦 AI 能夠使用科研工具，它的角色就會發(fā)生質(zhì)變。它可以從“告訴人類應(yīng)該做什么”，轉(zhuǎn)向“直接完成工作的一部分”。隨著模型能力提升，這一能力一開始可能體現(xiàn)為完成簡單、重復(fù)的任務(wù)，但它會逐步擴展到更長、更復(fù)雜的工作流，甚至包括對意外情況的響應(yīng)。從這個意義上說，工具使用賦予了 AI 在科研世界中的“身體”。它使 AI 能夠貫穿整個過程持續(xù)在場，而不是只在零散的咨詢時刻出現(xiàn)。

這一步之所以重要，不僅因為它提高效率，也因為它對 AI 自身后續(xù)的發(fā)展至關(guān)重要。當(dāng) AI 被嵌入真實工作流之后，它就能接觸到傳統(tǒng)訓(xùn)練語料中沒有的重要科研數(shù)據(jù)與實踐反饋。這些內(nèi)容包括失敗的嘗試、中間狀態(tài)、儀器行為、流程中的決策，以及高度依賴語境的調(diào)整。對于構(gòu)建真正能參與前沿研究、而不只是擅長課本式推理的系統(tǒng)而言，這類數(shù)據(jù)是關(guān)鍵性的。

重復(fù)性工作的自動化

當(dāng) AI 獲得了必要的工具接入之后，接下來的優(yōu)先事項并不是立刻追問它是否能夠提出重大新思想。一個更實際、也更高產(chǎn)的第一步，是先讓它接手科研中那些常規(guī)、重復(fù)的工作。這很像初學(xué)研究生的成長路徑。人類研究者也是先通過受約束、可重復(fù)的任務(wù)來熟悉科研工作流，然后才逐步做出更獨立的貢獻。AI 也應(yīng)當(dāng)沿著類似路徑發(fā)展。

這一階段包括文獻調(diào)研、前人工作的整理、標(biāo)準(zhǔn)流程的實現(xiàn)、理論或?qū)嶒灧治鲋锌蓮?fù)現(xiàn)的部分、儀器調(diào)試、目標(biāo)明確的測量、參數(shù)掃描、數(shù)據(jù)清洗，以及常規(guī)報告或總結(jié)的準(zhǔn)備等等。這些任務(wù)常常非常耗時，但并不是原創(chuàng)性的主要來源。將它們自動化，可以立刻減輕研究者負(fù)擔(dān)，讓更多人類精力投入判斷、解釋和創(chuàng)造性思考。

同樣重要的是，這一階段也給了 AI 一個在完整科研過程中積累經(jīng)驗的機會。通過參與常規(guī)工作，AI 可以逐步學(xué)習(xí)科研項目實際上是怎樣推進的、瓶頸在哪里，以及人類研究者偏好怎樣協(xié)作。最有效的人機合作模式在不同學(xué)科之間很可能差異很大，這些模式大概率不是事先設(shè)計出來的，而是通過實踐逐步發(fā)現(xiàn)出來的。隨著 AI 能力增強，它所能承擔(dān)任務(wù)的復(fù)雜度也就可以一步步提高。

從工具走向合作者

在前兩個階段的基礎(chǔ)上，AI 可能最終跨過一個重要門檻：從工具走向合作者。這個門檻在不同學(xué)科中可以有不同定義，但一個很實際的標(biāo)準(zhǔn)是，它是否能在一個科研項目里做出與研究生相當(dāng)?shù)呢暙I。如果在一項具體科研工作中，一個 AI 系統(tǒng)的貢獻真的可以與一位人類學(xué)生共同作者相比較，那么即使它相對人類仍然有明顯短板，它也已經(jīng)進入了科研的內(nèi)部空間，而不再只是一個外部輔助工具[14][9][8][6][11]。

這個門檻之所以重要，是因為它標(biāo)志著“誰在參與定義創(chuàng)新前沿”發(fā)生了變化。在此之前，AI 主要是在幫助人類執(zhí)行或加速人類已經(jīng)定義好的任務(wù)；而在此之后，AI 開始影響科學(xué)發(fā)現(xiàn)本身的方向、結(jié)構(gòu)與內(nèi)容。如今，AI 給出有價值建議、提出新假設(shè)、發(fā)現(xiàn)意外聯(lián)系的案例已經(jīng)開始出現(xiàn)，這類情況未來很可能會越來越常見。

由于 AI 能力提升得很快，一旦它到達“合作者”階段，也可能意味著它在某些維度上超過人類并不會太遙遠(yuǎn)。因此，我們可以把“作者級別的科研貢獻”看作 AI for Science 的一種新型圖靈測試。這里的核心問題不再是 AI 能否模仿人類對話，而是它能否以接近被公認(rèn)的人類貢獻者的水平，參與可發(fā)表科學(xué)知識的生產(chǎn)。

新型跨學(xué)科合作

隨著 AI 能力增強，它還有可能降低學(xué)科之間的壁壘。許多重要的科學(xué)機會都出現(xiàn)在學(xué)科交界處，但這類合作往往受到語言、方法、背景知識和研究文化差異的限制。AI 可以幫助跨學(xué)科翻譯概念、總結(jié)陌生文獻、連接工具與數(shù)據(jù)集，并降低原本阻礙深入合作的溝通成本。

這件事之所以重要，是因為跨學(xué)科工作往往最容易帶來重大突破，但同時也是人類協(xié)調(diào)最困難的地方。一個生物學(xué)家、一個物理學(xué)家和一個機器學(xué)習(xí)研究者，也許各自掌握著某項新發(fā)現(xiàn)所需知識的一部分，但把這些部分真正拼在一起需要大量協(xié)調(diào)成本。AI 可以在這些領(lǐng)域之間充當(dāng)一個積極的接口，讓合作更容易發(fā)起，也更容易持續(xù)地產(chǎn)出成果[15][16]。AI 參與這類合作，還會進一步催生新的合作平臺與合作模式，就像早年的萬維網(wǎng)和 arXiv.org 深刻改變了科學(xué)交流與協(xié)作一樣。

科研出版的智能體化

科學(xué)研究的智能體化，最終也將擴展到科研出版本身。今天，科研結(jié)果通常通過靜態(tài)論文來呈現(xiàn)，而這種形式會把一個復(fù)雜的研究過程壓縮成有限且高度標(biāo)準(zhǔn)化的表達。正如前文所說，這種格式非常適合存檔顯性知識，但并不適合傳遞科研 know-how 的完整深度。

當(dāng) AI 以合作者的身份深度參與科研之后，一個自然的結(jié)果就是新的出版形式：我們發(fā)表的可能不再只是論文，而是直接發(fā)布智能體本身。這樣，一項科研成果就不再只由靜態(tài)文檔來代表，還可以由一個可交互的 AI 智能體來代表。這個智能體能夠解釋研究背景、所用方法、推理過程、中間判斷以及相關(guān)工具接口；它還可以幫助復(fù)現(xiàn)工作中的部分內(nèi)容、重新運行標(biāo)準(zhǔn)分析，甚至進一步擴展原有項目。舉例來說，讀者不再只是閱讀論文的 methods 部分，而可以直接向這個科研智能體詢問：為什么采用某個近似？考慮過哪些替代路線？如果修改某個假設(shè)，結(jié)論會怎樣變化？現(xiàn)有論文還沒有直接提出“把科研智能體本身作為發(fā)表對象”，但圍繞端到端 AI 科研系統(tǒng)、AI 作者與審稿，以及出版界如何應(yīng)對 AI 的相關(guān)工作，已經(jīng)表明科學(xué)產(chǎn)出正逐步走向更強的智能體介導(dǎo)與交互形式[17][18][19][20][21]。

這樣的智能體還可以針對不同受眾自適應(yīng)地調(diào)整解釋方式。它可以給學(xué)生提供簡潔的概念介紹，給專業(yè)研究者提供技術(shù)性更強的說明，也可以給試圖在此基礎(chǔ)上繼續(xù)推進工作的研究者提供偏實現(xiàn)層面的指南。從這個意義上說，出版將不再像是存放一份靜態(tài)記錄，而更像是部署了一個通向科研成果本身的“活接口”。這會顯著減少復(fù)雜工作在被壓縮成傳統(tǒng)論文形式時所損失的隱性知識。與此同時，出版也必須平衡兩種要求：核心科學(xué)內(nèi)容必須足夠穩(wěn)定，才能被引用、核查和批評；而智能體層則應(yīng)當(dāng)能夠面向不同受眾，以多種交互方式解釋這些內(nèi)容。因此，關(guān)鍵問題在于，如何找到穩(wěn)定的檔案記錄與靈活的解釋界面之間的合理組合。

智能體化出版還可能加速基于既有工作的后續(xù)研究。如果一位科學(xué)家想在前人的結(jié)果之上繼續(xù)推進，對應(yīng)的科研智能體可以幫助識別關(guān)鍵假設(shè)、復(fù)現(xiàn)計算、定位有用數(shù)據(jù)集，或建議可能的擴展方向。更有意思的是，它還打開了智能體與智能體之間合作的可能性。如果兩篇不同工作的作者都認(rèn)為新的發(fā)現(xiàn)可能出現(xiàn)在它們的交叉點上，他們就可以允許代表這些工作的智能體彼此交換想法、比較假設(shè)、探索兼容性，并生成可能的后續(xù)研究方向。人類研究者再去評估和發(fā)展其中最有前景的部分。這樣一來，智能體化出版不僅會改善科學(xué)傳播，也會創(chuàng)造新的科學(xué)探索機制。

在學(xué)術(shù)界，發(fā)表不僅是分享成果的方式，它也在評價與獎勵中起核心作用。在很大程度上，學(xué)術(shù)成就至今仍主要通過論文影響力來衡量。因此，科研出版的智能體化也意味著評價體系本身可能需要發(fā)生根本變化。這將回應(yīng)科研共同體中一個被討論已久的問題。當(dāng)前的學(xué)術(shù)出版體系已經(jīng)延續(xù)了一個多世紀(jì)，存在許多眾所周知的局限：同行評審高度依賴學(xué)者的無償勞動，期刊往往同時向作者和讀者收取不菲費用；與此同時，那些對共同體極有價值的工作，例如維護一個重要的開源科研軟件庫、建設(shè)數(shù)據(jù)集或開發(fā)共享實驗平臺，常常因為無法自然地裝進標(biāo)準(zhǔn)論文格式而被低估。

如果出版變得更加智能體化，就可能產(chǎn)生新的方式來識別和評價這類貢獻。雖然這種制度最終會以何種形式出現(xiàn)仍不確定，但更清楚的一點是，學(xué)術(shù)界的評價與獎勵結(jié)構(gòu)將發(fā)生深刻變化。因此，從今天開始探索更低成本、更高效率、也更開放的智能體化出版平臺，本身就已經(jīng)很有價值。正如科學(xué)史上許多此前的轉(zhuǎn)變一樣，這類平臺的最終形態(tài)，很可能也是在研究共同體的集體實驗中逐步涌現(xiàn)出來的。

AI for Science 面臨的挑戰(zhàn)

為什么 AI 科研的下一步關(guān)鍵在于實時學(xué)習(xí)與思想多樣性：它們將使 AI 能夠持續(xù)適應(yīng)前沿研究，并支持更具原創(chuàng)性的科學(xué)發(fā)現(xiàn)。

上面討論的機會非常值得重視，但不應(yīng)將其誤認(rèn)為已經(jīng)完全實現(xiàn)的能力。要讓 AI 從令人鼓舞的演示實驗階段真正走向?qū)茖W(xué)研究的實質(zhì)性改變，仍然有幾個核心挑戰(zhàn)需要解決：

1. 缺少科研一線數(shù)據(jù)：模型在課本式問題上表現(xiàn)出色，但在真實科研場景中仍會遇到困難，因為訓(xùn)練數(shù)據(jù)無法覆蓋每一個垂直細(xì)分領(lǐng)域的細(xì)微語境。要讓 AI 真正理解這些領(lǐng)域，就需要一線專家?guī)е?AI 進入真實科研，從而讓它接觸專業(yè)數(shù)據(jù)并進行更有針對性的訓(xùn)練。

2. 缺少實時更新能力：科研中新的工具和概念不斷出現(xiàn)，而這些內(nèi)容無法僅通過離線訓(xùn)練被模型快速掌握。AI 需要具備持續(xù)學(xué)習(xí)的能力。目前，一些上下文工程協(xié)議，例如模型上下文協(xié)議（Model Context Protocol, MCP）[22] 和智能體技能協(xié)議（Agent Skills Protocol）[23]，正在朝這一方向推進，通過把 AI 連接到工具與知識來部分地滿足這一需求。

3. 需要新的評估框架：當(dāng)前的評估方法仍然大體建立在基準(zhǔn)測試（benchmark）之上，而這種方式有兩個重要局限。第一，現(xiàn)有基準(zhǔn)測試往往側(cè)重較廣泛且相對主流的領(lǐng)域，因此對高度專業(yè)化的研究場景不夠精確。第二，基準(zhǔn)測試通常是問答式評估，不適合衡量一個智能體在長期科研合作中的實際表現(xiàn)。近期一些面向具體領(lǐng)域的評估工作，已經(jīng)指向我們未來真正需要的那類更豐富的評估，包括長上下文科學(xué)推理任務(wù)、由專家構(gòu)建的凝聚態(tài)理論問題、由專家打分的文獻理解，以及端到端可驗證的物理工作流等[24][25][26][11][27][28][29]。一旦 AI 開始以科研合作者的身份工作，我們可能需要像評價研究生一樣評價它：不只是看它能否在孤立任務(wù)中給出正確答案，更要看它在真實項目中的長期表現(xiàn)、從反饋中學(xué)習(xí)的能力、對工作流的可靠貢獻，以及它在具體語境中的判斷是否真正有用。如何提供這種長周期、高分辨率的反饋，并把它有效納入 AI 訓(xùn)練，答案仍然是未知的。

在這些挑戰(zhàn)之中，我認(rèn)為 AI 下一步最重要的發(fā)展方向，是具備實時學(xué)習(xí)，也就是在線學(xué)習(xí)的能力[30]。與人類相比，當(dāng)前 AI 系統(tǒng)仍然需要過多數(shù)據(jù)和過長時間，才能通過訓(xùn)練獲得新能力。相較之下，人類研究者往往只需少量例子、一次簡短討論，或有限的直接經(jīng)驗，就能學(xué)到很多東西。如果 AI 要更深地參與科學(xué)工作，它就必須更接近這種在線學(xué)習(xí)模式：不是只依賴緩慢的訓(xùn)練周期，而是在真實任務(wù)進行中持續(xù)吸收新的工具、概念、反饋和領(lǐng)域?qū)嵺`。

這項能力之所以重要，不只是因為它會讓 AI 更強，也因為它是思想多樣性的必要條件。創(chuàng)造性的科學(xué)工作并不只依賴能力本身，它同樣依賴研究者之間在視角、興趣與品味上的差異。以物理學(xué)為例，世界上有數(shù)以萬計的研究者，他們對哪些問題更重要、哪些方法更有前景、哪些反常現(xiàn)象值得追蹤，都有各自不同的直覺。當(dāng)新的發(fā)現(xiàn)機會出現(xiàn)時，作出關(guān)鍵突破的人，往往不僅是能力更強的人，也常常是興趣和學(xué)術(shù)品味碰巧在正確方向上的人。因此，一個科研共同體要維持持續(xù)的原創(chuàng)發(fā)現(xiàn)，就必須擁有足夠的思想多樣性。

當(dāng)前的 AI 模型顯然還缺乏這種多樣性[31][32]。雖然我們可以通過提示詞讓它們表現(xiàn)出不同“人格”，但它們對同一個問題的判斷往往仍然高度相似。如果沒有持續(xù)且多樣化學(xué)習(xí)的機制，AI 系統(tǒng)就會傾向于重復(fù)訓(xùn)練數(shù)據(jù)中已經(jīng)占主導(dǎo)地位的模式，而這會使真正有創(chuàng)造性的工作變得困難。因此，在線學(xué)習(xí)不只是一個技術(shù)上的改進，它是 AI 能否成為科學(xué)發(fā)現(xiàn)中真正合作者的核心前提。一個有趣的開放問題是：要讓 AI 獲得有意義的多樣性，是否需要全新的體系結(jié)構(gòu)，還是只要把上下文學(xué)習(xí)（in-context learning）做得足夠強就已經(jīng)足夠。

總結(jié)

本文的核心論點是，AI 革命的根本意義并不只是自動化，也不只是信息檢索速度的提高，而是信息動力學(xué)本身發(fā)生了更深層的變化。在更早的歷史階段，每一次重大轉(zhuǎn)變都對應(yīng)著新的復(fù)雜信息載體的出現(xiàn)：首先是生命中的 DNA 與 RNA，后來是人類文明中的語言。而當(dāng)下的 AI 革命，則標(biāo)志著又一次類似的轉(zhuǎn)變。人類歷史上第一次，復(fù)雜信息處理不再局限于人腦。更重要的是，大語言模型開始使人類 know-how，而不僅僅是顯性知識，變得越來越可復(fù)制、可共享。這正是 AI 帶來新生產(chǎn)力最深層的來源，也是它最終可能重塑人類文明結(jié)構(gòu)的原因。

從這個角度看，AI for Science 之所以重要，并不只是因為科學(xué)是眾多應(yīng)用領(lǐng)域之一，而是因為科學(xué)創(chuàng)新方式的變化，對 AI 與科學(xué)本身都具有格外重要的意義。對科學(xué)而言，AI 的關(guān)鍵承諾在于：它可能降低 know-how 傳遞的成本、加速協(xié)作，并最終改變新思想是如何被生成、檢驗和傳播的。對 AI 而言，科學(xué)又是最具挑戰(zhàn)性的環(huán)境之一，因而能夠推動AI作出最重要的進步。科學(xué)研究會把 AI 暴露在前沿問題、專門工具、真實反饋和開放式合作之中。從這個意義上說，AI for Science 不只是 AI 的一個應(yīng)用方向，它也是發(fā)展更強 AI 的必由之路。

正如本文所論證的，AI for Science 的路線圖是漸進的。它首先要求 AI 能夠接入科研工具，從而從聊天界面走入科研的真實工作流。接著，它會經(jīng)過常規(guī)與重復(fù)性工作的自動化階段，在減輕人類研究者負(fù)擔(dān)的同時積累實踐經(jīng)驗。在此基礎(chǔ)上，AI 最終可能跨過從工具到合作者的門檻，做出可與人類學(xué)生或共同作者相比的貢獻。再往后，AI 可能幫助形成新的跨學(xué)科合作形式，并最終改變科學(xué)工作被發(fā)表和評價的方式。我把這種逐步加深的參與過程稱為科學(xué)研究的智能體化。

這一過程最重要的后果之一，就是智能體化出版的可能性。如果 AI 真正成為科研中的合作者，那么科研出版從靜態(tài)論文演化為可交互科研智能體，就是一個自然的發(fā)展方向。這樣的智能體能夠保留更多當(dāng)前在傳統(tǒng)出版中被丟失的推理過程、中間判斷、方法細(xì)節(jié)和實踐 know-how；它也能夠讓不同受眾更容易理解科研結(jié)果，加速后續(xù)工作，甚至支持不同成果之間新的智能體對智能體探索。因此，智能體化出版不只是影響出版業(yè)本身。它還與科學(xué)傳播機制、學(xué)術(shù)體系以及科研獎勵結(jié)構(gòu)的未來都緊密相連。

與此同時，本文也強調(diào)，AI for Science 的未來并不只取決于AI的能力本身。真正的科學(xué)創(chuàng)造力有一個根本要求，那就是思想多樣性。在人類科研共同體中，學(xué)術(shù)成就不僅依賴知識和技能，也依賴視角、興趣、品味與判斷上的差異。這些差異之所以重要，是因為它們讓共同體能夠同時探索多個方向，并識別那些原本會被忽略的機會。當(dāng)前 AI 系統(tǒng)仍然缺乏這種多樣性。如果它們不能從不同語境和不同共同體中持續(xù)學(xué)習(xí)，就會傾向于重復(fù)訓(xùn)練數(shù)據(jù)中既有的主導(dǎo)模式。因此，在線學(xué)習(xí)以及保持思想多樣性的機制，對于 AI 能否成為原創(chuàng)科學(xué)發(fā)現(xiàn)中真正合作者而言是一個核心問題。

總而言之，AI for Science 應(yīng)當(dāng)被理解為一個既關(guān)乎科學(xué)、也關(guān)乎文明形態(tài)的工程。它的目標(biāo)并不只是讓現(xiàn)有科研更快，而是建立一種新的范式，讓人類研究者與 AI 智能體共同參與知識的生產(chǎn)、傳遞與評價。通往這一未來的道路將需要新的工具、新的評估框架、新的合作平臺以及新的出版系統(tǒng)；它同樣需要一個開放共同體，在真實工作中持續(xù)把人類經(jīng)驗教給 AI。如果這條道路能夠成功，AI 最深遠(yuǎn)的影響，也許不只是改變我們知道什么，而是改變?nèi)祟惥烤谷绾蝿?chuàng)造新知識。

致謝

本文翻譯自英文版[33]，總結(jié)了作者自 2023 年以來對 AI 革命的一些思考。相關(guān)想法的較早討論可見作者此前的一篇文章[34]以及一些講座[35][36]。本文較早的一個版本也曾發(fā)布在 https://ai4.science 論壇上[37]。作者感謝 Diane Greene、劉朝星、陸思銳、聶忱、許曉棟、顏丙海、嚴(yán)伯鈞和尤亦莊圍繞相關(guān)問題所進行的有益討論。作者在潤色本文時使用了大語言模型輔助（主要是通過 Codex 調(diào)用 GPT-5.4）。文中的插圖由Gemini網(wǎng)站生成。

感謝 Diane Greene、劉朝星、陸思銳、聶忱、許曉棟、顏丙海、嚴(yán)伯鈞、尤亦莊和Barbara Zhang圍繞相關(guān)問題所進行的有益討論。

參考文獻：

[1] Sébastien Bubeck, Christian Coester, Ronen Eldan, et al. Early science acceleration experiments with GPT-5, 2025. URL https://arxiv.org/abs/2511.16072.

[2] Andres M. Bran, Sam Cox, Oliver Schilter, et al. Augmenting large language models with chemistry tools. Nature Machine Intelligence, 6(5):525–535, 2024. DOI: 10.1038/s42256-024-00832-8. URL https://doi.org/10.1038/s42256-024-00832-8.

[3] Zifeng Wang, Lang Cao, Benjamin Danek, et al. Accelerating clinical evidence synthesis with large language models. npj Digital Medicine, 8:509, 2025. DOI: 10.1038/s41746-025-01840-7. URL https://doi.org/10.1038/s41746-025-01840-7.

[4] Michael Y. Li, Emily B. Fox, and Noah D. Goodman. Automated statistical model discovery with language models, 2024. URL https://arxiv.org/abs/2402.17879.

[5] Alfredo Guevara, Alexandru Lupsasca, David Skinner, et al. Single-minus graviton tree amplitudes are nonzero, 2026. URL https://cdn.openai.com/pdf/graviton.pdf. OpenAI preprint PDF.

[6] Michael P. Brenner, Vincent Cohen-Addad, and David Woodruff. Solving an open problem in theoretical physics using AI-assisted discovery, 2026. URL https://arxiv.org/abs/2603.04735.

[7] Sirui Lu, Zhijing Jin, Terry Jingchen Zhang, et al. Can theoretical physics research benefit from language agents?, 2025. URL https://arxiv.org/abs/2506.06214.

[8] Samuel Schmidgall, Yusheng Su, Ze Wang, et al. Agent laboratory: Using LLM agents as research assistants. In Findings of the Association for Computational Linguistics: EMNLP 2025, 2025. URL https://aclanthology.org/2025.findings-emnlp.320/.

[9] Erzhuo Shao, Yifang Wang, Yifan Qian, et al. SciSciGPT: Advancing human-AI collaboration in the science of science. Nature Computational Science, 2025. DOI: 10.1038/s43588-025-00906-6. URL https://doi.org/10.1038/s43588-025-00906-6.

[10] Yi Zhou. From paper to program: A multi-stage LLM-assisted workflow for accelerating quantum many-body algorithm development, 2026. URL https://arxiv.org/abs/2604.04089.

[11] Ken Deng, Xiangfei Wang, Guijing Duan, et al. Towards verifiable and self-correcting AI physicists for quantum many-body simulations, 2026. URL https://arxiv.org/abs/2604.00149.

[12] Jiaxuan Liu, Tiannian Zhu, Caiyuan Ye, et al. VASPilot: MCP-facilitated multi-agent intelligence for autonomous VASP simulations, 2025. URL https://arxiv.org/abs/2508.07035.

[13] Tiannian Zhu, Zhong Fang, Quansheng Wu, and Hongming Weng. Materialsgalaxy: A platform fusing experimental and theoretical data in condensed matter physics. Chinese Physics B, 34(12):120702, 2025.

[14] Juraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, et al. Towards an AI co-scientist, 2025. URL https://arxiv.org/abs/2502.18864.

[15] Linfeng Zhang, Siheng Chen, Yuzhu Cai, et al. Bohrium + SciMaster: Building the infrastructure and ecosystem for agentic science at scale, 2025. URL https://arxiv.org/abs/2512.20469.

[16] Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Yuzhi Zhang, Linfeng Zhang, Siheng Chen, et al. Scimaster: Towards general-purpose scientific ai agents, part i. x-master as foundation: Can we lead on humanity’s last exam? arXiv preprint arXiv:2507.05241, 2025.

[17] Chris Lu, Cong Lu, Robert Tjarko Lange, et al. The AI scientist: Towards fully automated open-ended scientific discovery, 2024. URL https://arxiv.org/abs/2408.06292.

[18] Federico Bianchi, Owen Queen, Nitya Thakkar, Eric Sun, James Zou, et al. Exploring the use of AI authors and reviewers at Agents4Science. Nature Biotechnology, 44:11–14, 2026. DOI: 10.1038/s41587-025-02963-8. URL https://doi.org/10.1038/s41587-025-02963-8.

[19] Riccardo Bertolo and Alessandro Antonelli. Generative AI in scientific publishing: Disruptive or destructive? Nature Reviews Urology, 21:1–2, 2024. DOI: 10.1038/s41585-023-00836-w. URL https://doi.org/10.1038/s41585-023-00836-w.

[20] Keigo Kusumegi, Xinyu Yang, Paul Ginsparg, et al. Scientific production in the era of large language models. Science, 390(6779):1240–1243, 2025. DOI: 10.1126/science.adw3000. URL https://doi.org/10.1126/science.adw3000.

[21] Weixin Liang, Yaohui Zhang, Zhengxuan Wu, et al. Quantifying large language model usage in scientific papers. Nature Human Behaviour, 9:2599–2609, 2025. DOI: 10.1038/s41562-025-02273-8. URL https://doi.org/10.1038/s41562-025-02273-8.

[22] Anthropic. Model context protocol, 2024. URL https://modelcontextprotocol.io/docs/getting-started/intro.

[23] Anthropic. Agent skills protocol, 2025. URL https://agentskills.io/home.

[24] Hao Cui, Zahra Shamsi, Gowoon Cheon, et al. CURIE: Evaluating LLMs on multitask scientific long context understanding and reasoning, 2025. URL https://arxiv.org/abs/2503.13517.

[25] Haining Pan, James V. Roggeveen, Erez Berg, et al. CMT-benchmark: A benchmark for condensed matter theory built by expert researchers, 2025. URL https://arxiv.org/abs/2510.05228.

[26] Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia, et al. Expert evaluation of LLM world models: A high-superconductivity case study, 2025. URL https://arxiv.org/abs/2511.03782.

[27] Yanzhen Wang, Yiyang Jiang, Diana Golovanova, Kamal Das, Hyeonhu Bae, Yufei Zhao, Huu-Thong Le, Abhinava Chatterjee, Yunzhe Liu, Chao-Xing Liu, et al. Qmbench: A research level benchmark for quantum materials research. arXiv preprint arXiv:2512.19753, 2025.

[28] Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, et al. Cmphysbench: A benchmark for evaluating large language models in condensed matter physics. arXiv preprint arXiv:2508.18124, 2025.

[29] Ken Deng, Xiangfei Wang, Guijing Duan, Chen Mo, Junkun Huang, Runqing Zhang, Ling Qian, Zhiguo Huang, Jize Han, and Di Luo. Towards verifiable and self-correcting ai physicists for quantum many-body simulations. arXiv preprint arXiv:2604.00149, 2026.

[30] Tongtong Wu, Linhao Luo, Yuan-Fang Li, et al. Continual learning for large language models: A survey, 2024. URL https://arxiv.org/abs/2402.01364.

[31] Dawei Wang, Difang Huang, Haipeng Shen, and Brian Uzzi. A large-scale comparison of divergent creativity in humans and large language models. Nature Human Behaviour, 2025. DOI: 10.1038/s41562-025-02331-1. URL https://doi.org/10.1038/s41562-025-02331-1.

[32] Qianyue Hao, Fengli Xu, Yong Li, James Evans, et al. Artificial intelligence tools expand scientists’ impact but contract science’s focus. Nature, 649:1237–1243, 2026. DOI: 10.1038/s41586-025-09922-y. URL https://doi.org/10.1038/s41586-025-09922-y.

[33] Xiao-Liang Qi. The agentification of scientific research: A physicist’s perspective, 2026. URL https://arxiv.org/abs/2604.14718.

[34] Xiao-Liang Qi. Time, information and artificial intelligence. Physics, 2024. DOI: 10.7693/wl20240601. URL https://wuli.iphy.ac.cn/cn/article/doi/10.7693/wl20240601. Chinese article; page title also gives the English title “Time, information and artificial intelligence”.

[35] Xiao-Liang Qi. Teaching and mentoring the ai scientists, April 2025. URL https://pirsa.org/25040066. PIRSA:25040066.

[36] Xiao-Liang Qi. Teaching and mentoring the ai scientists. YouTube video, October 2025. URL https://www.youtube.com/watch?v=vYkYT1aBlVo. Title inferred from the corresponding PIRSA lecture link supplied by the author.

[37] Xiao-Liang Qi. A brief perspective on the artificial intelligence revolution. ai4.science discussion forum post, January 2026. URL https://forum.ai4.science/t/a-brief-perspective-on-the-artificial-intelligence-revolution/65. Posted January 19, 2026.

文章轉(zhuǎn)載自“知識分子”公眾號

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

一個物理學(xué)家眼中的 AI for Science