![]()
周一 · 知古通今|周二 · 牧夫專欄
周三 · 風月同天|周四 · 觀測指南
周五 · 深空探測|周六 · 茶余星話|周日 · 太空探索
主譯:遠山真理
校對:suu
審核:牧夫天文校對組
美編:余家勁
后臺:王啟儒
原作:
Hiranya V. Peiris, “Large language models are not the problem”, Nature Astronomy volume 10, pages472–474 (2026)
前言
如果一個大語言模型(LLM)能夠復制你的科學貢獻,那么問題不在于 LLM。
為什么我們這個領域中如此多關于人工智能的焦慮,都歸結為害怕機器能夠完成我們的工作?也許這說明,我們本該做得更好。
“復制人和其他機器沒有區別——它們要么是有益的,要么是危險的。如果它們有益,那就不是我的問題。”
——Rick Deckard,《銀翼殺手》(1982)
在 Ridley Scott 的電影《銀翼殺手》中,Deckard 的工作是追捕失控的人工生命體——“復制人”(replicants),這些生物已經幾乎無法與真人區分。他說出這句話時帶著一種疲憊而篤定的自信,仿佛問題已經有了答案:如果工具是有益的,那就不必擔心。當然,很快這件事就變成了他的麻煩。整部電影都在探討這樣一個問題:當工具與主體之間的界限不像人們原先以為的那樣清晰時,會發生什么?
目前天體物理學界正圍繞大語言模型展開熱烈甚至有些夸張的討論。我一直關注著這場討論,因為我恰好就在許多人焦慮的那個領域工作。我的研究團隊構建星系群體的生成模型,并開發面向大規模測光巡天的機器學習方法。我們使用機器學習并非把它當作黑箱,而是把它當作一種創造性的工具。它讓我們能夠完成過去根本做不到的事情。我自己也經常直接使用 LLM,后面我會介紹具體方式。我沒有發現這讓我成為一個更差的科學家——恰恰相反。
但這篇文章真正討論的并不是 LLM。它討論的是:圍繞 LLM 的焦慮究竟揭示了什么。這些工具的出現,把科學實踐、評價標準以及激勵機制中長期存在的問題暴露得更加明顯,諸如:論文工廠(paper mills);缺乏創新的增量研究;重數量輕質量的文化;領域知識的不斷流失。這些問題都早于 ChatGPT 的出現。它們并不是 AI 造成的,它們是我們組織和獎勵科學工作的方式所造成的。LLM 只是讓這些后果變得更難忽視而已。
特權與科研實踐
我們每位科學家的工作,都嵌入在人類共同編織的宏大敘事之中——關于宇宙以及我們在其中的位置。我始終覺得,能夠領取薪水去從事讓我如此快樂的工作,是一種非凡的特權。因此,我也欠社會一筆債。納稅人、慈善基金會以及個人捐贈者之所以資助天體物理學研究,是因為他們相信這項工作有價值。這種特權既不是永久的,也不是無條件的。無論人們從事天體物理學的動機是什么,能夠因此獲得報酬本身就是一種幸運。而與這種幸運相對應的責任,就是把工作做好。正是這種信念塑造了我看待 LLM 的方式。
我是 X 世代的一員——經歷了從模擬時代向數字時代轉變的一代。因此,對我而言,擁抱新技術從來不是可選項,我也從未希望它成為可選項(譯者注:而是必選項)。在職業生涯中,我多次改變研究方向。最近一次,當我的團隊開始進入機器學習領域時,我又一次成為徹頭徹尾的新手。每一次轉型都要求我學習新的思維方式,但沒有一次讓科學變差。相反,它們都讓科學變得更好。
我實際上如何使用 LLM
當前的很多討論,把 LLM 在科研中的各種用途混為一談。我認為有必要具體說明自己的實踐。多年來,我一直依賴與值得信任的人討論問題來磨煉思維。優秀的討論伙伴會提出你從未想到的問題;或者發現你以為無懈可擊的論證中的漏洞。我發現現代 LLM(我主要使用 Claude)能夠扮演類似角色。
當然,它不能替代真正的人類同事。但它可以成為一個隨時可得的“第一輪討論對象”:幫助檢驗論證;發現推理漏洞;快速探索陌生領域。然后我再把經過整理的想法拿去與真正的合作者討論。這些交流不會直接進入我的數據分析,它們進入的是我的思考過程。而思考本來就是它們應該存在的地方——沒有人要求你公開每一次走廊里的學術討論記錄。
我的團隊成員也使用 AI 輔助編程工具,但生成的代碼從來不會被直接信任。它們會像任何團隊成員寫出的代碼一樣,經過驗證測試, 同行審查,然后納入代碼倉庫。 經過驗證后的代碼,其可重復性和可檢查性與純手工編寫的代碼完全一樣。
有人擔心:“LLM 不會對同一提示詞?給出完全相同的答案。”這種擔憂只在 LLM 輸出本身就是最終科研成果時才成立。如果 LLM 的輸出只是中間步驟,那么其非確定性并不比人類思維的非確定性更具有科學意義。
但是,我確實認同一種擔憂,如果未來出現 AI 系統,能夠設計科研項目,執行研究,撰寫論文,自動投稿,而幾乎沒有人類監督,那么科學事業的核心——人類為關于自然界的主張承擔責任——就會受到威脅。這是一個真實而嚴肅的問題。但當前討論的問題在于:很多原本只適用于這種極端情形的焦慮,被錯誤地投射到了普通的 LLM 使用上。
LLM 揭示了什么
很多人擔心 LLM 會向文獻中灌入大量低質量論文。這種擔憂并非毫無根據,但它忽略了關鍵事實——天體物理學文獻早在 LLM 出現之前就已經存在質量問題:
· “發表或淘汰”(publish or perish);
· 引用數作為影響力指標;
· 論文數量作為生產力指標;
這些激勵機制幾十年來一直在制造增量式研究,缺乏驗證的代碼,甚至錯誤的論文。 同行評審體系早已不堪重負。論文工廠不是 AI 發明的,而是人類發明的。
許多人默認為,在天文學中創意很廉價,真正限制科研的是把創意變成論文所需的時間。我認為恰恰相反,科學家最困難的工作不是執行,而是判斷哪些問題值得研究。同樣重要的是:哪些論文根本不應該寫。
我在關于博士培養的一篇文章中曾寫道:科學家最重要的能力之一,就是抵抗讓自己一直忙碌的壓力,允許自己發呆和自由聯想,從而發現那些真正值得花費數年時間去研究的問題。
文獻中充斥的大量增量論文,并不意味著我們擁有太多好點子而執行能力不足。恰恰說明:我們已經讓“執行”取代了“思考”。
“數據科學天體物理學家會失業嗎?”
有人擔心,如果 LLM 能夠設計分析方案,寫代碼,跑數據,寫論文,那么數據科學型天體物理學家還剩下什么價值?我認為這種擔憂本身就是一個診斷工具。如果一個研究者的貢獻真的能夠被一個不理解物理學的統計系統完全復制,那么這種工作從一開始就不夠科學。
最優秀的數據科學天體物理研究始終深深植根于領域知識。例如我的團隊構建星系群生成模型時,真正重要的決策都是天體物理問題。這些決策依賴于多年積累的數據與理論直覺。LLM 真正能夠復制的,往往是那些機械性的工作:
· 用舊方法分析新數據;
· 調超參數;
· 寫出“我們在數據集 Y 上重復了 X 的工作”的論文。
這種研究本來就缺乏科學深度。
我們對學生的承諾
當我回顧職業生涯時,最重要的并不是論文或榮譽,而是人——導師、學生和博士后。招收一名博士生,是學術界最嚴肅的承諾之一。你的責任不僅僅是教會技術。而是幫助一個人成長為科學家。包括:清晰思考;提出好問題;面對失敗;精準表達;培養判斷力。
然而當前學術體系的問題是:博士生數量大幅增加,教職崗位卻沒有同步增長。結果是,培養人數遠超吸納能力,許多人訓練不足,經歷多年不穩定的博士后階段最終被迫離開學術界。
這同樣不是 LLM 造成的,而是我們建立的激勵機制造成的。一個擁有大額經費的 PI 可以不斷招收學生。因為:更多學生 → 更多論文 → 更多引用 → 更容易獲得下一輪經費。但導師投入到每位學生身上的時間必然被稀釋。學生學到的是執行,而不是思考。論文數量增加了,理解卻沒有增加。
中間道路
當前討論中缺失的關鍵區別是:自動化天體物理學(automating astrophysics)與增強天體物理學家(augmenting astrophysicists)之間的區別。自動化意味著——讓系統代替我們做科學。這確實令人擔憂,因為它消除了人類理解世界這一核心過程。而增強意味著——給科學家更好的工具。
望遠鏡如此,計算機如此,LLM 也是如此。前提是:使用它的人真正理解科學,并愿意對結果負責。
結語
Deckard 最終錯了。不是因為復制人危險,而是因為他誤解了問題本身,問題從來不是機器。問題是——
什么樣的社會創造了這些機器,以及為什么創造它們。
LLM 也是如此。它們并不是天體物理學的威脅,但它們像一面鏡子,照出了這個行業并不光彩的一面:
· 扭曲的激勵機制;
· 導師制度的退化;
· 用論文數量代替思考;
這些問題屬于我們,不屬于機器。解決它們也是我們的責任,一直如此。
責任編輯:甘林
牧夫新媒體編輯部
『天文濕刻』 牧夫出品
微信公眾號:astronomycn
![]()
土星之夜
圖源:NASA, JPL-Caltech, Space Science Institute, Mindaugas Macijauskas
謝謝閱讀
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.