網易首頁 > 網易號 > 正文申請入駐

上海人工智能實驗室如何讓機器讀懂科學研究的演化脈絡

2026-05-07 20:54:14　來源: 科技行者

北京舉報

分享至

這項由上海人工智能實驗室聯合北京大學、西安交通大學、浙江大學、華東師范大學、湖南大學、上海交通大學、上海大學及中國科學院大學共同完成的研究，以預印本形式發(fā)布于2026年4月30日的arXiv平臺，編號為arXiv:2604.28158v1，歸檔于cs.AI方向。有興趣深入了解的讀者可以通過該編號查詢完整論文。

科研界有一個隱藏已久的痛點，但多數人從未意識到它的存在。每天都有成千上萬篇學術論文涌現出來，研究者們通過谷歌學術、Semantic Scholar這類工具搜索文獻，找到相關論文，然后花費大量時間閱讀，在腦海中慢慢拼出一幅"誰影響了誰、誰又在誰基礎上改進"的圖景。這幅圖景，完全存活在人腦里，無法被機器直接讀取。

對于人類研究者來說，這個過程雖然費時，但尚且可行。然而隨著AI輔助科研工具的興起，一類新的"知識消費者"正在登場——它們是自動化的AI研究代理，被設計用來自主提出假設、設計實驗、生成研究思路。這類代理面臨一個根本性的困境：它們無法像人類一樣，從一堆零散的論文里重建出方法論的演化脈絡。它們的知識存儲方式更像一個巨大但模糊的印象庫，對于冷門或新興的方法往往缺乏足夠認知，更糟糕的是，它們根本無法判斷自己的"知識盲區(qū)"究竟是真實的研究空白，還是自身知識庫里的漏洞。

研究團隊將這個時刻比作歷史上的幾次關鍵基礎設施建設時刻。蛋白質數據庫（PDB）在AlphaFold出現之前數十年就已建立，系統(tǒng)地收錄了蛋白質結構數據；正因為有了這個結構化的數據基礎，AlphaFold才能發(fā)揮出劃時代的作用。ImageNet在深度卷積神經網絡的浪潮到來之前，就已將海量圖像整理成帶標簽的層級數據集；正是這份數據基礎，讓此后的視覺識別革命成為可能。如今，AI科研代理已經來臨，但支撐它們的方法論知識基礎設施尚不存在。

正是為了填補這個空白，研究團隊提出了Intern-Atlas——一張由方法論演化關系構成的"知識地圖"。這張地圖不是以論文為節(jié)點，而是以"研究方法"為節(jié)點，用有明確語義的有向邊將它們連接起來，每條邊都附有從原文直接摘錄的證據文字，記錄著一個方法是如何在另一個方法的基礎上改進、擴展或替代的。整張地圖由超過103萬篇論文構建而來，包含941萬條有語義類型標注的關系邊，覆蓋1965年至2025年間的AI領域主流會議、期刊和預印本。

一、科研界的"地圖缺失"問題究竟有多嚴重

以Transformer為例來感受一下這個問題的規(guī)模。2017年，谷歌的研究團隊發(fā)表了那篇著名的"Attention Is All You Need"，提出了Transformer架構。此后，這個架構像一棵大樹一樣不斷生長分叉：BERT沿著雙向語言理解的路徑生長，GPT系列沿著自回歸生成的路徑發(fā)展，Vision Transformer把同樣的思路搬到了圖像識別領域，DETR則將其應用于目標檢測。每一個分支背后，都有一個清晰的邏輯：前人的方法存在什么局限，新方法如何針對這個局限提出解決機制，以及這個解決方案又帶來了哪些新的取舍。

然而在現有的文獻數據庫里，這些信息只以最粗糙的形式存在——論文A引用了論文B。這條引用線不告訴你A是在B的基礎上擴展了什么能力，還是僅僅把B當作一個對比基線，抑或只是在背景介紹里順帶提了一句。對人類研究者而言，閱讀論文全文后自然能分辨；但對機器來說，這條引用線幾乎沒有任何可用的結構信息。

現有平臺中，OpenAlex索引了數億篇學術作品，Semantic Scholar和S2ORC在標準引用圖基礎上補充了引用上下文句子，Papers With Code引入了任務-數據集-指標的結構化三元組。這些都是極有價值的基礎，但它們的邊在方法論層面仍然是"未分類"的。Intern-Atlas要做的，正是把這些無標注的邊轉化為有明確語義的因果關系，同時把分析的基本單元從"整篇論文"降低到"具體的研究方法"。

這個轉變的意義，就像把一座城市的路網從"這里有一條路"升級為"這條路是單行道、限速60、連接商業(yè)區(qū)與住宅區(qū)、建于1990年、在2015年擴建"。前者讓你知道路在哪，后者讓你真正理解城市的結構。

二、Intern-Atlas的構建：一張有因果關系的方法論地圖

構建這張地圖分為三個環(huán)環(huán)相扣的步驟，可以把它理解為一個大型圖書館的建設工程——先確定書架上每本書的位置，再標注每兩本書之間的關系類型，最后為每段關系寫上一份有原文出處的說明卡片。

第一步是"實體解析"，也就是確定地圖上的節(jié)點。地圖包含三類節(jié)點：屬于這份語料庫的論文節(jié)點、代表具體研究方法的方法節(jié)點，以及被引用但不在語料庫內的"存根"節(jié)點（共317萬余個，作為歷史溯源的占位符）。方法節(jié)點的建立從一份包含247個知名方法的手工種子列表開始，然后通過大語言模型掃描全庫論文的方法章節(jié)，識別更多符合條件的候選方法，最終形成了包含8155個規(guī)范方法節(jié)點、9545個別名的方法注冊表。

這里有一個特別重要的細節(jié)：同一個方法在不同論文中往往有不同的稱呼。"Transformer"有時被叫做"vanilla Transformer"，"GPT"在某些語境下特指GPT-1，在另一些語境下泛指整個GPT家族。為此，研究團隊建立了一張別名對照表，能根據各種表面形式找到對應的規(guī)范節(jié)點，同時處理版本后綴的合并（比如"-v2"、"-Large"通常歸并到父節(jié)點）以及名稱歧義問題（比如"Mamba"可能指狀態(tài)空間模型，也可能指Python代碼檢查工具）。

第二步是"邊的類型標注"。每一個被解析的引用關系都會被大語言模型分類器分配到七種標簽之一。這七種標簽按因果強度從高到低排列：extends（在原有方法上增加新能力）、improves（沿某一維度優(yōu)化但不改變核心設計）、replaces（用本質不同的機制替換核心組件）、adapts（將原方法遷移到新領域或新任務）、uses_component（復用原方法作為輔助模塊）、compares（作為對比基線引用）和background（僅作為背景知識引用）。前四種構成"強因果子集"，是后續(xù)演化鏈追蹤的主要依據。

這種分類的價值在于，它區(qū)分了兩類本質不同的知識傳承方式：方法論演化（繼承了父方法的核心機制并加以發(fā)展）和模塊化復用（借用了父方法的某個子組件，但核心貢獻在別處）。前者驅動演化鏈的追蹤，后者作為檢索補充上下文。

第三步是"證據提取"。對于每一條非背景引用邊，大語言模型提取器都會填寫一份四字段的證據記錄：瓶頸（被引用方法存在什么局限性，直接引用原文）、機制（本文提出了什么解決方案，直接引用原文）、取舍（新方法帶來了哪些新的代價，直接引用原文）以及置信度（模型對這次提取的把握程度，0到1之間的數值）。每個瓶頸還會被歸類到14個維度之一，包括計算復雜度、內存效率、并行化程度、準確性、泛化能力、可擴展性、數據效率、訓練穩(wěn)定性、推理速度、表達能力、簡潔性、魯棒性、超參數敏感性和訓練復雜度。

這14個維度是從NeurIPS 2024論文全文中隨機抽取500段瓶頸描述，經過聚類分析后由研究團隊整理而來的。它們的作用，是讓知識地圖不僅記錄"誰改進了誰"，還能回答"改進的是哪個方面的問題"——這對后續(xù)的想法生成至關重要。

整個提取過程有一道嚴格的后處理關卡：如果引用原文摘錄的字段無法在原論文中精確匹配到對應字符串，或者邊的方向違反了發(fā)表年份順序，或者同一對節(jié)點之間已經存在方向相反的邊，該條記錄就會被丟棄。這道純代碼實現的"逐字驗證器"確保了知識地圖中的每一條因果邊都有可追溯的原文出處，徹底杜絕了模型"編造"引用證據的可能。

三、順著時間脈絡找到方法演化路徑的搜索算法

有了這張地圖，下一個問題是：如何在上面高效地導航？從一個方法出發(fā)，追溯它的前世今生，在一張包含數百萬節(jié)點和數千萬條邊的圖上，這絕非易事。

直覺上最簡單的方法是貪心搜索——每一步都走最有把握的那條邊。但方法論的演化往往不是一條單線，而是一棵大樹。Transformer衍生出BERT、GPT、ViT、DETR等多個分支，每個分支又各自延伸出更多支系。如果每次遇到分叉點都只走一條路，就會永遠錯過其他分支的演化軌跡。

研究團隊為此設計了一種名為"自引導時序蒙特卡洛樹搜索"（SGT-MCTS）的算法。蒙特卡洛樹搜索是一種在圍棋AI程序AlphaGo中大放異彩的搜索策略，其核心思想是在"充分利用已知高分路徑"和"探索未充分訪問的路徑"之間保持動態(tài)平衡，通過大量隨機推演來積累統(tǒng)計信息，從而在分叉點做出更明智的選擇。

研究團隊對這個算法進行了針對知識圖譜的改造，加入了兩個關鍵的"物理先驗"。第一個是邊的置信度，也就是之前提到的提取器對每條邊把握程度的評分，越有把握的邊在搜索中得到更高的優(yōu)先級。第二個是時序連貫性函數，它反映了一個直覺：一個方法的直接后繼方法，在時間上通常只比它晚一到三年；跨越幾十年的"直接演化"關系在直覺上是可疑的，在統(tǒng)計上也極為罕見。

具體而言，時序連貫性函數對不同年份差值賦予不同的權重：年份差在1到3年之間得滿分，差4到6年得0.8分，差7年以上按每年0.08遞減直到下限0.3，而逆時間方向的邊（后發(fā)表的論文影響了先發(fā)表的論文）則被直接過濾掉。

搜索完成后，所有候選路徑按照三個維度的加權組合進行排名：路徑的歸一化長度（更長的路徑覆蓋更多的演化節(jié)點）、路徑中所有邊的平均置信度（每一步都有扎實證據的路徑更可信），以及路徑中節(jié)點被多少次獨立模擬推演共同經過（多條獨立探索路徑匯聚的路徑意味著這是圖中客觀存在的主干道）。

此外，在確定主要演化鏈之后，算法還會回到每一個有多個強因果后繼但只有一個被主鏈覆蓋的"分叉節(jié)點"，以覆蓋已用邊為禁止條件重新啟動一次搜索，從而發(fā)現那些平行的演化分支。

四、實驗驗證：這張地圖畫得有多準

為了驗證地圖的質量，研究團隊從30篇高影響力的綜述論文中構建了一個基準數據集，涵蓋AI各子領域，包含2268個方法節(jié)點、1462條有向演化邊和133條演化鏈。綜述論文本身代表了領域專家對方法演化的共識判斷，是評估地圖質量的理想參照。

在靜態(tài)圖質量方面，Intern-Atlas的節(jié)點匹配率為91.0%——也就是說，綜述中提到的方法有91%能在地圖中找到對應節(jié)點。邊的可達率為89.7%，即綜述中的演化關系有89.7%可以在地圖中找到一條從源方法到目標方法的有向路徑。路徑語義正確率則達到92.0%，意味著這些可達路徑中，92%的語義是正確的，真實反映了方法演化的方向和含義。

在演化鏈搜索算法的對比中，SGT-MCTS展示出了顯著的優(yōu)勢。以同樣的圖和起始方法為輸入，普通的束搜索（beam search，一種逐步保留最優(yōu)候選鏈的貪心策略）在寬度為10時，節(jié)點召回率為44.9%，邊召回率為23.2%，鏈對齊分數為44.9%。隨機游走的表現更差。而SGT-MCTS的節(jié)點召回率達到了84.8%，邊召回率79.0%，鏈對齊分數84.8%——相比最強基線，三項指標分別提升了39.9、55.8和39.9個百分點。

在ConvNet演化鏈的案例中，這一差異體現得尤為直觀。參考鏈是VGG → ResNet → ResNeXt → ConvNeXt → ConvNeXt V2。SGT-MCTS完整找回了這條參考子序列，只是在首端多了一個提供框架背景的Caffe節(jié)點，在末端多了一個ConvNeXt V2的下游應用節(jié)點，主干完整無缺。束搜索找到了從ResNet往后的部分，但遺漏了VGG這個關鍵的深度擴展節(jié)點，并且從一個無關的語音識別分支入場。隨機游走只找到了局部片段，ResNeXt完全缺失。

五、用這張地圖來評估研究想法的質量

構建好地圖之后，研究團隊進一步發(fā)展了三類基于圖的操作：演化鏈追蹤、想法評估和想法生成。

想法評估解決的是一個實際問題：當一個AI系統(tǒng)自動生成了一個研究想法，如何判斷這個想法的質量？傳統(tǒng)的做法是讓大語言模型直接對想法文本打分，但研究表明這種方式有系統(tǒng)性偏差——LLM評判的新穎性與最終科學影響力負相關，因為模型傾向于偏好它熟悉的、高頻出現的方法組合，而真正新穎的想法往往涉及模型不熟悉的方法領域。

Intern-Atlas的想法評估器采用了一種完全不同的思路：把每個評分維度都轉化為對圖結構的確定性查詢，不依賴LLM進行主觀判斷。評估器對五個維度打分：新穎性（Novelty）、可行性（Feasibility）、重要性（Significance）、有效性（Validity）和清晰度（Clarity）。

以新穎性為例，評估器會計算該想法涉及的方法在"方法共使用圖"中的拓撲距離——如果兩個方法從未在同一篇論文中同時被使用，那么把它們結合的想法在結構上具有較高的新穎性。同時，如果這個想法與已有論文有極高的文本相似度（通過密集檢索+交叉編碼器重排序的兩階段管道實現），就會觸發(fā)相應的重復風險懲罰。

可行性維度則設計了一條"甜蜜區(qū)間"成熟度曲線：一個方法的相關論文數量在500篇以內時，可行性分數隨數量增長而提高；超過500篇后開始下降；超過2000篇后進入"過度成熟"區(qū)間。這個曲線背后的邏輯是：太新的方法配套工具不成熟，太老的方法可能已經被充分挖掘，中間成熟度的方法往往具有最好的可操作性。這種設計還有一個副作用：它直接打壓了"把所有最熱門的方法堆砌在一起"的"混搭"型想法，因為那些被引用超過2000次的方法反而會降低可行性得分。

重要性維度通過計算相關論文的時間衰減引用量（5年半衰期）和方法的"邊疆存在性"（2021年后仍然活躍的方法節(jié)點擁有至少3條非背景出邊）來判斷一個方向是否仍具有前沿價值。有效性維度則通過將想法中聲稱要解決的瓶頸與圖中已標注的瓶頸維度進行匹配來衡量其技術合理性。

五個維度的分數通過加權求和得到總分，并且疊加了四條"跨維度聯合懲罰"：如果一個想法新穎性很高但可行性很低，總分會被壓低（反映了"想法-執(zhí)行鴻溝"這一研究發(fā)現的實證依據）；如果有效性和可行性都高，總分會獲得小幅獎勵；如果重要性得分處于中高區(qū)間，也有相應的加成；如果五個維度的最高分和最低分差距不超過2分且最低分在5分以上，則視為均衡性好，同樣獲得加分。

最終，評估器允許接入一個可選的LLM審核層，但這個LLM只能降低總分，不能提高總分——相當于一道單向否決機制，用來糾正圖查詢可能出現的偶發(fā)錯誤，而不會引入LLM的樂觀偏差。

為了驗證評估器的有效性，研究團隊構建了一個包含1200篇論文的分層數據集，均分為四個層次：頂級AI會議論文（ICLR 2026、ICML 2025、NeurIPS 2025）、核心AI會議論文（AAAI 2026、IJCAI 2025）、研討會論文（來自ICLR 2026研討會）以及被拒論文（ICLR 2026拒稿）。從每篇論文中提取標準化的想法概述，然后用評估器打分。

結果顯示，頂級會議論文的平均總分為8.48，核心會議論文為7.83，研討會論文為6.85，被拒論文為5.84，完美呈現單調遞減趨勢。五個子維度全部保持了同樣的排序。其中，重要性和有效性維度在不同層次之間的差距最大，說明圖中的方法演化結構對于判斷一個想法是否針對真正重要的問題、技術上是否站得住腳特別有幫助。

在與人類專家的對比中，研究團隊從數據集中抽取了100份想法概述，邀請10位AI方向的博士研究生按同樣的五維評分標準打分，然后分別計算Intern-Atlas和純LLM-as-Judge基線與專家評分的斯皮爾曼相關系數。Intern-Atlas的總體相關系數為0.81，純LLM基線為0.58。差距最大的是新穎性（0.84對0.52）和重要性（0.82對0.55），恰好是最需要理解方法演化結構的兩個維度。

六、用這張地圖來生成新的研究想法

在想法生成這一環(huán)節(jié)，地圖的作用從"評判已有想法"轉變?yōu)?主動發(fā)現空白地帶"。給定一個研究方法作為查詢，生成器會從地圖中提取四類結構性的研究空白，并據此提出具體的研究方向。

第一類叫做"開放軸"——某個方法在某個特定瓶頸維度（如內存效率）上還沒有被任何已有研究有效解決，形成一個待填補的改進空間，對應"瓶頸解決"生成策略。第二類叫做"近期改進方向"——觀察最近兩三年該方法被改進的主要方向，沿著同一趨勢外推，對應"趨勢外推"策略。第三類叫做"斷連對"——兩個在其他方法中頻繁共現的方法，在這個特定方法的上下文中從未被結合使用，對應"交叉融合"策略。第四類叫做"犧牲軸"——這個方法為了解決某個問題而在另一個維度（如推理速度）做出了明顯犧牲，潛在的研究方向是用不同機制來重新解決同一問題、同時消除這個犧牲，對應"范式挑戰(zhàn)"策略。

這四類模式都是通過純圖查詢提取的，不涉及任何LLM調用。只有在確定了具體的結構性空白和對應策略之后，才將這些信息傳遞給LLM，讓其填寫技術細節(jié)。這樣一來，LLM的任務從"憑空構思"變成了"在規(guī)定框架內完成填空"，大大降低了生成無關或虛假研究方向的風險。

為進一步防止LLM"發(fā)明"瓶頸，每個生成的研究提案都必須攜帶一份證據證書：一條具體的圖中邊、該邊對應的瓶頸文本（必須與圖中存儲的原文完全一致）以及為何這個瓶頸尚未被解決的說明。在返回提案之前，系統(tǒng)會對瓶頸文本進行精確匹配驗證；如果驗證失敗，LLM的輸出會被丟棄，系統(tǒng)改為從圖內容生成一個最小化但合規(guī)的備選提案。

在評估實驗中，100個由10位AI博士研究生精心設計的研究問題分別被送入四個條件：不使用任何外部知識庫（No-KB）、使用OpenAlex作為檢索來源、使用Semantic Scholar，以及使用標準BM25檢索方式從Intern-Atlas同一語料庫中檢索（BM25 RAG）。生成的想法統(tǒng)一用之前描述的Intern-Atlas評估器打分，同時由同一批專家進行盲評對比。

Intern-Atlas生成的想法在總分上達到7.20，相比最強基線（Semantic Scholar的6.18）提升了1.02分。提升最顯著的是新穎性（6.37對5.40）、重要性（6.30對5.39）和有效性（6.26對4.70）。在專家盲評中，Intern-Atlas分別以88.0%、82.0%和81.0%的勝率戰(zhàn)勝了No-KB、OpenAlex和BM25 RAG條件。

值得關注的是，在可行性和清晰度維度，各方法的差距相當小——這說明所有基于知識庫的方法都能生成可讀性相近的研究提案，Intern-Atlas的優(yōu)勢集中在對研究方向的戰(zhàn)略判斷上，而非文字表達的流暢程度。

說到底，Intern-Atlas做的事可以用一句話概括：它把人腦里那幅"誰啟發(fā)了誰、誰改進了什么、哪些問題還沒人解決"的隱形地圖，變成了一張機器可以直接讀取、查詢和推理的顯式地圖。這件事對人類研究者來說，意味著可以更快地找到一個領域的關鍵演化節(jié)點和尚未解決的核心難題；對AI研究代理來說，意味著它們終于有了一個結構化的認知基礎，不再需要每次從零開始重建對領域的理解。

回到歷史類比：正如蛋白質數據庫為AlphaFold提供了原料，ImageNet為視覺識別革命提供了土壤，Intern-Atlas的雄心是成為AI輔助科學發(fā)現時代的基礎數據層。這張地圖本身是開放的，研究團隊已公開了圖數據和完整流水線，期待后續(xù)工作在此基礎上繼續(xù)發(fā)展，朝著能夠在完整的因果知識譜系上推理的AI研究代理邁進，而非僅僅在孤立的論文堆中游走。

不過有一些邊界是誠實的研究團隊應當說清楚的。Phase-1邊類型分類的準確率在生產模型（Qwen3.6-35B-A3B）下約為70.4%，在審計模型（Claude Sonnet 4.6）下為93.0%，這反映了"extends"和"improves"這類細粒度因果關系本身就難以區(qū)分的客觀難度。14軸瓶頸分類體系在發(fā)布時是固定的，未來涌現的新型瓶頸維度只能歸并到最接近的已有軸，直到下次體系更新。時序連貫性函數是在2015年后的AI文獻上校準的，對研究節(jié)奏差異顯著的領域可能需要重新調參。這些局限性都被研究團隊坦然記錄，并提出了相應的緩解措施和未來擴展方向。

有興趣深入研究的讀者，可以通過arXiv編號2604.28158查閱完整論文，其中包含了圖構建的完整Schema定義、提取協議的全部細節(jié)、SGT-MCTS的完整算法描述以及評估指標的精確定義。

**Q&A**

**Q1：Intern-Atlas知識地圖和現有的谷歌學術、Semantic Scholar有什么根本區(qū)別？**

A：谷歌學術、Semantic Scholar等工具以論文為基本單元，通過引用關系連接論文，但一條引用只說明"A引用了B"，并不說明A是在B基礎上擴展了功能、解決了B的局限、還是僅把B當對比實驗。Intern-Atlas把分析單元從論文降低到具體的研究方法，并將每條引用邊標注為extends（擴展）、improves（改進）、replaces（替代）等七種有明確語義的關系類型，每條非背景邊還附有從原論文直接摘錄的證據文字。這使機器可以直接查詢"某方法的演化歷史"或"哪些瓶頸尚未被解決"，而無需人類在腦中重建這些關系。

**Q2：SGT-MCTS演化鏈搜索算法比普通搜索方式好在哪里？**

A：普通的束搜索（beam search）在每個分叉點只保留最高分的幾條路徑，遇到Transformer這種有BERT、GPT、ViT等多個分支的節(jié)點時，就會丟棄其他分支的演化軌跡。隨機游走則缺乏方向性，容易陷入局部片段。SGT-MCTS通過大量隨機模擬推演積累統(tǒng)計信息，在"利用高置信路徑"和"探索未充分訪問分支"之間動態(tài)平衡，并加入了兩個物理約束：邊的置信度（提取器的把握程度）和時序連貫性（直接后繼方法通常只比前驅晚一到三年）。在基準測試中，SGT-MCTS的節(jié)點召回率達到84.8%，比最強基線高出約40個百分點。

**Q3：Intern-Atlas的想法評估器為什么比直接讓大語言模型打分更可靠？**

A：研究表明，直接讓大語言模型評判想法新穎性時，模型傾向于偏愛它熟悉的、頻繁出現的方法組合，導致新穎性評分與最終科學影響力負相關。Intern-Atlas的評估器把每個評分維度轉化為對圖結構的確定性查詢，不依賴模型的主觀印象：新穎性通過計算方法節(jié)點在圖中的拓撲距離來衡量，可行性通過一條反映方法成熟度的非單調曲線來計算，重要性通過時間衰減引用量和邊疆活躍性來判斷。這種確定性設計讓評分完全可審計、無隨機性，與專家評分的斯皮爾曼相關系數為0.81，而純LLM基線僅為0.58。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.