![]()
作者:論文團隊
編輯丨ScienceAI
在目前的 LLM for scientific discovery 研究中,絕大多數(shù)工作要么依賴于大模型推理期的 Prompting,要么基于 external feedback(外部實驗 / 評委反饋)進行 training。
這引出了一個極其核心的拷問:為什么一直沒人去「直接訓練」并顯式建模科學發(fā)現(xiàn)的生成過程 P (hypothesis | background) 本身?
最近一項工作首次從理論上揭示了其背后的死鎖,提出了一套通用的科學發(fā)現(xiàn)理論框架,并成功觀察到了令人振奮的 both Train-time Scaling Law 和 Test-Time Scaling Law。
該研究來自 MiroMind AI 的楊宗霖 (Zonglin Yang) 與邴立東 (Lidong Bing) 團隊。為了推動直接訓練范式在科學發(fā)現(xiàn) (Scientific Discovery) 領(lǐng)域的應用,團隊開發(fā)并開源了包含超 10.8 萬篇高質(zhì)量論文推導鏈路的 TOMATO-Star 數(shù)據(jù)套件 ,以及基于理論框架構(gòu)建的 MOOSE-Star 模型體系。團隊希望以此為契機,攜手推動 Scientific Discovery 領(lǐng)域開源社區(qū)的建設(shè)與發(fā)展。
![]()
論文地址:https://arxiv.org/pdf/2603.03756
GitHub 數(shù)據(jù)與代碼:https://github.com/ZonglinY/MOOSE-Star
Hugging Face:https://huggingface.co/papers/2603.03756
1. 核心壁壘:計算上幾乎無解的 O (N^k) 組合復雜度
如果要直接訓練模型生成科學發(fā)現(xiàn),最大的挑戰(zhàn)在于「靈感的檢索與組合」。科學發(fā)現(xiàn)并非憑空產(chǎn)生,它要求模型從海量的全局文獻庫(規(guī)模為 N)中,精準檢索出 k 個相關(guān)的靈感碎片,并將它們拼圖般組合成一個新的 Hypothesis。
如果直接端到端讓模型去隱式學習這個過程,其搜索空間是一個極其恐怖的組合爆炸:O (N^k)。
這種計算上幾乎無解的復雜性,導致以往直接訓練模型極易陷入死鎖,表現(xiàn)為嚴重的幻覺或邏輯斷裂。
2. 破局與統(tǒng)一理論:MOOSE-Star 的解構(gòu)與分離范式
為了 enable 真正 tractable 與 scalable 的 discovery LLM training,MOOSE-Star 并沒有去頭鐵地直接端到端訓練 P (hypothesis | background)。
相反,該研究從第一性原理出發(fā),首先提出并形式化了一個統(tǒng)一的科學發(fā)現(xiàn)理論框架。團隊認為,高度復雜的科學發(fā)現(xiàn)過程必須先在理論層面被徹底解耦。依據(jù)這一證明過的理論框架,該研究提出了三個方法。
![]()
科學發(fā)現(xiàn)理論框架
- 方法一:IR 與 HC 的分離訓練范式 (Decoupled Training)
這是保證整個框架「可訓練 (Tractable)」的靈魂所在。根據(jù)該研究提出的科學發(fā)現(xiàn)理論,團隊沒有去直接硬訓單一的 P (h|b),而是將訓練過程解耦,分別獨立訓練靈感檢索模型 (IR, Inspiration Retrieval) 和假設(shè)組合模型 (HC, Hypothesis Composition)。這種分離范式徹底避開了端到端建模復雜科學發(fā)現(xiàn)時的優(yōu)化死鎖,將復雜度從指數(shù)級 O (N^k) 降到了線性 O (k * N)。
- 方法二:動機引導的分層搜索 (Motivation-Guided Hierarchical Search)
該研究拒絕了在海量知識庫中的全局暴力盲搜。模型首先基于背景知識,生成一個明確的「研究動機 (Motivation)」,然后順著結(jié)構(gòu)化的全局知識樹進行分層、定向的檢索。在最理想的情況下 (in the best case),這一機制成功將線性的復雜度 O (N) 降維至 O (log N)。
- 方法三:容錯組合 (Bounded Composition)
在獲取到檢索結(jié)果后,模型在一個有界的上下文中,通過嚴密的生成式推理,將(即便帶有一定噪聲的)靈感碎片無縫融合成邏輯自洽的科學假設(shè)。
3. 核心發(fā)現(xiàn):在科學發(fā)現(xiàn)領(lǐng)域解鎖 Train-time 與 Test-Time Scaling Law
當該研究基于上述統(tǒng)一理論,成功打通了 tractable 的分離訓練路徑后,團隊不僅解決了一個工程難題,更得到了一組非常驚艷的副產(chǎn)品 —— 在科學發(fā)現(xiàn)這一極其復雜的認知任務(wù)上,清晰地觀察到了兩條優(yōu)美的擴展法則(Scaling Law)。
- Train-time Scaling Law (訓練期擴展法則):
過去,由于直接端到端擬合 P (h|b) 存在 O (N^k) 的復雜度之墻,此時「大力出奇跡」是失效的。
而 MOOSE-Star 的解構(gòu)與分離訓練徹底打破了這一魔咒。該研究證實:隨著訓練數(shù)據(jù)量(如 TOMATO-Star 數(shù)據(jù)集的規(guī)模擴張),模型在靈感檢索和假設(shè)組合上的基礎(chǔ)能力,呈現(xiàn)出了可預測的持續(xù)提升。這意味著,用 LLM 對科學發(fā)現(xiàn)進行直接建模 P (h|b) (不依賴 external feedback) 的能力首次變得「可以通過增加訓練算力來 Scale up」。
- Test-Time Scaling Law (推理期擴展法則):
除了訓練期的規(guī)模化紅利,MOOSE-Star 還在推理期展現(xiàn)出了驚人的算力轉(zhuǎn)化率。
面對極其復雜的科學問題,傳統(tǒng)的暴力采樣(Brute-force)或盲目的 Prompting 會迅速撞上「復雜性高墻」,此時給予再多的推理算力(例如讓模型盲猜 1000 次)也無濟于事,成功率依然趨近于零。
而基于 MOOSE-Star 框架,得益于分層搜索與容錯組合機制,隨著該研究在推理期投入更多的計算資源(Compute,例如延展更深的邏輯搜索樹、生成并評估更多的候選分支),模型產(chǎn)出高質(zhì)量、創(chuàng)新性科學假設(shè)的成功率,呈現(xiàn)出極其穩(wěn)定且持續(xù)的增長。
![]()
暴力 sampling 對 P (h|b) 失效
![]()
Train-time Scaling Law
![]()
Test-time Scaling Law
4. 誠意開源:3.8 萬卡時煉成的 TOMATO-Star 數(shù)據(jù)套件
為了支撐起這套龐大框架的驗證與訓練,數(shù)據(jù)是繞不過去的坎。
為此,該研究燒了約 38,400 個 A800 GPU 小時,對 108,717 篇近年來的高質(zhì)量真實論文進行了極其精細的反向拆解,重構(gòu)了從背景知識到科學假設(shè)的完整推導鏈路,構(gòu)建了包含十萬級樣本的 TOMATO-Star 數(shù)據(jù)套件。
目前,這套十萬級的數(shù)據(jù)集、完整的訓練代碼,以及微調(diào)后的系列模型已經(jīng)全部開源!
團隊非常期待這項工作能為整個 AI4Science 社區(qū)提供一個新的基座視角。如果大家對這個方向感興趣,或者正在探索 LLM 的復雜推理機制,歡迎來 GitHub Repo 體驗和交流!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.