網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

MOOSE-Star：打破組合復雜度壁壘，解鎖直接訓練范式

2026-03-16 12:07:41　來源: ScienceAI

河北舉報

分享至

作者：論文團隊

編輯丨ScienceAI

在目前的 LLM for scientific discovery 研究中，絕大多數(shù)工作要么依賴于大模型推理期的 Prompting，要么基于 external feedback（外部實驗 / 評委反饋）進行 training。

這引出了一個極其核心的拷問：為什么一直沒人去「直接訓練」并顯式建模科學發(fā)現(xiàn)的生成過程 P (hypothesis | background) 本身？

最近一項工作首次從理論上揭示了其背后的死鎖，提出了一套通用的科學發(fā)現(xiàn)理論框架，并成功觀察到了令人振奮的 both Train-time Scaling Law 和 Test-Time Scaling Law。

該研究來自 MiroMind AI 的楊宗霖 (Zonglin Yang) 與邴立東 (Lidong Bing) 團隊。為了推動直接訓練范式在科學發(fā)現(xiàn) (Scientific Discovery) 領(lǐng)域的應用，團隊開發(fā)并開源了包含超 10.8 萬篇高質(zhì)量論文推導鏈路的 TOMATO-Star 數(shù)據(jù)套件，以及基于理論框架構(gòu)建的 MOOSE-Star 模型體系。團隊希望以此為契機，攜手推動 Scientific Discovery 領(lǐng)域開源社區(qū)的建設(shè)與發(fā)展。

論文地址：https://arxiv.org/pdf/2603.03756

GitHub 數(shù)據(jù)與代碼：https://github.com/ZonglinY/MOOSE-Star

Hugging Face：https://huggingface.co/papers/2603.03756

1. 核心壁壘：計算上幾乎無解的 O (N^k) 組合復雜度

如果要直接訓練模型生成科學發(fā)現(xiàn)，最大的挑戰(zhàn)在于「靈感的檢索與組合」。科學發(fā)現(xiàn)并非憑空產(chǎn)生，它要求模型從海量的全局文獻庫（規(guī)模為 N）中，精準檢索出 k 個相關(guān)的靈感碎片，并將它們拼圖般組合成一個新的 Hypothesis。

如果直接端到端讓模型去隱式學習這個過程，其搜索空間是一個極其恐怖的組合爆炸：O (N^k)。

這種計算上幾乎無解的復雜性，導致以往直接訓練模型極易陷入死鎖，表現(xiàn)為嚴重的幻覺或邏輯斷裂。

2. 破局與統(tǒng)一理論：MOOSE-Star 的解構(gòu)與分離范式

為了 enable 真正 tractable 與 scalable 的 discovery LLM training，MOOSE-Star 并沒有去頭鐵地直接端到端訓練 P (hypothesis | background)。

相反，該研究從第一性原理出發(fā)，首先提出并形式化了一個統(tǒng)一的科學發(fā)現(xiàn)理論框架。團隊認為，高度復雜的科學發(fā)現(xiàn)過程必須先在理論層面被徹底解耦。依據(jù)這一證明過的理論框架，該研究提出了三個方法。

科學發(fā)現(xiàn)理論框架

方法一：IR 與 HC 的分離訓練范式 (Decoupled Training)

這是保證整個框架「可訓練 (Tractable)」的靈魂所在。根據(jù)該研究提出的科學發(fā)現(xiàn)理論，團隊沒有去直接硬訓單一的 P (h|b)，而是將訓練過程解耦，分別獨立訓練靈感檢索模型 (IR, Inspiration Retrieval) 和假設(shè)組合模型 (HC, Hypothesis Composition)。這種分離范式徹底避開了端到端建模復雜科學發(fā)現(xiàn)時的優(yōu)化死鎖，將復雜度從指數(shù)級 O (N^k) 降到了線性 O (k * N)。

方法二：動機引導的分層搜索 (Motivation-Guided Hierarchical Search)

該研究拒絕了在海量知識庫中的全局暴力盲搜。模型首先基于背景知識，生成一個明確的「研究動機 (Motivation)」，然后順著結(jié)構(gòu)化的全局知識樹進行分層、定向的檢索。在最理想的情況下 (in the best case)，這一機制成功將線性的復雜度 O (N) 降維至 O (log N)。

方法三：容錯組合 (Bounded Composition)

在獲取到檢索結(jié)果后，模型在一個有界的上下文中，通過嚴密的生成式推理，將（即便帶有一定噪聲的）靈感碎片無縫融合成邏輯自洽的科學假設(shè)。

3. 核心發(fā)現(xiàn)：在科學發(fā)現(xiàn)領(lǐng)域解鎖 Train-time 與 Test-Time Scaling Law

當該研究基于上述統(tǒng)一理論，成功打通了 tractable 的分離訓練路徑后，團隊不僅解決了一個工程難題，更得到了一組非常驚艷的副產(chǎn)品 —— 在科學發(fā)現(xiàn)這一極其復雜的認知任務(wù)上，清晰地觀察到了兩條優(yōu)美的擴展法則（Scaling Law）。

Train-time Scaling Law (訓練期擴展法則)：

過去，由于直接端到端擬合 P (h|b) 存在 O (N^k) 的復雜度之墻，此時「大力出奇跡」是失效的。

而 MOOSE-Star 的解構(gòu)與分離訓練徹底打破了這一魔咒。該研究證實：隨著訓練數(shù)據(jù)量（如 TOMATO-Star 數(shù)據(jù)集的規(guī)模擴張），模型在靈感檢索和假設(shè)組合上的基礎(chǔ)能力，呈現(xiàn)出了可預測的持續(xù)提升。這意味著，用 LLM 對科學發(fā)現(xiàn)進行直接建模 P (h|b) (不依賴 external feedback) 的能力首次變得「可以通過增加訓練算力來 Scale up」。

Test-Time Scaling Law (推理期擴展法則)：

除了訓練期的規(guī)模化紅利，MOOSE-Star 還在推理期展現(xiàn)出了驚人的算力轉(zhuǎn)化率。

面對極其復雜的科學問題，傳統(tǒng)的暴力采樣（Brute-force）或盲目的 Prompting 會迅速撞上「復雜性高墻」，此時給予再多的推理算力（例如讓模型盲猜 1000 次）也無濟于事，成功率依然趨近于零。

而基于 MOOSE-Star 框架，得益于分層搜索與容錯組合機制，隨著該研究在推理期投入更多的計算資源（Compute，例如延展更深的邏輯搜索樹、生成并評估更多的候選分支），模型產(chǎn)出高質(zhì)量、創(chuàng)新性科學假設(shè)的成功率，呈現(xiàn)出極其穩(wěn)定且持續(xù)的增長。

暴力 sampling 對 P (h|b) 失效

Train-time Scaling Law

Test-time Scaling Law

4. 誠意開源：3.8 萬卡時煉成的 TOMATO-Star 數(shù)據(jù)套件

為了支撐起這套龐大框架的驗證與訓練，數(shù)據(jù)是繞不過去的坎。

為此，該研究燒了約 38,400 個 A800 GPU 小時，對 108,717 篇近年來的高質(zhì)量真實論文進行了極其精細的反向拆解，重構(gòu)了從背景知識到科學假設(shè)的完整推導鏈路，構(gòu)建了包含十萬級樣本的 TOMATO-Star 數(shù)據(jù)套件。

目前，這套十萬級的數(shù)據(jù)集、完整的訓練代碼，以及微調(diào)后的系列模型已經(jīng)全部開源！

團隊非常期待這項工作能為整個 AI4Science 社區(qū)提供一個新的基座視角。如果大家對這個方向感興趣，或者正在探索 LLM 的復雜推理機制，歡迎來 GitHub Repo 體驗和交流！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.