網易首頁 > 網易號 > 正文申請入駐

S-Researcher讓智能體自主設計實驗、模擬被試、撰寫報告

2026-04-08 15:40:06　來源: ScienceAI

河北舉報

分享至

作者 | 論文團隊

編輯丨ScienceAI

Karpathy 3 月初開源 AutoResearch，630 行代碼、一塊 GPU、睡一覺跑 100 個實驗，GitHub 星標直沖 6 萬。緊接著，AutoResearchClaw 把這套「睡覺自動科研」的范式拓展到了 23 個階段的完整論文生成流水線，連 LabClaw 也開始幫生物醫學研究者自動跑實驗、寫記錄。

一個自然的問題浮出水面：AI 自動科研在自然科學和 ML 領域已經跑起來了，社會科學呢？

社會科學的難點跟 ML 調參完全不同。你沒有一個 loss 函數可以優化，被試是有主觀意識的人，實驗設計空間極大，而且招 100 個真人做實驗就要花幾個月。傳統的 AutoML 式循環在這里根本不適用。

來自中國人民大學高瓴人工智能學院的團隊給出了他們的方案：S-Researcher。不同于 AutoResearch 讓 Agent 反復修改訓練代碼來壓低 validation loss，S-Researcher 讓 LLM Agent 同時扮演「研究助手」和「模擬被試」兩個角色，覆蓋社會科學研究從實驗設計到報告撰寫的全流程。底層是一個支持 10 萬并發 Agent 的社會模擬引擎YuLan-OneSim。在最硬核的驗證中，LLM Agent 自主發現的合作機制被 120 人真人實驗獨立證實。

論文鏈接：http://arxiv.org/abs/2604.01520

GitHub：https://github.com/RUC-GSAI/YuLan-OneSim

在線平臺：https://www.yulan-onesim.cn/

S-Researcher 整體流程：用戶輸入研究課題后，系統自動完成場景構建、模擬執行和報告生成，研究者可在每個環節介入。

先造一個能「跑」任何社會實驗的模擬器

AutoResearch 的成功有一個前提：訓練代碼只有 630 行，整個系統自包含，Agent 能一次讀完全部代碼。社會模擬沒有這個便利。你需要一個平臺，能把千變萬化的社會實驗場景轉化為可執行代碼，還得支持成千上萬個 Agent 同時交互。

團隊開發的 YuLan-OneSim 圍繞三個核心能力進行設計。

通用性：讓 AI 理解五花八門的社會實驗。用戶只需要用自然語言描述實驗場景，系統就會按照 ODD（Overview, Design Concepts, Details）協議將其結構化，然后自動生成行為圖和可執行的模擬代碼。團隊在 8 個社科領域的 50 個場景上測了一圈，專家給行為圖打了接近滿分的 5.0，生成代碼拿了 4.2 分。考慮到這些代碼幾分鐘就能出來，而手寫可能要好幾個小時，這個分數相當能打。

消融實驗揭示了一個重要結論：行為圖是整個流程的靈魂。去掉它，代碼質量直接掉了 35.8%，比去掉任何其他模塊的影響都大。給 Agent 一個結構化的中間表示，比讓它直接從自然語言生成代碼要靠譜得多。

可擴展性：讓幾萬、十幾萬個 Agent 同時跑。YuLan-OneSim 用了一套事件驅動的異步架構，配合 Master-Worker 分布式設計。實測下來，從 1k 到 100k 個 Agent 都能平滑擴展。10 萬 Agent 跑一輪大約需要 3538 秒；在萬級規模時，分布式部署比單機快了 3-4 倍。

可靠性：讓通用 LLM 輸出可信的模擬行為。直接拿通用 LLM 來模擬社會行為，效果確實不穩定。為此團隊設計了 VR2T 反饋框架（Verifier-Reasoner-Refiner-Tuner），先讓驗證者打分，推理者分析錯因，修復者糾正輸出，最后用這些數據微調骨干模型。在 Qwen2.5-1.5B 上用 DPO 迭代 4 輪后，可靠性提升了27.4%。這個思路和 AutoResearch 的 ratchet 機制異曲同工：跑一輪，評估，保留改進，丟棄退化，反復迭代。

目前 YuLan-OneSim 已經作為在線平臺運行（yulan-onesim.cn），吸引了 80 多家機構的 100 多位注冊用戶。

YuLan-OneSim 平臺能力驗證：（a）專家評分，（b）錯誤類型分布，（e）規模擴展性測試，（g）反饋微調效果。

S-Researcher：一個研究問題進去，一份研究報告出來

S-Researcher 把研究工作流組織成三種經典推理模式：歸納（從數據中發現規律）、演繹（檢驗競爭假說）、溯因（追溯因果機制）。整個 pipeline 包含實驗設計、模擬執行、結果分析和報告生成四個模塊。

但與全自動路線不同，S-Researcher 從設計之初就把人機協作作為核心原則。研究者可以在每個階段介入：修改系統自動生成的實驗設計、上傳自定義的 Agent 畫像數據、調整模擬參數，甚至只使用其中某個模塊 —— 比如你手上已有實驗數據，可以跳過模擬階段，直接用結果分析和報告生成模塊。

團隊用三個案例驗證了這套系統。

歸納：給定研究問題，AI 自己復現了經典結論

研究問題很簡單：當人們更愿意和文化相似的鄰居互動時，整個社會的文化格局會怎樣演變？

S-Researcher 自主設計了完整實驗：在 10×10 網格上放 100 個 LLM Agent，每人 5 個文化特征維度（音樂、飲食、時尚、政治、休閑），跑 100 輪。

系統發現了一個有趣的悖論：鄰居之間越來越像（平均相似度 + 21%），但全局并沒有走向統一，而是穩定在大約 65 個文化「小島」上 —— 形成「組內趨同、組間分化」模式。這恰好是 Axelrod 文化傳播模型的核心預測，而動態完全來自 LLMAgent 的自主交互涌現。

演繹：三個假說同時 PK，5525 個學生 Agent 模擬中國課堂

第二個案例瞄準教育公平領域的核心問題：到底是什么決定了老師把注意力分給誰？

S-Researcher 自動提出三個競爭假說：表達假說（課堂發言活躍度主導）、成績假說（學習成績主導）、精英假說（家庭背景主導），然后啟動三組平行模擬。

規模：221 個模擬課堂、5525 個學生 Agent，每個學生的畫像直接來自中國教育追蹤調查（CEPS）的真實數據。

結果：表達假說完勝。與 CEPS 實際數據的 Spearman 相關系數，表達假說（ρ = 0.152）顯著高于成績假說（0.122）和精英假說（0.113）。獨立驗證中，CEPS 回歸分析顯示溝通能力對教師注意力的解釋力（β = 0.349，R2 = 12.1%）約是學業成績的20 倍（β = 0.034），與模擬結論完全一致。

更重要的是，模擬給出了回歸分析給不了的東西：表達能力強的學生是如何一輪輪積累起注意力優勢的 —— 這種過程層面的解釋力，正是模擬研究相比統計分析的獨特價值。

溯因：AI 發現新機制，120 人真人實驗獨立驗證

這是整篇論文最有看點的部分。

研究問題：在公共品博弈中，領導者的貢獻金額和背后的意圖（自愿還是被迫），如何影響追隨者的合作意愿？

S-Researcher 自動設計了一個 2×3 被試間實驗：決策機制（自愿 / 強制）× 貢獻水平（低 2 / 中 5 / 高 8 token），每個條件 100 個 Agent 追隨者。

模擬揭示了兩個發現。第一，追隨者的合作主要被貢獻金額「錨定」（β = 0.794），這不意外。第二，出人意料的是，強制條件下追隨者反而貢獻更多（β = 0.104）。Agent 似乎對自愿做出低貢獻的領導者進行了「意圖懲罰」：你本來可以多給但選擇不給，那我也減少合作。

為了驗證，團隊同步開展了平行人類實驗（N = 120，3 輪），實驗設置完全相同。結果令人振奮：人類同樣表現出「強制 > 自愿」的模式，6 個條件下人機均值的 Pearson 相關系數達到r = 0.915。不過差異也存在：人類對意圖的敏感度明顯更高（β_human = 0.251 vs. β_agent = 0.104），LLM Agent 則更依賴金額本身。

AI 自動科研的社會科學路線

當研究對象是「人」的時候，沒有簡潔的目標函數可以優化。文化怎么傳播、老師怎么分配注意力、人們為什么合作 —— 這些問題需要的是理論發現和機制解釋，而非指標優化。S-Researcher 的做法是讓 LLM Agent 本身成為研究對象，用模擬來替代或預篩選昂貴的真人實驗。

當然，這條路也有邊界。LLM Agent 的行為異質性比真人低，對意圖等高階線索的敏感度不足，仍然離不開真人被試。

正因如此，S-Researcher 從一開始就把人機協作作為核心設計。AI 負責快速探索方案空間，人負責在關鍵節點做判斷和干預。一旦涉及理論判斷、倫理審查、領域知識這些「軟」要素，人的參與不是可選項，而是必選項 —— 而這，恰恰揭示了當下 AI 科研工具必須正視的核心邊界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.