![]()
作者 | 論文團隊
編輯丨ScienceAI
Karpathy 3 月初開源 AutoResearch,630 行代碼、一塊 GPU、睡一覺跑 100 個實驗,GitHub 星標直沖 6 萬。緊接著,AutoResearchClaw 把這套「睡覺自動科研」的范式拓展到了 23 個階段的完整論文生成流水線,連 LabClaw 也開始幫生物醫學研究者自動跑實驗、寫記錄。
一個自然的問題浮出水面:AI 自動科研在自然科學和 ML 領域已經跑起來了,社會科學呢?
社會科學的難點跟 ML 調參完全不同。你沒有一個 loss 函數可以優化,被試是有主觀意識的人,實驗設計空間極大,而且招 100 個真人做實驗就要花幾個月。傳統的 AutoML 式循環在這里根本不適用。
來自中國人民大學高瓴人工智能學院的團隊給出了他們的方案:S-Researcher。不同于 AutoResearch 讓 Agent 反復修改訓練代碼來壓低 validation loss,S-Researcher 讓 LLM Agent 同時扮演「研究助手」和「模擬被試」兩個角色,覆蓋社會科學研究從實驗設計到報告撰寫的全流程。底層是一個支持 10 萬并發 Agent 的社會模擬引擎YuLan-OneSim。在最硬核的驗證中,LLM Agent 自主發現的合作機制被 120 人真人實驗獨立證實。
![]()
論文鏈接:http://arxiv.org/abs/2604.01520
GitHub:https://github.com/RUC-GSAI/YuLan-OneSim
在線平臺:https://www.yulan-onesim.cn/
![]()
S-Researcher 整體流程:用戶輸入研究課題后,系統自動完成場景構建、模擬執行和報告生成,研究者可在每個環節介入。
先造一個能「跑」任何社會實驗的模擬器
AutoResearch 的成功有一個前提:訓練代碼只有 630 行,整個系統自包含,Agent 能一次讀完全部代碼。社會模擬沒有這個便利。你需要一個平臺,能把千變萬化的社會實驗場景轉化為可執行代碼,還得支持成千上萬個 Agent 同時交互。
團隊開發的 YuLan-OneSim 圍繞三個核心能力進行設計。
通用性:讓 AI 理解五花八門的社會實驗。用戶只需要用自然語言描述實驗場景,系統就會按照 ODD(Overview, Design Concepts, Details)協議將其結構化,然后自動生成行為圖和可執行的模擬代碼。團隊在 8 個社科領域的 50 個場景上測了一圈,專家給行為圖打了接近滿分的 5.0,生成代碼拿了 4.2 分。考慮到這些代碼幾分鐘就能出來,而手寫可能要好幾個小時,這個分數相當能打。
消融實驗揭示了一個重要結論:行為圖是整個流程的靈魂。去掉它,代碼質量直接掉了 35.8%,比去掉任何其他模塊的影響都大。給 Agent 一個結構化的中間表示,比讓它直接從自然語言生成代碼要靠譜得多。
可擴展性:讓幾萬、十幾萬個 Agent 同時跑。YuLan-OneSim 用了一套事件驅動的異步架構,配合 Master-Worker 分布式設計。實測下來,從 1k 到 100k 個 Agent 都能平滑擴展。10 萬 Agent 跑一輪大約需要 3538 秒;在萬級規模時,分布式部署比單機快了 3-4 倍。
可靠性:讓通用 LLM 輸出可信的模擬行為。直接拿通用 LLM 來模擬社會行為,效果確實不穩定。為此團隊設計了 VR2T 反饋框架(Verifier-Reasoner-Refiner-Tuner),先讓驗證者打分,推理者分析錯因,修復者糾正輸出,最后用這些數據微調骨干模型。在 Qwen2.5-1.5B 上用 DPO 迭代 4 輪后,可靠性提升了27.4%。這個思路和 AutoResearch 的 ratchet 機制異曲同工:跑一輪,評估,保留改進,丟棄退化,反復迭代。
目前 YuLan-OneSim 已經作為在線平臺運行(yulan-onesim.cn),吸引了 80 多家機構的 100 多位注冊用戶。
![]()
YuLan-OneSim 平臺能力驗證:(a)專家評分,(b)錯誤類型分布,(e)規模擴展性測試,(g)反饋微調效果。
S-Researcher:一個研究問題進去,一份研究報告出來
S-Researcher 把研究工作流組織成三種經典推理模式:歸納(從數據中發現規律)、演繹(檢驗競爭假說)、溯因(追溯因果機制)。整個 pipeline 包含實驗設計、模擬執行、結果分析和報告生成四個模塊。
但與全自動路線不同,S-Researcher 從設計之初就把人機協作作為核心原則。研究者可以在每個階段介入:修改系統自動生成的實驗設計、上傳自定義的 Agent 畫像數據、調整模擬參數,甚至只使用其中某個模塊 —— 比如你手上已有實驗數據,可以跳過模擬階段,直接用結果分析和報告生成模塊。
團隊用三個案例驗證了這套系統。
歸納:給定研究問題,AI 自己復現了經典結論
![]()
研究問題很簡單:當人們更愿意和文化相似的鄰居互動時,整個社會的文化格局會怎樣演變?
S-Researcher 自主設計了完整實驗:在 10×10 網格上放 100 個 LLM Agent,每人 5 個文化特征維度(音樂、飲食、時尚、政治、休閑),跑 100 輪。
系統發現了一個有趣的悖論:鄰居之間越來越像(平均相似度 + 21%),但全局并沒有走向統一,而是穩定在大約 65 個文化「小島」上 —— 形成「組內趨同、組間分化」模式。這恰好是 Axelrod 文化傳播模型的核心預測,而動態完全來自 LLMAgent 的自主交互涌現。
演繹:三個假說同時 PK,5525 個學生 Agent 模擬中國課堂
![]()
第二個案例瞄準教育公平領域的核心問題:到底是什么決定了老師把注意力分給誰?
S-Researcher 自動提出三個競爭假說:表達假說(課堂發言活躍度主導)、成績假說(學習成績主導)、精英假說(家庭背景主導),然后啟動三組平行模擬。
規模:221 個模擬課堂、5525 個學生 Agent,每個學生的畫像直接來自中國教育追蹤調查(CEPS)的真實數據。
結果:表達假說完勝。與 CEPS 實際數據的 Spearman 相關系數,表達假說(ρ = 0.152)顯著高于成績假說(0.122)和精英假說(0.113)。獨立驗證中,CEPS 回歸分析顯示溝通能力對教師注意力的解釋力(β = 0.349,R2 = 12.1%)約是學業成績的20 倍(β = 0.034),與模擬結論完全一致。
更重要的是,模擬給出了回歸分析給不了的東西:表達能力強的學生是如何一輪輪積累起注意力優勢的 —— 這種過程層面的解釋力,正是模擬研究相比統計分析的獨特價值。
溯因:AI 發現新機制,120 人真人實驗獨立驗證
![]()
這是整篇論文最有看點的部分。
研究問題:在公共品博弈中,領導者的貢獻金額和背后的意圖(自愿還是被迫),如何影響追隨者的合作意愿?
S-Researcher 自動設計了一個 2×3 被試間實驗:決策機制(自愿 / 強制)× 貢獻水平(低 2 / 中 5 / 高 8 token),每個條件 100 個 Agent 追隨者。
模擬揭示了兩個發現。第一,追隨者的合作主要被貢獻金額「錨定」(β = 0.794),這不意外。第二,出人意料的是,強制條件下追隨者反而貢獻更多(β = 0.104)。Agent 似乎對自愿做出低貢獻的領導者進行了「意圖懲罰」:你本來可以多給但選擇不給,那我也減少合作。
為了驗證,團隊同步開展了平行人類實驗(N = 120,3 輪),實驗設置完全相同。結果令人振奮:人類同樣表現出「強制 > 自愿」的模式,6 個條件下人機均值的 Pearson 相關系數達到r = 0.915。不過差異也存在:人類對意圖的敏感度明顯更高(β_human = 0.251 vs. β_agent = 0.104),LLM Agent 則更依賴金額本身。
AI 自動科研的社會科學路線
當研究對象是「人」的時候,沒有簡潔的目標函數可以優化。文化怎么傳播、老師怎么分配注意力、人們為什么合作 —— 這些問題需要的是理論發現和機制解釋,而非指標優化。S-Researcher 的做法是讓 LLM Agent 本身成為研究對象,用模擬來替代或預篩選昂貴的真人實驗。
當然,這條路也有邊界。LLM Agent 的行為異質性比真人低,對意圖等高階線索的敏感度不足,仍然離不開真人被試。
正因如此,S-Researcher 從一開始就把人機協作作為核心設計。AI 負責快速探索方案空間,人負責在關鍵節點做判斷和干預。一旦涉及理論判斷、倫理審查、領域知識這些「軟」要素,人的參與不是可選項,而是必選項 —— 而這,恰恰揭示了當下 AI 科研工具必須正視的核心邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.