<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      S-Researcher讓智能體自主設計實驗、模擬被試、撰寫報告

      0
      分享至



      作者 | 論文團隊

      編輯丨ScienceAI

      Karpathy 3 月初開源 AutoResearch,630 行代碼、一塊 GPU、睡一覺跑 100 個實驗,GitHub 星標直沖 6 萬。緊接著,AutoResearchClaw 把這套「睡覺自動科研」的范式拓展到了 23 個階段的完整論文生成流水線,連 LabClaw 也開始幫生物醫學研究者自動跑實驗、寫記錄。

      一個自然的問題浮出水面:AI 自動科研在自然科學和 ML 領域已經跑起來了,社會科學呢?

      社會科學的難點跟 ML 調參完全不同。你沒有一個 loss 函數可以優化,被試是有主觀意識的人,實驗設計空間極大,而且招 100 個真人做實驗就要花幾個月。傳統的 AutoML 式循環在這里根本不適用。

      來自中國人民大學高瓴人工智能學院的團隊給出了他們的方案:S-Researcher。不同于 AutoResearch 讓 Agent 反復修改訓練代碼來壓低 validation loss,S-Researcher 讓 LLM Agent 同時扮演「研究助手」和「模擬被試」兩個角色,覆蓋社會科學研究從實驗設計到報告撰寫的全流程。底層是一個支持 10 萬并發 Agent 的社會模擬引擎YuLan-OneSim。在最硬核的驗證中,LLM Agent 自主發現的合作機制被 120 人真人實驗獨立證實。



      論文鏈接:http://arxiv.org/abs/2604.01520

      GitHub:https://github.com/RUC-GSAI/YuLan-OneSim

      在線平臺:https://www.yulan-onesim.cn/



      S-Researcher 整體流程:用戶輸入研究課題后,系統自動完成場景構建、模擬執行和報告生成,研究者可在每個環節介入。

      先造一個能「跑」任何社會實驗的模擬器

      AutoResearch 的成功有一個前提:訓練代碼只有 630 行,整個系統自包含,Agent 能一次讀完全部代碼。社會模擬沒有這個便利。你需要一個平臺,能把千變萬化的社會實驗場景轉化為可執行代碼,還得支持成千上萬個 Agent 同時交互。

      團隊開發的 YuLan-OneSim 圍繞三個核心能力進行設計。

      通用性:讓 AI 理解五花八門的社會實驗。用戶只需要用自然語言描述實驗場景,系統就會按照 ODD(Overview, Design Concepts, Details)協議將其結構化,然后自動生成行為圖和可執行的模擬代碼。團隊在 8 個社科領域的 50 個場景上測了一圈,專家給行為圖打了接近滿分的 5.0,生成代碼拿了 4.2 分。考慮到這些代碼幾分鐘就能出來,而手寫可能要好幾個小時,這個分數相當能打。

      消融實驗揭示了一個重要結論:行為圖是整個流程的靈魂。去掉它,代碼質量直接掉了 35.8%,比去掉任何其他模塊的影響都大。給 Agent 一個結構化的中間表示,比讓它直接從自然語言生成代碼要靠譜得多。

      可擴展性:讓幾萬、十幾萬個 Agent 同時跑。YuLan-OneSim 用了一套事件驅動的異步架構,配合 Master-Worker 分布式設計。實測下來,從 1k 到 100k 個 Agent 都能平滑擴展。10 萬 Agent 跑一輪大約需要 3538 秒;在萬級規模時,分布式部署比單機快了 3-4 倍。

      可靠性:讓通用 LLM 輸出可信的模擬行為。直接拿通用 LLM 來模擬社會行為,效果確實不穩定。為此團隊設計了 VR2T 反饋框架(Verifier-Reasoner-Refiner-Tuner),先讓驗證者打分,推理者分析錯因,修復者糾正輸出,最后用這些數據微調骨干模型。在 Qwen2.5-1.5B 上用 DPO 迭代 4 輪后,可靠性提升了27.4%。這個思路和 AutoResearch 的 ratchet 機制異曲同工:跑一輪,評估,保留改進,丟棄退化,反復迭代。

      目前 YuLan-OneSim 已經作為在線平臺運行(yulan-onesim.cn),吸引了 80 多家機構的 100 多位注冊用戶。



      YuLan-OneSim 平臺能力驗證:(a)專家評分,(b)錯誤類型分布,(e)規模擴展性測試,(g)反饋微調效果。

      S-Researcher:一個研究問題進去,一份研究報告出來

      S-Researcher 把研究工作流組織成三種經典推理模式:歸納(從數據中發現規律)、演繹(檢驗競爭假說)、溯因(追溯因果機制)。整個 pipeline 包含實驗設計、模擬執行、結果分析和報告生成四個模塊。

      但與全自動路線不同,S-Researcher 從設計之初就把人機協作作為核心原則。研究者可以在每個階段介入:修改系統自動生成的實驗設計、上傳自定義的 Agent 畫像數據、調整模擬參數,甚至只使用其中某個模塊 —— 比如你手上已有實驗數據,可以跳過模擬階段,直接用結果分析和報告生成模塊。

      團隊用三個案例驗證了這套系統。

      歸納:給定研究問題,AI 自己復現了經典結論



      研究問題很簡單:當人們更愿意和文化相似的鄰居互動時,整個社會的文化格局會怎樣演變?

      S-Researcher 自主設計了完整實驗:在 10×10 網格上放 100 個 LLM Agent,每人 5 個文化特征維度(音樂、飲食、時尚、政治、休閑),跑 100 輪。

      系統發現了一個有趣的悖論:鄰居之間越來越像(平均相似度 + 21%),但全局并沒有走向統一,而是穩定在大約 65 個文化「小島」上 —— 形成「組內趨同、組間分化」模式。這恰好是 Axelrod 文化傳播模型的核心預測,而動態完全來自 LLMAgent 的自主交互涌現。

      演繹:三個假說同時 PK,5525 個學生 Agent 模擬中國課堂



      第二個案例瞄準教育公平領域的核心問題:到底是什么決定了老師把注意力分給誰?

      S-Researcher 自動提出三個競爭假說:表達假說(課堂發言活躍度主導)、成績假說(學習成績主導)、精英假說(家庭背景主導),然后啟動三組平行模擬。

      規模:221 個模擬課堂、5525 個學生 Agent,每個學生的畫像直接來自中國教育追蹤調查(CEPS)的真實數據。

      結果:表達假說完勝。與 CEPS 實際數據的 Spearman 相關系數,表達假說(ρ = 0.152)顯著高于成績假說(0.122)和精英假說(0.113)。獨立驗證中,CEPS 回歸分析顯示溝通能力對教師注意力的解釋力(β = 0.349,R2 = 12.1%)約是學業成績的20 倍(β = 0.034),與模擬結論完全一致。

      更重要的是,模擬給出了回歸分析給不了的東西:表達能力強的學生是如何一輪輪積累起注意力優勢的 —— 這種過程層面的解釋力,正是模擬研究相比統計分析的獨特價值。

      溯因:AI 發現新機制,120 人真人實驗獨立驗證



      這是整篇論文最有看點的部分。

      研究問題:在公共品博弈中,領導者的貢獻金額和背后的意圖(自愿還是被迫),如何影響追隨者的合作意愿?

      S-Researcher 自動設計了一個 2×3 被試間實驗:決策機制(自愿 / 強制)× 貢獻水平(低 2 / 中 5 / 高 8 token),每個條件 100 個 Agent 追隨者。

      模擬揭示了兩個發現。第一,追隨者的合作主要被貢獻金額「錨定」(β = 0.794),這不意外。第二,出人意料的是,強制條件下追隨者反而貢獻更多(β = 0.104)。Agent 似乎對自愿做出低貢獻的領導者進行了「意圖懲罰」:你本來可以多給但選擇不給,那我也減少合作。

      為了驗證,團隊同步開展了平行人類實驗(N = 120,3 輪),實驗設置完全相同。結果令人振奮:人類同樣表現出「強制 > 自愿」的模式,6 個條件下人機均值的 Pearson 相關系數達到r = 0.915。不過差異也存在:人類對意圖的敏感度明顯更高(β_human = 0.251 vs. β_agent = 0.104),LLM Agent 則更依賴金額本身。

      AI 自動科研的社會科學路線

      當研究對象是「人」的時候,沒有簡潔的目標函數可以優化。文化怎么傳播、老師怎么分配注意力、人們為什么合作 —— 這些問題需要的是理論發現和機制解釋,而非指標優化。S-Researcher 的做法是讓 LLM Agent 本身成為研究對象,用模擬來替代或預篩選昂貴的真人實驗。

      當然,這條路也有邊界。LLM Agent 的行為異質性比真人低,對意圖等高階線索的敏感度不足,仍然離不開真人被試。

      正因如此,S-Researcher 從一開始就把人機協作作為核心設計。AI 負責快速探索方案空間,人負責在關鍵節點做判斷和干預。一旦涉及理論判斷、倫理審查、領域知識這些「軟」要素,人的參與不是可選項,而是必選項 —— 而這,恰恰揭示了當下 AI 科研工具必須正視的核心邊界。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曝斯洛特將被利物浦解雇,花4.8億卻四大皆空,名帥或接任

      曝斯洛特將被利物浦解雇,花4.8億卻四大皆空,名帥或接任

      林子說事
      2026-05-21 19:06:16
      阿根廷動手清剿格瓦拉痕跡:被捧上神壇的圖騰,終究成了時代垃圾

      阿根廷動手清剿格瓦拉痕跡:被捧上神壇的圖騰,終究成了時代垃圾

      斯德哥爾摩的帕金森
      2026-04-12 20:09:19
      拒橫掃!賀希寧15中4仍該夸:關鍵三分+制勝上籃 決戰終救贖

      拒橫掃!賀希寧15中4仍該夸:關鍵三分+制勝上籃 決戰終救贖

      醉臥浮生
      2026-05-21 21:35:58
      李靜說戴軍:我肯定要對你好,無論你怎么樣,我就是你的家人

      李靜說戴軍:我肯定要對你好,無論你怎么樣,我就是你的家人

      秀語千尋
      2026-05-21 23:33:04
      糯米立大功!醫生發現:堅持吃糯米一段時間,身體或迎來5個變化

      糯米立大功!醫生發現:堅持吃糯米一段時間,身體或迎來5個變化

      橘子約定
      2026-05-13 21:25:24
      高云翔包子鋪打工!跑外賣擦桌一小時掙15塊,提到小酒窩滿臉幸福

      高云翔包子鋪打工!跑外賣擦桌一小時掙15塊,提到小酒窩滿臉幸福

      呀古銅
      2026-05-22 00:07:12
      三星堆并非外星人建造,真正建造者終于找到了

      三星堆并非外星人建造,真正建造者終于找到了

      王鶔吃吃喝喝
      2026-05-21 19:18:03
      意大利米蘭縱火案一審宣判:兩華人主謀被判30年監禁

      意大利米蘭縱火案一審宣判:兩華人主謀被判30年監禁

      界面新聞
      2026-05-21 11:11:15
      我年過六十歲才恍然大悟:為什么大多數女人都對六十歲以上的男人敬而遠之,甚至會主動回避,兩個原因

      我年過六十歲才恍然大悟:為什么大多數女人都對六十歲以上的男人敬而遠之,甚至會主動回避,兩個原因

      心理觀察局
      2026-05-04 08:51:10
      “香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

      “香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

      許三歲
      2026-03-26 11:35:13
      45歲才明白:微信上基本不發朋友圈的,十有八九是這兩種人

      45歲才明白:微信上基本不發朋友圈的,十有八九是這兩種人

      心理觀察局
      2026-05-08 09:43:07
      私吞獎金又有猛料!男生發帖曝光后,樊同學曾找人洗白,真過分了

      私吞獎金又有猛料!男生發帖曝光后,樊同學曾找人洗白,真過分了

      社會日日鮮
      2026-05-21 07:59:04
      丁勇+曹陽風評一直差,李明被罵8年不冤!球迷:裁判怎么就一個?

      丁勇+曹陽風評一直差,李明被罵8年不冤!球迷:裁判怎么就一個?

      刀鋒體育
      2026-05-21 16:52:36
      河南一景區現“爬不動了吧哈哈哈哈”標語,游客感覺不被尊重,景區:已撤除,本意是緩解爬山壓力

      河南一景區現“爬不動了吧哈哈哈哈”標語,游客感覺不被尊重,景區:已撤除,本意是緩解爬山壓力

      極目新聞
      2026-05-19 14:48:26
      公開亮相,亞馬爾攜新女友參加巴薩賽季慶功宴

      公開亮相,亞馬爾攜新女友參加巴薩賽季慶功宴

      懂球帝
      2026-05-21 03:17:06
      又一個“愛國大V”人設翻車!靠愛國撈金千萬,私下悄悄辦移民!

      又一個“愛國大V”人設翻車!靠愛國撈金千萬,私下悄悄辦移民!

      麥杰遜
      2026-05-07 13:13:17
      絕殺?反絕殺!總決賽來了!

      絕殺?反絕殺!總決賽來了!

      刺猬籃球
      2026-05-20 22:08:30
      他上任后,你的藥可能買不到了

      他上任后,你的藥可能買不到了

      時光慢郵啊
      2026-05-18 00:32:40
      耿同學遇到麻煩了!有人會對他不利?吉林大學緊急出手

      耿同學遇到麻煩了!有人會對他不利?吉林大學緊急出手

      平老師666
      2026-05-21 22:15:05
      成績喜人!中國隊位居金牌榜第一,老將新兵齊齊爆發,驚喜奪金

      成績喜人!中國隊位居金牌榜第一,老將新兵齊齊爆發,驚喜奪金

      羅掌柜體育
      2026-05-21 11:52:10
      2026-05-22 01:08:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      專訪雷軍:YU7標準版回歸對特斯拉更有競爭力

      態度原創

      手機
      時尚
      教育
      房產
      軍事航空

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      今年夏天最流行的4組搭配,誰穿誰好看!

      教育要聞

      高考地理核心題型及“解題密碼”

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      軍事要聞

      伊朗警告:任何新襲擊將促使戰場擴大到中東以外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 金阳县| 国产在线精品一区二区三区不卡| 日本免费一区二区三区四区五区| 欧美三级大片| 在线免费观看毛片av| 亚洲精品视频一二三四区| 日韩无毛| 欧美又粗又大xxxxbbbb疯狂| 亚洲一区二区精品自拍| 欧美成人精品一区二区三区| 亚洲中文天堂| 极品白嫩少妇无套内谢| 视频一区二区不中文字幕| 97成人超碰| 中文字幕人妻日韩在线| 99ri精品视频在线观看播放| 国产亚洲精品美女久久久M| 亚洲a免费| 884aa四虎影成人精品| www.911国产| 精品少妇大屁股白浆无码| 丰满少妇人妻无码超清| 亚洲精品乱码久久久久久蜜桃不卡 | 毛色444综合网| 国产高清在线观看a| 性饥渴艳妇性色生活片在线播放| 国产高清一区二区三区视频 | 亚洲国产成人久久一区WWW| 江苏黄色片视频| 亚洲欧美日韩国产| 国产性生大片免费观看性欧美 | 国产欧美日韩精品丝袜高跟鞋| 成人网站在线观看免费| 精品久久人人妻人人做精品| 99热这里只有精品国产99| 欧美性爱xxxx| 无码人妻AV一区二区| 成人免费无遮挡在线播放| 亚洲无码精品视频| 亚洲国产精品久久久久久无码 | 国产日韩欧美综合|