![]()
作者 |聯合研究團隊
編輯丨ScienceAI
在大語言模型的助推之下,從模擬仿真到數據分析,AI 正在幫助科研人員自動寫代碼。但現實是,領域科學家往往缺乏計算機背景,寫出的提示詞模糊不清、隱含大量專業假設;科學計算流程復雜,一個小錯誤就能引發連鎖反應;更致命的是,大模型會產生「幻覺」—— 輸出看起來合理,實則暗藏致命缺陷。
在多智能體協作中,一個環節的錯誤會被下游無條件接受,層層放大。現有的提示優化和自我修正技術面對這種微妙的錯誤模式往往束手無策。科學家們迫切需要可靠的代碼,卻困在「不會寫好提示詞」的尷尬境地。這一困境直接制約了 AI4S(AI for Science, 科學智能)研究的普惠化進程,大量關鍵科學問題因較高的技術門檻而無法被 AI 有效賦能。
為此,復旦大學、上海科學智能研究院(下稱上智院)、上海創智學院的聯合研究團隊提出了一種貝葉斯對抗式多智能體框架,用一種全新的思路解決上述難題。該框架不依賴單一模型的自我修正能力,而是通過多角色分工與對抗博弈,讓系統在持續的「攻防演練」中自發涌現出更高的代碼質量。
![]()
論文標題:AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework
論文地址:https://openreview.net/forum?id=Cug26Y0RlT
相關論文已被 ICLR 2026 接收。復旦大學及上海創智學院博士生曾子航、張家銓,為共同第一作者;復旦大學人工智能創新與產業研究院教授、上智院 AI 科學家陳曦,為本文通訊作者;上智院首席科學家、復旦大學特聘教授漆遠,及復旦大學博士生李朋澤,為本文共同作者。
出題人 vs 答題人:對抗循環驅動的貝葉斯迭代機制
框架的核心是一個「出題人 vs 答題人」的對抗循環。任務管理器(TM)扮演「出題人」,負責設計具有挑戰性的測試用例,不斷探測當前代碼的邊界;方案生成器(SG)扮演「答題人」,根據測試反饋持續改進代碼;評估器(Eval)則擔任「裁判」,對雙方表現進行客觀打分。兩者在對抗中共同進化,出題人越出越精,答題人越答越好。
更關鍵的是,框架引入了貝葉斯更新機制。每一次迭代后,系統會根據得分動態調整測試用例和代碼方案的概率分布,自動聚焦最有價值的探索方向。通俗來講就是,每一次迭代都讓系統更聰明地選擇最有價值的測試和代碼組合,而不是盲目嘗試。這種機制將「試錯」轉化為了「有指導的探索」—— 系統不會在已經驗證無效的方向上浪費時間,而是像經驗豐富的研究者一樣,根據已有證據不斷縮小搜索范圍,逐步逼近最優解。
![]()
該框架的第一大貢獻在于:提出了一種面向 AI4S 的低代碼平臺,結合貝葉斯對抗式遞歸代碼生成機制,顯著提升 AI4S 項目的代碼生成可靠性。與傳統多智能體系統完全依賴大模型做決策不同,本低代碼平臺采用非大模型的對抗性評分機制,從根本上降低了對基礎模型智能水平的依賴。同時,框架讓不懂編程的科學家只需用自然語言描述研究需求,系統即可輔助生成更高質量的科研代碼。
小模型逆襲大模型:基準測試驗證框架有效性
實驗結果令人振奮:
- 在 SciCode 基準測試中,8B 模型使用該框架后性能相對提升87.1%(子問題求解率從 13.2% 躍升至 24.7%);
- 32B 開源模型配合該框架,在 SciCode 上達到 33.0% 的求解率,直接超越了 235B 模型的基線表現(30.6%)—— 小模型逆襲大模型;
- 在 ScienceAgentBench 上,框架達到90.2%的有效執行率,刷新當前最佳(SOTA)紀錄。
這些數字背后反映的是一個關鍵趨勢:通過合理的框架設計,開源小模型完全可以在特定科學任務上匹敵甚至超越商業大模型,這為科研團隊降低算力成本提供了切實可行的路徑。
![]()
更值得注意的是,框架對提示詞質量展現出極強的魯棒性。研究團隊對比了「基礎提示」和「專家精心編寫提示」兩種條件下的表現:基線模型的性能差距巨大,嚴重依賴提示詞質量;而使用該框架后,這一差距被大幅壓縮。即使用戶只提供基礎描述,框架的表現依然大幅超越專家提示詞的基線模型。
這驗證了框架的第二大貢獻:顯著提升編碼智能體性能,且不受基礎模型能力限制。未來,該框架有望擴展至更多科學計算場景,為 AI4S 生態提供更廣泛且可靠的技術支撐。
展望:AI4S 普惠化的可行路徑
在這種貝葉斯對抗式多智能體框架的助力之下,更多領域專家能夠借助 AI 工具高效開展科研工作。比如,當一位海洋學家只需用自然語言描述研究問題,系統就能通過多輪對抗迭代生成更可靠的科研代碼。隨著這一范式的推廣,更多領域的研究者能夠專注于科學問題核心,而非陷入編程細節,從而加速 AI 與基礎科學的深度融合。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.