<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      上海團隊用對抗式多智能體框架破解代碼可靠生成難題

      0
      分享至



      作者 |聯合研究團隊

      編輯丨ScienceAI

      在大語言模型的助推之下,從模擬仿真到數據分析,AI 正在幫助科研人員自動寫代碼。但現實是,領域科學家往往缺乏計算機背景,寫出的提示詞模糊不清、隱含大量專業假設;科學計算流程復雜,一個小錯誤就能引發連鎖反應;更致命的是,大模型會產生「幻覺」—— 輸出看起來合理,實則暗藏致命缺陷。

      在多智能體協作中,一個環節的錯誤會被下游無條件接受,層層放大。現有的提示優化和自我修正技術面對這種微妙的錯誤模式往往束手無策。科學家們迫切需要可靠的代碼,卻困在「不會寫好提示詞」的尷尬境地。這一困境直接制約了 AI4S(AI for Science, 科學智能)研究的普惠化進程,大量關鍵科學問題因較高的技術門檻而無法被 AI 有效賦能。

      為此,復旦大學、上海科學智能研究院(下稱上智院)、上海創智學院的聯合研究團隊提出了一種貝葉斯對抗式多智能體框架,用一種全新的思路解決上述難題。該框架不依賴單一模型的自我修正能力,而是通過多角色分工與對抗博弈,讓系統在持續的「攻防演練」中自發涌現出更高的代碼質量。



      論文標題:AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

      論文地址:https://openreview.net/forum?id=Cug26Y0RlT

      相關論文已被 ICLR 2026 接收。復旦大學及上海創智學院博士生曾子航、張家銓,為共同第一作者;復旦大學人工智能創新與產業研究院教授、上智院 AI 科學家陳曦,為本文通訊作者;上智院首席科學家、復旦大學特聘教授漆遠,及復旦大學博士生李朋澤,為本文共同作者。

      出題人 vs 答題人:對抗循環驅動的貝葉斯迭代機制

      框架的核心是一個「出題人 vs 答題人」的對抗循環。任務管理器(TM)扮演「出題人」,負責設計具有挑戰性的測試用例,不斷探測當前代碼的邊界;方案生成器(SG)扮演「答題人」,根據測試反饋持續改進代碼;評估器(Eval)則擔任「裁判」,對雙方表現進行客觀打分。兩者在對抗中共同進化,出題人越出越精,答題人越答越好。

      更關鍵的是,框架引入了貝葉斯更新機制。每一次迭代后,系統會根據得分動態調整測試用例和代碼方案的概率分布,自動聚焦最有價值的探索方向。通俗來講就是,每一次迭代都讓系統更聰明地選擇最有價值的測試和代碼組合,而不是盲目嘗試。這種機制將「試錯」轉化為了「有指導的探索」—— 系統不會在已經驗證無效的方向上浪費時間,而是像經驗豐富的研究者一樣,根據已有證據不斷縮小搜索范圍,逐步逼近最優解。



      該框架的第一大貢獻在于:提出了一種面向 AI4S 的低代碼平臺,結合貝葉斯對抗式遞歸代碼生成機制,顯著提升 AI4S 項目的代碼生成可靠性。與傳統多智能體系統完全依賴大模型做決策不同,本低代碼平臺采用非大模型的對抗性評分機制,從根本上降低了對基礎模型智能水平的依賴。同時,框架讓不懂編程的科學家只需用自然語言描述研究需求,系統即可輔助生成更高質量的科研代碼。

      小模型逆襲大模型:基準測試驗證框架有效性

      實驗結果令人振奮:

      • 在 SciCode 基準測試中,8B 模型使用該框架后性能相對提升87.1%(子問題求解率從 13.2% 躍升至 24.7%);
      • 32B 開源模型配合該框架,在 SciCode 上達到 33.0% 的求解率,直接超越了 235B 模型的基線表現(30.6%)—— 小模型逆襲大模型;
      • 在 ScienceAgentBench 上,框架達到90.2%的有效執行率,刷新當前最佳(SOTA)紀錄。

      這些數字背后反映的是一個關鍵趨勢:通過合理的框架設計,開源小模型完全可以在特定科學任務上匹敵甚至超越商業大模型,這為科研團隊降低算力成本提供了切實可行的路徑。



      更值得注意的是,框架對提示詞質量展現出極強的魯棒性。研究團隊對比了「基礎提示」和「專家精心編寫提示」兩種條件下的表現:基線模型的性能差距巨大,嚴重依賴提示詞質量;而使用該框架后,這一差距被大幅壓縮。即使用戶只提供基礎描述,框架的表現依然大幅超越專家提示詞的基線模型。

      這驗證了框架的第二大貢獻:顯著提升編碼智能體性能,且不受基礎模型能力限制。未來,該框架有望擴展至更多科學計算場景,為 AI4S 生態提供更廣泛且可靠的技術支撐。

      展望:AI4S 普惠化的可行路徑

      在這種貝葉斯對抗式多智能體框架的助力之下,更多領域專家能夠借助 AI 工具高效開展科研工作。比如,當一位海洋學家只需用自然語言描述研究問題,系統就能通過多輪對抗迭代生成更可靠的科研代碼。隨著這一范式的推廣,更多領域的研究者能夠專注于科學問題核心,而非陷入編程細節,從而加速 AI 與基礎科學的深度融合。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “頂車救人”女司機獲贈新車,當場捐贈!

      “頂車救人”女司機獲贈新車,當場捐贈!

      環球網資訊
      2026-05-21 09:37:05
      熱議 | 被小學家長追著舉報!復旦教授硬剛!千條留言訴說委屈!

      熱議 | 被小學家長追著舉報!復旦教授硬剛!千條留言訴說委屈!

      天津廣播
      2026-05-21 16:21:48
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      另子維愛讀史
      2026-05-21 20:04:30
      河南村鎮銀行:儲戶存款無法兌付!時間已逾4年,儲戶欲哭無淚

      河南村鎮銀行:儲戶存款無法兌付!時間已逾4年,儲戶欲哭無淚

      胡侃社會百態
      2026-05-21 17:30:06
      烏戰熱點:呂特對俄發出毀滅性警告,俄名嘴狂言斬首澤連斯基

      烏戰熱點:呂特對俄發出毀滅性警告,俄名嘴狂言斬首澤連斯基

      史政先鋒
      2026-05-21 17:03:55
      17年前他在愛妻葬禮上哭到昏厥,發誓永不再娶,現在他做到了嗎?

      17年前他在愛妻葬禮上哭到昏厥,發誓永不再娶,現在他做到了嗎?

      妙娛連珠
      2026-05-21 16:20:01
      隊魂!36歲周鵬獻制勝三分獲盛贊 15分鐘8分創今年季后賽新高

      隊魂!36歲周鵬獻制勝三分獲盛贊 15分鐘8分創今年季后賽新高

      醉臥浮生
      2026-05-21 21:48:33
      全場47個回合絞殺文班,哈滕向馬刺全員亮出暗器

      全場47個回合絞殺文班,哈滕向馬刺全員亮出暗器

      體壇周報
      2026-05-21 16:17:11
      確認不打了!男籃第一控衛身價大暴跌,加盟廣東隊成首選?

      確認不打了!男籃第一控衛身價大暴跌,加盟廣東隊成首選?

      緋雨兒
      2026-05-21 08:30:23
      胡歌被正式確診為早F晚E,粉絲們都痛心不已

      胡歌被正式確診為早F晚E,粉絲們都痛心不已

      LULU生活家
      2026-05-21 08:43:17
      央視緊急提醒!家家戶戶應急儲備趕緊備上,關鍵時刻能救命

      央視緊急提醒!家家戶戶應急儲備趕緊備上,關鍵時刻能救命

      科學發掘
      2026-05-21 17:40:40
      中南大學原校長張堯學被雙開,通報內容未涉及國家自然科學一等獎

      中南大學原校長張堯學被雙開,通報內容未涉及國家自然科學一等獎

      東東趣談
      2026-05-21 17:20:02
      6月1日零點起!車管所“下崗”?3.3億車主迎來特大喜訊

      6月1日零點起!車管所“下崗”?3.3億車主迎來特大喜訊

      娛樂圈的筆娛君
      2026-05-21 15:48:40
      網購45把雨傘全損退回!商家怒曝細節,涉事為一小學,校方已回應

      網購45把雨傘全損退回!商家怒曝細節,涉事為一小學,校方已回應

      削桐作琴
      2026-05-20 23:38:40
      伊朗亮出7條海底光纜坐標,全球金融捏了把汗,中國卻早留了后手

      伊朗亮出7條海底光纜坐標,全球金融捏了把汗,中國卻早留了后手

      近史談
      2026-05-03 21:43:59
      73歲普京狀態似50歲,坦言:避免深夜進食、喝這種酸奶,每天運動

      73歲普京狀態似50歲,坦言:避免深夜進食、喝這種酸奶,每天運動

      時光派長壽觀察
      2026-05-20 12:45:03
      國家電投集團中央研究院:上海交通大學學生樊某某與我院領導無親屬關系

      國家電投集團中央研究院:上海交通大學學生樊某某與我院領導無親屬關系

      界面新聞
      2026-05-21 11:06:51
      震驚!上海高校課堂狂吼“殺殺殺”大四學生,老師請吃麥當勞和解

      震驚!上海高校課堂狂吼“殺殺殺”大四學生,老師請吃麥當勞和解

      火山詩話
      2026-05-21 06:15:09
      A股:尾盤突然加速跳水,原因有兩點,明天,周五重要時刻來了!

      A股:尾盤突然加速跳水,原因有兩點,明天,周五重要時刻來了!

      明心
      2026-05-21 16:22:05
      61歲郭富城參觀方媛舅舅的飯店,和一幫親戚喝酒,獲外婆擁抱送別

      61歲郭富城參觀方媛舅舅的飯店,和一幫親戚喝酒,獲外婆擁抱送別

      一盅情懷
      2026-05-21 16:23:41
      2026-05-21 22:36:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      中紀委連打三"虎":一人被指違規核發機動車號牌

      頭條要聞

      中紀委連打三"虎":一人被指違規核發機動車號牌

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      健康
      房產
      教育
      公開課
      軍事航空

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      教育要聞

      深化“五有”育人!湖北宜昌發布十六條工作指引

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗警告:任何新襲擊將促使戰場擴大到中東以外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产午夜福利精品片久久| 亚洲国产av一区二区三区| 久久三| 美女人妻激情乱人伦| 丁香五月天激情网| 99re66| av中文字幕在线资源网| 久久中文字幕无码专区| 亚洲成av人片无码不卡播放器| 亚洲91视频| 无码人妻一区二区三区尽卡亚| 欧洲女人裸体牲交视频| 日本一区二区国产在线| 精品国偷自产在线视频99| 国内av网站| 少妇人妻88久久中文字幕| av一区二区中文字幕| 嫩呦囯产一区二区三区| 色综合?人妻| 国产成人久久综合热| 亚洲av无在线播放中文| 久久福利导航| 亚洲日韩精品一区二区三区无码| 国产精品女主播在线视频 | 中文字幕国产精品资源| 国产午夜福利视频在线| 中文字幕视频一区二区| 南康市| 天天摸夜夜添狠狠添高潮出免费| 成年午夜性影院| 国产精品制服丝袜第一页| 91免费在线| 日日猛噜噜狠狠扒开双腿小说| 亚洲春色AV无码专区在线播放| 日本高清在线WWW3344| 唐人社视频呦一区二区| 中文字幕日韩精品东京热| 久久久高清日本道免费观看| 俺来也俺也啪www色| 人妻熟妇乱又伦精品HD| 成人av午夜在线观看|