<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI智能體不是越多越強(qiáng):信息冗余構(gòu)成了LLM Agent Scaling的瓶頸

      0
      分享至



      近年來,基于大語言模型的多智能體系統(tǒng)(LLM-based Multi-Agent Systems, MAS)被廣泛用于復(fù)雜推理任務(wù)。典型做法是讓多個 agent 獨(dú)立生成并通過投票或辯論等機(jī)制聚合決策,從而在算術(shù)推理、常識推斷與專業(yè)問答中提升準(zhǔn)確率。

      隨著 test-time compute(推理時計算)成為常見的能力提升手段,一個自然的問題隨之出現(xiàn):MAS 是否能通過不斷增加 agent 數(shù)量而持續(xù)變強(qiáng)?直覺上,這個設(shè)想似乎成立:類似 ensemble 或 self-consistency 的「多次采樣 + 聚合」往往能提高覆蓋正確答案的概率。

      來自上海交通大學(xué)、UC Berkeley、加州理工學(xué)院以及約翰?霍普金斯大學(xué)的聯(lián)合研究論文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能體系統(tǒng)「擴(kuò)不動」的真正原因,并不是 Agent 不夠多,而是信息冗余。 系統(tǒng)實(shí)驗(yàn)發(fā)現(xiàn),單純堆規(guī)模收益迅速枯竭,而引入多樣性可以顯著延緩飽和、以更少的 Agent 獲得更強(qiáng)的性能。



      • 論文標(biāo)題:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
      • 論文地址:https://arxiv.org/pdf/2602.03794
      • GitHub 代碼:https://github.com/SafeRL-Lab/Agent-Scaling

      同質(zhì)擴(kuò)展的失效:

      規(guī)模帶來的收益迅速飽和

      論文首先直接檢驗(yàn)「增加 agent 數(shù)是否有效」。在同質(zhì)設(shè)置下,所有 agent 共享相同底座模型與系統(tǒng)提示(無 persona 差異,配置一致),采用兩類常見協(xié)作機(jī)制:

      • Vote:單輪獨(dú)立生成后多數(shù)投票;
      • Debate:多輪交互后再給出最終答案(交互 4 輪)。

      僅改變 agent 數(shù) N,在 7 個基準(zhǔn)任務(wù)(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上評估。



      結(jié)果在不同任務(wù)與模型上高度一致:當(dāng) N 從 1 增至 2 或 4 時,性能通常明顯提升;但繼續(xù)增加 N 后,準(zhǔn)確率迅速進(jìn)入平臺期,邊際收益接近 0,部分設(shè)置甚至出現(xiàn)回落。這說明:在同質(zhì)配置下,單純堆疊更多 agent calls 并不能持續(xù)注入新的有效信息。

      多樣性帶來的對照現(xiàn)象:

      少量異質(zhì) agent 勝過大規(guī)模同質(zhì)系統(tǒng)

      與同質(zhì)擴(kuò)展的快速飽和形成鮮明對比的是,多樣性配置下的實(shí)驗(yàn)結(jié)果。論文進(jìn)一步比較了兩類系統(tǒng):一類由同一模型多次獨(dú)立運(yùn)行構(gòu)成,另一類則由不同 backbone 模型或不同 persona prompt 組成。在匹配計算預(yù)算(固定總 agent calls)的前提下,異質(zhì)系統(tǒng)在同預(yù)算下整體更高,并且在更大的 N 上仍能保持增益。





      為了更系統(tǒng)地理解這一現(xiàn)象,作者在實(shí)驗(yàn)中將多樣性拆解為不同來源,包括 persona 多樣性、模型多樣性,以及二者結(jié)合的完全多樣性,并在統(tǒng)一設(shè)置下進(jìn)行對比。

      在 GSM8K、ARC、HellaSwag、TruthfulQA 等七個基準(zhǔn)任務(wù)上,作者系統(tǒng)比較了:

      • Agent 完全一致(L1)
      • Agent Persona 多樣性(L2)
      • Base Model 多樣性(L3)
      • Persona多樣性兼Base Model多樣性(L4)

      結(jié)果顯示,每引入一層新的多樣性,系統(tǒng)整體性能都會顯著上移;其中,模型多樣性和 persona 多樣性各自都具有獨(dú)立貢獻(xiàn),而二者結(jié)合時效果最為顯著。



      這一趨勢在效率層面體現(xiàn)得尤為明顯:在多個任務(wù)上,僅使用2 個完全異質(zhì)的 agent,就可以達(dá)到甚至超過16 個同質(zhì) agent的平均性能。



      限制多智能體擴(kuò)展的不是規(guī)模

      而是信息冗余

      將這些實(shí)驗(yàn)結(jié)果串聯(lián)起來,論文在經(jīng)驗(yàn)層面得出了一個清晰結(jié)論:多智能體系統(tǒng)的擴(kuò)展瓶頸并不來自 agent 數(shù)量不足,而來自 agent 輸出之間的高度相關(guān)性。在同質(zhì)配置下,多個 agent 往往沿著相似的推理路徑生成答案,新增調(diào)用所帶來的大多是重復(fù)信息;而多樣性的作用,在于引入互補(bǔ)視角,降低輸出冗余,使系統(tǒng)能夠在相同甚至更小的計算預(yù)算下獲得更多有效證據(jù)。





      基于這一系列實(shí)驗(yàn)現(xiàn)象,作者進(jìn)一步提出信息論分析框架,引入「有效信息通道」等概念,對「規(guī)模失效」與「多樣性優(yōu)勢」給出統(tǒng)一解釋。與其說這項(xiàng)工作提出了新的 agent 架構(gòu),不如說它明確指出:多智能體系統(tǒng)里真正稀缺的資源不是調(diào)用次數(shù),而是非冗余的信息來源

      信息論視角:

      性能由「有效信息」而非「調(diào)用次數(shù)」主導(dǎo)

      作者考慮一個包含 N 個大模型智能體的多智能體系統(tǒng),每個智能體具有自身配置,包括基座模型(backbone model)、系統(tǒng)提示詞(system prompt)、角色設(shè)定(persona)與工具能力(tool access)。系統(tǒng)接收問題輸入 X,按預(yù)設(shè)工作流執(zhí)行若干次推理(記為 n 次),最終輸出答案。



      從信息論角度,得到正確答案 Y 的成功率并不簡單由 N 與 n 決定,而取決于系統(tǒng)能夠提供多少關(guān)于 Y 的信息。作者用條件熵 H (Y|X) 刻畫任務(wù)的內(nèi)在難度:在給定問題 X 的情況下,正確答案 Y 仍然存在的剩余不確定性。

      • 同質(zhì)配置下,即便新增智能體,往往也只是在相似推理路徑下重復(fù)采樣,因而對降低不確定性幫助有限;
      • 異質(zhì)配置下,新增智能體更可能引入新的推理路徑,與既有路徑互補(bǔ),從而更有效地減少不確定性。

      為刻畫這一差異,作者定義:



      在該設(shè)定下,作者基于若干建模假設(shè)推導(dǎo)出一個近似形式,用于刻畫趨勢而非精確預(yù)測。作者認(rèn)為,系統(tǒng)可獲得的有效信息量(并據(jù)此關(guān)聯(lián)成功率)主要受如下量支配:



      該結(jié)果強(qiáng)調(diào):影響系統(tǒng)性能的關(guān)鍵不在于 “智能體數(shù)量或推理次數(shù)”,而在于系統(tǒng)中有效信息通道的數(shù)量—— 也就是多樣化所帶來的非冗余信息規(guī)模。它也解釋了為何實(shí)踐中常見「邊際效益遞減」:當(dāng)有效信息通道增長受限時,新增調(diào)用帶來的有效信息增量會快速衰減。

      作者還給出了在實(shí)踐中估計有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等數(shù)據(jù)集上驗(yàn)證:經(jīng)驗(yàn)成功率與理論預(yù)測總體吻合。



      進(jìn)一步地,作者將系統(tǒng)輸出拆分為「正確推理路徑」與「錯誤推理路徑」,分別估算其對應(yīng)的有效信息通道數(shù)量。實(shí)驗(yàn)一致表明:當(dāng)正確推理路徑對應(yīng)的有效信息通道更多時,多智能體系統(tǒng)表現(xiàn)更好。這意味著系統(tǒng)設(shè)計不應(yīng)盲目追求多樣性本身,而應(yīng)追求與任務(wù)相關(guān)的推理多樣性 —— 即提升與正確推理相關(guān)的有效信息通道數(shù)。



      總結(jié)

      論文的核心經(jīng)驗(yàn)結(jié)論是:多智能體擴(kuò)展的關(guān)鍵不在于把 N 做大,而在于讓新增調(diào)用帶來新的有效證據(jù)。只要輸出高度相關(guān),同質(zhì)擴(kuò)展就會很快進(jìn)入平臺期;而多樣性能夠提升效率,是因?yàn)樗赡墚a(chǎn)生互補(bǔ)推理路徑。換句話說,多智能體系統(tǒng)里稀缺的不是調(diào)用次數(shù),而是非冗余信息。

      實(shí)踐上可以用一個簡單標(biāo)準(zhǔn)指導(dǎo)擴(kuò)展:當(dāng)增加 agent 主要帶來「同一思路的重復(fù)」 時,應(yīng)停止堆同質(zhì)數(shù)量,轉(zhuǎn)而引入可控的異質(zhì)性(方法互補(bǔ)的 persona、不同模型家族、工具能力互補(bǔ));只有當(dāng)這些改動確實(shí)帶來額外增益時,再繼續(xù)擴(kuò)大規(guī)模。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      嵩山標(biāo)語牌上寫“爬不動了吧哈哈哈”,因有人質(zhì)疑其“嘲諷游客”被換下,網(wǎng)友惋惜:原標(biāo)語生動有梗

      嵩山標(biāo)語牌上寫“爬不動了吧哈哈哈”,因有人質(zhì)疑其“嘲諷游客”被換下,網(wǎng)友惋惜:原標(biāo)語生動有梗

      天津人
      2026-05-05 18:57:00
      反復(fù)試探!張敬軒英皇演唱會上無異常,結(jié)束后卻宣布突發(fā)重病退演

      反復(fù)試探!張敬軒英皇演唱會上無異常,結(jié)束后卻宣布突發(fā)重病退演

      娛說瑜悅
      2026-05-04 23:58:19
      輕斷食再次封神!復(fù)旦大學(xué)研究證實(shí),讓肝臟脂肪在5個月內(nèi)少20.5%

      輕斷食再次封神!復(fù)旦大學(xué)研究證實(shí),讓肝臟脂肪在5個月內(nèi)少20.5%

      今日養(yǎng)生之道
      2026-05-05 20:45:04
      南華早報:中國球迷不擔(dān)心世界杯沒官方轉(zhuǎn)播;FIFA明顯漫天要價

      南華早報:中國球迷不擔(dān)心世界杯沒官方轉(zhuǎn)播;FIFA明顯漫天要價

      懂球帝
      2026-05-05 19:39:09
      延長運(yùn)營時間!福州地鐵剛剛發(fā)布!

      延長運(yùn)營時間!福州地鐵剛剛發(fā)布!

      北青網(wǎng)-北京青年報
      2026-05-05 18:48:07
      為沖冠放棄1.56億!苦熬8年,從二輪秀到力壓哈登成東部第一后衛(wèi)

      為沖冠放棄1.56億!苦熬8年,從二輪秀到力壓哈登成東部第一后衛(wèi)

      鳴哥說體育
      2026-05-05 22:46:53
      新老球王恭喜吳宜澤 趙心童:這是中國斯諾克 丁俊暉:我們的時代

      新老球王恭喜吳宜澤 趙心童:這是中國斯諾克 丁俊暉:我們的時代

      風(fēng)過鄉(xiāng)
      2026-05-05 06:27:29
      今年五一,樓市扯下了最后遮羞布

      今年五一,樓市扯下了最后遮羞布

      房產(chǎn)老司機(jī)
      2026-05-05 11:35:27
      女演員宣布:已產(chǎn)下一個大胖小子!

      女演員宣布:已產(chǎn)下一個大胖小子!

      喜歡歷史的阿繁
      2026-05-05 00:04:32
      亞馬遜千億富豪惹眾怒,眾多明星拒出席晚宴,現(xiàn)場驚現(xiàn)尿瓶抗議!

      亞馬遜千億富豪惹眾怒,眾多明星拒出席晚宴,現(xiàn)場驚現(xiàn)尿瓶抗議!

      一盅情懷
      2026-05-05 15:01:41
      剛剛!東契奇恢復(fù)取得重大進(jìn)展!臥槽!湖人0票,雷霆全票

      剛剛!東契奇恢復(fù)取得重大進(jìn)展!臥槽!湖人0票,雷霆全票

      體育新角度
      2026-05-05 21:54:14
      直線拉升!套現(xiàn)約455億,李嘉誠又賣了

      直線拉升!套現(xiàn)約455億,李嘉誠又賣了

      中國基金報
      2026-05-05 17:19:50
      驚呼繩子“沒拴緊沒拴緊”,女子景區(qū)“探險”時高空墜落;女子是否搶救過來,四川華鎣相關(guān)部門稱會發(fā)通報

      驚呼繩子“沒拴緊沒拴緊”,女子景區(qū)“探險”時高空墜落;女子是否搶救過來,四川華鎣相關(guān)部門稱會發(fā)通報

      大風(fēng)新聞
      2026-05-05 17:39:06
      文班11+15+12帽刷爆紀(jì)錄:多項(xiàng)歷史第一難阻惜敗 三分8中0太慘

      文班11+15+12帽刷爆紀(jì)錄:多項(xiàng)歷史第一難阻惜敗 三分8中0太慘

      醉臥浮生
      2026-05-05 12:14:56
      名記炮轟王皓區(qū)別對待球員:你是國乒主教練,不是某個人的私教

      名記炮轟王皓區(qū)別對待球員:你是國乒主教練,不是某個人的私教

      十點(diǎn)街球體育
      2026-05-04 18:28:55
      超女冠軍江映蓉:過度醫(yī)美后像“怪物”,全身只剩下眼珠是自己的

      超女冠軍江映蓉:過度醫(yī)美后像“怪物”,全身只剩下眼珠是自己的

      夢回千年aa
      2026-05-05 07:08:47
      森林狼是如何撕碎馬刺的?將DPOY當(dāng)替補(bǔ)用,聯(lián)盟最被低估的名帥!

      森林狼是如何撕碎馬刺的?將DPOY當(dāng)替補(bǔ)用,聯(lián)盟最被低估的名帥!

      你的籃球頻道
      2026-05-05 14:13:54
      國乒男團(tuán)連敗僅2天,女團(tuán)又爆大冷,16強(qiáng)名單已出,日本隊意外!

      國乒男團(tuán)連敗僅2天,女團(tuán)又爆大冷,16強(qiáng)名單已出,日本隊意外!

      閱微札記
      2026-05-05 19:38:27
      2-1!鄭欽文拒絕爆冷,0-3落后卻強(qiáng)勢逆轉(zhuǎn),原因曝光,沖擊冠軍吧

      2-1!鄭欽文拒絕爆冷,0-3落后卻強(qiáng)勢逆轉(zhuǎn),原因曝光,沖擊冠軍吧

      體育就你秀
      2026-05-05 21:40:23
      如果馬寅初沒有提出人口論,沒有實(shí)施計劃生育,如今我國會怎樣?

      如果馬寅初沒有提出人口論,沒有實(shí)施計劃生育,如今我國會怎樣?

      史之銘
      2026-04-29 00:48:26
      2026-05-05 22:59:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12919文章數(shù) 142642關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      美軍稱“布什”號航母正穿越阿拉伯海 搭載60多架戰(zhàn)機(jī)

      頭條要聞

      美軍稱“布什”號航母正穿越阿拉伯海 搭載60多架戰(zhàn)機(jī)

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會送花籃

      財經(jīng)要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態(tài)度原創(chuàng)

      旅游
      親子
      藝術(shù)
      家居
      公開課

      旅游要聞

      人氣新紀(jì)錄!三峽博物館“五一”假期單日最高迎客超3.1萬人次

      親子要聞

      爸爸給娃洗澡時,無論怎么擺弄他都不哭,網(wǎng)友:拿開水燙我也哭 別說他了

      藝術(shù)要聞

      有多少人知道,它曾是亞洲第一高樓?

      家居要聞

      靈動實(shí)用 生活藝術(shù)場

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕av无码免费一区| 阜新市| 国产精品污污在线观看网站| 性xxxx视频播放免费| 成在线人永久免费视频播放 | 人妻视频一区| 久久99久久99久久综合| 95在线一区| 国产中文三级全黄| 美女黄18以下禁止观看| 久久中文字幕无码专区| 毛片免费全部播放无码| 成人国产网站V片免费观看| 无套内谢少妇一二三四| 欧美大胆老熟妇乱子伦视频 | 日本欧美视频在线观看三区| 在线中文字幕日韩欧美| 蜜桃伦理一区二区三区| 亚洲精品无码高潮喷水A| 无码av少妇| 天堂在线www官网| 日韩精品极品人妻在线| 亚洲熟妇自偷自拍另类| 日韩丝袜欧美人妻制服| 日韩午夜无码精品试看| 97资源超碰| 国产欧美日韩精品丝袜高跟鞋| 亚洲日本国产综合高清醉红楼| 色综合久久久无码中文字幕| 狠狠躁夜夜躁人人爽天天古典| 亚洲国产精品日韩AV专区| 欧美激情猛片xxxⅹ大3| 国产成人免费视频在线网站2| 啊啊舔穴午夜免费视频| 极品偷拍网| 隔壁老王国产在线精品| 欧美a视频在线观看| 亚洲成人五月| 深夜福利18| 亚洲禁精品一区二区三区| 亚洲色大成网站WWW久久|