網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI 協(xié)作重磅突破！斯坦福英偉達聯(lián)手消除AI溝通內(nèi)耗，推理速度暴漲 2.4 倍

2026-05-21 08:08:11　來源: 鈦媒體APP

北京舉報

分享至

想象一個場景：你讓三個AI助手協(xié)作完成一道數(shù)學題。

傳統(tǒng)做法是——第一個AI把解題思路“寫”出來，第二個AI“讀”完再寫新的思路，第三個AI再“讀”再“寫”。

這個過程，就像三個人輪流用對講機傳遞信息，每次都要先把腦子里的想法“翻譯”成語言，對方再把語言“翻譯”回想法。慢不慢？慢。費不費？費。更要命的是，這種“翻譯”過程會丟失信息——你腦子里想的，和你說出來的，往往不是一回事。

這就是當前多智能體AI系統(tǒng)面臨的核心困境：“語言稅”。

而最近，UIUC、斯坦福、英偉達、MIT聯(lián)合提出了一種新思路——RecursiveMAS。它讓AI們跳過“說話”這一步，直接用“思維”溝通。在實測中，推理速度提升了2.4倍，Token消耗削減了75%。

（研究指路：https://arxiv.org/abs/2604.25917）

AI開會的困境：效率都浪費在了“說話”上

過去兩年，多智能體系統(tǒng)已經(jīng)成為AI領(lǐng)域最熱門的研究方向之一。從OpenAI的Swarm到微軟的AutoGen，從LangGraph到CrewAI，各家都在探索如何讓多個AI協(xié)同工作以解決單個模型無法獨立完成的復雜任務(wù)。然而，在這些系統(tǒng)中，多個智能體的協(xié)作效率始終被一個基本假設(shè)所制約——智能體之間必須通過自然語言文本來交流。

當你讓一個“數(shù)學專家”和一個“代碼審查員”協(xié)作時，整個流程看起來很“合理”，但拆解開來會發(fā)現(xiàn)問題很多：

每一次信息傳遞，都伴隨著雙重轉(zhuǎn)換：內(nèi)部思維→文字→內(nèi)部思維。這個過程消耗的token不僅是金錢，更是寶貴的計算資源和時間。更關(guān)鍵的是，這種“寫出來再讀進去”的過程會丟失信息——模型在文本解碼時被壓縮進文字的豐富語義，下一個模型重新解碼時已經(jīng)無法完全還原。在一個包含五個Agent的工作流中，文本編解碼的時間開銷往往占到總延遲的60%以上。

更讓人頭疼的是，這種范式始終缺乏一個清晰的“旋鈕”來做系統(tǒng)性優(yōu)化——增加更多智能體？邊際效益遞減，且通信開銷指數(shù)級增長。增加上下文窗口？Token成本爆炸。增加模型參數(shù)？單個Agent變強了，但協(xié)作效率并沒有本質(zhì)提升——類似于給一群人每人配了更好的對講機，但他們依然要逐個念文字，溝通方式?jīng)]變，就算每個人都更聰明了，整體效率也無法有突破。行業(yè)內(nèi)的應(yīng)對方案，無論是提示詞工程還是LoRA微調(diào)，都只能在一定程度上緩解癥狀，無法根治這個根本性的架構(gòu)問題。

RecursiveMAS：用“心靈感應(yīng)”替代“對講機”

RecursiveMAS的核心思路非常巧妙：既然語言是瓶頸，那就不用語言。

它借鑒了遞歸語言模型（Recursive Language Model）的思想。在傳統(tǒng)語言模型中，數(shù)據(jù)從第一層流向最后一層，線性前進，層數(shù)越多，參數(shù)越多；而遞歸語言模型反其道而行——不增加層數(shù)，而是把同一組層反復循環(huán)使用，讓數(shù)據(jù)在層之間來回“打轉(zhuǎn)”。數(shù)據(jù)每經(jīng)過一次這組層，就相當于多了一輪“思考”，推理深度得以加深，但參數(shù)量卻不需要增加。

RecursiveMAS把這個思路從“單模型內(nèi)部”擴展到了“多智能體系統(tǒng)”：

每個智能體就像遞歸語言模型中的一層，它們不再生成文字，而是傳遞“思想”——一種連續(xù)的、存在于潛空間（latent space）中的向量表征。

研究者們用了一個詩意的比喻：“agents communicating telepathically as a unified whole”——智能體們像心靈感應(yīng)一樣作為一個整體協(xié)作。

具體來說，Agent A1處理后把自己的隱表征傳給Agent A2，A2處理后再傳給A3……直到最后一個Agent處理完，其隱輸出又被直接回傳給A1，開啟新一輪的遞歸迭代。整個過程完全在隱空間中進行，只有到了最后一輪的最后一個Agent，才將最終的隱表征解碼為文本輸出。這就好比一群專家圍坐一桌，不用說話，不用寫筆記，每個人只需默默思考，然后直接把自己腦中的“思維成果”傳給下一個人——整個過程既安靜又高效。

圖：RecursiveMAS 架構(gòu)示意——多Agent通過嵌入空間實現(xiàn)閉環(huán)遞歸協(xié)作（來源：arXiv）

這個系統(tǒng)的關(guān)鍵組件叫做RecursiveLink，一個輕量級的兩層殘差模塊，負責把一個模型的隱層表征保留并轉(zhuǎn)換，然后傳遞到下一個模型的嵌入空間。語言模型最后一層的隱狀態(tài)，實際上已經(jīng)編碼了豐富的語義推理信息，RecursiveLink要做的，就是把這些高維信息完整地“搬”過去，而不是先翻譯成文字再解讀。它分為內(nèi)外兩個版本：

圖：遞歸學習過程——內(nèi)部鏈接與外部鏈接協(xié)同訓練（來源：arXiv）

訓練策略上，RecursiveMAS有一個精妙的設(shè)計：主干模型權(quán)重完全凍結(jié)，只需訓練RecursiveLink模塊。這和LoRA（低秩適配）的精神有相似之處，但RecursiveLink更輕量：整個系統(tǒng)只需更新約1300萬個參數(shù)，僅占總可訓練參數(shù)的0.31%。峰值GPU顯存需求在所有對比方法中最低，訓練成本比全量微調(diào)降低50%以上。你可以把它理解為一個“輕量級轉(zhuǎn)接頭”，直接插在現(xiàn)有Agent生態(tài)上，無需從頭訓練新模型。如果多個Agent基于同一個基座模型（比如都用Qwen），它們甚至可以共享同一份模型權(quán)重，進一步節(jié)省顯存。

訓練分兩階段進行：

內(nèi)層循環(huán)熱身： 各個智能體獨立訓練自己的Inner RecursiveLink，讓它們學會在潛空間里“想問題”而不是“寫問題”。這個階段可以并行進行，就像讓每個人先練習“內(nèi)心獨白”。

外層循環(huán)訓練： 將所有智能體串聯(lián)成完整的遞歸鏈路，以最終文本輸出質(zhì)量為優(yōu)化目標，通過共享梯度聯(lián)合優(yōu)化所有RecursiveLink。這個階段解決的是“credit assignment”問題——如何把最終結(jié)果的成敗，準確歸因到每個Agent的貢獻。這種分階段策略避免了“一步到位”可能帶來的訓練不穩(wěn)定問題。

研究者們在理論上證明了遞歸訓練的梯度能夠保持穩(wěn)定，不會出現(xiàn)RNN中常見的梯度爆炸或消失問題，同時在運行時復雜度上也優(yōu)于傳統(tǒng)文本型MAS。

實測效果：精度、速度、成本“三殺”

理論說得再好，終歸要用數(shù)據(jù)說話。研究團隊在涵蓋數(shù)學、科學與醫(yī)學、代碼生成、搜索問答等領(lǐng)域的9個主流基準測試和4種協(xié)作模式（順序推理、混合專家、知識蒸餾、協(xié)商式工具調(diào)用）上進行了全面評估。實驗使用的開源模型陣容相當“豪華”——Qwen、Llama-3、Gemma3、Mistral，這些模型被分配了不同角色，組成了多種協(xié)作模式。

對比基線陣容同樣硬核：LoRA微調(diào)、全量微調(diào)（SFT）、Mixture-of-Agents、TextGrad、LoopLM，以及使用相同遞歸循環(huán)結(jié)構(gòu)但強制文本通信的Recursive-TextMAS。最后這個對照尤其關(guān)鍵——它證明了RecursiveMAS的優(yōu)勢確實來自“跳過文本解碼”，而非來自遞歸結(jié)構(gòu)本身。所有對比都在相同訓練預算下進行，公平公正。

RecursiveMAS 核心性能指標

結(jié)果顯示，RecursiveMAS在所有指標上都實現(xiàn)了一致性提升：

精度： 平均準確率提升8.3%，在AIME2025數(shù)學競賽上比TextGrad高出18.1%，在AIME2026上高出13%。跳過文本解碼不僅沒有損失信息，反而讓模型保留了更豐富的隱層語義——畢竟，把思維壓縮成文字再解壓，這個過程中信息的損耗遠比我們想象的大。

速度： 端到端推理速度提升1.2倍至2.4倍，且隨遞歸輪次增加而持續(xù)增長。這對實際應(yīng)用場景意義重大：在需要實時響應(yīng)的AI客服或代碼輔助系統(tǒng)中，2倍以上的速度提升意味著用戶體驗質(zhì)的飛躍。

成本： 與Recursive-TextMAS相比，Token消耗降低34.6%至75.6%。這不僅僅是成本的節(jié)省，更意味著在相同token預算下可以嘗試更深層次的推理。

不同遞歸輪次下的推理加速倍數(shù)

這里有一個關(guān)鍵洞察：遞歸深度越大，收益越高。加速效果隨遞歸輪次增長：第1輪平均1.2倍，第2輪1.9倍，第3輪2.4倍。原因很簡單——省掉的是每個Agent“把想法寫成文字”的時間，Agent越多、輪次越多，省的時間就越多。

不同遞歸輪次下的Token節(jié)省比例

在第三輪遞歸時，Token消耗降低了75.6%——這意味著同等性能下，運行成本可以壓縮到原來的約四分之一。對于需要復雜多步驟推理的生產(chǎn)環(huán)境，這無疑是巨大的吸引力。

為什么這項研究值得關(guān)注？

如果只是數(shù)字上的提升，這篇論文或許還不足以引起如此關(guān)注。真正讓它值得關(guān)注的，在于它可能重新定義多智能體系統(tǒng)的Scaling方向。

過去幾年，多智能體領(lǐng)域的Scaling嘗試主要圍繞三條路：增加智能體數(shù)量、擴大上下文窗口、堆疊更大模型。但這些方法都面臨各自的瓶頸——智能體多了通信爆炸，窗口大了成本爆炸，模型大了訓練爆炸。

RecursiveMAS提供了一條新路：加深遞歸深度。它把“多智能體協(xié)作”從并行的、文本交互的范式，轉(zhuǎn)化為深度的、潛空間遞歸的范式。就像遞歸語言模型通過反復處理同一個問題來深化推理，RecursiveMAS讓多個智能體能夠反復“推敲”彼此的“想法”，而不必每次都“說出來再聽回去”。

研究者們在論文中提出的核心問題是：“智能體協(xié)作本身能否通過遞歸來擴展？”答案似乎是肯定的。

當系統(tǒng)不再需要把內(nèi)部表征“翻譯”成人類可讀的中間格式時，協(xié)作效率的上限就有望被進一步打開。

當前的行業(yè)背景也為這項研究提供了切實的落地場景。百度2026開發(fā)者大會以“萬物一體（Agents at Scale）”為主題，Anthropic推出Claude Managed Agents，OpenAI持續(xù)推進GPT-5級推理的實時化——整個行業(yè)都在尋找讓Agent協(xié)作從demo走向生產(chǎn)環(huán)境的方法。而三座大山——計算成本、推理延遲、顯存限制——恰恰是RecursiveMAS試圖用0.31%的參數(shù)開銷來撬動的。

當然，這項研究目前仍處于早期階段，有幾個問題值得關(guān)注：

數(shù)據(jù)可信度待驗證。 目前的結(jié)果均為作者自報，尚未有獨立團隊完成復現(xiàn)。學術(shù)圈對新技術(shù)的態(tài)度往往是“大膽假設(shè)，小心驗證”。在這個“論文爆炸”的時代，獨立復現(xiàn)是檢驗技術(shù)真實價值的最佳方式。

異構(gòu)智能體的兼容性。 Outer RecursiveLink雖被設(shè)計用于連接不同架構(gòu)的模型，但論文未詳細披露跨架構(gòu)傳遞潛表征的細節(jié)。如果只能用于同構(gòu)智能體，其實際應(yīng)用范圍將大打折扣。畢竟，真實場景中很多時候我們需要混合使用GPT-4o、Claude等閉源API。

可解釋性下降。 當Agent之間傳遞的不再是可讀的文本，而是一堆向量表征時，整個協(xié)作過程變成了“黑箱”。在需要對AI決策負責的生產(chǎn)環(huán)境中，這種不透明性可能帶來合規(guī)和審計挑戰(zhàn)。

生產(chǎn)環(huán)境的復雜性。 論文測試的是相對干凈的協(xié)作場景，真實生產(chǎn)環(huán)境往往涉及外部工具調(diào)用、人機交互、動態(tài)工作流等復雜因素。

RecursiveMAS的提出，本質(zhì)上是將“遞歸”這一在單模型時代被證明有效的Scaling策略，引入到了多智能體時代，挑戰(zhàn)了“智能體之間必須通過自然語言傳遞信息”這一默認假設(shè)。如果數(shù)據(jù)可復現(xiàn)，MAS賽道下一階段的Scaling軸可能要從“堆智能體數(shù)量”轉(zhuǎn)向“加深遞歸深度”。

當然，這項研究仍需在更多獨立基準上驗證，需要解決異構(gòu)模型互聯(lián)的問題，需要在真實生產(chǎn)環(huán)境中證明自己。但至少，它讓我們看到了一個可能性——

AI智能體之間的協(xié)作，可以不必總是“雞同鴨講”。

（（本文首發(fā)鈦媒體APP，作者 | 硅谷Tech_news，編輯 | 焦燕））

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.