RouteMoA：無需預(yù)推理的動態(tài)路由，實(shí)現(xiàn)高效多智能體混合

2026-05-05 15:04:19　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本篇論文已被 ACL 2026 接收，主要作者來自上海交通大學(xué)自動化與感知學(xué)院 IWIN 中心團(tuán)隊(duì)。團(tuán)隊(duì)負(fù)責(zé)人為關(guān)新平教授，指導(dǎo)老師為陳彩蓮教授和樂心怡教授，合作作者還包括南洋理工大學(xué)陶大程教授。其他作者來自騰訊、上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)等機(jī)構(gòu)。第一作者王驥澤為上海交通大學(xué)博士生，研究方向?yàn)榇竽Ｐ椭悄荏w。

近年來，大語言模型的發(fā)展，正在從 “單模型能力提升” 走向 “多模型協(xié)作”。這是一個(gè)很自然的方向：既然不同模型各有所長，有的擅長數(shù)學(xué)，有的擅長代碼，有的更懂醫(yī)學(xué)，那為什么不讓它們協(xié)同起來，共同解決更復(fù)雜的問題？

Mixture-of-Agents（MoA）正是在這樣的背景下提出的。它通過讓多個(gè)模型并行生成、逐層交互、反復(fù)融合，往往能夠得到比單一模型更強(qiáng)的結(jié)果。問題也很明顯：性能提升的同時(shí)，成本和延遲也隨之迅速上升。

在標(biāo)準(zhǔn) MoA 中，每一輪通常都要調(diào)用多個(gè)模型，再基于它們的輸出進(jìn)行篩選和融合。但究竟該讓哪些模型參與、哪些模型可以跳過，往往缺乏明確的選擇機(jī)制。模型越多、層數(shù)越深，整體開銷就越高，在大規(guī)模模型池場景下，系統(tǒng)效率和可擴(kuò)展性都會面臨很大挑戰(zhàn)。

也正因如此，研究者開始嘗試讓 MoA 變稀疏。例如，一些方法如 Sparse MoA 會先讓模型池中的所有模型生成回答，再通過額外的評審模型進(jìn)行打分和篩選，只保留一部分模型進(jìn)入后續(xù)協(xié)作。這樣雖然減少了后續(xù)融合的負(fù)擔(dān)，但本質(zhì)上仍然繞不開一個(gè)問題：為了決定該選誰，系統(tǒng)還是得先讓所有模型都推理一遍。

于是，這篇工作的核心問題就變得非常直接：我們真的需要先讓所有模型都回答一遍，才能決定該選誰嗎？

論文標(biāo)題：RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
論文鏈接：https://arxiv.org/abs/2601.18130
代碼鏈接：https://github.com/Jize-W/RouteMoA

一句話總結(jié)：RouteMoA 的核心思想是，通過在推理前進(jìn)行模型能力預(yù)測，避免對所有模型進(jìn)行無效推理。

現(xiàn)有方法的問題：

效率瓶頸不在融合，而在全量推理

當(dāng)前 MoA 系列方法的一個(gè)共同假設(shè)是：要判斷哪個(gè)模型更好，必須先看到它的輸出。因此，無論是經(jīng)典 MoA，還是引入 judge 的 Sparse MoA，本質(zhì)上都繞不開一個(gè)步驟：所有模型先推理 -> 再篩選 -> 再融合。

這帶來兩個(gè)問題：

第一，計(jì)算成本無法下降。即使最后只用少數(shù)模型，前面已經(jīng)為所有模型付出了推理代價(jià)。

第二，難以擴(kuò)展到大模型池。當(dāng)模型數(shù)量增加時(shí)，全量推理會迅速變得不可承受，甚至超出上下文限制。

也就是說，瓶頸并不在 “如何選”，而在 “選之前已經(jīng)太貴了”。

RouteMoA：

把 “選模型” 前移到推理之前

RouteMoA 的關(guān)鍵創(chuàng)新，是把模型選擇從 “后驗(yàn)判斷” 變成 “先驗(yàn)預(yù)測 + 輕量修正”。

整個(gè)流程可以分為三個(gè)步驟：

1. 先驗(yàn)篩選：不推理，也能判斷誰更可能做對

RouteMoA 引入了一個(gè)輕量級 scorer，只根據(jù)用戶 query，就預(yù)測每個(gè)模型的潛在表現(xiàn)。這個(gè)過程不需要調(diào)用大模型推理，只做一個(gè)粗粒度打分，把模型池縮小到一個(gè)潛力子集。本質(zhì)上，這是在做一件過去被忽略的事情：用 query 本身的信息，提前判斷模型能力匹配度。

2. 后驗(yàn)修正：用已有輸出做低成本評審

初篩不可避免會有誤差，因此 RouteMoA 引入了 mixture-of-judges：

self-assessment：模型對自己的答案打分
cross-assessment：高質(zhì)量模型評估其他模型

關(guān)鍵在于：這些評估只基于已經(jīng)生成的輸出，不引入額外推理調(diào)用。也就是說，系統(tǒng)通過已有信息進(jìn)行糾錯(cuò)，而不是再算一輪。

3. 綜合排序：性能、成本、延遲一起優(yōu)化

最終，RouteMoA 在模型選擇時(shí)不僅僅考慮性能，而是同時(shí)考慮：

輸出質(zhì)量
token 成本
推理延遲

從而在實(shí)際系統(tǒng)中實(shí)現(xiàn)一個(gè)更接近工程最優(yōu)的決策，而不是單純追求 accuracy。

實(shí)驗(yàn)結(jié)果：

少花 90% 的錢，反而更強(qiáng)

在包含 15 個(gè)模型的大規(guī)模模型池實(shí)驗(yàn)中，RouteMoA 的結(jié)果非常直觀：

成本降低 89.8%
延遲降低 63.6%
同時(shí)整體準(zhǔn)確率相對 MoA 和 SMoA 有所提升

這說明一件事：減少無效計(jì)算，不僅不會傷害性能，反而會讓系統(tǒng)更專注于對的模型。

一個(gè)關(guān)鍵洞察：

多模型系統(tǒng)的本質(zhì)是稀疏的

論文中一個(gè)非常重要的觀察是：在絕大多數(shù) query 上，真正關(guān)鍵的模型只占少數(shù)。只要初始階段能把這些模型保留下來，后續(xù)協(xié)作就足以放大正確答案。實(shí)驗(yàn)中，scorer 在 Top-3 內(nèi)命中正確模型的概率接近 98%，這意味著：系統(tǒng)并不需要看所有答案，只需要別漏掉對的模型。

進(jìn)一步分析：

失敗不在選錯(cuò)模型，而在融合階段

一個(gè)很有意思的發(fā)現(xiàn)是，在失敗案例中：

超過 50% 的錯(cuò)誤來自最終答案融合（aggregation drift）
而真正因?yàn)檫x錯(cuò)模型的比例要低得多

可見，多模型系統(tǒng)的瓶頸正在發(fā)生轉(zhuǎn)移：從 “選誰來回答”，轉(zhuǎn)向 “如何整合多個(gè)答案”。

總結(jié)：多模型時(shí)代，調(diào)度很重要

RouteMoA 的意義，并不只是一個(gè)更高效的 MoA 變體，而是提供了一種新的范式：

不再默認(rèn)所有模型都要參與
而是先判斷誰值得參與
再用協(xié)作機(jī)制校正和放大正確答案

換句話說，隨著多模型協(xié)作的興起，系統(tǒng)層的調(diào)度與協(xié)同，正變得與模型能力同樣重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.