網易首頁 > 網易號 > 正文申請入駐

伊利諾伊大學香檳分校揭示智能體系統的隱性經濟學

2026-05-11 17:17:03　來源: 科技行者

天津舉報

分享至

這項由伊利諾伊大學香檳分校發布的研究成果以預印本形式發表于2026年5月，論文編號為arXiv:2605.01214，感興趣的讀者可通過該編號查閱完整原文。

每當你向AI助手發出一條指令，比如"幫我修一下這段代碼"，你可能以為系統只是簡單地把你的話翻譯成了一個答案。但事實上，在你的請求被處理的短短幾秒內，系統已經悄悄做出了四個完全不同性質的"花錢決策"：該派哪位"員工"來接單？這位員工該怎么安排自己的工作時間？公司的生產線該如何分配算力資源？這次的工作經驗值不值得被寫進"員工手冊"供以后學習？這四個問題，今天的AI系統往往各自為政地回答，而這篇論文的核心觀點正是：這樣做，會造成系統性的資源浪費。

研究者的核心主張可以用一句話概括：所有的智能體AI系統，本質上都是一個"邊際算力分配經濟體"，而非單純的文字生成機器。這個聽起來有點繞口的概念，換成大白話其實是：每一個計算單元（即每一個"詞元"，也就是AI生成文字時的最小單位）的使用，都應該像一家公司精打細算地分配預算一樣，問清楚"這筆錢花在這里，到底值不值"。

一、四個人各管一攤，卻不知道對方在做什么

以一個開發者向AI編程助手說"CI測試里auth/login這個功能掛了，幫我修一下"為例，這條請求在進入系統之后，會經歷四道關卡，而每道關卡的"管事人"都只看得到整件事的一小塊。

第一道關卡是"路由器"，它負責決定讓哪個模型來回答這個問題。是派一個便宜但可能不夠聰明的小模型，還是派一個貴但更可靠的大模型？路由器看的是"錢"——每百萬詞元的成本——和"質量"，但它看不到后續的風險。第二道關卡是"智能體策略"，它負責決定被選中的模型該怎么用自己的"時間"：是先讀遍整個代碼倉庫，還是直接動手寫，還是先規劃再行動，還是遇到不確定的情況就向用戶確認？這道關卡關注的是"風險"——一個自主操作的錯誤代價有多大。第三道關卡是"推理服務層"，它負責實際把一個個詞元生產出來，要協調好"預填充"（處理輸入）和"解碼"（生成輸出）兩種不同的計算模式，還要管理內存緩存，以免排隊堵塞。這道關卡關注的是"延遲"——用戶得等多久。第四道關卡是"訓練流水線"，它負責在這次任務結束后評估：這次的操作記錄值不值得拿去訓練模型，以提升未來的能力？這道關卡關注的是"未來的收益"——現在花的學習成本能不能換來長期的能力提升。

這四道關卡的管事人分別是：用戶（知道這件事有多值錢）、運營商（知道GPU算力有多貴）、SLA服務協議（知道排隊延遲有多大影響）、以及安全團隊（知道一個錯誤操作的后果有多嚴重）。問題就在于，沒有任何一道關卡能同時看到這四個維度的信息，于是每道關卡都在自己的小天地里"最優"，但合在一起卻往往"失優"。

二、一個公式，統一四個世界

研究者提出了一個統一的決策公式，用來描述系統在每一步應該怎樣決定"下一個詞元該花在哪里"。這個公式的邏輯說起來其實很樸素：每花出去一個詞元，它應該帶來的質量提升，必須等于它的計算成本，再加上它造成的等待成本，再加上它引入的風險成本。只有當這三項"支出"和質量"收益"正好相等時，資源才被最優地分配了。

研究者用一個小例子來說明這件事有多敏感。假設系統有兩個模型可選：一個便宜的，質量70分，成本1分錢；一個貴的，質量90分，成本5分錢。對于一個低價值的任務，便宜模型更合算；對于一個高價值任務，貴模型才值得。兩者之間有一個"翻轉點"，算下來大約是任務價值等于20。然而，一旦把風險因素加進來——比如便宜模型出錯的概率是5%，貴模型只有1%，而每次出錯的代價是50分——這個翻轉點就從20驟降到約10。也就是說，風險定價的小小改變，會讓最優決策徹底翻轉。而這個計算，每道關卡今天都沒有完整地做。

更深層的經濟學道理是：這個公式里的四個"價格"（質量價值、計算成本、延遲成本、風險成本），其實是整個系統的約束條件所決定的"影子價格"，用經濟學的話說叫"拉格朗日乘數"。這意味著這些價格不是人為拍腦袋定出來的，而是由系統自身的算力預算、延遲上限和風險容忍度內生地決定的。當所有四道關卡都能看到同一套價格并據此行動時，由經濟學中的"福利定理"可以保證：整個系統的資源分配將是帕累托有效的，即沒有任何一方能在不損害他人利益的前提下進一步改善。今天的系統之所以失效，恰恰是因為四道關卡分別只看得到這套價格的一個碎片。

三、路由器：一個看不透你底細的"接單分配員"

回到那個編程助手的故事。請求進來后，第一個面對它的是路由器。路由器要猜：這個任務難不難？值不值得用大模型？但用戶知道自己這個任務有多關鍵，路由器卻不知道。這在經濟學里叫做"信息不對稱"，就像一個二手車市場里，賣家知道車的真實狀況，買家不知道，結果好車壞車都按同一個價格賣，好車賣家吃虧就撤出了市場，最后市場上只剩下壞車——這是喬治·阿克洛夫在1970年提出的"檸檬市場"理論。路由器遇到的是同一問題的鏡像版本：用戶隱藏的不是"車的質量"，而是"任務的難度和價值"，結果路由器容易把困難任務分給便宜模型，最后系統不得不付兩次費用——一次是錯誤模型的嘗試，一次是重新用大模型的修復。

更精妙的是，懂行的用戶完全可以"修飾"自己的請求，讓路由器誤以為任務更高端，從而爭到更好的模型——就像斯賓塞的"信號博弈"理論所描述的，求職者用學歷來向雇主傳遞自己能力的信號，即便這個學歷本身不直接提升工作能力。一個理想的路由器設計，應該像一家餐廳的套餐菜單一樣，給用戶提供一個"自我選擇菜單"：高價套餐對應高價值任務，低價套餐對應低價值任務，讓用戶根據自己真實的需求自行選擇，而不是系統去猜。研究者指出，當前幾乎所有生產系統的路由器都沒有這樣設計——它們在悄悄猜，而這種猜測在長尾任務上系統性地出錯。

路由器的評價標準也因此應該改變。現在人們評價路由器靠的是"準確率"或"節省了多少錢"，但研究者認為真正的指標應該是"遺憾值"——也就是系統實際選了哪個模型，和事后來看最優模型之間的差距，而且這個差距必須包含風險維度，不能只看質量和成本。

四、智能體策略：一個在"自主"與"請示匯報"之間走鋼絲的工頭

路由器選好了模型，接下來這個模型要決定怎么干活。這里涉及"自主程度"的問題。自主程度越高，模型越少打擾用戶，但出了錯也越難補救；自主程度越低，用戶越累，但風險越小。研究者用一個"自主合同"的框架來分析這個問題。

用戶的期望收益，等于任務成功的價值，減去算力成本，減去自主操作出錯的期望損失，減去人工監督的負擔。最優的自主程度，出現在"多一點自主所節省的監督成本"恰好等于"多一點自主所增加的出錯風險"的那個點上。聽起來簡單，但"出錯風險"這個項目極度右偏——絕大多數時候風險很小，但偶爾一次災難性的錯誤代價極高。一個只看平均風險的系統，會嚴重低估"自主"的實際危險。

在模型確定了自主程度之后，還有一個"內部分工"的問題：同樣的詞元預算，應該多少花在"讀代碼"上，多少花在"規劃"上，多少花在"寫代碼"上，多少花在"跑測試驗證"上？研究者指出，這四類操作是互相配合的，而不是互相替代的。就像做一道菜，食材、刀工、火候、調味缺一不可，省掉任何一個環節都會讓整道菜變差，而不只是變"便宜"了。特別是"驗證"這個步驟，現在很多系統傾向于跳過，以節省詞元。但跳過驗證節省的錢，往往要被用戶后續發現錯誤、再次提交請求的成本所抵消，甚至更糟。

還有一個維度是"可逆性"。讀一個文件，是可以撤回的操作；提交一個代碼變更，是不可逆的。越是不可逆的操作，越值得多花一點詞元來確認，就像簽一份合同前要反復審閱，而不是發一條消息前都要審閱。研究者建議，智能體系統應該發布一個明確的"自主權清單"，把不同類型的操作映射到不同的確認要求上：讀取文件可以自由進行，起草內容可以自由進行，提交代碼需要確認，部署上線或轉賬操作需要多方確認。這相當于一家公司的"授權矩陣"，而當前幾乎沒有智能體系統明確發布這樣的清單。

五、推理服務層：一條同時服務所有人的生產線

當模型知道了該做什么，實際生產詞元的工作就交給了推理服務層。這一層面對的是一個經典的"多階段生產+資源競爭"問題。

現代大模型推理有兩個截然不同的階段：一是"預填充"，處理用戶輸入的內容，非常占用GPU的并行計算能力；二是"解碼"，逐詞生成輸出，更受內存帶寬限制。兩者的資源需求特征完全不同，就像一家工廠里的沖壓車間和精加工車間，硬塞在一條流水線上會互相拖累。研究者引用了工業界已有的一些系統研究成果，指出在把這兩個階段拆分之前，很多服務系統的資源利用率遠偏離最優。

更復雜的是多用戶共用同一套服務時的"擁擠問題"。一個占用了大量上下文緩存（KV緩存）的長文本請求，會拖慢所有其他用戶的響應速度，就像高速公路上一輛緩慢的大貨車占據了所有車道。最優的解決方案，是讓每個請求為它實際造成的"額外等待時間"付費——就像高峰期道路擁堵收費的邏輯。但今天絕大多數API都按詞元數量收一個統一的平價，這就意味著長文本用戶享受了"補貼"，短文本用戶承擔了"隱形稅"。

研究者還把"推測解碼"這項技術——用一個小模型先生成候選詞元，再由大模型快速驗證——類比為一種"外包決策"。這種外包在接受率高的時候很劃算，但一旦接受率下降（比如遇到特別復雜的上下文），外包成本就超過了自產成本，這時候更理性的做法是放棄外包，回到大模型直接生成。這個判斷，今天很多系統做得不夠靈活。

研究者的建議是，推理服務層應該把預填充、解碼和緩存三類資源各自對應的"影子價格"暴露出來，讓上游的路由器和智能體策略能夠實時看到這些價格，從而在做決策時就把推理成本納入考量，而不是等到服務層出現擁堵才被動反應。

六、訓練流水線：把今天的工作經驗變成明天的能力資本

當一次任務結束后，這次任務的完整記錄有可能成為訓練數據，提升模型未來的能力。這就是第四個關卡——訓練流水線，它管的是一種特殊的"投資"。

研究者把強化學習訓練中的各類詞元開銷——用于探索的"推演詞元"、用于評估的"驗證詞元"、用于更新模型的"梯度詞元"——類比為一種資本投資組合。在這個類比框架下，監督微調（SFT）是風險最低的投資，就像買國債，收益穩定但天花板低；在線強化學習是風險最高的投資，就像買成長股，可能大賺也可能大虧，收益高度依賴于"驗證器"的質量；而DPO（直接偏好優化）介于兩者之間。驗證詞元在這個框架里扮演著"風險資本"的角色——削減驗證詞元，就像一家金融公司削減風險管理部門的預算，表面上省了錢，實際上讓整個組合的尾部風險急劇上升。

還有緩存作為另一種資本形式。一次任務處理過后，模型可能會把一些中間結果緩存起來，供后續類似任務復用。但緩存本身會"折舊"——隨著時間推移，代碼庫更新了，用戶需求變了，之前緩存的上下文可能已經不再適用。研究者指出，今天的系統普遍跟蹤緩存命中率，卻幾乎不測量緩存的"折舊速度"，也不區分"這次緩存復用對應的任務價值"是否和"原始任務價值"相匹配。一個為低價值任務生成的緩存，被高價值任務復用，可能會引入錯誤，這個代價被完全忽視了。

研究者給出的建議是，訓練流水線和緩存系統都應該像一份財務報告一樣，明確報告三件事：這類投資的折舊速率、緩存命中率按任務價值的分布、以及每單位投資詞元帶來的邊際能力提升估算。只有這樣，這兩種"資本賬戶"才是經濟意義上的資本，而不只是技術意義上的優化手段。

七、失敗模式大全：四個價格錯了一個，全鏈路都出問題

有了這個統一框架，研究者得以系統地梳理當前AI系統里反復出現的七類失敗模式，而且每一類都能精確地指出是哪個"價格"被算錯了。

第一類叫"過度路由"：明明用廉價模型就夠了，卻把請求發給了貴模型，原因是路由器的質量閾值設得太高。第二類叫"路由不足"：明明需要強模型，路由器卻派了弱模型，通常出現在只關心節省成本的系統里。第三類叫"過度委托"：智能體在應該請示用戶的時候自作主張，風險價格被嚴重低估，常見于自動執行代碼或郵件的系統里。第四類叫"驗證不足"：智能體本來應該花詞元跑測試檢驗自己的輸出，卻為了節省成本直接跳過，風險代價被完全忽視，表現為"跳過測試"的流水線。第五類叫"服務擁堵"：延遲成本沒有被納入定價，所有請求被統一排隊，長文本請求拖慢所有人，常見于按詞元統一計價的API。第六類叫"過時推演數據"：強化學習訓練里的推演數據產生時間和使用時間之間間隔太長，這段時間里模型能力或任務分布已經變化，這些推演詞元帶來的能力提升已經大幅衰減，但訓練流水線仍然把它們當新鮮數據使用。第七類叫"緩存濫用"：把一個任務的中間緩存復用到與之價值完全不匹配的另一個任務上，產生靜默的質量問題。

這七類失敗模式在形式上看起來各不相同，但本質上都是同一個方程的某個項被設置為零或無窮大——每一種都是局部理性導致全局失效的具體案例。研究者還指出，在多租戶系統（即多個用戶共享同一套AI服務基礎設施）里，這些失敗模式還會互相疊加：一個霸占大量緩存的用戶拉高了所有人的延遲價格，一個頻繁自主操作的智能體拉高了整個系統的聲譽風險，一個大規模強化學習任務搶占了推理計算資源，讓其他人排更長的隊。真正理想的狀態，是讓所有租戶看到同一套價格并據此競爭資源，形成一個均衡——這是經濟學意義上最有效率的多方資源分配機制，但今天幾乎沒有任何生產系統實現了這一點。

八、反駁與邊界：這套理論能走多遠？

研究者也坦誠地回應了幾個反對意見，并明確劃定了理論的邊界。

有人會說，"詞元經濟"不過是個比喻，不是真正的理論。研究者的回答是：這些比喻不是修辭，每一層都落實到了具體的一階條件公式，而且這些公式是可以用系統日志數據來檢驗的。一個違反了對應一階條件的系統，應該能被另一個滿足該條件的系統帕累托主導——這是一個可以用實驗驗證的預測，而不只是一個隱喻。

有人會說，更好的基本單位是FLOPs（浮點運算次數），而不是詞元——畢竟大模型的訓練成本優化就是以FLOPs為單位來做的。研究者同意，對于預訓練，FLOPs是合適的單位。但對于智能體系統，綁定約束已經不是原始算力，而是延遲、風險和驗證質量，而詞元（而非FLOPs）恰恰保留了這些維度的區分：一個花在預填充上的FLOPs和一個花在工具調用上的FLOPs，在經濟意義上完全不同，詞元這個單位可以標記這種差異，FLOPs不行。

還有人會說，把所有這些都裝進一個強化學習的獎勵函數，讓梯度下降來解決，不就完了嗎？研究者的回答是：強化學習是實現手段，經濟學框架是問題規格說明書。你必須先知道該優化哪個獎勵、什么算市場失靈，才能寫出正確的目標函數。沒有這個規格說明，你可以極其高效地優化一個錯誤的目標——這在現實中已經反復發生，典型癥狀就是詞元數量被壓縮了，但風險調整后的實際收益卻下降了。

研究者也誠實地列出了理論的局限。這套框架以單步邊際條件為核心，不適用于那些價值只有在很長時間之后才能顯現的任務，比如持續數月的軟件工程項目或長期科研工作。它也假設任務價值至少部分可觀測，而實際上很多任務的價值根本沒有被任何系統層級捕獲。此外，把計算成本、延遲和風險統一折算成同一個貨幣單位，在面對絕對性約束（比如法律上的數據不可出境、物理上的能耗上限）時會失效，這時候需要的是更復雜的多維度優先序，而不是簡單的加權求和。

說到底，這篇論文做的事情，與其說是提出了一套新技術，不如說是提出了一套新語言——一種讓AI系統的四個"部門"能夠彼此對話、看到同一張價格單的共同語言。路由器、智能體、服務層、訓練流水線，它們今天各說各話，結果是整體系統的資源分配漏洞百出。研究者的核心診斷是：這不是任何一個部門能力不夠的問題，而是四個部門之間缺乏一套共同賬本的問題。

歸根結底，下一代AI系統的競爭力，可能不在于模型參數有多大，也不只在于每個詞元有多便宜，而在于系統是否有能力在四個不同維度的"價格"之間做出真正聰明的權衡——就像一個好的工程師，不只懂代碼，還懂得在時間、質量和風險之間找到那個剛剛好的平衡點。

你可能已經注意到一件有點諷刺的事：這篇討論"如何聰明地花算力"的論文，本身也是用算力生成的。如果未來的AI系統真的按照這套框架設計，它們在處理這篇論文時，也許會非常仔細地權衡一下：為了理解"邊際詞元分配"這個概念，值不值得多花幾個詞元？答案大概是：值得。

對此感興趣的讀者可以通過arXiv論文編號2605.01214找到這篇由伊利諾伊大學香檳分校發布的完整論文，原文提供了更多數學推導細節和具體的系統設計建議。

Q&A

Q1：什么是"邊際詞元分配"，為什么說它比"節省詞元"更重要？

A：邊際詞元分配關注的是"每多花一個詞元，帶來的收益是否值得"，而不是籠統地少用詞元。舉個例子，如果削減測試驗證步驟能省10個詞元，但導致輸出結果出錯，用戶重新提交請求又花了100個詞元修復，那這次"節省"其實是虧的。只看總詞元數量的系統容易掉入這個陷阱，而邊際分析能精確找出哪些詞元值得花、哪些真的可以省。

Q2：智能體AI系統里的"自主權清單"是什么，為什么需要它？

A：自主權清單是一套規定不同操作需要什么級別確認的規則，類似公司的財務審批權限表。讀取文件可以直接做，起草文本可以直接做，但提交代碼變更需要用戶確認，部署上線或執行不可逆操作則需要多方審核。這套清單的意義在于把"風險"和"操作類型"明確綁定，避免智能體在應該停下來問的時候自作主張，釀成難以挽回的錯誤。目前幾乎沒有商業智能體系統公開發布這樣的清單。

Q3：強化學習訓練里的"驗證詞元"為什么被比作風險資本，削減它有什么后果？

A：在訓練過程中，驗證詞元用于評估模型輸出的質量，幫助判斷哪些學習路徑值得強化。它類似金融機構里的風險管理部門：平時成本顯眼，但一旦撤掉，整個系統的"出錯概率"會悄悄攀升。削減驗證詞元能在賬面上降低訓練成本，但會讓模型更容易學到錯誤的行為模式，最終在實際應用中產生更多錯誤，修復代價遠超節省金額。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.