![]()
這項由伊利諾伊大學香檳分校發布的研究成果以預印本形式發表于2026年5月,論文編號為arXiv:2605.01214,感興趣的讀者可通過該編號查閱完整原文。
每當你向AI助手發出一條指令,比如"幫我修一下這段代碼",你可能以為系統只是簡單地把你的話翻譯成了一個答案。但事實上,在你的請求被處理的短短幾秒內,系統已經悄悄做出了四個完全不同性質的"花錢決策":該派哪位"員工"來接單?這位員工該怎么安排自己的工作時間?公司的生產線該如何分配算力資源?這次的工作經驗值不值得被寫進"員工手冊"供以后學習?這四個問題,今天的AI系統往往各自為政地回答,而這篇論文的核心觀點正是:這樣做,會造成系統性的資源浪費。
研究者的核心主張可以用一句話概括:所有的智能體AI系統,本質上都是一個"邊際算力分配經濟體",而非單純的文字生成機器。這個聽起來有點繞口的概念,換成大白話其實是:每一個計算單元(即每一個"詞元",也就是AI生成文字時的最小單位)的使用,都應該像一家公司精打細算地分配預算一樣,問清楚"這筆錢花在這里,到底值不值"。
一、四個人各管一攤,卻不知道對方在做什么
以一個開發者向AI編程助手說"CI測試里auth/login這個功能掛了,幫我修一下"為例,這條請求在進入系統之后,會經歷四道關卡,而每道關卡的"管事人"都只看得到整件事的一小塊。
第一道關卡是"路由器",它負責決定讓哪個模型來回答這個問題。是派一個便宜但可能不夠聰明的小模型,還是派一個貴但更可靠的大模型?路由器看的是"錢"——每百萬詞元的成本——和"質量",但它看不到后續的風險。第二道關卡是"智能體策略",它負責決定被選中的模型該怎么用自己的"時間":是先讀遍整個代碼倉庫,還是直接動手寫,還是先規劃再行動,還是遇到不確定的情況就向用戶確認?這道關卡關注的是"風險"——一個自主操作的錯誤代價有多大。第三道關卡是"推理服務層",它負責實際把一個個詞元生產出來,要協調好"預填充"(處理輸入)和"解碼"(生成輸出)兩種不同的計算模式,還要管理內存緩存,以免排隊堵塞。這道關卡關注的是"延遲"——用戶得等多久。第四道關卡是"訓練流水線",它負責在這次任務結束后評估:這次的操作記錄值不值得拿去訓練模型,以提升未來的能力?這道關卡關注的是"未來的收益"——現在花的學習成本能不能換來長期的能力提升。
這四道關卡的管事人分別是:用戶(知道這件事有多值錢)、運營商(知道GPU算力有多貴)、SLA服務協議(知道排隊延遲有多大影響)、以及安全團隊(知道一個錯誤操作的后果有多嚴重)。問題就在于,沒有任何一道關卡能同時看到這四個維度的信息,于是每道關卡都在自己的小天地里"最優",但合在一起卻往往"失優"。
二、一個公式,統一四個世界
研究者提出了一個統一的決策公式,用來描述系統在每一步應該怎樣決定"下一個詞元該花在哪里"。這個公式的邏輯說起來其實很樸素:每花出去一個詞元,它應該帶來的質量提升,必須等于它的計算成本,再加上它造成的等待成本,再加上它引入的風險成本。只有當這三項"支出"和質量"收益"正好相等時,資源才被最優地分配了。
研究者用一個小例子來說明這件事有多敏感。假設系統有兩個模型可選:一個便宜的,質量70分,成本1分錢;一個貴的,質量90分,成本5分錢。對于一個低價值的任務,便宜模型更合算;對于一個高價值任務,貴模型才值得。兩者之間有一個"翻轉點",算下來大約是任務價值等于20。然而,一旦把風險因素加進來——比如便宜模型出錯的概率是5%,貴模型只有1%,而每次出錯的代價是50分——這個翻轉點就從20驟降到約10。也就是說,風險定價的小小改變,會讓最優決策徹底翻轉。而這個計算,每道關卡今天都沒有完整地做。
更深層的經濟學道理是:這個公式里的四個"價格"(質量價值、計算成本、延遲成本、風險成本),其實是整個系統的約束條件所決定的"影子價格",用經濟學的話說叫"拉格朗日乘數"。這意味著這些價格不是人為拍腦袋定出來的,而是由系統自身的算力預算、延遲上限和風險容忍度內生地決定的。當所有四道關卡都能看到同一套價格并據此行動時,由經濟學中的"福利定理"可以保證:整個系統的資源分配將是帕累托有效的,即沒有任何一方能在不損害他人利益的前提下進一步改善。今天的系統之所以失效,恰恰是因為四道關卡分別只看得到這套價格的一個碎片。
三、路由器:一個看不透你底細的"接單分配員"
回到那個編程助手的故事。請求進來后,第一個面對它的是路由器。路由器要猜:這個任務難不難?值不值得用大模型?但用戶知道自己這個任務有多關鍵,路由器卻不知道。這在經濟學里叫做"信息不對稱",就像一個二手車市場里,賣家知道車的真實狀況,買家不知道,結果好車壞車都按同一個價格賣,好車賣家吃虧就撤出了市場,最后市場上只剩下壞車——這是喬治·阿克洛夫在1970年提出的"檸檬市場"理論。路由器遇到的是同一問題的鏡像版本:用戶隱藏的不是"車的質量",而是"任務的難度和價值",結果路由器容易把困難任務分給便宜模型,最后系統不得不付兩次費用——一次是錯誤模型的嘗試,一次是重新用大模型的修復。
更精妙的是,懂行的用戶完全可以"修飾"自己的請求,讓路由器誤以為任務更高端,從而爭到更好的模型——就像斯賓塞的"信號博弈"理論所描述的,求職者用學歷來向雇主傳遞自己能力的信號,即便這個學歷本身不直接提升工作能力。一個理想的路由器設計,應該像一家餐廳的套餐菜單一樣,給用戶提供一個"自我選擇菜單":高價套餐對應高價值任務,低價套餐對應低價值任務,讓用戶根據自己真實的需求自行選擇,而不是系統去猜。研究者指出,當前幾乎所有生產系統的路由器都沒有這樣設計——它們在悄悄猜,而這種猜測在長尾任務上系統性地出錯。
路由器的評價標準也因此應該改變。現在人們評價路由器靠的是"準確率"或"節省了多少錢",但研究者認為真正的指標應該是"遺憾值"——也就是系統實際選了哪個模型,和事后來看最優模型之間的差距,而且這個差距必須包含風險維度,不能只看質量和成本。
四、智能體策略:一個在"自主"與"請示匯報"之間走鋼絲的工頭
路由器選好了模型,接下來這個模型要決定怎么干活。這里涉及"自主程度"的問題。自主程度越高,模型越少打擾用戶,但出了錯也越難補救;自主程度越低,用戶越累,但風險越小。研究者用一個"自主合同"的框架來分析這個問題。
用戶的期望收益,等于任務成功的價值,減去算力成本,減去自主操作出錯的期望損失,減去人工監督的負擔。最優的自主程度,出現在"多一點自主所節省的監督成本"恰好等于"多一點自主所增加的出錯風險"的那個點上。聽起來簡單,但"出錯風險"這個項目極度右偏——絕大多數時候風險很小,但偶爾一次災難性的錯誤代價極高。一個只看平均風險的系統,會嚴重低估"自主"的實際危險。
在模型確定了自主程度之后,還有一個"內部分工"的問題:同樣的詞元預算,應該多少花在"讀代碼"上,多少花在"規劃"上,多少花在"寫代碼"上,多少花在"跑測試驗證"上?研究者指出,這四類操作是互相配合的,而不是互相替代的。就像做一道菜,食材、刀工、火候、調味缺一不可,省掉任何一個環節都會讓整道菜變差,而不只是變"便宜"了。特別是"驗證"這個步驟,現在很多系統傾向于跳過,以節省詞元。但跳過驗證節省的錢,往往要被用戶后續發現錯誤、再次提交請求的成本所抵消,甚至更糟。
還有一個維度是"可逆性"。讀一個文件,是可以撤回的操作;提交一個代碼變更,是不可逆的。越是不可逆的操作,越值得多花一點詞元來確認,就像簽一份合同前要反復審閱,而不是發一條消息前都要審閱。研究者建議,智能體系統應該發布一個明確的"自主權清單",把不同類型的操作映射到不同的確認要求上:讀取文件可以自由進行,起草內容可以自由進行,提交代碼需要確認,部署上線或轉賬操作需要多方確認。這相當于一家公司的"授權矩陣",而當前幾乎沒有智能體系統明確發布這樣的清單。
五、推理服務層:一條同時服務所有人的生產線
當模型知道了該做什么,實際生產詞元的工作就交給了推理服務層。這一層面對的是一個經典的"多階段生產+資源競爭"問題。
現代大模型推理有兩個截然不同的階段:一是"預填充",處理用戶輸入的內容,非常占用GPU的并行計算能力;二是"解碼",逐詞生成輸出,更受內存帶寬限制。兩者的資源需求特征完全不同,就像一家工廠里的沖壓車間和精加工車間,硬塞在一條流水線上會互相拖累。研究者引用了工業界已有的一些系統研究成果,指出在把這兩個階段拆分之前,很多服務系統的資源利用率遠偏離最優。
更復雜的是多用戶共用同一套服務時的"擁擠問題"。一個占用了大量上下文緩存(KV緩存)的長文本請求,會拖慢所有其他用戶的響應速度,就像高速公路上一輛緩慢的大貨車占據了所有車道。最優的解決方案,是讓每個請求為它實際造成的"額外等待時間"付費——就像高峰期道路擁堵收費的邏輯。但今天絕大多數API都按詞元數量收一個統一的平價,這就意味著長文本用戶享受了"補貼",短文本用戶承擔了"隱形稅"。
研究者還把"推測解碼"這項技術——用一個小模型先生成候選詞元,再由大模型快速驗證——類比為一種"外包決策"。這種外包在接受率高的時候很劃算,但一旦接受率下降(比如遇到特別復雜的上下文),外包成本就超過了自產成本,這時候更理性的做法是放棄外包,回到大模型直接生成。這個判斷,今天很多系統做得不夠靈活。
研究者的建議是,推理服務層應該把預填充、解碼和緩存三類資源各自對應的"影子價格"暴露出來,讓上游的路由器和智能體策略能夠實時看到這些價格,從而在做決策時就把推理成本納入考量,而不是等到服務層出現擁堵才被動反應。
六、訓練流水線:把今天的工作經驗變成明天的能力資本
當一次任務結束后,這次任務的完整記錄有可能成為訓練數據,提升模型未來的能力。這就是第四個關卡——訓練流水線,它管的是一種特殊的"投資"。
研究者把強化學習訓練中的各類詞元開銷——用于探索的"推演詞元"、用于評估的"驗證詞元"、用于更新模型的"梯度詞元"——類比為一種資本投資組合。在這個類比框架下,監督微調(SFT)是風險最低的投資,就像買國債,收益穩定但天花板低;在線強化學習是風險最高的投資,就像買成長股,可能大賺也可能大虧,收益高度依賴于"驗證器"的質量;而DPO(直接偏好優化)介于兩者之間。驗證詞元在這個框架里扮演著"風險資本"的角色——削減驗證詞元,就像一家金融公司削減風險管理部門的預算,表面上省了錢,實際上讓整個組合的尾部風險急劇上升。
還有緩存作為另一種資本形式。一次任務處理過后,模型可能會把一些中間結果緩存起來,供后續類似任務復用。但緩存本身會"折舊"——隨著時間推移,代碼庫更新了,用戶需求變了,之前緩存的上下文可能已經不再適用。研究者指出,今天的系統普遍跟蹤緩存命中率,卻幾乎不測量緩存的"折舊速度",也不區分"這次緩存復用對應的任務價值"是否和"原始任務價值"相匹配。一個為低價值任務生成的緩存,被高價值任務復用,可能會引入錯誤,這個代價被完全忽視了。
研究者給出的建議是,訓練流水線和緩存系統都應該像一份財務報告一樣,明確報告三件事:這類投資的折舊速率、緩存命中率按任務價值的分布、以及每單位投資詞元帶來的邊際能力提升估算。只有這樣,這兩種"資本賬戶"才是經濟意義上的資本,而不只是技術意義上的優化手段。
七、失敗模式大全:四個價格錯了一個,全鏈路都出問題
有了這個統一框架,研究者得以系統地梳理當前AI系統里反復出現的七類失敗模式,而且每一類都能精確地指出是哪個"價格"被算錯了。
第一類叫"過度路由":明明用廉價模型就夠了,卻把請求發給了貴模型,原因是路由器的質量閾值設得太高。第二類叫"路由不足":明明需要強模型,路由器卻派了弱模型,通常出現在只關心節省成本的系統里。第三類叫"過度委托":智能體在應該請示用戶的時候自作主張,風險價格被嚴重低估,常見于自動執行代碼或郵件的系統里。第四類叫"驗證不足":智能體本來應該花詞元跑測試檢驗自己的輸出,卻為了節省成本直接跳過,風險代價被完全忽視,表現為"跳過測試"的流水線。第五類叫"服務擁堵":延遲成本沒有被納入定價,所有請求被統一排隊,長文本請求拖慢所有人,常見于按詞元統一計價的API。第六類叫"過時推演數據":強化學習訓練里的推演數據產生時間和使用時間之間間隔太長,這段時間里模型能力或任務分布已經變化,這些推演詞元帶來的能力提升已經大幅衰減,但訓練流水線仍然把它們當新鮮數據使用。第七類叫"緩存濫用":把一個任務的中間緩存復用到與之價值完全不匹配的另一個任務上,產生靜默的質量問題。
這七類失敗模式在形式上看起來各不相同,但本質上都是同一個方程的某個項被設置為零或無窮大——每一種都是局部理性導致全局失效的具體案例。研究者還指出,在多租戶系統(即多個用戶共享同一套AI服務基礎設施)里,這些失敗模式還會互相疊加:一個霸占大量緩存的用戶拉高了所有人的延遲價格,一個頻繁自主操作的智能體拉高了整個系統的聲譽風險,一個大規模強化學習任務搶占了推理計算資源,讓其他人排更長的隊。真正理想的狀態,是讓所有租戶看到同一套價格并據此競爭資源,形成一個均衡——這是經濟學意義上最有效率的多方資源分配機制,但今天幾乎沒有任何生產系統實現了這一點。
八、反駁與邊界:這套理論能走多遠?
研究者也坦誠地回應了幾個反對意見,并明確劃定了理論的邊界。
有人會說,"詞元經濟"不過是個比喻,不是真正的理論。研究者的回答是:這些比喻不是修辭,每一層都落實到了具體的一階條件公式,而且這些公式是可以用系統日志數據來檢驗的。一個違反了對應一階條件的系統,應該能被另一個滿足該條件的系統帕累托主導——這是一個可以用實驗驗證的預測,而不只是一個隱喻。
有人會說,更好的基本單位是FLOPs(浮點運算次數),而不是詞元——畢竟大模型的訓練成本優化就是以FLOPs為單位來做的。研究者同意,對于預訓練,FLOPs是合適的單位。但對于智能體系統,綁定約束已經不是原始算力,而是延遲、風險和驗證質量,而詞元(而非FLOPs)恰恰保留了這些維度的區分:一個花在預填充上的FLOPs和一個花在工具調用上的FLOPs,在經濟意義上完全不同,詞元這個單位可以標記這種差異,FLOPs不行。
還有人會說,把所有這些都裝進一個強化學習的獎勵函數,讓梯度下降來解決,不就完了嗎?研究者的回答是:強化學習是實現手段,經濟學框架是問題規格說明書。你必須先知道該優化哪個獎勵、什么算市場失靈,才能寫出正確的目標函數。沒有這個規格說明,你可以極其高效地優化一個錯誤的目標——這在現實中已經反復發生,典型癥狀就是詞元數量被壓縮了,但風險調整后的實際收益卻下降了。
研究者也誠實地列出了理論的局限。這套框架以單步邊際條件為核心,不適用于那些價值只有在很長時間之后才能顯現的任務,比如持續數月的軟件工程項目或長期科研工作。它也假設任務價值至少部分可觀測,而實際上很多任務的價值根本沒有被任何系統層級捕獲。此外,把計算成本、延遲和風險統一折算成同一個貨幣單位,在面對絕對性約束(比如法律上的數據不可出境、物理上的能耗上限)時會失效,這時候需要的是更復雜的多維度優先序,而不是簡單的加權求和。
說到底,這篇論文做的事情,與其說是提出了一套新技術,不如說是提出了一套新語言——一種讓AI系統的四個"部門"能夠彼此對話、看到同一張價格單的共同語言。路由器、智能體、服務層、訓練流水線,它們今天各說各話,結果是整體系統的資源分配漏洞百出。研究者的核心診斷是:這不是任何一個部門能力不夠的問題,而是四個部門之間缺乏一套共同賬本的問題。
歸根結底,下一代AI系統的競爭力,可能不在于模型參數有多大,也不只在于每個詞元有多便宜,而在于系統是否有能力在四個不同維度的"價格"之間做出真正聰明的權衡——就像一個好的工程師,不只懂代碼,還懂得在時間、質量和風險之間找到那個剛剛好的平衡點。
你可能已經注意到一件有點諷刺的事:這篇討論"如何聰明地花算力"的論文,本身也是用算力生成的。如果未來的AI系統真的按照這套框架設計,它們在處理這篇論文時,也許會非常仔細地權衡一下:為了理解"邊際詞元分配"這個概念,值不值得多花幾個詞元?答案大概是:值得。
對此感興趣的讀者可以通過arXiv論文編號2605.01214找到這篇由伊利諾伊大學香檳分校發布的完整論文,原文提供了更多數學推導細節和具體的系統設計建議。
Q&A
Q1:什么是"邊際詞元分配",為什么說它比"節省詞元"更重要?
A:邊際詞元分配關注的是"每多花一個詞元,帶來的收益是否值得",而不是籠統地少用詞元。舉個例子,如果削減測試驗證步驟能省10個詞元,但導致輸出結果出錯,用戶重新提交請求又花了100個詞元修復,那這次"節省"其實是虧的。只看總詞元數量的系統容易掉入這個陷阱,而邊際分析能精確找出哪些詞元值得花、哪些真的可以省。
Q2:智能體AI系統里的"自主權清單"是什么,為什么需要它?
A:自主權清單是一套規定不同操作需要什么級別確認的規則,類似公司的財務審批權限表。讀取文件可以直接做,起草文本可以直接做,但提交代碼變更需要用戶確認,部署上線或執行不可逆操作則需要多方審核。這套清單的意義在于把"風險"和"操作類型"明確綁定,避免智能體在應該停下來問的時候自作主張,釀成難以挽回的錯誤。目前幾乎沒有商業智能體系統公開發布這樣的清單。
Q3:強化學習訓練里的"驗證詞元"為什么被比作風險資本,削減它有什么后果?
A:在訓練過程中,驗證詞元用于評估模型輸出的質量,幫助判斷哪些學習路徑值得強化。它類似金融機構里的風險管理部門:平時成本顯眼,但一旦撤掉,整個系統的"出錯概率"會悄悄攀升。削減驗證詞元能在賬面上降低訓練成本,但會讓模型更容易學到錯誤的行為模式,最終在實際應用中產生更多錯誤,修復代價遠超節省金額。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.