<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      花了1000倍的token,效果卻沒有更好:AI Agent隱性賬單長什么樣

      0
      分享至



      如今的 AI Agent 正在大規模落地,其中應用最廣且最受關注的當數 Claude Code,Codex,Cursor 這類 coding agent。過去的一年里,這類 coding agent 產品迭代迅速,在一年內將在 swe-bench- verified 的準確率提高到了 78%+。

      然而,相比簡單的代碼推理或者和代碼相關的聊天,coding agent 的 token 消耗也極為顯著。在使用這種 coding agent 的過程中,最常聽到的抱怨也是:“為什么它解決問題這么啰嗦”,“為什么要這么長篇大論”,以及 “為什么我的 credits 這么快又用完了?”

      這些抱怨的背后暴露出當前 coding agent 的幾大問題:

      1. 不透明: coding agent 消耗 token 的習慣不清晰,行為模式以及不同模型之間的差異不透明;

      2. 不保底:在任務執行前難以知道任務成功與否,但不論是否成功,都要支付相應開銷;

      3. 不可預測:人類估計的問題難度真的和實際的 token 消耗匹配嗎?agent 能否自己判斷問題會消耗多少 token 呢?

      針對這些問題,來自密歇根大學、斯坦福大學等單位的研究者,使用開源的 OpenHands agent 框架,分析了 8 個 frontier 模型在 swe-bench-verified 上的軌跡,第一次給出了一份系統性的解答。



      • 論文標題:HowDoAIAgentsSpendYourMoney? AnalyzingandPre dicting Token Consumption in Agentic Coding Tasks
      • arXiv 論文:https://arxiv.org/pdf/2604.22750
      • 項目網站:https://longjubai.github.io/agent_token_consumption/

      Agentic Coding 有多貴?

      論文首先比較了和 coding 相關的 3 種任務:代碼推理(和代碼相關的單論對話推理任務),代碼問答對話(關于代碼問題的多輪對話聊天),以及 swe-bench 上的 agentic 代碼任務。結果發現,agentic coding 任務在平均輸出輸入 token 比,平均總 token 消耗,以及平均金錢消耗,均指數級高于其他兩種任務。

      這源自于 agentic coding 任務的多輪交互和巨大而復雜的上下文管理:巨量的代碼查詢,文件輸出都會被加入到對話歷史中,導致消耗持續增加,并且 agent 會不斷把歷史上下文、工具輸出反復喂給模型,導致輸入輸出比高達 154:1。這意味著 agentic coding 任務的成本結構與我們所熟悉的對話和推理任務有顯著的不同。



      Agentic Coding 的開銷隨機性高,

      且花的越多不一定做得越好

      論文統計了 swe-bench-verified 中 500 個問題的平均 token 消耗,并將消耗從小到大排序。從圖中可以發現,最貴的任務可能比最便宜的任務多消耗約 700 萬 token,并且越貴的任務 token 消耗的標準差也越大。

      對同一任務的重復運行來說,通過計算最貴的一次運行和最便宜的一次運行的差異,結果發現即使是同一任務,最貴的運行仍可能比最便宜的運行貴 2 兩倍左右。

      進一步分析 token 消耗多少與準確率的關系,論文發現更多的消耗并不能保證更高的準確率。

      對于不同任務來說,論文根據平均 token 消耗的數量進行分組,并統計每組任務的準確率,結果發現 token 消耗更多的任務往往準確率較低。

      對于同一個任務的不同運行來說,將 4 次運行按照 token 消耗排序,分成四個開銷等級,然后統計每一個開銷等級的準確率。結果發現:平均所有模型來看,最高的準確率并不出現在開銷最高的時候,而是出現在較低開銷時。當開銷最低時,任務運行的準確率最低,當提高開銷稍微提高時,準確率達到最高,繼續增加開銷,當開銷第二高和最高時,準確率不增反減 ——更多的資源消耗并沒有帶來更高的任務成功率。





      為了探索高開銷失敗背后的原因,論文檢查并分析了 agent 解決問題軌跡中的兩類行為:閱讀文件以及修改文件。結果發現:開銷更大的運行軌跡中,重復修改和重復查看同一文件的次數也明顯更多,這表明更多的 token 消耗其實伴隨了很多來來回回的 “折騰”,而不是高效的推理,嘗試,和檢查。簡單來說,一味簡單地堆 token 并不能顯著帶來更好的效果。





      哪些模型貴,哪些模型???

      不同模型之間的 token 效率差異極大

      以上的分析是基于所測試的 8 個模型的整體表現特點,在此基礎上,論文對每個模型進行了具體的分析,并比較了他們使用 token 的效率。

      文章測試的八個模型包括 OpenAI 的 GPT-5 和 GPT-5.2,Anthropic 的 Claude Sonnet-3.7、Claude Sonnet-4 和 Claude Sonnet-4.5,Google 的 Gemini-3-Pro Preview,Moonshot AI 的 Kimi-K2,以及阿里巴巴的 Qwen3-Coder-480B。這八個模型覆蓋了五家不同的公司,同時包含閉源 API 模型(GPT、Claude、Gemini 系列)和開源模型(Kimi-K2、Qwen3-Coder-480B)。其中 Claude Sonnet 有三個版本、GPT 有兩個版本,這樣既包含了跨公司的橫向對比,也有同一家族內不同代際的縱向對比。

      通過觀察不同模型的 token 消耗與任務準確率的關系,發現不同模型間的差異是系統性的,不是因為任務難度不同, 而是模型自身的行為習慣。例如 GPT-5 以及 GPT-5.2 可以以較低的 token 成本達到不錯的準確率,但 Kimi-K2 在成本較高的同時準確率卻并沒有很高。在同樣的 500 個任務下,Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗約 150 萬 token。





      論文進一步選出了兩個任務子集:所有模型都成功的任務和左右模型都失敗的任務,并再次統計不同模型的 token 消耗。結果發現模型的 token 消耗排序基本不變,并且所有模型在失敗任務子集上的 token 消耗都多于成功子集,不同模型從失敗子集到成功子集的 token 消耗增量也各不相同。

      是否有辦法對任務的 token 消耗

      進行提前預測?

      人類專家對任務難度的判斷與 agent 實際 token 消耗并不完全吻合

      當了解了 agentic coding 的開銷后,下一個問題便是:在執行任務之前,是否有辦法根據要執行的任務來預測開銷?

      文章首先分析人類專家所理解的任務難度是否可以作為預測 agent token 開銷的標準。在 swe-bench-verified 中,每一個任務都有人類專家所標記的任務難度,按照人類專家預期的完成時間分為三檔:“< 15 min”,“15 min - 1 hr”,“> 1 hr”。如果說人類消耗的時間就相當于 agent 消耗的 token,那么人類所估計的任務難度是否和 agent 的 token 開銷是吻合的呢?



      論文將不同任務根據 token 開銷進行排序,并計算它與人類標注難度的相關性。結果發現 Kendall tau = 0.32,表明人類專家對任務難度的判斷和 Agent 實際消耗的 token 之間只有很弱的相關性。

      其中 6.7% 的 "簡單" 任務比平均 "困難" 任務還貴,11.1% 的 "困難" 任務比平均 "簡單" 任務還便宜 —— 更說明了人類程序員和 AI Agent 對任務的 "復雜度認知" 是不同的維度。

      Agent 自己是否可以對任務的 token 消耗做出預測?

      既然人類預測的任務難度和 agent 的實際任務消耗有所差異,那么是否可以讓 agent 自己來預測自己的消耗?

      論文緊接著對 agent 的自預測進行了嘗試:在這部分實驗中 agent 所有的工具和 harness 的架構都得到了保留,只有在系統提示詞中將任務從之前的 “解決問題” 變成了 “預估開銷”,這樣一來,就可以最大程度的表流 agent 本身的特征和功能,并讓它得以使用同樣的工具對代碼庫進行多輪探索,測試和推理。



      論文中用預測的開銷和實際開銷的相關性作為衡量預測準確率的指標,并同時統計了做預測所消耗的 token。結果顯示,模型作出的預測與實際的相關性最高只有 0.39(Claude Sonnet-4.5 的 output token),大多數模型都在 0.2-0.3 之間,且對 output token 的預測比 input token 更加準確。在成本方面,大部分模型作出預測所需要的成本都小于實際任務執行成本的一半,除了早期的 Claude Sonnet-3.7 和 4,一度超過真正 task 執行成本的兩倍。

      文章進一步分析發現所有的模型都低估了任務的實際消耗,尤其對 input token 的低估特別嚴重。





      因此,不管是人類專家還是 agent 自己,對 token 消耗預測目前只能作為粗粒度的信號,離精確的事前定價還有很大距離。

      總結

      文章通過對 coding agent 軌跡的分析,發現 Agent 的 token 消耗以 input token 為主導,且在不同問題之間以及同一問題的不同運行之間都存在很高的隨機性。不同模型的 token 效率差異顯著,且更多的 token 消耗并不能保證更高的正確率。在執行前成本預測方面,人類理解的任務難度與 Agent 的實際 token 消耗并不吻合,Agent 自身的預估也存在準確率較低和普遍低估的問題。未來潛在的研究方向包括更高效的 Agent 設計,以及更好的開銷預測與管理方法。

      作者介紹:

      本文第一作者 Longju Bai 是密歇根大學一年級博士生,通訊作者 Jiaxin Pei 現為斯坦福大學博士后研究員,即將入職得克薩斯大學奧斯汀分校擔任助理教授。合作者包括來自斯坦福大學的 Zhemin Huang 和 Erik Brynjolfsson,來自 All Hands AI 的 Xingyao Wang,來自 Google DeepMind 的 Jiao Sun,來自密歇根大學的 Rada Mihalcea,以及來自斯坦福大學和麻省理工學院的 Alex Pentland。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大爆冷!東部第一慘遭淘汰!騎士4-3活塞,恭喜哈登進東部決賽

      大爆冷!東部第一慘遭淘汰!騎士4-3活塞,恭喜哈登進東部決賽

      籃球掃地僧
      2026-05-18 12:39:56
      中年男性破產被“斬殺”四件套:陽痿、失業、老婆出軌離婚和心梗

      中年男性破產被“斬殺”四件套:陽痿、失業、老婆出軌離婚和心梗

      黯泉
      2026-05-09 20:15:36
      剛奪世界冠軍就停產?0.1毫米誤差,寧虧20萬也不賭命

      剛奪世界冠軍就停產?0.1毫米誤差,寧虧20萬也不賭命

      生活魔術專家
      2026-05-17 11:15:36
      一家長稱兒子早戀被叫學校,想開寶馬鎮住對方家長,評論玩梗笑死

      一家長稱兒子早戀被叫學校,想開寶馬鎮住對方家長,評論玩梗笑死

      觀察鑒娛
      2026-05-13 11:22:56
      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      史不語
      2026-05-13 08:10:10
      桑葚立大功!多國科學家研究發現:連續補充4周,睪酮水平提升32%

      桑葚立大功!多國科學家研究發現:連續補充4周,睪酮水平提升32%

      39健康網
      2026-05-17 18:30:42
      回報率高達30倍的《給阿嬤的情書》,10億票房導演至少能賺這個數

      回報率高達30倍的《給阿嬤的情書》,10億票房導演至少能賺這個數

      娛樂故事
      2026-05-15 13:46:11
      武漢街頭的“蘿卜快跑”怎么不見了?

      武漢街頭的“蘿卜快跑”怎么不見了?

      石辰搞笑日常
      2026-05-18 12:04:49
      固態電池一旦上車,最先被淘汰的不是燃油車,而是現在的新能源車

      固態電池一旦上車,最先被淘汰的不是燃油車,而是現在的新能源車

      老特有話說
      2026-05-17 13:11:49
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      武大取消預約入校后食堂爆滿,有游客爬樹拍照,博主直播學生上體育課?校方回應

      武大取消預約入校后食堂爆滿,有游客爬樹拍照,博主直播學生上體育課?校方回應

      上游新聞
      2026-05-17 17:11:14
      37歲楊穎貴州活動照曝光!面相變了臉腫嘴歪眼沒光,顏值大不如前

      37歲楊穎貴州活動照曝光!面相變了臉腫嘴歪眼沒光,顏值大不如前

      蒂蒂茱家
      2026-05-18 10:33:58
      太尷尬了!抄10遍字詞被家長投訴處罰,老師直接叫停作業,引熱議

      太尷尬了!抄10遍字詞被家長投訴處罰,老師直接叫停作業,引熱議

      火山詩話
      2026-05-18 10:53:08
      張藝謀未料陳婷會親手否認27年婚姻關系

      張藝謀未料陳婷會親手否認27年婚姻關系

      觀察者海風
      2026-05-14 05:37:04
      27.3萬起!特斯拉宣布:新車調價

      27.3萬起!特斯拉宣布:新車調價

      高科技愛好者
      2026-05-17 22:46:47
      卡拉斯稱:中美俄都想分裂歐盟

      卡拉斯稱:中美俄都想分裂歐盟

      觀察者網
      2026-05-18 08:36:06
      離婚證剛到手我就消失,婆婆手術室外哭求:快救救兒子

      離婚證剛到手我就消失,婆婆手術室外哭求:快救救兒子

      王二哥老搞笑
      2026-05-18 11:17:43
      所有動物在交配時都會有快感嗎?

      所有動物在交配時都會有快感嗎?

      宇宙時空
      2026-05-16 13:54:55
      車主理賠換玻璃不讓去4S店、不給換原廠?平安車險:正對接處理

      車主理賠換玻璃不讓去4S店、不給換原廠?平安車險:正對接處理

      新京報
      2026-05-17 10:38:08
      1960年,譚政被降為總政副主任,羅榮桓問:他怎么會反對毛主席?

      1960年,譚政被降為總政副主任,羅榮桓問:他怎么會反對毛主席?

      大運河時空
      2026-05-17 13:00:03
      2026-05-18 13:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13019文章數 142650關注度
      往期回顧 全部

      科技要聞

      國產大模型集體更新后能力有多強?

      頭條要聞

      特朗普嚴厲警告"臺獨"后 賴清德首度發聲被指態度強硬

      頭條要聞

      特朗普嚴厲警告"臺獨"后 賴清德首度發聲被指態度強硬

      體育要聞

      哈登晉級東決:第5次分區決賽第5次贏搶七

      娛樂要聞

      小S曬全家福懷念大S,爺爺奶奶最疼姐姐

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      小米YU7 GT定檔5月21日19:00上市 跑車級轎跑SUV

      態度原創

      健康
      教育
      旅游
      時尚
      房產

      專家揭秘干細胞回輸的安全風險

      教育要聞

      孩子主動表達的語言發展與成長策略

      旅游要聞

      鶴崗:深耕賞花經濟 賦能文旅發展

      夏天褲子不用多買,提前準備幾條休閑的闊腿褲,百搭舒適顯瘦

      房產要聞

      最新數據!海口二手房價,開始連漲!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕久久久人妻无码| JULIA一区二区三区?在线观看| 欧美黑人一区| 午夜精品一区二区三区成人| 精品人妻少妇一区二区三区| 亚洲熟妇AV乱码在线观看| 日本黄网站免费| 亚洲国产成人久久综合区| 国产精品毛片av999999| 日本高清一区二区三| 免费观看的av在线播放| 欧美日韩国产网站| 国产日韩一区二区三免费高清| 国产精品色内内在线播放| 一本色道久久综合狠狠躁小说 | 福利一区二区在线观看| 国产亚洲av手机在线观看| 特殊重囗味sm在线观看无码| 日韩理论视频| 少妇人妻偷人偷人精品| 狠狠色噜噜狠狠狠狠97俺也去| 可以免费看的天堂av| 另类 专区 欧美 制服| 亚洲乱码一区av春药高潮| 国产日韩欧美精品区性色| 欧美日韩免费专区在线观看| 97se亚洲综合自在线| 竹山县| 国产免费激情视频在线| 视频一区二区三区四区不卡| www.91久久| 国产精一二三| 亚洲国产人成在线观看69网站| 在线成人| 人妻熟女一区二区三区app下载| 香蕉久久夜色精品国产小说| 久热中文字幕在线精品观| 成人激情视频一区二区三区| 欧美叉叉叉bbb网站| 精品欧洲AV无码一区二区男男| 精品久久精品久久精品久久|