<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      警惕!大模型成本倒掛:你正在為模型的多余「思考」買單

      0
      分享至



      在選擇使用大模型 (LLM) 時(shí),除了模型性能強(qiáng)弱,價(jià)格也是一個(gè)重要指標(biāo)。人們通常會(huì)用大模型的 API 定價(jià)更貴或更便宜,來比較模型的價(jià)格高低。但事實(shí)上,定價(jià)低的模型真的比定價(jià)高的模型使用起來更便宜嗎?

      如今,一項(xiàng)來自斯坦福、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)和微軟研究院的研究,揭示了 AI 模型中的價(jià)格倒掛現(xiàn)象:低定價(jià)的 AI 模型,反而有可能產(chǎn)生更高的實(shí)際開銷!



      • 論文標(biāo)題:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
      • 論文地址:https://arxiv.org/abs/2603.23971

      圖 1 給出了主流模型的定價(jià)和它們?cè)趯?shí)際任務(wù)上的開銷。



      圖 1: 左圖展示了模型定價(jià)和實(shí)際花銷的關(guān)系,右圖給主流模型定價(jià)和實(shí)際價(jià)格各自排序。揭示了價(jià)格倒掛現(xiàn)象:低定價(jià)的模型反而產(chǎn)生了更高的實(shí)際開銷。

      GPT-5.2 的 API 定價(jià)是 Gemini 3 Flash 的 4.5 倍,但其實(shí)際成本僅為 Gemini 3 Flash 的 81%。類似地,Claude Opus 4.6 的 API 定價(jià)是 Google Gemini 3.1 Pro 的兩倍,但其實(shí)際成本卻低了 35%。

      這到底是怎么回事?今天,我們就一起探討這項(xiàng)研究。

      AI 模型開銷的審計(jì)框架

      為了精準(zhǔn)刻畫 AI 模型的實(shí)際開銷,研究聚焦于 8 個(gè)廣泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務(wù)則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個(gè)主流數(shù)據(jù)集。

      前沿模型通常采用按量付費(fèi)的定價(jià)機(jī)制,即用戶為發(fā)送的每個(gè)查詢分別付費(fèi)。

      這種定價(jià)機(jī)制對(duì)于給定模型通常涉及兩個(gè)組成部分:每單位輸入 token 的價(jià)格,以及每單位輸出 token 的價(jià)格。對(duì)于給定查詢,成本是兩個(gè)價(jià)格按提示 token 數(shù)和輸出 token 數(shù)加權(quán)的總和。(為了便于理解, 下文中的討論都使用平均加權(quán)。 對(duì)更多不同加權(quán)情況感興趣的話,可以在互動(dòng)網(wǎng)站上嘗試:https://price-reversal.streamlit.app/)

      AI 模型的成本倒掛現(xiàn)象



      圖 2: 實(shí)際成本排名在不同任務(wù)之間存在顯著差異。

      測(cè)試發(fā)現(xiàn):定價(jià)排名與實(shí)際成本排名的巨大反差,且這樣的價(jià)格逆轉(zhuǎn)是普遍存在的。根據(jù)固定標(biāo)價(jià) API 定價(jià)進(jìn)行的標(biāo)準(zhǔn)評(píng)估是具有誤導(dǎo)性的。

      例如,Gemini 3 Flash 的標(biāo)價(jià)($3.5)僅為 GPT-5.2 價(jià)格($15.75)的 22%,但其在 MMLUPro 上的實(shí)際成本實(shí)際上是后者的六倍(見圖2)!

      根據(jù) API 標(biāo)價(jià),Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂貴的。其實(shí)際成本幾乎是 Gemini 3.1 Pro 的兩倍。

      為量化價(jià)格逆轉(zhuǎn)的普遍程度,研究人員檢查了所有 8 個(gè)模型組成的 28 個(gè)模型對(duì),在 9 項(xiàng)任務(wù)上的表現(xiàn),共產(chǎn)生 252 次成對(duì)成本比較,其中21.8%(55 次)比較表現(xiàn)出價(jià)格逆轉(zhuǎn)。

      這意味著,僅基于標(biāo)價(jià)的成本判斷中,大約每五次就有一次是錯(cuò)誤的。同時(shí)模型的相對(duì)成本排序高度依賴于任務(wù)。一個(gè)在某個(gè)數(shù)據(jù)集上便宜的的模型可能在另一個(gè)數(shù)據(jù)集上成為最昂貴的之一。

      為什么會(huì)出現(xiàn)倒掛現(xiàn)象?

      我們先來介紹一個(gè)有趣的現(xiàn)象:一個(gè)富人和窮人同時(shí)購買靴子。富人花費(fèi)了 100 元購買了一雙好靴子,而窮人為了省錢,只能支付 15 元購買了壞靴子。好靴子可以使用 10 年,而壞靴子只能使用 1 年。結(jié)果,窮人不得不每年購買一雙壞靴子。一個(gè)悖論就此出現(xiàn)了:窮人為了省錢購買了便宜的靴子,但卻花費(fèi)了更多的錢。這就是社會(huì)經(jīng)濟(jì)學(xué)中著名的靴子理論(Boots Theory):看上去價(jià)格便宜的商品,有可能帶來更高的總成本。

      研究發(fā)現(xiàn)有些 AI 模型也出現(xiàn)了類似的 “靴子現(xiàn)象”, 問題的關(guān)鍵是推理 token。



      圖 3:圖中展示了模型真實(shí)價(jià)格的具體拆分:輸入、推理、輸出。不同模型在相同任務(wù)上消耗的推理token 數(shù)量差異巨大。

      首先,推理 token 是模型開銷的主要來源。如圖 3 所示,在模型的開銷里,輸入的 prompt 和輸出的最終結(jié)果通常只消耗總成本的 10% 不到,而大部分的開銷都來自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導(dǎo)的成本組成部分。其次,不同模型的推理 token 的數(shù)量差距極大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的將近 10 倍。



      圖 4: 在同一道 AIME 題目上,GPT-5.2 使用 562 個(gè)思考 token,而 Gemini 3 Flash 使用超過 11,000 個(gè),導(dǎo)致實(shí)際成本高出 2.5 倍。

      圖 4 給出了一個(gè)具體的例子。給定同一道 AIME 2025 題目,GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣,最終的思路也大致相同。然而,得到這一思路和答案的過程卻大相徑庭:GPT-5.2 僅僅使用約五百個(gè) token 就完成了思考,而 Gemini Flash 卻需要超過一萬個(gè) token。這揭示了開銷逆轉(zhuǎn)的本質(zhì)來源于思考 token 數(shù)量的巨大差距。



      圖 5: 從實(shí)際成本計(jì)算中去除思考 token 成本。(a) 標(biāo)價(jià)排名與實(shí)際成本排名之間的相關(guān)性在所有任務(wù)中均顯著提高。(b) 成對(duì)排名逆轉(zhuǎn)數(shù)平均減少 70%。

      事實(shí)上,去掉思考 token 可以使得實(shí)際開銷和模型定價(jià)保持高度一致。如圖 5 所示,去除思考 token 成本顯著恢復(fù)了所有 9 項(xiàng)任務(wù)的排名一致性,并且使得排名逆轉(zhuǎn)的數(shù)量減少了 70%。這進(jìn)一步驗(yàn)證了思考 token 才是成本倒掛的隱藏殺手。

      我們可以直接預(yù)測(cè)任務(wù)成本嗎?



      圖 6: 實(shí)際開銷的不可預(yù)測(cè)性。對(duì)每一個(gè) AIME 數(shù)據(jù)集上的任務(wù)跑 5 次所產(chǎn)生的推理 token 數(shù)量。對(duì)于固定的任務(wù)和固定的模型,多次實(shí)驗(yàn)所產(chǎn)生的 token 數(shù),也有著巨大的差異。這意味著推理 token 數(shù)量本身就是不可預(yù)測(cè)的。

      既然定價(jià)不能準(zhǔn)確反映實(shí)際開銷,我們是否可以直接預(yù)測(cè)實(shí)際開銷呢?

      實(shí)踐表明:實(shí)際開銷其實(shí)是一個(gè)高度不可預(yù)測(cè)的量!

      如圖 5 所示,研究人員在數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上多次運(yùn)行同一個(gè)模型,發(fā)現(xiàn)它們的推理 token 的數(shù)量差距巨大。例如,對(duì)第 6 個(gè)任務(wù),GPT-5.2 的推理 token 數(shù)最大可達(dá)五萬,最低只需 2 萬,達(dá)到了 2.5 倍的差距。這就意味著,推理 token 數(shù)本身帶有巨大的隨機(jī)性,因此,推理 token 數(shù)具有高度的不確定性和不可預(yù)測(cè)性,從而讓實(shí)際開銷的預(yù)測(cè)變得極為困難。

      結(jié)論

      這一研究發(fā)現(xiàn)了AI 模型領(lǐng)域的靴子現(xiàn)象:定價(jià)更低的模型反而可能帶來更高的實(shí)際開銷。同時(shí),它又指出了實(shí)際開銷的不確定性和不可預(yù)測(cè)性。這表明,要選取物美價(jià)廉的 AI 模型,并不是看看價(jià)目表就夠了。

      作者們還開源了使用的數(shù)據(jù),提供了一個(gè)可互動(dòng)的網(wǎng)站,為后續(xù)研究提供了基礎(chǔ)。

      • 數(shù)據(jù):https://github.com/lchen001/pricing-reversal
      • 網(wǎng)站:https://price-reversal.streamlit.app/

      作者介紹

      本文由來自斯坦福大學(xué)、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

      • Lingjiao Chen,斯坦福大學(xué)博士,微軟研究院資深研究員。
      • Chi Zhang,卡耐基梅隆大學(xué)博士。
      • Yeye He,微軟研究院首席研究員。
      • Ion Stoica,加州伯克利大學(xué)教授,美國工程院院士,Databricks 創(chuàng)始人兼主席。
      • Matei Zaharia,加州伯克利大學(xué)教授,Databricks 創(chuàng)始人兼首席技術(shù)官。
      • James Zou,斯坦福大學(xué)教授。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      四川禁煙怎么不直接關(guān)閉煙店?網(wǎng)友:發(fā)現(xiàn)商機(jī)?

      四川禁煙怎么不直接關(guān)閉煙店?網(wǎng)友:發(fā)現(xiàn)商機(jī)?

      王二哥老搞笑
      2026-05-05 03:45:04
      【英國】王子交稅單曝光,英國人驚了:原來王子是最大地主“包租公”?相當(dāng)于擁有天津

      【英國】王子交稅單曝光,英國人驚了:原來王子是最大地主“包租公”?相當(dāng)于擁有天津

      魯曉芙看歐洲
      2026-05-05 01:09:57
      技術(shù)越牛,死得越快?一個(gè)蘇州新材料老板的深夜困惑

      技術(shù)越牛,死得越快?一個(gè)蘇州新材料老板的深夜困惑

      胡華成
      2026-04-05 18:18:14
      小鵬智駕未來領(lǐng)先主流120倍?我提醒:從無對(duì)手能領(lǐng)先華為100倍!

      小鵬智駕未來領(lǐng)先主流120倍?我提醒:從無對(duì)手能領(lǐng)先華為100倍!

      阿芒娛樂說
      2026-05-03 21:48:53
      亮劍中趙剛死前透露:李云龍當(dāng)年不顧降職也要斬山貓子是另有原因

      亮劍中趙剛死前透露:李云龍當(dāng)年不顧降職也要斬山貓子是另有原因

      呆子的故事
      2026-02-09 14:19:33
      春晚爆紅后,她洗完澡從23樓一躍而下,臨終時(shí)最后喊了聲"媽媽"

      春晚爆紅后,她洗完澡從23樓一躍而下,臨終時(shí)最后喊了聲"媽媽"

      米果說識(shí)
      2026-04-18 16:50:03
      昆明酒店劫持案細(xì)節(jié)披露:歹徒連續(xù)射擊,反恐隊(duì)員防彈衣連中兩槍,“我明顯感覺已中槍”

      昆明酒店劫持案細(xì)節(jié)披露:歹徒連續(xù)射擊,反恐隊(duì)員防彈衣連中兩槍,“我明顯感覺已中槍”

      南方都市報(bào)
      2026-05-04 15:50:16
      特工、逆向工程、舉國發(fā)力,蘇聯(lián)用盡一切手段造芯片,輸在哪了?

      特工、逆向工程、舉國發(fā)力,蘇聯(lián)用盡一切手段造芯片,輸在哪了?

      差評(píng)XPIN
      2026-05-05 00:09:30
      海拔5000米以上的雪山堵成了人山人海,四川阿壩四姑娘山大雪難擋“沖頂大軍”,大峰打卡排隊(duì)超1小時(shí),景區(qū)回應(yīng):雪山排隊(duì)情況屬實(shí)

      海拔5000米以上的雪山堵成了人山人海,四川阿壩四姑娘山大雪難擋“沖頂大軍”,大峰打卡排隊(duì)超1小時(shí),景區(qū)回應(yīng):雪山排隊(duì)情況屬實(shí)

      揚(yáng)子晚報(bào)
      2026-05-04 18:57:09
      記者:李金羽參加發(fā)布會(huì)前清楚即將下課,鐵人開出翻倍重獎(jiǎng)

      記者:李金羽參加發(fā)布會(huì)前清楚即將下課,鐵人開出翻倍重獎(jiǎng)

      懂球帝
      2026-05-04 22:49:51
      熱議李金羽下課:有點(diǎn)突然,鎮(zhèn)不住遼寧這些人;徐正源有鐵血?dú)赓|(zhì)

      熱議李金羽下課:有點(diǎn)突然,鎮(zhèn)不住遼寧這些人;徐正源有鐵血?dú)赓|(zhì)

      懂球帝
      2026-05-04 18:24:14
      吳宜澤18-17奪冠!賽后聽聽對(duì)手 同行和媒體怎么說:中國時(shí)代到來

      吳宜澤18-17奪冠!賽后聽聽對(duì)手 同行和媒體怎么說:中國時(shí)代到來

      侃球熊弟
      2026-05-05 06:49:38
      九州哀哭 瑞典判處一名巴勒斯坦鐵血戰(zhàn)士終生監(jiān)禁

      九州哀哭 瑞典判處一名巴勒斯坦鐵血戰(zhàn)士終生監(jiān)禁

      腌臜潑才
      2026-05-05 09:00:21
      悲催!一輛飛度被人群裹起來,車上扔滿垃圾,還寫著罵人的臟話…

      悲催!一輛飛度被人群裹起來,車上扔滿垃圾,還寫著罵人的臟話…

      火山詩話
      2026-05-05 08:16:25
      8死!丹東發(fā)生一起交通事故,當(dāng)?shù)鼐W(wǎng)友爆料,是“一車摘草莓的”

      8死!丹東發(fā)生一起交通事故,當(dāng)?shù)鼐W(wǎng)友爆料,是“一車摘草莓的”

      火山詩話
      2026-05-04 18:55:32
      六盤水用1200萬抵扣2.2億債務(wù),女子拒絕后遭逮捕,被批不識(shí)抬舉

      六盤水用1200萬抵扣2.2億債務(wù),女子拒絕后遭逮捕,被批不識(shí)抬舉

      干史人
      2025-04-25 08:30:03
      生理旺盛的女性,大多有這3個(gè)特征,超準(zhǔn)!

      生理旺盛的女性,大多有這3個(gè)特征,超準(zhǔn)!

      白宸侃片
      2026-05-05 09:27:52
      上海鬧市被遺忘的寺廟舊址,曾做過20年火葬場(chǎng),現(xiàn)在內(nèi)部竟是民居

      上海鬧市被遺忘的寺廟舊址,曾做過20年火葬場(chǎng),現(xiàn)在內(nèi)部竟是民居

      戶外阿嶄
      2026-05-05 05:26:30
      景區(qū)內(nèi)游客爆發(fā)肢體爭執(zhí),沖突中多人墜落,現(xiàn)場(chǎng)實(shí)景被拍下

      景區(qū)內(nèi)游客爆發(fā)肢體爭執(zhí),沖突中多人墜落,現(xiàn)場(chǎng)實(shí)景被拍下

      星娛叨叨社
      2026-04-30 14:32:32
      羅翔:如果一個(gè)人突然努力工作,業(yè)余時(shí)間開始學(xué)習(xí),不再參加社交活動(dòng),那么,身邊的人可能不僅不會(huì)幫他,還會(huì)拉他下來,原因就一個(gè)!

      羅翔:如果一個(gè)人突然努力工作,業(yè)余時(shí)間開始學(xué)習(xí),不再參加社交活動(dòng),那么,身邊的人可能不僅不會(huì)幫他,還會(huì)拉他下來,原因就一個(gè)!

      譚老師地理大課堂
      2026-04-22 00:03:57
      2026-05-05 10:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12905文章數(shù) 142640關(guān)注度
      往期回顧 全部

      科技要聞

      OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

      頭條要聞

      牛彈琴:中東又出大事 最倒霉的是三個(gè)國家

      頭條要聞

      牛彈琴:中東又出大事 最倒霉的是三個(gè)國家

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺(tái)

      財(cái)經(jīng)要聞

      五一假期,中國年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      旅游
      房產(chǎn)
      手機(jī)
      健康
      時(shí)尚

      旅游要聞

      來安:水鄉(xiāng)風(fēng)光引客來 特色文旅煥生機(jī)

      房產(chǎn)要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      手機(jī)要聞

      蘋果iOS 27支持創(chuàng)建自定義錢包通行證,電影票、健身卡都能添加

      干細(xì)胞治燒燙傷面臨這些“瓶頸”

      參觀了設(shè)計(jì)師花7年打磨的家,太開眼了!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 婷婷五月在线视频| 国产一级区二级区三级区| 97国产视频| 天堂av国产夫妇精品自在线| 男人的天堂噜噜噜久久久| 免费人成视频网站在线18| 免费人成再在线观看视频| 国产JIZzJIzz视频全部免费| 婷婷99狠狠躁天天| 亚洲欧美在线综合一区二区三区| 嗯91色色| 亚洲欧洲精品一区二区| 亚洲sm另类一区二区三区| 97青青草| 成人AV一区二区三区在线观看| 亚洲国产精品日韩专区| 人妻在线无码一区二区三区| 亚洲av高清一区二区三| 高清在线一区二区三区视频| 久久久亚洲国产精品主播| 大桥未久亚洲无AV码在线| 亚洲国产成人综合精品| 免费黄色大全一区二区三区| 精品视频一区二区三区在线观看| 琼中| 丁香五月激情综合| 亚洲国精产品| 亚洲夜夜欢一区二区三区| 3p视频在线观看| 在线观看无码av免费不卡网站 | 国产成人无码av大片大片在线观看| 久久凹凸视频| 五月天激情婷婷婷久久 | zozozo女人与牛交zozozo视频| 欧美色综合天天久久综合精品| 口爆少妇在线视频免费观看| 国产成人免费无码AV| 富阳市| 亚洲欧美日韩第一区中文字幕| 亚洲女初尝黑人巨| 国产综合精品一区二区在线|