<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      牛津學者: AI 越來越像人了,但用得起嗎

      0
      分享至

      當人們熱衷于討論 AI 智能體還能變得多強時,Toby Ord 把問題拉回到了一個更現實的維度:成本。 本文基于其文章 《Are the Costs of AI Agents Also Rising Exponentially?》 做延展解讀,嘗試回答一個值得所有人關注的問題——AI 不斷突破任務時長邊界的同時,它的使用成本是否也在悄然逼近,甚至接近人類勞動成本?

      AI 智能體的成本,也在指數級上升嗎?

      關于 AI 近期發展,有一個極其重要、卻幾乎很少被認真討論的問題。

      過去幾年,我們已經反復看到 METR 的圖表:AI 智能體能夠完成的任務時長,正在以驚人的速度增長。7 年前,GPT-2 只能處理那些只需要幾秒鐘的軟件工程任務;而如今,最新模型已經能夠以約 50% 的成功率,完成那些通常需要人類數小時才能完成的任務。


      隨著這一趨勢沒有明顯放緩,許多人自然開始進一步外推:AI 何時能完成一整天的工程任務?一整周?甚至一整年?

      但在這些討論中,往往缺少一個關鍵變量——成本

      只看能力增長,還不夠

      過去 7 年間,AI 系統本身經歷了指數級擴張。模型參數量增長了數千倍,而單個任務中使用的 token 數量更是增長了數萬倍。雖然研究者也持續提升了效率,但一個完全合理的推測是:為了實現 METR 所展示的“最優表現”,其背后的成本也很可能在持續上升,甚至同樣呈指數增長。

      這件事本身未必一定糟糕。

      比如,如果 AI 每年能夠處理的任務時長增長 3 倍,而達到這種能力所需的成本也同步增長 3 倍,那么 AI 相對于人類的成本競爭力并沒有發生根本變化。甚至如果成本增長慢于能力增長,那么 AI 實際上會變得越來越便宜。

      真正值得警惕的是另一種情況:如果成本增長速度快于任務時長增長速度,會發生什么?

      如果真是這樣,那么最前沿的 AI 系統,雖然在“能力上”越來越強,但在“經濟上”可能反而越來越不劃算。METR 的時間跨度趨勢,也就可能變得具有誤導性:它展示的是技術邊界如何不斷推進,但其中一部分進步,可能只是因為投入了越來越奢侈的推理算力。

      那樣的話,最先進的 AI 更像是性能競賽中的“一級方程式賽車”——它展示了什么是可能的,卻不一定展示了什么是現實可用的。

      一個更關鍵的問題:AI 的“每小時成本”如何變化?

      因此,真正值得追問的問題應該是:

      AI 智能體的“每小時成本”究竟在如何變化?

      這里所謂的“每小時成本”,并不是指模型實際運行了多久,而是指:

      一個模型在其 50% 時間跨度附近完成任務所需的成本,除以這類任務通常需要人類花費的時間。

      舉個例子,如果某個模型能夠以 50% 的成功率,完成“人類軟件工程師通常需要 2 小時完成”的任務,那么我們就可以把它執行這類任務的費用除以 2,得到它在這種任務上的“每小時成本”。

      這個問題看似簡單,但現實中真正思考過的人并不多。

      而一旦問起大家的直覺,答案往往差異極大。有人默認 AI 完成任務的總成本大體沒變,只是任務時長在不斷增長;這意味著 AI 的單位小時成本正在快速下降。也有人認為,隨著前沿模型價格不斷上漲,AI 完成任務的總成本本身也在快速上升。

      但事實上,大多數人——包括作者自己——其實并不知道,今天讓 AI 智能體完成一小時的軟件工程工作,究竟是幾美分、幾美元,還是幾百美元。

      一個聽起來幾乎有些反直覺的問題開始出現:

      AI 智能體每小時的成本,難道真的可能接近甚至超過人類嗎?

      為什么不能直接拿“總花費”來回答這個問題

      作者曾向 METR 詢問是否能直接分享基準測試的成本數據,原本以為只要把不同模型的測試花費按發布日期畫出來,就能大致看出趨勢。

      但問題沒有這么簡單。

      原因在于,METR 的 headline time horizon,本來就不是為了衡量“達到某種表現的最低成本”,而是為了衡量:在不計成本的情況下,一個模型理論上能達到的最佳表現。

      為此,他們會讓模型在 agent scaffold 中不斷運行,直到性能明顯進入平臺期。因為他們關心的是“這個平臺到底有多高”,而不是“從哪里開始變平”,所以他們會投入相當多的算力,也不太在意是否已經超出了達到該表現所需的最優成本。

      這意味著:不同模型的總測試花費,有時只是剛好足夠進入平臺期,有時卻可能遠遠超過所需。因此,總支出不能直接視為“實現該能力所需的經濟成本”

      一張關鍵圖:性能如何隨著成本上升

      幸運的是,METR 發布了一張非常有價值的圖。它展示的不是單純的時間跨度結果,而是:


      模型性能如何隨著成本增加而提升。這里的“成本”,主要指為了完成任務而投入更多 token,也就是更多推理算力所帶來的開銷。

      圖中,黃色曲線代表人類表現。它的走勢大體接近線性:完成更長時間的任務,需要投入更多工作時間和工資,這幾乎是線性關系。比如,讓一位軟件工程師做 8 小時任務,成本大約就是 1 小時任務的 8 倍。

      而其他彩色曲線,則代表不同的 LLM 智能體。

      與人類不同,這些模型都展現出一個共同特征:邊際收益遞減

      也就是說,在一開始增加算力時,模型性能會有所提升;但隨著投入越來越多,收益開始變小,最后逐漸趨于停滯,進入平臺期。繼續投入更多推理資源,帶來的提升已經越來越有限。

      作者也提醒,這些曲線末端有時會出現短暫上翹。這并不一定意味著模型能力突然躍升,而更可能是評測偽影:某些模型傾向于等到最后時刻才輸出答案,導致圖上看起來像是前面一段時間都在“橫盤”,最后卻突然向上跳了一下。

      用“固定每小時成本線”重新看這張圖

      為了從這張圖中進一步提取信息,作者做了一個非常巧妙的處理:在圖中加入固定每小時成本線


      在雙對數坐標下,這樣的線會表現為斜率為 1 的直線。對于這些線而言,越靠左,表示每小時成本越低。


      然后,作者為每條模型曲線都找出一條“剛好與之相切”的固定每小時成本線。這個相切點,就是該模型所能達到的最低每小時成本。作者把它稱為模型的sweet spot

      這個點很重要,因為它代表的是模型在“單位成本效率”上最優的位置。

      在 sweet spot 之前,隨著成本上升,模型的任務時長增長得更快,說明此時投入算力仍然非常劃算;而一旦過了 sweet spot,邊際收益遞減開始顯著出現,繼續往上加錢就不再那么值了。

      AI 的最低“時薪”其實差異極大

      從圖中可以看出,人類軟件工程師的成本大約是120 美元/小時

      而不同 AI 模型在 sweet spot 上的成本差異極大:高的如 o3,大約40 美元/小時;低的如 Grok 4 和 Sonnet 3.5,可以低到0.4 美元/小時


      這說明,雖然這些模型在“能完成多長任務”上的差距大約只有十幾倍,但在“最佳單位成本”上的差距卻可能達到兩位數量級。

      更值得注意的是,sweet spot 只是這些模型最劃算的時候。

      一旦進入更長任務區間,尤其是接近平臺期時,它們的單位小時成本會迅速上升,往往高出 10 倍甚至 100 倍。比如,某個模型在最佳點可能只要幾角錢一小時,但一旦逼近其能力上限,成本就可能漲到十幾美元,甚至上百美元一小時。

      換句話說:

      模型越接近它的最長任務能力,往往也越不經濟。

      而這正是作者試圖強調的問題——如果人們只看“能做多久”,卻不看“做這么久要花多少錢”,就會對 AI 智能體的現實可用性產生過于樂觀的判斷。

      平臺期附近:能力還在漲,但成本可能已經不現實

      除了 sweet spot,作者還為每條曲線定義了一個saturation point(飽和點),用來近似表示“平臺期從哪里開始”。


      這個點的定義雖然帶有一定任意性,但它比 sweet spot 更接近 METR 在 headline 結果中真正展示的“接近能力上限的表現”。

      作者的分析顯示,不論看 sweet spot 還是 saturation point,結論都相似:

      時間跨度更長的模型,通常成本更高;不僅總成本更高,連單位小時成本也往往更高;

      某些模型在接近其峰值表現時,單位小時成本已經接近甚至逼近人類水平。

      這意味著一個重要判斷:我們也許正在接近這樣一個階段:AI 的“最強表現”雖然存在,但要以明顯不切實際的成本才能獲得。

      如果這種趨勢持續下去,那么簡單根據 METR 的時間跨度曲線去預測“AI 何時能做完一天、一周或一年的任務”,很可能會誤導人們。因為模型第一次達到這些能力時,也許仍然貴得難以實際部署。真正進入大規模現實應用,還需要再等待一段時間,直到成本進一步下降。

      這篇文章真正想提醒我們的是什么?

      作者并不是在否認 AI 智能體能力的快速進步。相反,他承認這條能力曲線非常驚人。

      但他想提醒的是:

      能力增長曲線,并不等于現實可用曲線。

      如果實現這些能力所需的推理成本也在快速上升,那么“原則上能做到什么”和“經濟上可行到能廣泛使用什么”之間,可能會出現越來越大的差距。

      這也意味著,AI 智能體在現實世界中的部署速度,未必會與 METR 的時間跨度趨勢同步增長。技術前沿可以繼續高速推進,但真正落地到企業、開發者和普通用戶手中的節奏,可能會慢得多。

      作者的結論

      基于現有圖表,作者認為已經有中等強度的證據表明:達到更長時間跨度所需的成本,可能也在指數上升;甚至連單位“每小時成本”本身,也可能在上升;一些模型在高端能力區間的成本,已經接近人類勞動成本。如果這些判斷成立,那么就意味著:METR 展示的趨勢,部分是由越來越高昂的推理投入推動的;AI 的“理論能力邊界”和“經濟可行邊界”會逐漸分離;現實世界中的 AI 智能體應用,將越來越落后于單純從時間跨度曲線中得出的樂觀預期。

      結語

      在今天的 AI 討論中,我們已經很習慣于追問:模型變強了多少、能完成多長任務、距離“自動化工程師”還有多遠。

      但也許我們同樣需要開始認真追問另一個問題:

      這些能力,究竟是以怎樣的成本換來的?

      因為真正決定 AI 是否會大規模改變現實世界的,未必只是“它能不能做到”,更是“它是否值得這樣去做”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《主角》爆火卻遭大量棄劇,觀眾理由出奇一致,一手好牌被打稀爛

      《主角》爆火卻遭大量棄劇,觀眾理由出奇一致,一手好牌被打稀爛

      嫹筆牂牂
      2026-05-13 07:10:16
      逆襲晉級!中國隊3-1挺進U17亞洲杯8強,日本全勝出線

      逆襲晉級!中國隊3-1挺進U17亞洲杯8強,日本全勝出線

      冷桂零落
      2026-05-13 10:31:16
      特朗普登機前,美國兩黨議員聯手,通告白宮,不許和中方達成協議

      特朗普登機前,美國兩黨議員聯手,通告白宮,不許和中方達成協議

      黑鷹觀軍事
      2026-05-13 20:09:42
      罰球41-21!2-1淘汰廣東!3人滿分1人嚴重拉胯 北京晉級還收2利好

      罰球41-21!2-1淘汰廣東!3人滿分1人嚴重拉胯 北京晉級還收2利好

      后仰大風車
      2026-05-12 21:52:10
      國乒公布亞運會選人方案,有八人已經確定入選,樊振東不在其中

      國乒公布亞運會選人方案,有八人已經確定入選,樊振東不在其中

      寒士之言本尊
      2026-05-13 20:10:34
      河南將有中到大雨,局部暴雨!

      河南將有中到大雨,局部暴雨!

      大象新聞
      2026-05-13 18:50:39
      欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

      欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

      小莜讀史
      2026-05-07 19:10:59
      太猖狂!四川凌晨追打案再爆猛料,6人一鍋端,女子襲警細節曝光

      太猖狂!四川凌晨追打案再爆猛料,6人一鍋端,女子襲警細節曝光

      閱微札記
      2026-05-13 11:30:43
      官宣奇跡出現不足1個月,蔡磊最新狀態曝光,他已提前規劃好退路

      官宣奇跡出現不足1個月,蔡磊最新狀態曝光,他已提前規劃好退路

      觀史搜尋著
      2026-05-13 19:33:36
      終于瞞不住了!周迅王驍的真實關系曝光,與陳坤領證傳聞真相大白

      終于瞞不住了!周迅王驍的真實關系曝光,與陳坤領證傳聞真相大白

      街上的行人很刺眼
      2026-05-13 15:58:50
      郭大杰被免去廣東旅控集團黨委書記、董事長職務

      郭大杰被免去廣東旅控集團黨委書記、董事長職務

      經理人雜志
      2026-05-13 10:09:37
      誰都惹不起!滿載油輪穿行霍爾木茲,美伊全程隱忍不開火

      誰都惹不起!滿載油輪穿行霍爾木茲,美伊全程隱忍不開火

      咣當地球
      2026-05-13 17:32:36
      500噸物資已運抵中國?白宮興奮宣布,特朗普或帶800多人赴華

      500噸物資已運抵中國?白宮興奮宣布,特朗普或帶800多人赴華

      石江月
      2026-05-13 19:35:14
      伊朗:美方漫天要價不可接受,已準備好應對突發局勢

      伊朗:美方漫天要價不可接受,已準備好應對突發局勢

      澎湃新聞
      2026-05-13 18:49:06
      黃金一夜驚魂140美元!發生了什么?

      黃金一夜驚魂140美元!發生了什么?

      口袋貴金屬官方
      2026-05-13 17:41:32
      色情和毒品是兩大招牌,“傘”為其開綠燈,衡陽天上人間覆滅記

      色情和毒品是兩大招牌,“傘”為其開綠燈,衡陽天上人間覆滅記

      漢史趣聞
      2026-05-13 15:16:50
      互相取關!5年感情就這么結束了

      互相取關!5年感情就這么結束了

      柚子說球
      2026-05-13 12:16:23
      當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的!

      當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的!

      獨坐山巔前
      2026-05-12 23:14:57
      陳寶國自曝:拍大宅門時,何賽飛不問青紅皂白,直接給我一嘴巴子

      陳寶國自曝:拍大宅門時,何賽飛不問青紅皂白,直接給我一嘴巴子

      她時尚丫
      2026-05-12 23:32:24
      謝暉現狀:重返上海申花,俄羅斯妻子風韻猶存,兒女雙全財富自由

      謝暉現狀:重返上海申花,俄羅斯妻子風韻猶存,兒女雙全財富自由

      梁岱愛玩車
      2026-05-03 18:54:17
      2026-05-13 20:52:49
      圖解金融 incentive-icons
      圖解金融
      圖解金融,你的金融視界
      5493文章數 26716關注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      美國總統時隔9年再次訪華 特朗普抵達北京

      頭條要聞

      美國總統時隔9年再次訪華 特朗普抵達北京

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      時尚
      藝術
      房產
      數碼
      公開課

      快來解鎖富家千金風穿搭,穿舒適又時髦,一鍵拿捏優雅氣質

      藝術要聞

      乾隆 “翻車” 名畫刷屏!

      房產要聞

      卷瘋了!最低殺到7字頭!手握30萬,海口樓市橫著走!

      數碼要聞

      九州風神玄冰600單塔散熱器新增ARGB版本,119元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻少妇精品中文字幕| 人人狠狠综合久久亚洲爱咲| WWW.黄色| 欧美成人国产精品高潮| 人妻 日韩精品 中文字幕| 99精品人妻少妇一区| 久久精品| 亚洲精品一区二区三区小 | 欧美一级肏屄视频| 秋霞91大神| 国产精品毛片一区二区| 亚洲做第3页| 国产不卡视频一区二区三区| 国产精品高清一区二区三区| 久久99久久99精品免视看国产成人| 少妇高潮喷水正在播放| 西充县| 亚洲国产熟女第一页| 无码精品黑人| 亚洲欧美人成网站在线观看看| 亚洲一区二区三区免费av在线| 熟女俱乐部五十路六十路av| 鲁丝一区鲁丝二区鲁丝三区| 丝袜精品在线| 久久国产精品亚洲va麻豆| 国产第一页浮力影院入口| 欧美wwww| 17c免费版网站nba| 69福利社| 91老肥熟女九色老女人| av中文资源在线| 亚洲高清WWW色好看美女| 黄色精品视频网站| 免费一级特黄a大片| www.欧美精品| 美女一区二区三区亚洲麻豆| 色欲久久久天天天综合网精品| 一区二区三区激情都市| 国产高清吹潮免费视频| 国产黄色短视频| 40分钟永久免费又黄又粗|