<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      從大模型到Agent的跨越難度,正被整個行業嚴重低估

      0
      分享至



      過去兩年,AI 敘事的坐標系近乎失準。

      MMLU、HumanEval 這類靜態指標像高考榜單一樣被反復張貼,不斷刷新的數字仿佛宣告通用人工智能已抵近終點線。

      然而,一種名為APEX?Agents的新基準戳破了這層幻象。

      它揭示的并非模型智商的線性進步,而是一個殘酷的悖論:當 AI 試圖從“回答問題”跨越到“完成工作”時,能力的提升正陷入嚴重的數據饑渴。

      從LLM(語言大模型)到Agent的轉向,不是版本的升級,而是一次從靜態智力到動態生產力的范式轉移。其跨越難度,被整個行業嚴重低估。

      01

      評測權杖的交接

      在過去的三年中,LLM一直是AI的主要形態。

      那時,人們評測模型的重心在于“智商”,也就是模型能夠掌握多少靜態知識、能否正確進行邏輯推導。

      但隨著AI的形態在不到半年間從LLM全面過渡到Agent,評測的權杖也必須發生交接。

      Agent的核心本質就在于它必須與數字環境甚至真實物理環境進行高頻的感知和交互。

      APEX-Agents基準測試選擇徹底摒棄了以往“一問一答”式的數學和編程考卷,取而代之的則是33個數據豐富的模擬世界(Worlds)。

      每個世界都代表一個獨特的項目場景,其中平均包含166個文件并涉及9個以上的應用程序工具。

      對于模型來說,這與大語言模型“紙上談兵”的交互方式截然不同。

      它被投放在一個數字沙盒之中,但這次要面對的不是各種復雜的數學題和編程題,而是要像人類員工一樣在長達數小時的任務鏈條中觀察環境變化、拆解復雜指令、調用各種工具并交付最終成果。


      智能體時代初期的代碼執行、PDF解析、電子表格標簽操作等目標,也變成了微小但容錯率極低的中間環節。

      這種評價標準的轉變,反映出了AGI門檻的實質性變化:

      它關心的不是模型知道什么,而是在復雜的環境下能做成什么。

      為了模擬真實職場給人類帶來的“重力感”,APEX還下血本邀請了來自麥肯錫、高盛、思科等企業共256位擁有平均12.9年行業經驗的頂級專家。

      這些專家不僅要基于專業知識給模型提出任務,還要給出明確的“過程準則(Rubrics)”,讓評測從一場智力游戲徹底蛻變成生產力的挑戰。

      02

      被無情揭開的性能“遮羞布”

      面對APEX-Agents的Pass@1(一次通過率)排行榜結果,任何出于商業化目的鼓吹“AGI即將實現”的說法都不攻自破。

      數據展現出了令人冷靜的低迷,而這種低準確率和高跑分結果形成了鮮明的對比,直接戳破了AGI的泡沫。

      這項基準測試的場景主要用于評估三個職位:企業律師、管理顧問和投資銀行分析師。

      報告顯示,全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開啟高度思考模式下,也只得到了24%的分數。


      同為三巨頭之一的GPT-5.2(High)也沒好到哪里去,以23%的分數位居第二。

      具體到細分的職業場景中,分數也都不太理想,再先進的模型也難以突破30%的門檻。


      在這個情況下,討論哪個模型能力更強已經意義不大。

      關鍵的問題在于,為什么以前使用體驗很好的LLM在實際任務中表現得如此差勁?

      APEX報告指出了幾個關鍵的失敗模式,而這正是大模型無法轉變為生產力工具的最大限制:

      死循環(Doom Looping):模型在遇到工具調用失敗時,無法進行有效的反思,而是反復嘗試同樣的錯誤指令,直到消耗完預設的步數限制。因此,現階段的Agent仍然缺乏認知能力。

      流氓行為(Rogue Behavior):GPT-5.2在測試中曾經犯下大錯,意外刪除了21個關鍵的生產文件。對于嚴謹的金融和法律領域,這種誤操作必然招致災難性的后果。

      長時程規劃迷失:當任務步驟超過了限制,模型的“意圖漂移(Intent Drift)”現象極為嚴重這也是Vibe Coding中最常見的情況,模型在任務執行到一半時早已忘記了初始目標。

      若將嘗試次數放寬至8次(Pass@8),頂尖模型的得分能夠接近40%,但衡量穩定性的指標卻降到了最低6.5%,這就是當前智能體的典型特征:具備潛力,但極不穩定。

      換句話說,智能體能夠產出碎片化的有效信息,但難以完成閉環交付。

      這些數據也揭示了一個被刻意掩蓋的真相:

      現階段的智能體最多只能算是AGI的最初級形態。

      那些鼓吹AGI進度已經完成大半的說法,完全是基于靜態智商測試的商業包裝。

      傳統LLM的性能瓶頸主要在于算力和參數量,而Agent時代的門檻已經轉移到任務編排、狀態管理、錯誤恢復和長程規劃。

      智能體連“可用”和“可靠”之間的鴻溝都無法跨越,更不要提“好用”,在復雜的工作流面前,AI依然顯得十分稚嫩。

      03

      成本的陷阱

      在現有的Agent測評中,準確率順理成章地成為了唯一的主角,但對商業落地具有決定性影響的token消耗成本往往無人提及。

      眾所周知,Agent相比于LLM,消耗的token成本完全不在一個量級。

      APEX報告提供的數據讓這種差距更加具象化:


      以24%的Pass@1分數領跑的Google最新模型Gemini 3 Flash單次任務平均消耗的token達到了531.5萬,大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。

      然而,性能優勢的差距只有1%

      這個數字已經足以讓所有開發者在做出決策前冷靜下來。

      如果按照目前閉源模型的價格核算,完成一個復雜的投行任務,算力成本必然高達幾十美金。

      即便不考慮模型部署的固定成本,AI的運行成本也已經逼近甚至超過了初級人類分析師的時薪。

      目前智能體展現出來的較低水平的準確率,本質上也是建立在不計成本的暴力推理之上而實現的。

      模型可以通過海量的思維鏈(CoT)和反復重試來換取成功率,但在商業情境下,這兩種方式都不可能無限制使用。

      因此,這種“高消耗+低增益”的邊際遞減效應直接指向了一個產業級的命題:

      在智能體時代,性價比必須與準確率同等重要,甚至更具決定性。

      未來的Agent基準測試,必須引入基于token的投資回報率。

      如果Agent無法實現低功耗、高精度的閉環,它就永遠無法成為社會期待的通用基礎設施。

      04

      生態分化與商業格局

      APEX報告中另一個值得關注的現象在于開源模型在這場基準測試中的全面潰敗。

      在LLM時代,開源模型憑借著參數量的擴張和高質量語料庫的預訓練,在多項靜態基準中已經屢屢逼近甚至反超AI巨頭的上一代旗艦模型。

      但進入Agent時代以后,“開源平權”的敘事已經接近失效。

      盡管全球范圍內的頂尖模型也做不到“可靠”,但閉源模型還是對開源模型形成了降維打擊,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。


      但事實證明,面對長時程規劃、嚴格指令遵循和工具調用的實戰任務時,這些開源模型仍然處于不可用的狀態。

      當然,把這種落差單純歸因于基礎模型推理能力不足并不客觀,智能體能力的系統復合性也極為重要。

      一個能穩定執行長周期任務的Agent不僅需要底層模型具備強大的語言理解能力,還需要把軌跡優化、狀態一致性等LLM時代容易被忽視的細節做得更完美。

      閉環數據、大規模算力調度、端到端的技術棧,這些都是閉源廠商在智能體時代的商業命脈。

      但開源模型目前仍然停留在初期階段,缺少高質量的行為對齊數據。

      掌控了智能體的“辦事邏輯”和執行軌跡,就等同于建立起一道堅固的數據壁壘。

      因此,LLM時代AI邏輯被顛覆的同時,我們也可以清晰地看到眼前的事實和未來的趨勢:

      那些真正能放在智能體中“辦事”的模型,幾乎都不是免費的。

      05

      存量數據正成為重大挑戰

      無論是LLM的時代,還是Agent的時代,AI的三要素始終沒有變化:算法、算力和數據。

      在上一篇文章中,我們已經說過算力緊缺是客觀存在且短期內不可改變的事實。

      但智能體取代LLM成為新時代的AI形態的同時,一個根本性的挑戰也已經擺在所有人的面前:

      Agent能力的提升已經陷入嚴重的數據饑渴。

      字節跳動震驚全球的Seedance 2.0成功案例已經證明,在TikTok的加持下,憑借海量真實的視覺數據,即便算力相比Google和OpenAI處于劣勢,但仍然能超越Veo和Sora實現多模態領域的突破。

      但這一套成功的邏輯并不能直接套用到智能體上,因為文本、圖像、音頻和視頻都是現實世界中在AI出現之前就已經存在的“非結構化”存量。

      Agent執行任務的邏輯與多模態模型不同,它是一套“人如何使用工具完成任務”的隱形邏輯。

      顯然,這種邏輯在AI出現之前不可能被大規模數字化記錄。

      人類如何打開Excel、如何根據報錯修改公式、如何在郵件中確認需求,這些日常生活中最常見的情景,對于AI來說極其復雜而且難以抽象。

      互聯網上存在海量的高質量文本數據,卻幾乎沒有高質量的“任務執行軌跡”。

      事實上,黃仁勛在2024年的預言就精確命中了這個痛點:單純依賴現有的數據堆砌無法支撐下一代AI的演進。

      和具身智能一樣,想要解決現階段智能體的瓶頸,必須構建高保真的虛擬世界環境,并通過合成數據(Synthetic Data)技術生成高質量的訓練樣本。

      APEX基準測試中構建的Archipelago基礎設施,實際上就是為了智能體專門提供的加速迭代試驗場。

      在這些虛擬環境中,Agent可以經歷數百萬次失敗和修正,模擬真實職場中難以復現的極端場景。

      未來的AGI門檻,將不再是誰閱讀過的互聯網文本更多,而是誰在仿真環境里見過的行動軌跡更豐富。

      智能體訓練的本質仍是強化學習,而在沒有充足的“學習資料”的當下,結果只能是嚴重的欠擬合。

      APEX基準測試不僅是一個技術指標,還是一次對行業認知的重塑。

      人們應該看清,我們距離真正的AI生產力革命還有多遠。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

      “莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

      梳子姐
      2026-05-13 19:46:10
      緬甸政府為何不敢動,擁有4萬軍隊,號稱小中國的佤邦?

      緬甸政府為何不敢動,擁有4萬軍隊,號稱小中國的佤邦?

      鶴羽說個事
      2026-05-06 22:54:55
      飛行震撼元首!馬來西亞18架蘇-30癱瘓,蘇-57E能否截胡殲-35訂單

      飛行震撼元首!馬來西亞18架蘇-30癱瘓,蘇-57E能否截胡殲-35訂單

      混沌錄
      2026-05-13 22:53:07
      波蘭媒體:利雅得新月向萊萬開出9000萬歐元年薪

      波蘭媒體:利雅得新月向萊萬開出9000萬歐元年薪

      懂球帝
      2026-05-14 02:31:07
      福建一縣委書記,升副廳

      福建一縣委書記,升副廳

      人民資訊
      2026-05-13 19:11:04
      官媒親宣,趙心童創歷史,成中國第一人,讓吳宜澤和體壇沉默了

      官媒親宣,趙心童創歷史,成中國第一人,讓吳宜澤和體壇沉默了

      攬星河的筆記
      2026-05-13 13:25:46
      小沈陽因減肥進兩次急診,網友:減啥肥啊

      小沈陽因減肥進兩次急診,網友:減啥肥啊

      紅星新聞
      2026-05-13 14:09:15
      為什么找不到外星人?一個讓人害怕的猜測:人類可能在巨型魚缸中

      為什么找不到外星人?一個讓人害怕的猜測:人類可能在巨型魚缸中

      有牙的兔紙
      2026-05-13 10:51:04
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      黯泉
      2026-05-03 20:25:37
      領導的網名叫上善若水,我該叫什么才能壓他一頭?

      領導的網名叫上善若水,我該叫什么才能壓他一頭?

      摩登人類
      2026-05-11 19:43:02
      “農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

      “農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

      妍妍教育日記
      2026-05-11 18:59:23
      奧運冠軍黃雅瓊擬入職衢州職業技術學院,回應:仍從事羽毛球相關工作

      奧運冠軍黃雅瓊擬入職衢州職業技術學院,回應:仍從事羽毛球相關工作

      上游新聞
      2026-05-13 17:35:15
      廣東出局揪出最失望球員!全場0分+帶女友到客場,球迷:賣掉算了

      廣東出局揪出最失望球員!全場0分+帶女友到客場,球迷:賣掉算了

      南海浪花
      2026-05-13 07:48:38
      中印邊境之戰,美蘇為何會支持印度,32天戰爭讓印度做了58年噩夢

      中印邊境之戰,美蘇為何會支持印度,32天戰爭讓印度做了58年噩夢

      易玄
      2025-02-15 12:16:20
      切爾西·漢德勒自曝2010年愛潑斯坦晚宴細節:8人小聚,她當面調侃伍迪·艾倫

      切爾西·漢德勒自曝2010年愛潑斯坦晚宴細節:8人小聚,她當面調侃伍迪·艾倫

      影視情報室
      2026-05-12 06:05:35
      荷蘭87億打水漂,大臣哭暈,當初多囂張如今多狼狽

      荷蘭87億打水漂,大臣哭暈,當初多囂張如今多狼狽

      老燈愛野史
      2026-05-13 11:19:27
      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      醫學原創故事會
      2026-05-12 15:34:03
      東北一男子養鹿破產,賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      東北一男子養鹿破產,賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      背包旅行
      2026-05-11 14:51:09
      經緯度:“訂單排到2028年”的底氣何來

      經緯度:“訂單排到2028年”的底氣何來

      澎湃新聞
      2026-05-13 15:48:26
      美國不要的,中國也堅決不要!

      美國不要的,中國也堅決不要!

      隔壁董小姐
      2026-05-11 07:52:20
      2026-05-14 07:16:49
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      59文章數 7關注度
      往期回顧 全部

      科技要聞

      阿里年營收首破萬億,AI終于不再是畫大餅

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      數碼
      房產
      旅游
      游戲
      軍事航空

      數碼要聞

      徠芬智能卷發棒Styler發布,499元

      房產要聞

      卷瘋了!最低殺到7字頭!手握30萬,??跇鞘袡M著走!

      旅游要聞

      四大入口協同發力 讓外國游客“絲滑”逛北京

      曝《雷曼》重制版反饋積極 游戲或于今夏公布

      軍事要聞

      沙特被指3月曾對伊朗發動多次“報復性”空襲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品视频只有这里| 性色在线视频精品| 日韩偷拍电影| 亚洲精品国产乱码不卡| 国产精品视频一区不卡| 久久无码专区| 国产成人AVXXXXX在线观看| 中文字幕无码乱码人妻日韩精品| 国产综合亚洲区在线观看| 久久人妻制服乱码中文字幕 | 四虎影成人精品a片| 高清亚洲综合色成在线播放放| 国产成人精品无码一区二区| www.91色| 人妻少妇亚洲| 欧美饥渴少妇xxxxx性| 风流少妇树林打野战视频| 日本在线一区二区| 色小说综合网| 国产国语一级毛片中文| 亚洲AV无码AV在线影院| 黄色AV电影| 99RE6在线观看国产精品| 极品无码国模在线观看| 日韩精品一区二区三区视频 | 天堂av一区二区三区| 国产欧美精品久久久| 国产微拍一区二区三区四区| 国产乱沈阳女人高潮乱叫老| 婷婷五月综合丁香在线| 久久久久久久久18禁秘| 国产无遮挡又黄又爽无VIP| 亚洲精品一区二区三区在线观看 | 国产tsAV| 日韩中文字幕在线乱码| 天天摸天天操免费播放小视频 | 日韩精品一区二区蜜臀av| 日韩中文字幕一区二区不卡| 亚洲一起cao| 午夜福利视频合集1000| 伊人激情av一区二区三区|