<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      15個(gè)前沿大模型,100個(gè)職業(yè)場(chǎng)景:誰才是最強(qiáng)AI打工人?

      0
      分享至


      通義千問 × 港中文聯(lián)合發(fā)布OccuBench,首次用"語言世界模型"系統(tǒng)評(píng)測(cè)AI Agent的真實(shí)職業(yè)能力。

      GPT-5.2能寫代碼、能刷網(wǎng)頁、能聊天。但如果讓它去做急診分診呢?或者管核電站報(bào)警、處理海關(guān)報(bào)關(guān)呢?

      答案是不知道,因?yàn)楦緵]法測(cè)。

      WebArena測(cè)網(wǎng)頁操作,SWE-bench測(cè)代碼修復(fù),OSWorld測(cè)桌面任務(wù)。這些基準(zhǔn)加在一起,覆蓋的也不過是瀏覽器、代碼編輯器、操作系統(tǒng)這幾個(gè)領(lǐng)域。而真實(shí)世界中絕大多數(shù)高價(jià)值職業(yè)工作,壓根沒有可以用來測(cè)試的公開環(huán)境:急診室沒有開源API,核電站不會(huì)給你搭沙箱,海關(guān)系統(tǒng)更不可能開放權(quán)限。

      01


      核心思路:讓大模型來模擬環(huán)境

      通義千問團(tuán)隊(duì)(Qwen Team)和香港中文大學(xué)的研究者想了個(gè)辦法:既然沒有真實(shí)環(huán)境,那就讓大模型模擬一個(gè)。

      給LLM一份環(huán)境配置(任務(wù)場(chǎng)景描述、工具定義和初始狀態(tài)),它就能變成一個(gè)有狀態(tài)的、可交互的模擬環(huán)境。研究者將其稱為語言世界模型(Language World Model, LWM)

      舉個(gè)例子:你告訴LLM "你現(xiàn)在是一個(gè)急診科信息系統(tǒng),有3個(gè)檢查室、5個(gè)候診患者,支持分診、轉(zhuǎn)運(yùn)、下醫(yī)囑等操作",它就真的能扮演這個(gè)系統(tǒng), 根據(jù)Agent的每一步操作,維護(hù)內(nèi)部狀態(tài)并返回合理的響應(yīng)。

      通過這樣做,環(huán)境的構(gòu)建從工程問題變成了配置問題,不用寫后端代碼,不用搭基礎(chǔ)設(shè)施,只要LLM能理解這個(gè)領(lǐng)域就行。

      基于這個(gè)思路,研究者構(gòu)建了OccuBench,一個(gè)覆蓋100個(gè)職業(yè)場(chǎng)景、10大行業(yè)、65個(gè)細(xì)分領(lǐng)域、382個(gè)評(píng)測(cè)實(shí)例的Agent評(píng)測(cè)基準(zhǔn)。Bench當(dāng)中的任務(wù)平均包含5.5個(gè)專業(yè)工具,需要Agent調(diào)用約16.2次工具才能完成。


      02


      不只是模擬,還能注入故障

      真實(shí)生產(chǎn)環(huán)境里,API會(huì)超時(shí),數(shù)據(jù)會(huì)截?cái)啵?wù)會(huì)降級(jí),這些都是常態(tài)。但現(xiàn)有的Agent評(píng)測(cè)基本都是在理想環(huán)境下跑的。

      基于LWM的agent 評(píng)測(cè)有一個(gè)獨(dú)特優(yōu)勢(shì):環(huán)境行為完全由提示詞控制。只需要修改幾句提示詞,就能精確注入各種故障:


      所有故障都是暫態(tài)的,重試就能恢復(fù)。關(guān)鍵在于Agent能不能意識(shí)到出了問題,然后主動(dòng)重試。這考驗(yàn)了agent的自主性,影響了agent能否在沒有人工干預(yù)的情況下獨(dú)立完成長(zhǎng)程任務(wù)。

      03


      15個(gè)模型綜合評(píng)價(jià),幾個(gè)值得注意的結(jié)果

      研究者評(píng)測(cè)了15個(gè)前沿模型,覆蓋8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

      ▎發(fā)現(xiàn)一:沒有全能選手

      GPT-5.2以總分79.6%排名第一,在科研領(lǐng)域更是高達(dá)94%。但看電商消費(fèi)?只有67%,被Qwen 3.5 Plus(81%)甩開14個(gè)百分點(diǎn)

      Gemini 3.1 Pro在教育領(lǐng)域以84%拿下第一,Claude Opus 4.6在交通運(yùn)輸以77%稱王,Qwen 3.5 Plus則在醫(yī)療健康和電商消費(fèi)雙雙拿到81%的行業(yè)最高分。

      每個(gè)模型都有自己擅長(zhǎng)和不擅長(zhǎng)的行業(yè)。這啟示我們,在實(shí)際生產(chǎn)中,選Agent不能只看總分,還得看你的具體場(chǎng)景。


      ▎發(fā)現(xiàn)二:隱式故障比顯式故障難對(duì)付得多

      顯式故障(API報(bào)錯(cuò)、超時(shí))相對(duì)好處理, Agent看到報(bào)錯(cuò),知道該重試就行了。

      隱式故障就不一樣了。在干凈環(huán)境下,模型平均得分67.5%。遇到顯式故障掉到62.6%,遇到隱式故障則降到53.4%,比顯式故障低了9.2個(gè)百分點(diǎn)。拿Claude Opus 4.6舉例:顯式故障下只掉了3.4%(71.5%→68.1%),但隱式故障下直接掉了17.6%(71.5%→53.9%)。原因其實(shí)也很簡(jiǎn)單:數(shù)據(jù)截?cái)嗔耍祷馗袷酵耆_,沒有報(bào)錯(cuò)信號(hào),Agent不知道自己拿到的數(shù)據(jù)是殘缺的。

      9個(gè)測(cè)試模型中,有4個(gè)在隱式故障(E2)下的表現(xiàn)甚至比混合故障(E3)更差, 隱式故障比顯式+隱式一起來還難對(duì)付。


      ▎發(fā)現(xiàn)三:Scaling定律依然有效

      研究者們還發(fā)現(xiàn),更大的模型、更新的版本、更深的思考,在OccuBench上全部帶來了穩(wěn)定提升:

      模型規(guī)模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%

      代際迭代:Claude Opus從v4到v4.6,總提升10.2個(gè)百分點(diǎn)(61.3%→71.5%)

      推理深度:GPT-5.2關(guān)掉推理只有54.7%,開到最高推理強(qiáng)度則達(dá)到了82.2%的分?jǐn)?shù),差了27.5個(gè)百分點(diǎn)




      ▎發(fā)現(xiàn)四:做Agent厲害 ≠ 當(dāng)環(huán)境模擬器靠譜

      研究者還做了一個(gè)交叉實(shí)驗(yàn):讓不同模型分別充當(dāng)Agent和環(huán)境模擬器,看結(jié)果會(huì)怎么變。

      GPT-5.2當(dāng)Agent是第一名(79.6%),但當(dāng)它反過來充當(dāng)環(huán)境模擬器時(shí), 所有Agent的平均分只剩29.3%,還不到用Gemini Flash當(dāng)模擬器時(shí)(67.9%)的一半。

      研究者扒了失敗案例,發(fā)現(xiàn)GPT-5.2當(dāng)模擬器時(shí)存在三種典型問題:

      狀態(tài)虛構(gòu):急診分診任務(wù)中,憑空多出兩個(gè)不存在的檢查室,Agent被誤導(dǎo)選錯(cuò)了房間

      實(shí)體遺漏:工單派發(fā)任務(wù)中,把關(guān)鍵的數(shù)據(jù)庫專家從名冊(cè)里吞掉了,Agent無人可派

      規(guī)則發(fā)明:退貨任務(wù)中,自己編了一條 "退貨窗口已過期" 的規(guī)則,但是任務(wù)里根本沒這條限制

      相比之下,Qwen 3.5 Plus作為模擬器與Gemini Flash的排名的一致性達(dá)到了85.7%(28對(duì)成對(duì)排名比較中,24對(duì)完全相同),前三名完全吻合。

      這啟示我們,做agent和做環(huán)境模擬器,看起來是兩種不太一樣的能力。這個(gè)結(jié)果對(duì)所有用LLM模擬環(huán)境來做評(píng)測(cè)/訓(xùn)練的方案來說,都值得參考。

      04


      三個(gè)具體案例

      ▎案例一:末端配送: 你會(huì)先充電嗎?

      任務(wù):找到編號(hào)最大的醫(yī)療包裹MED-615,送到指定地址,全程電池不能低于15%。

      Claude Opus 4.6:查庫存→找到MED-615→看了眼電量28%,覺得不夠→先充滿電→出發(fā),到達(dá)時(shí)還剩82%→送達(dá) ->Success

      DeepSeek V3.2:查庫存→找到MED-615→直接就走了→到達(dá)時(shí)電量12.5%→違反15%安全線 ->Fail

      它們的區(qū)別就在于出發(fā)前有沒有看一眼電量夠不夠, 有沒有時(shí)刻牢記問題中的約束。

      ▎案例二:房產(chǎn)估值: 你能發(fā)現(xiàn)數(shù)據(jù)被截?cái)嗔藛幔?/strong>

      任務(wù):評(píng)估一棟15個(gè)單元的物業(yè),計(jì)算DSCR(償債覆蓋率)是否達(dá)到1.20x的貸款門檻。環(huán)境悄悄只返回了2個(gè)單元的數(shù)據(jù),沒有任何報(bào)錯(cuò)。

      Claude Opus 4.6:“等等,15個(gè)單元怎么只返回了2個(gè)?”→重新請(qǐng)求→拿到完整數(shù)據(jù)→算出DSCR 1.19x,不達(dá)標(biāo) ->Success

      Kimi K2.5:也重試了一次,但故障還在→直接假設(shè)15個(gè)單元都跟這2個(gè)一樣→算出1.72x,達(dá)標(biāo)→實(shí)際上這棟樓根本不合格 ->Fail

      就因?yàn)閿?shù)據(jù)截?cái)啵瑑蓚€(gè)模型得出了完全相反的財(cái)務(wù)結(jié)論。放在真實(shí)金融場(chǎng)景里,這種錯(cuò)誤的代價(jià)是很大的!

      ▎案例三:公交調(diào)度: 故障面前,誰能堅(jiān)持到底?

      任務(wù):在顯式故障(E1)環(huán)境下恢復(fù)一條公交線路的時(shí)刻表。

      Claude Opus 4.6:12步操作中遇到了4次錯(cuò)誤(超時(shí)、500),每次都堅(jiān)持重試→最終完成全部調(diào)度 ->Success

      Kimi K2.5:第一次遇到錯(cuò)誤就停了→只完成了2步操作→任務(wù)失敗 ->Fail

      同樣的故障率,一個(gè)堅(jiān)持了12步走完了,另一個(gè)第2步就放棄了。

      05


      關(guān)于OccuBench

      OccuBench覆蓋10大行業(yè): 農(nóng)業(yè)與環(huán)境、商務(wù)與企業(yè)、電商與消費(fèi)、教育與文化、醫(yī)療與生命科學(xué)、工業(yè)與工程、公共服務(wù)與治理、科學(xué)與研究、技術(shù)與IT、交通與物流。從行業(yè)難度來看,商務(wù)與企業(yè)(70.1%)和公共服務(wù)(69.4%)相對(duì)容易,而交通與物流(56.2%)和教育與文化(57.6%)是最具挑戰(zhàn)性的行業(yè)。

      OccuBench完整開源:382個(gè)評(píng)測(cè)任務(wù) + 100個(gè)場(chǎng)景的環(huán)境配置 + 全部參考實(shí)現(xiàn)代碼。

      論文:https://arxiv.org/abs/2604.10866

      項(xiàng)目主頁:https://gregxmhu.github.io/OccuBench-website/

      代碼:https://github.com/GregxmHu/OccuBench

      數(shù)據(jù):https://huggingface.co/datasets/gregH/OccuBench


      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      曹操撩寡婦時(shí)說的金句,如今成了約會(huì)開場(chǎng)白,男人經(jīng)常掛在嘴邊

      曹操撩寡婦時(shí)說的金句,如今成了約會(huì)開場(chǎng)白,男人經(jīng)常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭(zhēng)光

      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭(zhēng)光

      楓塵余往逝
      2026-05-13 14:45:33
      突發(fā)!南京又一機(jī)構(gòu)跑路!

      突發(fā)!南京又一機(jī)構(gòu)跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網(wǎng)友:套路都被玩爛了

      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網(wǎng)友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過睡不到6小時(shí)結(jié)果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過睡不到6小時(shí)結(jié)果腦子很痛效率很低

      頂級(jí)大佬思維
      2026-05-09 14:23:20
      我國(guó)都有哪些常見毒蛇?哪種蛇最毒?盤點(diǎn)我國(guó)十大毒蛇,第一名致死率超65%

      我國(guó)都有哪些常見毒蛇?哪種蛇最毒?盤點(diǎn)我國(guó)十大毒蛇,第一名致死率超65%

      農(nóng)夫也瘋狂
      2026-05-13 11:40:43
      千萬網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬!更背后誰拿走了網(wǎng)紅的錢

      千萬網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬!更背后誰拿走了網(wǎng)紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國(guó)產(chǎn)新車

      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國(guó)產(chǎn)新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個(gè)重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個(gè)重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國(guó)女足2-4,4大勁旅已無緣爭(zhēng)冠

      女足亞洲杯太殘酷了:隨著中國(guó)女足2-4,4大勁旅已無緣爭(zhēng)冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場(chǎng)vs深圳票價(jià):最低100元,最高1500元

      廣廈半決賽主場(chǎng)vs深圳票價(jià):最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學(xué)論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當(dāng)?shù)兀簾o人員傷亡,水流沖擊所致,只是一個(gè)架子

      廣東松源一在建橋梁因暴雨垮塌?當(dāng)?shù)兀簾o人員傷亡,水流沖擊所致,只是一個(gè)架子

      瀟湘晨報(bào)
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認(rèn)知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認(rèn)知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來車主:不敢開了,要求退車

      買車半年維修9次!蔚來車主:不敢開了,要求退車

      深圳晚報(bào)
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠(yuǎn)超外界猜測(cè),徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠(yuǎn)超外界猜測(cè),徐杰或成交易籌碼

      萌蘭聊個(gè)球
      2026-05-13 16:32:05
      很多男人已經(jīng)養(yǎng)不起家了,無數(shù)普通頂梁柱被壓垮!

      很多男人已經(jīng)養(yǎng)不起家了,無數(shù)普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會(huì)晤提出的第一個(gè)要求,中方開場(chǎng)白定調(diào),太高明了

      爽快!中美會(huì)晤提出的第一個(gè)要求,中方開場(chǎng)白定調(diào),太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領(lǐng)先活塞,馬刺3-2森林狼,NBA季后賽最終4強(qiáng)基本出爐

      隨著騎士3-2領(lǐng)先活塞,馬刺3-2森林狼,NBA季后賽最終4強(qiáng)基本出爐

      球場(chǎng)沒跑道
      2026-05-14 11:16:03
      美國(guó)眾議院議員強(qiáng)行將援助烏克蘭的法案賦予投票

      美國(guó)眾議院議員強(qiáng)行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7274文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會(huì)談很順利 黃仁勛點(diǎn)贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

      財(cái)經(jīng)要聞

      李強(qiáng)會(huì)見美國(guó)工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      時(shí)尚
      教育
      手機(jī)
      本地
      家居

      大熱天,闊腿褲配什么上衣更清涼?

      教育要聞

      南京秦淮、雨花臺(tái)、玄武、建鄴2026高考考點(diǎn)公布!

      手機(jī)要聞

      vivo S60預(yù)熱開啟,超大面積一體冷雕玻璃

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      精神奢享 對(duì)話塔尖需求

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 珠海市| 亚洲粉嫩av一区二区黑人| 精品国产亚洲一区二区三区 | 亚洲精品一区二区三天美| 黑巨人与欧美精品一区| 天天综合网色中文字幕| 日韩成人精品中文字幕18禁| 香蕉视频在线观看免费国产婷婷| 日韩精品无码一区二区三区视频| 久久综合99re88久久爱| 被公侵犯人妻少妇一区二区三区| 亚洲欧美日韩精品色xxx| 亚洲gay片在线gv网站| 99久久精品久久久久久婷婷| 一本大道久久a久久综合| 国产福利深夜在线播放| 一群老熟女69| 天天综合天天爱天天做| 韩国无码AV片在线观看网站| 精品伊人久久久香线蕉| 亚洲成人av综合一区| 国产亚洲成av人片在线观看| 日韩欧无码一区二区三区免费不卡 | 人妻中文AV| 狠狠色综合播放一区二区| 免费视频欧美无人区码| 又黄又硬又粗av影视在线观看| 欧美黑人XXXX性高清版| 无码日韩精品一区二区三区免费| 国产中文| 精品无码一区二区免费| 国内精品久久久久久影院老狼| 日韩中文字幕人妻一区| 五月。。激情綜合老漢色| 喀什市| 国产精品综合色区在线观看| 美乳丰满人妻无码视频| 少妇综合网| 中文字幕熟妇无码专区| 国产欧美一区二区日本加勒比 | 久久凹凸视频|