<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      走出MMLU的高分幻覺:AI Agent的「斯坦利時刻」與職場生存法則

      0
      分享至



      作者:論文團隊

      編輯丨ScienceAI

      序章:穿越數字世界的「莫哈韋沙漠」

      把時鐘撥回 2005 年,內華達州的莫哈韋沙漠。

      那是美國國防部高級研究計劃局(DARPA)舉辦的無人駕駛挑戰賽現場。不同于平整的封閉賽道,DARPA 給出的考題殘酷而簡單:沒有高精地圖輔助,沒有人類遠程接管,車輛必須依靠自身的感知決策系統,穿越數百公里的荒漠。

      最初的嘗試是慘烈的,無數車輛在起步后不久就撞向巖石、陷入溝壑。直到一輛名為「斯坦利(Stanley)」的賽車,依靠在非結構化環境中的自主決策能力沖過終點。那一刻,被公認為自動駕駛的「斯坦利時刻」——它證明了機器智能的價值不在于實驗室里的理想參數,而在于能在充滿未知的物理世界中「活下來」并完成任務。

      今天,在通往通用人工智能(AGI)的道路上,我們正站在這一時刻的數字鏡像前。

      在多模態大模型(MLLMs)狂飆突進的今天,MMLU、GSM8K 等基準測試的分數每隔幾個月就被刷新。然而,企業和開發者卻面臨著一個共同的困惑:為什么這些在考卷上接近滿分的 AI,一旦放入真實的業務流程中,往往就變成了需要人類時刻照看的「巨嬰」?

      繁榮下的隱憂:高分低能的「執行鴻溝」

      現有的 Agent 評測大多像是在「無菌室」里做題:環境是靜態的,任務是單一的,信息是全知的。我們正在用測試「大腦」的考卷,來評估「手腳」的靈活性。

      近日,來自復旦大學、上海 AI Lab、浙江大學等機構的研究團隊發表了論文 。研究團隊指出,現在的 Agent 之所以難用于實際生產環境,是因為它們存在顯著的「執行鴻溝」

      • 現有的測試benchmark是「全知視角」的(Oracle-based):我們給模型完美的上下文,要求它輸出完美的答案。
      • 真實的職場是「迷霧模式」的(Partially Observable):任務說明書里可能沒有密碼,需求是模糊的,環境里充滿了老板突然交辦的任務 B 和臨時插進來的會議。

      為了打破這種「高分低能」的幻覺,研究團隊造了一個高度仿真的「職場模擬器」——Trainee-Bench。他們拉來了包括 GPT-5.1、Gemini-3-Flash、Claude-4-Sonnet 在內的頂尖模型,進行了一場殘酷的「入職第一天」壓力測試。

      Trainee-Bench:AI 實習生的「受難日」

      Trainee-Bench 不再關注單一能力的上限,而是考察 Agent 在復雜動態環境中的「生存策略」。它模擬了一個新員工入職時的真實困境——缺乏「上帝視角」的輔助,一切靠自己。研究從三個硬核的技術維度,重新定義了 Agent 的能力邊界:

      維度一:從「線性推理」到「動態調度」

      職場充滿了異步性。當 Agent 正在處理一份報表時,突然收到緊急郵件。它能否展現出類似操作系統的調度能力?

      • 優先級判斷:能分清輕重緩急嗎?
      • 掛起與恢復:處理完緊急任務后,能無損地回到剛才的進度嗎?



      維度二:從「全知地圖」到「主動探索」

      在真實環境中,信息往往是碎片化且隱蔽的。Trainee-Bench 構建了一個「無圖(Mapless)」環境,Agent 不會被告知「文件在哪里」或「工具怎么用」。它必須像人類實習生一樣,通過、探測目錄,自主閱讀文檔理解參數,并在探索中逐步構建起對環境的「認知地圖」。

      ls

      grep



      維度三:從「單次完成」到「持續學習」

      一個合格的數字員工,必須具備「長記性」的能力。Trainee-Bench 設置了長程的時間跨度,考察 Agent 能否利用前一天的環境反饋和執行歷史,在第二天避開同樣的坑。



      核心解密:如何構建一個「無限流」職場?

      Trainee-Bench 的構造流程精妙地模擬了現實世界的復雜性。整個環境的構建分為三個關鍵步驟:

      • 第一步:拒絕死記硬背的「任務實例化」:為了防止Agent「背題」或過度擬合,Trainee-Bench 引入了 元任務(Meta-Task) 的概念。團隊精心設計了 181 個元任務規則,這些元任務規則就像 Rogue-like 游戲一樣,通過隨機種子生成不同的 NPC 性格、文件路徑、數據分布等。此外,這些元任務會刻意隱藏部分關鍵線索,讓 agent 必須主動探索環境和向外部尋求幫助才能繼續推進任務。
      • 第二步:還原真實的「動態復合場景」:真實工作從來不是單線程的。Trainee-Bench 將多個獨立的任務實例,按照時間軸編排進一個動態復合場景中。這些任務具有不同的優先級,也可能存在先后依賴,考驗 智能體的多任務規劃能力。
      • 第三步:像導師一樣的「自動驗證機制」:系統不僅看最終結果,更關注過程。通過預埋的 Checkpoints(檢查點),環境能夠自動評估 Agent 每一步做對了沒有,并給出細粒度的自然語言反饋。



      評測結果:頂尖模型的集體「滑鐵盧」

      研究團隊測試了包括Gemini-3-Flash、GPT-5.1、GPT-4o、Claude-4-Sonnet等在內的 7 款頂尖模型,測試結果有些「扎心」。即便面對目前地表最強的 7 款模型,Trainee-Bench 依然像是一道難以逾越的墻。

      洞察一:成功率的「天花板」極低

      在綜合測試中,表現最好的Gemini-3-Flash成功率也僅為35%,而備受期待的GPT-5.1Claude-4-Sonnet成功率僅在23%左右。這說明,面對非結構化的動態職場,SOTA 模型離「獨立上崗」還有極遠的距離。



      洞察二:任務一多,立刻「顧頭不顧尾」

      實驗發現,當并發任務數量從2 個增加到 6 個時,除了 Claude-4 和 GPT-5.1 表現相對平穩外,其他模型的性能都出現了斷崖式下降。多線程工作的調度能力,依然是 AI 邁向高級助理的致命軟肋。



      洞察三:最扎心的發現:Agent 竟然「記吃不記打」?

      Trainee-Bench最獨特的設計之一是引入了「持續學習」的評估。研究者讓 Agent 先工作一天(Day 1),根據反饋總結經驗,讓智能體在Day 2 再次執行和第一天類似的任務。理論上,有了經驗總結,第二天應該干得更好對吧?

      結果恰恰相反!結果顯示:使用了經驗后,Agent 的整體表現反而下降了(得分從 0.42 降至 0.36)。原因在于,當前大模型總結的「經驗」往往非常膚淺或過度擬合。面對動態變化的新環境,生搬硬套昨天的教條反而成了執行的累贅。



      智能體商業價值的重構:用「人類時間」丈量技術

      技術范式的轉移,必然伴隨著商業邏輯的重構。AI Agent 的核心價值不在于算力消耗,而在于「解放」人類的時間。

      在移動互聯網時代,商業的核心是「注意力經濟APP 恨不得占有你每一分鐘。而 AI Agent 時代的邏輯恰恰相反:Agent 本質上是 "Service-as-Software"(服務即軟件),它的核心價值在于「解放」人類的時間。

      本篇論文提出的測試結果,實際上指向了一個可以直接與 投資回報率(ROI)掛鉤的終極指標:等價人類時間(Equivalent Human Time),即:

      {價值} = {人類自主完成時間} - {Agent 耗時} + {人類監工與修正時間}

      如果一個 Agent 需要人類頻繁介入去糾錯、去喂數據,該指標可能為負——這意味著它不僅沒有生產力,反而在浪費算力。只有當 Agent 在「探索、調度、學習」三個環節實現零接管,它才真正具備了商業上的「長青」價值。

      《The Agent's First Day》的實驗數據給出了一個令人振奮的側面:當人類在關鍵時刻給出少量指導(Human Guidance)時,GPT-4o 的得分能從0.24飆升至0.83。這證明了:模型本身的推理能力其實已經足夠強,它真正匱乏的是像人類一樣的主動探索意識和對環境的敏銳感知。



      結語:尋找數字職場的「斯坦利」

      20 年前,莫哈韋沙漠揚起的沙塵,開啟了物理世界自動駕駛的黃金時代。

      如今,《The Agent's First Day》在數字世界里構建的這座「職場迷宮」,或許正是 AI Agent 走向 AGI 所必須跨越的荒漠。它向行業揭示了一個樸素的洞察:停止單純卷模型的參數,開始卷 Agent 的自主學習性。

      因為,只有那些能夠獨自處理復雜任務、讓用戶真正敢于放手、在「無圖」環境中生存下來的 Agent,才能在未來的職場中獲得一張正式的工牌。

      想要挑戰一下你的 Agent 嗎?Trainee-Bench 的數據與代碼已正式開源,歡迎全球開發者帶著Agent前來應聘!

      • 論文標題:The Agent’s First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
      • 項目地址:https://github.com/KnowledgeXLab/EvoEnv
      • arXiv 地址:https://arxiv.org/abs/2601.08173

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      58歲江珊差點認不出,膀大腰圓,身材壯碩,滿頭白發太真實

      58歲江珊差點認不出,膀大腰圓,身材壯碩,滿頭白發太真實

      林輕吟
      2026-04-25 07:44:35
      天呢!40歲滬漂妻子曬家庭真實經濟狀況,引炸評論區…

      天呢!40歲滬漂妻子曬家庭真實經濟狀況,引炸評論區…

      慧翔百科
      2026-05-21 11:35:34
      官宣戀情!女足最美國腳520秀恩愛 與1男子遮臉比心 疑似國足紅星

      官宣戀情!女足最美國腳520秀恩愛 與1男子遮臉比心 疑似國足紅星

      我愛英超
      2026-05-21 10:43:43
      最兇小三,把原配制作成燒肉出售,當時辦案人員至今不敢吃肉

      最兇小三,把原配制作成燒肉出售,當時辦案人員至今不敢吃肉

      莫地方
      2026-05-21 02:00:03
      連續兩個季度盈利 高端車ES8賣爆!蔚來一季度營收255.3億元 同比翻倍

      連續兩個季度盈利 高端車ES8賣爆!蔚來一季度營收255.3億元 同比翻倍

      快科技
      2026-05-21 18:32:15
      “泡藥楊梅”被曝光后,當地協會會長哽咽懇求:給果農一個機會,“不要一棍子打死”!當地農戶:監管加嚴,會填寫實名保證書

      “泡藥楊梅”被曝光后,當地協會會長哽咽懇求:給果農一個機會,“不要一棍子打死”!當地農戶:監管加嚴,會填寫實名保證書

      大風新聞
      2026-05-21 08:43:07
      美媒爆料:以色列營救被軟禁的內賈德,特朗普想讓他出任伊朗總統

      美媒爆料:以色列營救被軟禁的內賈德,特朗普想讓他出任伊朗總統

      小呫說故事
      2026-05-21 19:53:23
      她自爆最近開始和人同居?

      她自爆最近開始和人同居?

      奮斗在韓國
      2026-05-19 19:47:06
      闞清子錄浪姐吃2粒救心丸,血氧飽和度低得嚇到助理,已經瘦10斤

      闞清子錄浪姐吃2粒救心丸,血氧飽和度低得嚇到助理,已經瘦10斤

      八怪娛
      2026-05-20 11:11:20
      500萬拍賣一輛“不能上路”的賽車,張雪這波操作讓全網閉嘴了

      500萬拍賣一輛“不能上路”的賽車,張雪這波操作讓全網閉嘴了

      科技虎虎
      2026-05-21 22:37:59
      沒有想到!廣東隊棄將,成為了深圳隊贏球奇兵 CBA記者盛贊

      沒有想到!廣東隊棄將,成為了深圳隊贏球奇兵 CBA記者盛贊

      體育哲人
      2026-05-21 23:36:39
      僅次于杜蘭特,亞歷山大G2中超越威斯布魯克,創造雷霆隊史紀錄

      僅次于杜蘭特,亞歷山大G2中超越威斯布魯克,創造雷霆隊史紀錄

      好火子
      2026-05-21 22:51:24
      38.99萬元!小米跑車級SUV YU7 GT上市 雷軍:堅決反對在市政公路上危險駕駛

      38.99萬元!小米跑車級SUV YU7 GT上市 雷軍:堅決反對在市政公路上危險駕駛

      每日經濟新聞
      2026-05-21 21:25:25
      他是清白的?韓國警方調查確認金秀賢和未成年金賽綸交往不屬實,所謂證據是偽造!

      他是清白的?韓國警方調查確認金秀賢和未成年金賽綸交往不屬實,所謂證據是偽造!

      奮斗在韓國
      2026-05-21 13:37:11
      外圍大漲 A 股暴跌:量化再成踩踏式行情放大器

      外圍大漲 A 股暴跌:量化再成踩踏式行情放大器

      作家出版人姚茂敦
      2026-05-21 17:01:35
      現貨黃金跌破4500美元/盎司

      現貨黃金跌破4500美元/盎司

      每日經濟新聞
      2026-05-21 21:26:32
      胡喬木寫了27首詩詞,呈毛主席修改,遭江青潑冷水:以后別送了

      胡喬木寫了27首詩詞,呈毛主席修改,遭江青潑冷水:以后別送了

      大運河時空
      2026-05-21 19:20:03
      硬漢!大馬丁歐聯手指骨折仍零封 生涯7進決賽全奪冠 勝率百分百

      硬漢!大馬丁歐聯手指骨折仍零封 生涯7進決賽全奪冠 勝率百分百

      我愛英超
      2026-05-21 07:30:23
      終于來了?特斯拉官宣:監督版FSD登陸中國!訂閱價格會是多少?

      終于來了?特斯拉官宣:監督版FSD登陸中國!訂閱價格會是多少?

      王爺說圖表
      2026-05-21 16:10:46
      菜園“大”姐,全靠上半身的“突出貢獻”搶鏡

      菜園“大”姐,全靠上半身的“突出貢獻”搶鏡

      飛娛日記
      2026-04-22 07:27:30
      2026-05-22 00:16:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      家居
      時尚
      親子
      藝術
      教育

      家居要聞

      風格碰撞 個性與藝術

      今年夏天最流行的4組搭配,誰穿誰好看!

      親子要聞

      5歲小女孩來月經,竟是因為這件事情!

      藝術要聞

      崔雪冬 2026年油畫新作

      教育要聞

      一個方法讓孩子擁有解決問題能力

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高清无码一区二区三区| 亚洲网友自拍| 麻豆亚洲AV无码精品色尤物| 欧美成人aaa片一区国产精品| 亚洲一二区三区| 久久亚洲综合色| 亚洲精品欧美日韩在线| 亚洲精品国产综合久久一线| 国产精品久久久久久妇女| 欧美熟妇a片在线a片视频| 久久精品国产亚洲av忘忧草18| 尤物视频在线播放你懂的| 成人精品一区二区三区在线观看| 亚洲第一香蕉视频啪啪爽| 色狠狠一区二区| 91美女视频在线观看| 福利一区二区在线播放| 杨幂激情无码精品久久| 久六精品| 99免费在线观看视频| 亚洲乱码一二三四区国产| 色综合天天综合天天更新| 国产精品网红刘婷系列| 中文字幕久久熟女蜜桃| 精品少妇爆乳无码aⅴ区| 色色97| 欧美精品人妻系列| 视频二区一区国产精品天天| 国产三级国产精品久久成人| 最新国产av| 99re热这里只有精品18| 成人免费午夜性大片| 国产360激情盗摄全集| 亚洲很很鲁| 99re在线视频播放| 成年奭片免费观看视频天天看| 亚洲免费无码| 亚洲国产成人精品综合| 成人AV鲁丝片一区二区免费| 久久久成人毛片无码| 国产熟女精品|