<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      從智能體到賽博員工,生產力智能涌現

      0
      分享至



      機器之心發布

      最近一兩年,AI 行業有一個很微妙的變化:大家不再滿足于問 “模型會不會回答”,也不再只關心 “Agent 能不能調用工具”。越來越多的討論開始回到一個更終極的問題:AI 到底能不能完全自動化接管工作區,理解個性化需求,像一個真實的人類勞動力一樣,把一件事情從頭到尾做完?

      這個問題并不新。過去,每一輪模型升級都會帶來一批令人驚艷的 Demo:寫代碼、做 PPT、總結文檔、整理會議紀要,甚至在瀏覽器中代替人完成流程。然而,一旦將其放入真實的個人或企業工作流中,差距很快顯現出來:Demo 中的 AI 像一個聰明的助手,真實工作中的 AI 卻常常像一個健忘、不了解組織上下文的新同事。以圖中的案例為例,許多 Agent 表面上能夠 “完成表格”,但實際結果中仍存在結構錯誤、統計偏差、關鍵字段缺失等問題。



      相關鏈接:https://huggingface.co/Workspace-Bench

      我們在分析飛書內部 100+ 個真實案例后發現,當前 Agent 已經進入大量工作流,但大多數仍停留在 “行動層”,比如寫一段話、打開一些文件。它們可以執行任務,卻難以理解任務背后的真實工作世界。其中一個關鍵挑戰是,當一個任務背后有一整套長期積累的工作空間時,AI 能不能知道該看什么、信什么、忽略什么,以及最后如何把這些材料組織成一個可交付的結果。

      這也是我們在實踐中越來越強烈感受到的轉折:Agent 的下一站,不只是更強的模型,也不只是更強的 Agent Harness,而是生產力智能。

      需求:從 “演示干活” 到 “進入崗位”

      想象一個很普通的工作場景。你剛加入一個團隊,老板對你說:“幫我整理一份明年全球產品策略報告?!?/p>

      如果這是一個傳統 AI 任務,用戶可能會把三份材料上傳給模型,并明確告訴它:“請基于這三份文件寫一份報告。” 這時,AI 需要做的事情相對清楚:讀取文件、抽取要點、生成文本。

      但真實工作不是這樣發生的。真實情況往往是,你面對的是一個團隊多年沉淀下來的工作站:舊版方案、最終版方案、會議紀要、表格數據、客戶反饋、郵件導出、PPT 草稿、競品分析、臨時截圖、歷史復盤,全都散落在不同目錄、不同命名規則和不同版本里。更麻煩的是,很多關鍵關系并不會寫在文件名里。某個圖表可能來自三個月前的 Excel,某個結論可能來自一次沒有歸檔好的會議,某個 “最終版” 旁邊還躺著一個其實更新的 “final_v3”。

      從這個角度看,我們真正需要的不是一個 “萬能聊天機器人”,也不是一個能把工具鏈串起來的自動化腳本,而是一種新的生產力單位:它要擁有自己的工作站,理解崗位職責,能夠面對任務目標自主探索、持續學習,并以可驗證的方式交付結果。我們把這種形態稱為賽博員工

      這就是 Workspace-Bench 試圖揭示的問題。它不是為了再造一個 “誰分數更高” 的榜單,而是把 AI Agent 放回真實員工的辦公環境中,測試它們是否具備一種更接近生產現場的能力:Workspace Learning,工作空間學習

      工作空間學習,指的是 AI Agent 能夠在復雜工作空間中識別、推理、利用并更新異構文件之間顯性與隱性的依賴關系,從而完成日常和進階工作任務的能力。



      相關鏈接:https://workspace-bench.github.io/leaderboard.html

      現狀:今天的 Agent 技術,哪些能適配賽博員工,哪些還不能

      過去我們談 Agent,常常強調模型之外的系統能力。一個 Agent Harness 會給模型接上工具、記憶、文件系統、瀏覽器、MCP、狀態管理和多步執行能力。它讓 AI 不只是 “說”,也能 “做”。近年的 Agent Harness 已經把 AI Agent 的操作范圍大幅擴展到模型推理之外:連接外部工具與 MCP,維護任務狀態和長期記憶,編排多步執行,加入安全邊界,并支持系統性評估機制。這些能力使 Agent 能夠減少人類在日常任務甚至高級任務中的重復勞動。

      Workspace-Bench 1.0 選擇了一個很有挑戰性的切口:不再把 Agent 放在干凈、預設、單文件的任務里,而是構建五類真實工作角色的工作空間,覆蓋運營經理、物流經理、產品經理、后端開發和研究員等畫像;整個環境包含 20,476 個文件、74 種文件類型、3,299 個目錄,最大目錄深度達到 8,最大單個工作站包含 11,020 個文件。



      相關鏈接:https://arxiv.org/abs/2605.03596

      它圍繞 388 個帶有文件依賴圖的任務進行評測,并設計了 7,399 條細粒度 rubric,平均每個任務需要解析 5.1 條依賴邊、跨越 4.7 個不同文件,并接受 19.1 條評價標準檢驗。這種評測方式不只看最終答案是否像樣,還看 Agent 是否找對了源文件,是否理解了文件之間的關系,是否使用了正確版本,是否遵循了任務所需的依賴結構。

      這與真實辦公非常接近?,F實里,一個報告寫得漂亮但數據源錯了,比報告寫得樸素更危險;一個策略建議語言流暢但證據鏈斷了,反而會放大組織風險。

      一個代表性任務很有意思:運營經理需要生成一份全球市場產品策略報告。任務要求 Agent 遍歷全球市場數據,比較 USCA、Asia Pacific、Europe、LATAM、Africa 五個市場的銷售額和利潤率,分析不同產品類別在不同市場的盈利能力,評估物流成本對利潤的影響,比較客戶細分貢獻,并最終生成 `Global_Product_Strategy.md`。這看起來像一個 “寫報告” 的任務,但實際上它要求 Agent 找到 9 個核心文件,連接訂單 CSV、物流 PDF、產品信息 Excel、客戶分層表、銷售計劃 PDF 等多源材料,并通過 25 條 rubric 驗證基礎交付、結果正確性和過程正確性。

      這不是傳統意義上的 “總結文檔”,而是一次小型的數字辦公室試煉。Agent 必須自己完成一件真實員工每天都在做的事:從散亂材料中恢復工作脈絡,從多源證據中形成判斷,再把判斷組織成可交付成果。

      實驗結果也說明了差距的結構性。Workspace-Bench-Lite 上,各類 Agent 配置的總體通過率約在 27% 到 60% 之間,平均約 45.1%,明顯低于人類專家配合工具的 80.7%。在完整統計中,跨 27 種 Agent Harness 與 Foundation Model 組合的平均 Rubrics Pass Rate 約為 43.3%,最佳組合接近 60%,但仍與人類加工具存在顯著差距。



      更值得關注的是,難度越接近真實工作,Agent 的性能下降越明顯。論文顯示,任務從 Easy 到 Medium 再到 Hard,平均通過率從 51.4% 降到 46.0%,再降到 35.7%。Easy 任務往往只是較簡單的多文件總結或單文件修改;Hard 任務則引入文件關系發現、長程規劃、狀態跟蹤和錯誤恢復。換句話說,Agent 不是不會動手,而是一旦進入真實工作站的復雜依賴網絡,就很容易迷路。

      其中最有啟發的一點,是論文對依賴圖識別的分析。Agent 的 Node F1 通常高于 Edge F1,說明它們相對更容易找到 “哪些文件可能相關”,但更難判斷 “這些文件之間到底是什么關系”。這其實非常符合我們的實踐經驗:今天的 Agent 常常能搜到一堆材料,卻不知道哪個是源數據,哪個是派生報告,哪個是歷史版本,哪個只是背景約束。

      這就是賽博員工與普通 Agent 的分界線。普通 Agent 只要找到材料,就可以開始生成;賽博員工必須先理解材料之間的關系,再決定如何生成。

      Scaling :從模型參數到提供的工作世界本身

      今天行業討論 Scaling,很多時候仍然圍繞模型本身展開:更大的參數、更長的上下文、更強的推理、更低的 token 成本。這些當然重要,但它們并沒有完全回答企業生產力的問題。

      我們從實踐中看到,后面真正需要規模化擴展的,未必是 Agent 本身或模型本身,而是三個更難但更關鍵的對象。

      第一,是工作站的規模。真實企業不是一個干凈的 benchmark 文件夾,而是成千上萬個不斷變化的 workspace。每個團隊的文件結構、命名習慣、權限邊界、歷史遺留和業務語義都不同。AI 如果只能在單個被整理好的文件包里工作,它就很難進入真實組織。

      第二,是提供的角色的規模。企業需要的不是一個泛化的 “萬能 Agent”,而是一組能夠承擔具體職責的角色:運營經理、產品經理、物流經理、后端負責人、研究員、銷售、財務、HR、法務。每個角色都有不同的目標函數、證據標準和交付格式。讓 AI 從 “執行工具” 變成 “崗位角色”,本身就是一次更復雜的工程化挑戰。

      第三,是各種典型生產力工作的規模。企業真正關心的不是 AI 能否完成一次炫技任務,而是能否穩定覆蓋周報生成、客戶分析、項目復盤、策略報告、數據核對、合規審查、需求整理、進度跟蹤等高頻任務。這些任務往往不難描述,卻很難穩定交付,因為它們高度依賴組織上下文和跨文件證據鏈。

      這三件事都非常難 Scaling。它們不像模型參數那樣可以通過統一的訓練流程線性推進,也不像單個 Agent Demo 那樣可以靠精心設計的場景展示效果。它們要求 AI 系統真正理解企業里的 “工作世界”:文件如何產生,信息如何流轉,角色如何協作,任務如何沉淀為流程。

      生產力智能涌現

      過去談 AI 涌現,行業常常把它理解為模型能力突變:模型規模達到某個臨界點,突然出現更強的推理、規劃、編碼或多模態理解能力。這種涌現仍然重要,但它不是生產力智能的全部。

      在生產力場景里,我們需要一個新的定義:生產力智能的涌現,是當模型、Agent Harness、工作站結構、角色語境、任務反饋和組織流程形成閉環后,系統在真實工作中表現出穩定、可復用、可擴展交付能力的過程。



      這個定義有三個關鍵變化。

      第一,涌現的驅動力不完全來自模型。更強模型當然能提升上限,但論文結果顯示,同一模型在不同 Harness 下會呈現不同的能力分布,而同一 Harness 在不同模型上也會出現顯著差異。尤其在 Hard 任務中,性能下降來自模型推理能力與 Harness 編排約束的雙重作用。這說明,生產力智能不是單點模型能力,而是系統組合能力。



      第二,涌現的驅動力也不完全來自 Agent 技術本身。Harness 可以讓 AI 更會行動,但如果它不能理解工作站中的文件血緣、語義依賴和任務支撐關系,就會陷入 “動得很多,但做得不準” 的狀態。高交互輪次和高 token 消耗并不必然帶來高質量結果。某些配置會產生 40 到 60 輪交互、消耗大量 token,卻只能停留在 30% 到 45% 的準確率區間。相反,更高效的系統能夠用更少交互輪次找到關鍵證據,體現出更強的推理效率。



      第三,涌現可能源于工作站本身的變革。當工作站不再只是文件存儲,而是成為一種可被機器理解、可被角色繼承、可被任務驗證的生產力環境時,AI 的能力邊界會發生變化。它不再只是 “訪問文件”,而是在一個結構化、帶有血緣、權限、反饋和評價機制的工作世界中學習如何工作。

      結語:下一代 AI 競爭,是爭奪生產力智能的基礎設施

      過去,AI 產品常常從 “能力” 出發:能寫作、能畫圖、能檢索、能 coding、能調用工具。但未來,真正能夠進入企業生產系統的 AI 產品,必須從 “工作” 出發:一個角色每天要完成什么任務?需要訪問哪些工作站?如何識別文件之間的關系?如何發現缺失信息、修復錯誤、檢查版本,并在多人協作中留下可追溯的證據鏈?

      這正是當前 Agent 的核心瓶頸。許多 Agent 本質上仍是 request-response system:用戶提出指令,它在 prompt 邊界內執行動作。但真實員工更接近 outcome-responsible system:老板只提出目標,員工會主動補齊數據、核對上下文、預判風險,并對最終交付負責。因此,賽博員工與普通 Agent 的核心分層,不在于是否能夠調用工具,而在于是否能夠將目標轉化為可靠交付。普通 Agent 更多是把指令轉化為動作,賽博員工則需要把目標轉化為結果。

      從 Agent 到生產力智能的范式遷移,并不容易。工作站的規模、角色的規模、典型生產力工作的規模,都可能構成新的 scaling-up 問題。但也正因為難,它才是 AI 真正進入工作世界的潛在關鍵。

      參考內容:

      《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美聯儲主席凱文·沃什 上任首日 韓股熔斷,白銀崩盤,美債狂飆

      美聯儲主席凱文·沃什 上任首日 韓股熔斷,白銀崩盤,美債狂飆

      每日經濟新聞
      2026-05-15 18:19:39
      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      懂球帝
      2026-05-15 15:09:09
      何猷君奚夢瑤澳門小店用餐,與保鏢同桌吃飯,被指是豪門罕見舉動

      何猷君奚夢瑤澳門小店用餐,與保鏢同桌吃飯,被指是豪門罕見舉動

      八卦寶寶
      2026-05-15 00:59:10
      雷軍開打價格戰,小米廉價車型要來了

      雷軍開打價格戰,小米廉價車型要來了

      科技頭版Pro
      2026-05-14 14:36:27
      曝黑海艦隊成鐵籠!俄烏戰爭以來首次安裝無人機“防護網”

      曝黑海艦隊成鐵籠!俄烏戰爭以來首次安裝無人機“防護網”

      項鵬飛
      2026-05-12 18:14:38
      唏噓!日本3大旅歐名將無緣世界杯 三笘薫夢碎:開賽1個月前重傷

      唏噓!日本3大旅歐名將無緣世界杯 三笘薫夢碎:開賽1個月前重傷

      我愛英超
      2026-05-15 13:50:18
      森林狼G6或棄用戈貝爾!美媒透露芬奇變陣方案,里德搭檔蘭德爾出任先發

      森林狼G6或棄用戈貝爾!美媒透露芬奇變陣方案,里德搭檔蘭德爾出任先發

      慢歌輕步謠
      2026-05-15 18:17:54
      剛剛,全球市場集體跳水,發生了什么?

      剛剛,全球市場集體跳水,發生了什么?

      鳳凰網財經
      2026-05-15 14:45:28
      終老勇士,庫里要再拼一次

      終老勇士,庫里要再拼一次

      體育新角度
      2026-05-15 16:12:11
      上演萬國來朝?特朗普剛走,普京后面排隊,巴鐵只能等到最后?

      上演萬國來朝?特朗普剛走,普京后面排隊,巴鐵只能等到最后?

      風起見你
      2026-05-15 17:59:55
      馬斯克、庫克中間的中國女人火了!到底是誰?如今手握千億帝國

      馬斯克、庫克中間的中國女人火了!到底是誰?如今手握千億帝國

      次元君情感
      2026-05-15 17:36:52
      中國做出兩個承諾!特朗普親口證實:不提供軍武、幫忙通海峽

      中國做出兩個承諾!特朗普親口證實:不提供軍武、幫忙通海峽

      子桑說
      2026-05-15 16:12:39
      法國公布世界杯26人名單:姆巴佩領銜 總價14.7億歐 皇馬中場落選

      法國公布世界杯26人名單:姆巴佩領銜 總價14.7億歐 皇馬中場落選

      我愛英超
      2026-05-15 06:38:44
      “中美關系新定位”,帶給世界什么?

      “中美關系新定位”,帶給世界什么?

      新民晚報
      2026-05-15 09:50:45
      “龍哥”滑墜身亡,年僅58歲,知情人:墜落處有二三層樓高,頭部遭到重創,救援難度太大

      “龍哥”滑墜身亡,年僅58歲,知情人:墜落處有二三層樓高,頭部遭到重創,救援難度太大

      魯中晨報
      2026-05-15 17:47:15
      90后博士后讀研讀博期間,套取科研經費1426萬,被判有期徒刑8年!

      90后博士后讀研讀博期間,套取科研經費1426萬,被判有期徒刑8年!

      高分子科學前沿
      2026-05-14 20:16:04
      成人片女星許諾薩福諾夫奪歐冠將共度良宵,球員妻子爆粗回應

      成人片女星許諾薩福諾夫奪歐冠將共度良宵,球員妻子爆粗回應

      懂球帝
      2026-05-14 15:58:14
      宏遠速遞!杜鋒開展續約談判,徐杰拿頂薪生變,拉科正式離隊

      宏遠速遞!杜鋒開展續約談判,徐杰拿頂薪生變,拉科正式離隊

      多特體育說
      2026-05-14 23:34:18
      降雨+降溫!山西天氣即將大反轉

      降雨+降溫!山西天氣即將大反轉

      魯中晨報
      2026-05-15 17:14:11
      特朗普很開心,不僅致辭祝酒,還多次“暢飲”

      特朗普很開心,不僅致辭祝酒,還多次“暢飲”

      三叔的裝備空間
      2026-05-14 22:35:18
      2026-05-15 18:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142649關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:中美元首會晤"刷屏" 特朗普用3個詞談中美關系

      頭條要聞

      媒體:中美元首會晤"刷屏" 特朗普用3個詞談中美關系

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      本地
      時尚
      公開課
      軍事航空

      喪尸生存FPS游戲《毒液突擊隊》將迎來重磅更新

      本地新聞

      用蘇繡的方式,打開江西婺源

      56歲逆風翻盤,她怎么從全網群嘲變成了大家的天才女友?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 影音先锋在线观看资源影音av| 久久精品伊人无码二区| 国产麻豆9l精品三级站| 色综合久久一区二区三区| 激情偷拍av| 亚洲乱码日产精品bd在观看| 99热这里只有精品在线观看| 无码日韩做暖暖大全免费不卡| 国产精品成人午夜久久| 国产福利第一页| 亚洲精选成人| 久久久久青草线焦综合| 国产av国内精品jk制服| 国内精品久久久久影院蜜芽| 成人精品区| AV在线亚洲天堂| 色猫咪av在线观看| 男女肉粗暴进来120秒| 国产成人AV三级在线观看按摩| 水蜜桃视频在线观看免费18| 蜜桃亚洲一区二区三区四| 国产熟妇婬乱A片免费看牛牛| 亚洲午夜精品久久久久久app| 蜜臀AV午夜精品| 久久中文字幕网站篠田优 | 免费无码又爽又刺激成人| 福利导航在线| 亚洲熟妇精品一区二区| 中文字幕在线播放不卡| 蜜芽亚洲AV无码精品国产午夜| 精品无码成人片一区二区| 亚洲成AV人片在线观高清| 中文字幕乱码在线播放| 久久国产亚洲AV无码日韩| 久久天堂无码av网站| 久久亚洲精品AB无码播放| 亚洲一二区制服无码中字| 豆国产97在线 | 亚洲| 日本免费一区二区三区久久| 亚洲久av| 国产一卡2卡三卡4卡免费网站 |