![]()
這項由上海交通大學與字節跳動聯合發起、并有麻省理工學院、清華大學等多家機構參與的研究,于2026年5月以預印本形式發布,論文編號為arXiv:2605.03596v1。研究團隊構建了一個名為Workspace-Bench的基準測試體系,專門用來評估AI智能體在真實辦公室文件環境中的實際表現。
每個在公司上班的人,桌面上或電腦里大概都有一個亂糟糟的文件夾。合同、郵件、表格、草稿、舊版本、新版本、別人發來的PDF、自己做的PPT……這些文件彼此之間有著千絲萬縷的聯系,有的是同一份報告的不同修改版本,有的是某張表格的數據來源,有的是一封討論某個方案的郵件。當你需要整理出一份年終總結或者一個提案的時候,你必須在這些文件里翻來翻去、前后對照、綜合判斷。
現在,AI助手越來越流行,很多人寄希望于讓它替自己處理這類繁瑣的工作。問題是,現在的AI真的能勝任嗎?面對一個真實的、亂糟糟的辦公室文件系統,它能找到對的文件,理解文件之間的關聯,然后把任務漂亮地完成嗎?這正是這項研究想要回答的問題。
研究團隊的發現是:現有的AI智能體距離真正勝任這類工作,還差得相當遠。在他們設計的測試中,表現最好的AI組合得分只有68.7%,而人類專家借助工具完成同樣任務的得分是80.7%。更令人警醒的是,28種不同AI配置的平均得分只有47.4%——也就是說,平均而言,有超過一半的評分要點是AI沒能完成的。
一、為什么舊的測試方法都是"假題"
要理解這個研究的價值,得先明白一個問題:在此之前,研究者們是怎么測試AI的?
大部分已有的測試,其實都把任務簡化得太厲害了。有的測試只是把所有信息都寫在一段提示詞里,直接塞給AI,讓它回答問題。這就像一道填空題,把答案需要的所有材料都放在題目旁邊,AI只需要讀題、找答案。但真實的工作不是這樣的——你不會有人專門幫你整理好所有文件、貼上標簽、遞到手邊。
還有一類測試稍微進了一步,會給AI幾個相關文件,讓它從中提取信息。但這還是經過"預先打包"的,就好像老師在考試前幫你圈出了考點,AI不需要自己去翻整個文件柜。
最接近真實的那類測試,比如OfficeBench和TheAgentCompany,會給AI一個更完整的文件系統,讓它自己去操作。但這些測試也有明顯的局限:支持的文件格式通常不超過十種,文件系統的結構比較單一,而且最重要的一點是,它們并沒有明確要求AI理解文件之間的依賴關系——也就是說,即使AI只看了一個文件就給出了答案,測試也未必能發現它忽略了其他關鍵文件。
研究團隊把這個關鍵缺失總結為:現有測試缺乏對"文件依賴關系"的評估。在真實工作中,很多任務需要你同時理解多個文件的內容,理解它們之間的關聯,才能給出正確答案。而這恰恰是現有AI最薄弱的地方。
二、一個更像真實辦公室的測試場
為了填補這個空白,研究團隊從零開始搭建了Workspace-Bench。這個測試場的規模相當驚人。
研究團隊為五種典型的公司職員角色構建了各自的文件系統:運營經理、物流經理、AI產品經理、后端開發工程師和研究員。為什么選這五種?因為這五種角色代表了公司里截然不同的工作方式和文件習慣。開發工程師的文件夾里有大量代碼文件和配置文件,研究員的文件夾里有論文、數據集和實驗記錄,而運營經理的文件夾里則是大量表格、報告和郵件往來。
五個角色的文件系統加在一起,共有20476個文件,總大小最高可達20GB,涵蓋74種不同格式的文件。這74種格式包括了幾乎所有你在真實辦公室里可能見到的東西:Word文檔、Excel表格、PDF報告、Markdown筆記、Python腳本、YAML配置文件、郵件文件、數據集文件,甚至還有圖片和演示文稿。文件夾的嵌套深度最深達到8層,平均深度也有3.7層,這意味著AI不能指望"一眼看到底",它必須真正地在文件系統里導航和搜索。
文件的組織方式也刻意模仿了真實工作場景的"混亂感":里面有冗余的文件夾、命名模糊的目錄、以及同一份文檔的多個歷史版本(比如report_v1、report_reviewed、report_final)。這種"噪音"是真實工作環境的正常狀態,但對AI來說是一個巨大的挑戰。
在這個文件系統的基礎上,研究團隊精心設計了388個任務。這些任務不是研究者自己憑空想出來的,而是來自字節跳動內部真實工作場景的收集和提煉——研究團隊通過問卷調查收集了真實的工作流程案例,然后由領域專家篩選和轉化。每個任務都是一個自然語言描述的請求,比如"整理本周所有物流記錄,生成一份匯總報告",或者"根據公司歷史銷售數據和區域客戶檔案,制定明年的全球市場產品策略"。
每個任務都有一張"文件依賴圖"——明確標注了完成這個任務必須用到哪些文件、這些文件之間有什么關系。平均每個任務需要用到4.7個不同的文件,涉及5.1條文件之間的依賴關系。任務的難度分為三級:簡單任務主要考查基本的文件瀏覽和信息匯總;中等任務需要理解文件的語義關聯;困難任務則要求AI處理多種格式的文件并追蹤版本歷史。
評分方式也比以往測試細致得多。388個任務共設計了7399條評分標準,平均每個任務有19.1條。這些評分標準分為三類:結果類評分檢查最終輸出是否正確和完整,基礎類評分檢查文件命名和格式是否符合要求,過程類評分則檢查AI在解題過程中是否找對了文件、用對了版本。這種"過程也計分"的設計,使得即便AI僥幸得出了正確答案,研究者也能發現它是否走了彎路。
三、被評測的AI選手們
研究團隊選取了4個"智能體框架"(可以理解為AI完成任務的不同"工作方式")和7個基礎語言模型,組合成28種配置進行測試。
4個智能體框架分別是OpenClaw、ClaudeCode、DeepAgent和Hermes。這四種框架各有特點,工作方式也不同。OpenClaw采用了一種雙循環架構,把高層次的規劃和底層的工具操作分開處理,不容易在長任務中迷失方向。ClaudeCode來自Anthropic公司,深度集成了文件系統操作能力,還能在上下文快滿時自動壓縮歷史信息。DeepAgent基于LangChain開發,工作流程高度透明、可控,每一步都有跡可查。Hermes則是一個帶有"自我學習"能力的框架,它能把每次任務中踩過的坑記錄下來,以便下次避免同樣的錯誤。
7個基礎語言模型覆蓋了當前業界的主流選手:Opus-4.7(Anthropic)、GLM-5.1(智譜AI)、MiniMax-M2.7、Seed-2.0-Code(字節跳動)、GPT-5.4(OpenAI)、Gemini-3.1-Pro(Google)和Kimi-2.5(月之暗面)。
四、測試結果:AI在這場考試里的真實成績單
整體成績出爐時,結果令人清醒。28種配置的平均通過率只有47.4%,而人類專家借助工具完成同樣任務的通過率是80.7%,兩者相差超過33個百分點。表現最好的是OpenClaw搭配Opus-4.7的組合,通過率接近69%;緊隨其后的是ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7。排在前三的配置,清一色都用了Opus-4.7這個基礎模型。而排名靠后的組合,比如DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro,通過率跌破30%。
任務難度對成績的影響非常顯著。在簡單任務上,所有配置平均能達到57.6%的通過率;中等難度任務降到49.2%;到了困難任務,平均通過率只剩下40.5%。這個下滑趨勢并不令人意外,但下滑的幅度和規律性,驗證了研究者對任務難度分級設計的合理性。
更有意思的是,在簡單任務上,哪個框架并不重要——用同一個基礎模型、不同框架,成績差不多。但在困難任務上,框架的選擇就開始產生明顯差異了。困難任務需要AI同時做到:找出相關文件(包括通過任務線索推斷哪些文件可能有用)、規劃一個復雜的多步驟執行方案、追蹤中間過程的狀態、并且在出錯時能及時調整。這時候,框架的調度能力就顯得至關重要了。
研究團隊還專門分析了六個維度上的能力表現。這六個維度分別是:工作區瀏覽(能不能在文件系統里找到路)、任務支撐文件的識別(能不能找到提供背景信息的文件)、結果文件的整合(能不能找到包含直接答案的文件)、文件版本追蹤(能不能區分同一文件的不同版本)、語義內容關聯理解(能不能理解文件內容之間的邏輯聯系)和異構文件理解(能不能讀懂不同格式的文件)。
結果顯示,幾乎所有AI在工作區瀏覽方面表現相對較好,因為這只需要執行一些基本的文件系統命令。結果文件的整合也相對不差,因為這主要依賴語言模型本身的推理能力。然而,異構文件理解和文件版本追蹤這兩個維度是普遍的薄弱環節。讀懂一份PDF里的圖表、理解一個Excel里的復雜公式、或者判斷三個版本的文檔中哪個才是最新的有效版本——這些對人類來說相當自然的操作,對現有AI來說卻困難重重。
五、用錢買不來的高分:效率與成績的關系
研究發現了一個反直覺的現象:讓AI做更多步驟、消耗更多算力,并不一定能帶來更好的成績。
研究團隊記錄了每個配置完成每個任務平均需要多少輪對話交互,以及消耗多少token(可以理解為AI"閱讀"和"生成"文字的數量,直接與使用成本掛鉤)。結果發現,ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7這兩個頂級配置,平均只需要不到20輪交互,token消耗也處于較低水平,但卻拿到了最高的成績。它們的高效,來自于一開始就能準確理解任務意圖、直接找到正確的文件和方法。
相反,DeepAgent搭配Opus-4.7雖然同樣取得了接近67%的高分,但它平均需要將近60輪交互,消耗的token數量也是前者的數倍。更典型的反例是DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro這類組合:它們的交互輪數高達40到60輪,token消耗巨大,但最終成績卻只在30%到45%之間徘徊。這說明,當基礎語言模型的推理能力不足時,AI會陷入反復重試的循環——不斷嘗試無效的操作,卻無法從錯誤中找到正確方向,白白消耗大量資源。
六、不同職業角色,AI的表現也大相徑庭
五種職業角色對應的工作空間,AI的表現差異相當明顯。
后端開發工程師和研究員這兩個角色的任務,AI完成得相對較好。原因不難理解:這兩種角色的工作高度依賴結構化的代碼和數據,而現有AI恰恰在代碼相關任務上訓練得最充分。ClaudeCode搭配Opus-4.7在研究員角色上的得分接近80%,部分原因就是ClaudeCode本身就是為代碼和研究類任務優化設計的。
而AI產品經理和運營經理這兩個角色的任務,AI表現明顯較弱。這兩種角色需要處理大量語義模糊的商業文件,進行策略判斷和資源規劃,理解非結構化的語言表述。這些能力對AI來說更難習得。有趣的是,Hermes框架在產品經理角色上的相對表現最好,研究者認為這與Hermes處理開放性語義交互的能力更強有關。
七、人類與AI的差距究竟在哪里
研究團隊還專門招募了20位領域專家,以"人類借助AI工具"的方式完成同樣的任務,作為對照基準。結果顯示,這種"人機協作"模式的通過率達到80.7%,全面超越純AI自動完成的所有配置。
更值得關注的是,人類專家在不同難度任務上的表現相當穩定——簡單任務78.4%,中等任務81.2%,困難任務80.4%,幾乎沒有因為任務變難而出現明顯下滑。相比之下,AI的成績從簡單到困難有一個明顯的臺階式下降。
研究者認為,這種穩定性來自于人類天然具備的一種能力:理解文件之間隱含的關系,并靈活地利用這些關系來解決問題。當你看到一個文件名叫"Q3_sales_report_final_revised_v3.xlsx"的時候,你不需要讀完它就能判斷它可能是最新版本;當你看到一封郵件提到了某個方案文檔,你會自然地去找那份文檔。這種基于常識和上下文的判斷,目前的AI仍然難以復制。
八、AI工作助理進化的五個階段
基于這些發現,研究團隊提出了一個頗具參考價值的框架,描述了AI在處理工作文件方面可能經歷的五個進化階段。
第一階段是"數據不敏感執行"——AI只是一個顧問,它給出建議,但所有實際操作都由人來完成,AI對文件內容幾乎不關心。第二階段是"按指定文件執行"——用戶必須明確告訴AI要讀哪個文件,AI才能處理,它把每個文件當作獨立的個體,不理解文件之間的聯系。這個階段描述的是很多現有GUI操作型AI助手的狀態。
第三階段是"文件到文件的依賴推理"——AI能夠在用戶給出的文件范圍內,自己推斷出哪些文件之間有關聯,并據此完成任務。這是當前最好的AI系統正在努力達到的水平。研究者將這個階段的關鍵轉折點稱為"編排奇點"——在這個點之后,框架的貢獻開始超過基礎語言模型本身對任務成功的貢獻。
第四階段是"任務到文件的依賴發現"——AI不需要用戶提供文件,它能自主地在整個工作空間里探索,根據任務描述找到所有相關文件。研究者將這個階段的達成稱為"能力奇點"。當前的測試數據表明,AI在朝這個方向努力的過程中,成績會持續下降——困難任務的通過率比簡單任務低了17個百分點,正是這個"自主探索"能力尚未成熟的體現。
第五階段是"工作區原生自進化"——AI不再只是處理任務,而是在每次完成任務的過程中持續學習和適應,自動將新工具、新文件類型納入自己的能力范圍。當你的電腦上裝了一個新軟件,AI能自動發現并學會使用它。
研究者指出,從第三階段開始,框架的調度能力變得比基礎模型更關鍵。而在第三和第四階段之間,存在一個他們稱之為"數據關聯鴻溝"的根本性障礙——現有AI在孤立處理單個文件方面還不錯,但在自主理解文件之間的網狀依賴關系方面存在系統性缺陷。跨越這道鴻溝,需要從根本上重新設計AI框架發現、表示和利用文件依賴關系的方式。
九、AI犯錯時,它在哪里出了差錯
研究團隊還對失敗案例進行了系統分析,將錯誤分為五類。
最常見的錯誤類型是"內容遺漏"——AI給出的答案漏掉了關鍵信息,通常是因為它沒有找到某個重要的文件,或者讀了文件但沒有提取出其中的關鍵數據。第二常見的是"推理錯誤"——AI找到了正確的文件,但在統計、計算、排序或跨文件數據關聯時出了差錯,給出了錯誤的數字或結論。
相比之下,"格式錯誤"(輸出格式不對)和"過程錯誤"(執行步驟有問題)的比例很小,說明現有AI在遵守基本的格式要求和執行操作流程方面已經相當成熟。真正的瓶頸在于信息的全面召回和跨文件的數據整合。
說到底,這項研究告訴我們一件相當直白的事:現在的AI助手,在面對一個真實的、亂糟糟的辦公室文件系統時,表現遠沒有我們期待的那么好。它能完成一些基礎工作,但一旦任務變得復雜——需要在幾十個文件里找線索、理解文件版本關系、讀懂不同格式的內容、把零散的信息整合成一個連貫的答案——它就開始頻繁出錯。
這對于希望用AI提升工作效率的人來說,意味著現階段最合理的方式仍然是"人機協作":讓AI處理它擅長的部分(執行明確的操作、整理結構化數據),而由人負責判斷哪些文件重要、文件之間有什么隱含聯系、以及最終結論是否合理。完全依賴AI自動完成復雜工作流,目前來看還不可靠。
這項研究另一個有價值的地方在于它搭建了一個可重復的測試環境。有了Workspace-Bench這套測試體系,未來的研究者和開發者可以用同一把尺子來衡量AI的進步,而不是各自做各自的測試、互相無法比較。這對于整個AI助手領域的迭代來說,是一塊重要的基礎設施。
如果你對這項研究的完整細節感興趣,包括388個任務的詳細設計、各種AI配置的完整成績單,以及五階段進化框架的完整論述,可以通過arXiv編號2605.03596查閱原始論文。
Q&A
Q1:Workspace-Bench和OfficeBench這類已有測試相比,主要區別是什么?
A:Workspace-Bench的核心區別在于它模擬了真實的、雜亂的辦公室文件系統,而不是提前整理好的任務文件包。它支持74種文件格式、最多11020個文件,并且明確測試AI能否識別文件之間的依賴關系——比如版本追蹤和跨文件內容關聯。已有測試通常只給AI幾個相關文件,不需要AI自己去搜索和判斷哪些文件重要。
Q2:Workspace-Bench測試中,AI表現最差的能力是哪兩個?
A:表現最差的是"異構文件理解"和"文件版本追蹤"。異構文件理解指的是讀懂不同格式文件的內容,比如PDF里的圖表或Excel里的復雜公式。文件版本追蹤是指區分同一文件的不同歷史版本,判斷哪個才是最新有效的版本。這兩項能力在所有28種AI配置中都普遍偏低,是當前AI系統的系統性短板。
Q3:Workspace-Bench里說的"文件依賴圖"是什么意思?
A:文件依賴圖是為每個任務標注的一張關系圖,明確說明完成這個任務必須用到哪些文件、這些文件之間有什么關系。比如,一份最終報告依賴于三個原始數據表格,而其中一個表格又引用了另一個分析文檔。這張圖讓評測系統可以檢查AI是否真的找到并使用了所有必要的文件,而不是僅憑運氣猜到了正確答案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.