網易首頁 > 網易號 > 正文申請入駐

上海交大與字節跳動：AI助手實現真實辦公文件環境任務處理評估

2026-05-11 17:09:38　來源: 科技行者

天津舉報

分享至

這項由上海交通大學與字節跳動聯合發起、并有麻省理工學院、清華大學等多家機構參與的研究，于2026年5月以預印本形式發布，論文編號為arXiv:2605.03596v1。研究團隊構建了一個名為Workspace-Bench的基準測試體系，專門用來評估AI智能體在真實辦公室文件環境中的實際表現。

每個在公司上班的人，桌面上或電腦里大概都有一個亂糟糟的文件夾。合同、郵件、表格、草稿、舊版本、新版本、別人發來的PDF、自己做的PPT……這些文件彼此之間有著千絲萬縷的聯系，有的是同一份報告的不同修改版本，有的是某張表格的數據來源，有的是一封討論某個方案的郵件。當你需要整理出一份年終總結或者一個提案的時候，你必須在這些文件里翻來翻去、前后對照、綜合判斷。

現在，AI助手越來越流行，很多人寄希望于讓它替自己處理這類繁瑣的工作。問題是，現在的AI真的能勝任嗎？面對一個真實的、亂糟糟的辦公室文件系統，它能找到對的文件，理解文件之間的關聯，然后把任務漂亮地完成嗎？這正是這項研究想要回答的問題。

研究團隊的發現是：現有的AI智能體距離真正勝任這類工作，還差得相當遠。在他們設計的測試中，表現最好的AI組合得分只有68.7%，而人類專家借助工具完成同樣任務的得分是80.7%。更令人警醒的是，28種不同AI配置的平均得分只有47.4%——也就是說，平均而言，有超過一半的評分要點是AI沒能完成的。

一、為什么舊的測試方法都是"假題"

要理解這個研究的價值，得先明白一個問題：在此之前，研究者們是怎么測試AI的？

大部分已有的測試，其實都把任務簡化得太厲害了。有的測試只是把所有信息都寫在一段提示詞里，直接塞給AI，讓它回答問題。這就像一道填空題，把答案需要的所有材料都放在題目旁邊，AI只需要讀題、找答案。但真實的工作不是這樣的——你不會有人專門幫你整理好所有文件、貼上標簽、遞到手邊。

還有一類測試稍微進了一步，會給AI幾個相關文件，讓它從中提取信息。但這還是經過"預先打包"的，就好像老師在考試前幫你圈出了考點，AI不需要自己去翻整個文件柜。

最接近真實的那類測試，比如OfficeBench和TheAgentCompany，會給AI一個更完整的文件系統，讓它自己去操作。但這些測試也有明顯的局限：支持的文件格式通常不超過十種，文件系統的結構比較單一，而且最重要的一點是，它們并沒有明確要求AI理解文件之間的依賴關系——也就是說，即使AI只看了一個文件就給出了答案，測試也未必能發現它忽略了其他關鍵文件。

研究團隊把這個關鍵缺失總結為：現有測試缺乏對"文件依賴關系"的評估。在真實工作中，很多任務需要你同時理解多個文件的內容，理解它們之間的關聯，才能給出正確答案。而這恰恰是現有AI最薄弱的地方。

二、一個更像真實辦公室的測試場

為了填補這個空白，研究團隊從零開始搭建了Workspace-Bench。這個測試場的規模相當驚人。

研究團隊為五種典型的公司職員角色構建了各自的文件系統：運營經理、物流經理、AI產品經理、后端開發工程師和研究員。為什么選這五種？因為這五種角色代表了公司里截然不同的工作方式和文件習慣。開發工程師的文件夾里有大量代碼文件和配置文件，研究員的文件夾里有論文、數據集和實驗記錄，而運營經理的文件夾里則是大量表格、報告和郵件往來。

五個角色的文件系統加在一起，共有20476個文件，總大小最高可達20GB，涵蓋74種不同格式的文件。這74種格式包括了幾乎所有你在真實辦公室里可能見到的東西：Word文檔、Excel表格、PDF報告、Markdown筆記、Python腳本、YAML配置文件、郵件文件、數據集文件，甚至還有圖片和演示文稿。文件夾的嵌套深度最深達到8層，平均深度也有3.7層，這意味著AI不能指望"一眼看到底"，它必須真正地在文件系統里導航和搜索。

文件的組織方式也刻意模仿了真實工作場景的"混亂感"：里面有冗余的文件夾、命名模糊的目錄、以及同一份文檔的多個歷史版本（比如report_v1、report_reviewed、report_final）。這種"噪音"是真實工作環境的正常狀態，但對AI來說是一個巨大的挑戰。

在這個文件系統的基礎上，研究團隊精心設計了388個任務。這些任務不是研究者自己憑空想出來的，而是來自字節跳動內部真實工作場景的收集和提煉——研究團隊通過問卷調查收集了真實的工作流程案例，然后由領域專家篩選和轉化。每個任務都是一個自然語言描述的請求，比如"整理本周所有物流記錄，生成一份匯總報告"，或者"根據公司歷史銷售數據和區域客戶檔案，制定明年的全球市場產品策略"。

每個任務都有一張"文件依賴圖"——明確標注了完成這個任務必須用到哪些文件、這些文件之間有什么關系。平均每個任務需要用到4.7個不同的文件，涉及5.1條文件之間的依賴關系。任務的難度分為三級：簡單任務主要考查基本的文件瀏覽和信息匯總；中等任務需要理解文件的語義關聯；困難任務則要求AI處理多種格式的文件并追蹤版本歷史。

評分方式也比以往測試細致得多。388個任務共設計了7399條評分標準，平均每個任務有19.1條。這些評分標準分為三類：結果類評分檢查最終輸出是否正確和完整，基礎類評分檢查文件命名和格式是否符合要求，過程類評分則檢查AI在解題過程中是否找對了文件、用對了版本。這種"過程也計分"的設計，使得即便AI僥幸得出了正確答案，研究者也能發現它是否走了彎路。

三、被評測的AI選手們

研究團隊選取了4個"智能體框架"（可以理解為AI完成任務的不同"工作方式"）和7個基礎語言模型，組合成28種配置進行測試。

4個智能體框架分別是OpenClaw、ClaudeCode、DeepAgent和Hermes。這四種框架各有特點，工作方式也不同。OpenClaw采用了一種雙循環架構，把高層次的規劃和底層的工具操作分開處理，不容易在長任務中迷失方向。ClaudeCode來自Anthropic公司，深度集成了文件系統操作能力，還能在上下文快滿時自動壓縮歷史信息。DeepAgent基于LangChain開發，工作流程高度透明、可控，每一步都有跡可查。Hermes則是一個帶有"自我學習"能力的框架，它能把每次任務中踩過的坑記錄下來，以便下次避免同樣的錯誤。

7個基礎語言模型覆蓋了當前業界的主流選手：Opus-4.7（Anthropic）、GLM-5.1（智譜AI）、MiniMax-M2.7、Seed-2.0-Code（字節跳動）、GPT-5.4（OpenAI）、Gemini-3.1-Pro（Google）和Kimi-2.5（月之暗面）。

四、測試結果：AI在這場考試里的真實成績單

整體成績出爐時，結果令人清醒。28種配置的平均通過率只有47.4%，而人類專家借助工具完成同樣任務的通過率是80.7%，兩者相差超過33個百分點。表現最好的是OpenClaw搭配Opus-4.7的組合，通過率接近69%；緊隨其后的是ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7。排在前三的配置，清一色都用了Opus-4.7這個基礎模型。而排名靠后的組合，比如DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro，通過率跌破30%。

任務難度對成績的影響非常顯著。在簡單任務上，所有配置平均能達到57.6%的通過率；中等難度任務降到49.2%；到了困難任務，平均通過率只剩下40.5%。這個下滑趨勢并不令人意外，但下滑的幅度和規律性，驗證了研究者對任務難度分級設計的合理性。

更有意思的是，在簡單任務上，哪個框架并不重要——用同一個基礎模型、不同框架，成績差不多。但在困難任務上，框架的選擇就開始產生明顯差異了。困難任務需要AI同時做到：找出相關文件（包括通過任務線索推斷哪些文件可能有用）、規劃一個復雜的多步驟執行方案、追蹤中間過程的狀態、并且在出錯時能及時調整。這時候，框架的調度能力就顯得至關重要了。

研究團隊還專門分析了六個維度上的能力表現。這六個維度分別是：工作區瀏覽（能不能在文件系統里找到路）、任務支撐文件的識別（能不能找到提供背景信息的文件）、結果文件的整合（能不能找到包含直接答案的文件）、文件版本追蹤（能不能區分同一文件的不同版本）、語義內容關聯理解（能不能理解文件內容之間的邏輯聯系）和異構文件理解（能不能讀懂不同格式的文件）。

結果顯示，幾乎所有AI在工作區瀏覽方面表現相對較好，因為這只需要執行一些基本的文件系統命令。結果文件的整合也相對不差，因為這主要依賴語言模型本身的推理能力。然而，異構文件理解和文件版本追蹤這兩個維度是普遍的薄弱環節。讀懂一份PDF里的圖表、理解一個Excel里的復雜公式、或者判斷三個版本的文檔中哪個才是最新的有效版本——這些對人類來說相當自然的操作，對現有AI來說卻困難重重。

五、用錢買不來的高分：效率與成績的關系

研究發現了一個反直覺的現象：讓AI做更多步驟、消耗更多算力，并不一定能帶來更好的成績。

研究團隊記錄了每個配置完成每個任務平均需要多少輪對話交互，以及消耗多少token（可以理解為AI"閱讀"和"生成"文字的數量，直接與使用成本掛鉤）。結果發現，ClaudeCode搭配Opus-4.7和Hermes搭配Opus-4.7這兩個頂級配置，平均只需要不到20輪交互，token消耗也處于較低水平，但卻拿到了最高的成績。它們的高效，來自于一開始就能準確理解任務意圖、直接找到正確的文件和方法。

相反，DeepAgent搭配Opus-4.7雖然同樣取得了接近67%的高分，但它平均需要將近60輪交互，消耗的token數量也是前者的數倍。更典型的反例是DeepAgent搭配Gemini-3.1-Pro和Hermes搭配Gemini-3.1-Pro這類組合：它們的交互輪數高達40到60輪，token消耗巨大，但最終成績卻只在30%到45%之間徘徊。這說明，當基礎語言模型的推理能力不足時，AI會陷入反復重試的循環——不斷嘗試無效的操作，卻無法從錯誤中找到正確方向，白白消耗大量資源。

六、不同職業角色，AI的表現也大相徑庭

五種職業角色對應的工作空間，AI的表現差異相當明顯。

后端開發工程師和研究員這兩個角色的任務，AI完成得相對較好。原因不難理解：這兩種角色的工作高度依賴結構化的代碼和數據，而現有AI恰恰在代碼相關任務上訓練得最充分。ClaudeCode搭配Opus-4.7在研究員角色上的得分接近80%，部分原因就是ClaudeCode本身就是為代碼和研究類任務優化設計的。

而AI產品經理和運營經理這兩個角色的任務，AI表現明顯較弱。這兩種角色需要處理大量語義模糊的商業文件，進行策略判斷和資源規劃，理解非結構化的語言表述。這些能力對AI來說更難習得。有趣的是，Hermes框架在產品經理角色上的相對表現最好，研究者認為這與Hermes處理開放性語義交互的能力更強有關。

七、人類與AI的差距究竟在哪里

研究團隊還專門招募了20位領域專家，以"人類借助AI工具"的方式完成同樣的任務，作為對照基準。結果顯示，這種"人機協作"模式的通過率達到80.7%，全面超越純AI自動完成的所有配置。

更值得關注的是，人類專家在不同難度任務上的表現相當穩定——簡單任務78.4%，中等任務81.2%，困難任務80.4%，幾乎沒有因為任務變難而出現明顯下滑。相比之下，AI的成績從簡單到困難有一個明顯的臺階式下降。

研究者認為，這種穩定性來自于人類天然具備的一種能力：理解文件之間隱含的關系，并靈活地利用這些關系來解決問題。當你看到一個文件名叫"Q3_sales_report_final_revised_v3.xlsx"的時候，你不需要讀完它就能判斷它可能是最新版本；當你看到一封郵件提到了某個方案文檔，你會自然地去找那份文檔。這種基于常識和上下文的判斷，目前的AI仍然難以復制。

八、AI工作助理進化的五個階段

基于這些發現，研究團隊提出了一個頗具參考價值的框架，描述了AI在處理工作文件方面可能經歷的五個進化階段。

第一階段是"數據不敏感執行"——AI只是一個顧問，它給出建議，但所有實際操作都由人來完成，AI對文件內容幾乎不關心。第二階段是"按指定文件執行"——用戶必須明確告訴AI要讀哪個文件，AI才能處理，它把每個文件當作獨立的個體，不理解文件之間的聯系。這個階段描述的是很多現有GUI操作型AI助手的狀態。

第三階段是"文件到文件的依賴推理"——AI能夠在用戶給出的文件范圍內，自己推斷出哪些文件之間有關聯，并據此完成任務。這是當前最好的AI系統正在努力達到的水平。研究者將這個階段的關鍵轉折點稱為"編排奇點"——在這個點之后，框架的貢獻開始超過基礎語言模型本身對任務成功的貢獻。

第四階段是"任務到文件的依賴發現"——AI不需要用戶提供文件，它能自主地在整個工作空間里探索，根據任務描述找到所有相關文件。研究者將這個階段的達成稱為"能力奇點"。當前的測試數據表明，AI在朝這個方向努力的過程中，成績會持續下降——困難任務的通過率比簡單任務低了17個百分點，正是這個"自主探索"能力尚未成熟的體現。

第五階段是"工作區原生自進化"——AI不再只是處理任務，而是在每次完成任務的過程中持續學習和適應，自動將新工具、新文件類型納入自己的能力范圍。當你的電腦上裝了一個新軟件，AI能自動發現并學會使用它。

研究者指出，從第三階段開始，框架的調度能力變得比基礎模型更關鍵。而在第三和第四階段之間，存在一個他們稱之為"數據關聯鴻溝"的根本性障礙——現有AI在孤立處理單個文件方面還不錯，但在自主理解文件之間的網狀依賴關系方面存在系統性缺陷。跨越這道鴻溝，需要從根本上重新設計AI框架發現、表示和利用文件依賴關系的方式。

九、AI犯錯時，它在哪里出了差錯

研究團隊還對失敗案例進行了系統分析，將錯誤分為五類。

最常見的錯誤類型是"內容遺漏"——AI給出的答案漏掉了關鍵信息，通常是因為它沒有找到某個重要的文件，或者讀了文件但沒有提取出其中的關鍵數據。第二常見的是"推理錯誤"——AI找到了正確的文件，但在統計、計算、排序或跨文件數據關聯時出了差錯，給出了錯誤的數字或結論。

相比之下，"格式錯誤"（輸出格式不對）和"過程錯誤"（執行步驟有問題）的比例很小，說明現有AI在遵守基本的格式要求和執行操作流程方面已經相當成熟。真正的瓶頸在于信息的全面召回和跨文件的數據整合。

說到底，這項研究告訴我們一件相當直白的事：現在的AI助手，在面對一個真實的、亂糟糟的辦公室文件系統時，表現遠沒有我們期待的那么好。它能完成一些基礎工作，但一旦任務變得復雜——需要在幾十個文件里找線索、理解文件版本關系、讀懂不同格式的內容、把零散的信息整合成一個連貫的答案——它就開始頻繁出錯。

這對于希望用AI提升工作效率的人來說，意味著現階段最合理的方式仍然是"人機協作"：讓AI處理它擅長的部分（執行明確的操作、整理結構化數據），而由人負責判斷哪些文件重要、文件之間有什么隱含聯系、以及最終結論是否合理。完全依賴AI自動完成復雜工作流，目前來看還不可靠。

這項研究另一個有價值的地方在于它搭建了一個可重復的測試環境。有了Workspace-Bench這套測試體系，未來的研究者和開發者可以用同一把尺子來衡量AI的進步，而不是各自做各自的測試、互相無法比較。這對于整個AI助手領域的迭代來說，是一塊重要的基礎設施。

如果你對這項研究的完整細節感興趣，包括388個任務的詳細設計、各種AI配置的完整成績單，以及五階段進化框架的完整論述，可以通過arXiv編號2605.03596查閱原始論文。

Q&A

Q1：Workspace-Bench和OfficeBench這類已有測試相比，主要區別是什么？

A：Workspace-Bench的核心區別在于它模擬了真實的、雜亂的辦公室文件系統，而不是提前整理好的任務文件包。它支持74種文件格式、最多11020個文件，并且明確測試AI能否識別文件之間的依賴關系——比如版本追蹤和跨文件內容關聯。已有測試通常只給AI幾個相關文件，不需要AI自己去搜索和判斷哪些文件重要。

Q2：Workspace-Bench測試中，AI表現最差的能力是哪兩個？

A：表現最差的是"異構文件理解"和"文件版本追蹤"。異構文件理解指的是讀懂不同格式文件的內容，比如PDF里的圖表或Excel里的復雜公式。文件版本追蹤是指區分同一文件的不同歷史版本，判斷哪個才是最新有效的版本。這兩項能力在所有28種AI配置中都普遍偏低，是當前AI系統的系統性短板。

Q3：Workspace-Bench里說的"文件依賴圖"是什么意思？

A：文件依賴圖是為每個任務標注的一張關系圖，明確說明完成這個任務必須用到哪些文件、這些文件之間有什么關系。比如，一份最終報告依賴于三個原始數據表格，而其中一個表格又引用了另一個分析文檔。這張圖讓評測系統可以檢查AI是否真的找到并使用了所有必要的文件，而不是僅憑運氣猜到了正確答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.