<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<sup id="djmh7"></sup>

<sup id="djmh7"></sup>

<pre id="djmh7"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

ChatGPT、Manus、Genspark哪家強？紅杉中國xbench出了考卷

2026-01-21 21:38:24　來源: AI異類

北京舉報

0

分享至

最近，紅杉中國 xbench 在行業里有不少動作，連發兩篇Agent有關的論文。

老朋友應該都知道，xbench是紅杉中國推出的一款AI基準測試，用來量化AI系統在真實場景的效用價值，采用的是長青評估機制。

xbench想在市面上魚龍混雜的“刷榜”、“野榜”、“紙面數據”之外，建立起一套評價標準，更好地衡量 AI 模型在真實業務場景中，解決復雜問題的能力。

印象中的投資機構，親自下場參與模型能力測評以及技術標準定義的，不算多。
而在AI新技術范式影響下的VC，似乎已經有了新的組織形態，以及在新組織形態上長出來的技術理解和成果。
記得xbench剛發布的時候，我的理解還停留在大模型測評集的階段，感覺是投資人為了追求更精準的判斷力，主動打造的一手實驗數據。
現在再看，紅杉中國對AI模型能力邊界和Agent發展路線的理解，不亞于一線的技術型公司。

所以，別以為投資人不懂技術、很好忽悠了。
我甚至有種恐慌，也許有一天，頭部基金，用Venture Studio等形式，親自下場做產品也很正常。
聽說已經有了。
難道下一個字節跳動，會是投資人在投資機構里，自己vibe coding出來的嗎？
說不定真的有可能。

https://xbench.org/

具體說說這兩篇論文是咋回事。

上周，xbench 聯合 UniPat AI 發布了 BabyVision，一個專注于純視覺理解能力的評測集。

它討論的主題很明確：在世界模型和視覺多模態這條路上，模型的潛力遠沒有被完全釋放。

那套評測并不急著給模型打分，更像是在提醒行業，未來的能力增長，很可能來自對真實世界結構的重新理解。

這一周，xbench 又向前推了一步。

這一次，關注點從「看懂世界」轉向了「把一天過完」。

https://xbench.org/agi/agentif

AgentIF-OneDay 的出現，標志著 Agent 評測從短時、單點、封閉任務，正式進入長時、復雜、全場景的現實尺度。

它試圖回答一個簡單又殘酷的問題：如果把人類一天的任務量完整交給一個 Agent，它能否在沒有人工介入的情況下，把事情真正做完。

在當前的行業語境下，這個問題比任何排行榜都更重要。

01.當單點能力接近 PhD，Agent 的短板開始暴露

過去一年，大模型在單點推理任務上的進步已經非常明顯。

無論數學、代碼，還是知識密集型問答，分鐘級任務的完成質量已經逼近人類高水平專家。

ScienceQA、DeepSearch 這類評測的多次升級，也不斷拉高著模型的上限。

問題出現在時間被拉長之后。

一旦任務復雜度超過普通人一小時可以處理的范圍，Agent 的整體完成度會出現明顯下滑。

這種下滑并不體現在某個步驟做錯，而是體現在全過程的失控：上下文斷裂、中間目標丟失、工具調用前后不一致、隱含約束被忽略，最終導致任務在形式上完成，實質上失敗。

這道鴻溝的存在，讓「Agent 已經很強」與「Agent 還不能真正替你工作」這兩種判斷同時成立。

xbench 在這一階段選擇引入 AgentIF-OneDay，本質上是一次尺度的重構。

評測的核心不再是模型知道多少知識，也不只是能否完成某個高難度推理點，而是把注意力轉向一個更貼近現實的問題：完成一個任務，需要消耗多少人類時間，這個時間背后，對應著怎樣的經濟價值。

02.用「人類一天」重新定義 Agent 的能力邊界

AgentIF-OneDay 背后的一個關鍵判斷，是將任務復雜度與知識深度解耦。

在傳統評測中，復雜度往往意味著推理鏈更長、知識點更冷門、邏輯結構更精巧。

但在真實工作中，復雜度更多來自時間和協同成本。一個任務并不一定難，卻可能極其耗時，需要反復確認信息、切換工具、處理格式、校驗結果，還要在過程中持續保持目標一致。

xbench 提出了兩個決定 Agent 能力上限的軸線：scaling context 與 scaling domain。

前者關注時間維度。

Agent 是否能在更長的執行周期中維護上下文狀態，記住中間結果，遵守先前的約束，在多步驟、多工具的交互中保持一致性。

從分鐘級，到小時級，再到一天級，這是一個對穩定性和記憶管理要求極高的過程。

后者關注任務分布。

現實世界的工作很少是單一領域的連續推理，而是跨 domain、跨格式、跨語境的混合任務。

目標表述往往不完整，約束隱藏在附件里，評估標準隨場景變化。

Agent 能否覆蓋更廣泛的任務類型，決定了它是否具備真正的通用性。

AgentIF-OneDay 正是沿著這兩條軸線展開設計。它把評測的時間尺度推進到 OneDay，同時覆蓋生活、學習與職業等多個高頻場景，試圖描繪出當前 Agent 在真實世界任務分布中的能力輪廓。

03.把一天拆開，工作流、范例與迭代才是真實世界

在構造評測任務之前，xbench 分析了大量用戶的真實工作日志。

一個有意思的發現是，具體內容千差萬別，但任務結構高度穩定。

大多數人的一天，可以被抽象為三種類型。

第一類是工作流執行。

用戶清楚知道該做什么，步驟明確，難點集中在執行的繁瑣性和信息校驗上。

以 NeurIPS 行程規劃為例，Agent 需要跨站點核驗信息、收集時間節點、判斷日程是否發布，再給出不同優化目標下的方案。

這類任務考驗的不是創造力，而是耐心、準確性和流程一致性。

第二類是范例參考。

用戶無法完整描述規則，只能提供示例或附件。換手機套餐的例子中，Agent 需要從文件中推斷隱含條件，在顯式指令與隱式約束之間做出平衡。

這是人類日常工作中最常見的模式，也是 Agent 走向內容生產、報告生成等職業型任務的前提。

第三類是迭代式編輯。

需求在過程中不斷變化，約束逐步顯現，解法并不預先存在。

更新會場布局的任務，要求 Agent 在多輪修改中保持上下文一致，同時遵守來自不同文件的硬性條件。這類任務對狀態管理和長期一致性的要求極高。

AgentIF-OneDay 的 104 道任務，正是圍繞這三種結構展開。

文件驅動的合成任務覆蓋了 PDF、PPT、Excel、圖像、代碼等 15 種以上格式，模擬的正是現實工作中極為常見的跨來源、跨工具流程。

04.當評分變得細碎，Agent 的失誤也無處可藏

為了避免「結果對了就算贏」的粗糙判斷，AgentIF-OneDay 為每道任務設計了細粒度的評分標準，總計 767 個評分點。

這些評分點既包含正向指標，也包含負向指標。

格式是否一致、結構是否復現、步驟是否完整，會被逐一檢查；誤刪內容、越界生成、錯誤操作，同樣會被明確扣分。

評測系統采用 LLM 作為裁判，并結合網頁檢索、HTML 渲染、多模態比對等自動校驗方式，盡量減少主觀偏差。

在這套機制下，Agent 的得分不只取決于有沒有完成任務，更取決于過程是否干凈，是否正確解析附件，是否在迭代中保持一致。

評測結果也呈現出一些值得玩味的現象。

從整體任務成功率來看，Manus、Genspark 與 ChatGPT-Agent 集中在 0.62–0.65 區間，構成第一梯隊。

不同技術路線的 Agent，在真實任務鏈上的體感差異并沒有拉開數量級。

這在一定程度上印證了模型能力的重要性，在不引入 test-time scaling 的前提下，多智能體框架本身很難制造巨大差距。

從任務領域看，ChatGPT-Agent 更偏向專業生產力，Manus 在生活助手場景表現突出，Genspark 更適合學習型任務。

不同產品的迭代方向，決定了各自的長項與短板。

從能力維度看，Genspark 在隱式指令推斷上表現最佳，Manus 在開放工作流執行中更穩定，Minimax-Agent 在迭代式編輯中優勢明顯。

隱式結構理解依然是當前 Agent 普遍的薄弱環節，尤其是在格式遷移和規則抽取任務中，完整正確的案例仍然罕見。

這些結果共同指向一個結論：穩定性、文件處理鏈路、隱式結構理解能力，以及跨工具的狀態管理，才是決定 Agent 能否承擔一天工作量的關鍵。

05.從OneDay到OneWeek，Agent的下一道門檻

在 AgentIF-OneDay 之后，xbench 已經開始構建 OneWeek 級別的評測集。

一周尺度的任務，帶來的挑戰并不僅僅是時間更長。

隨著跨度增加，任務往往會自然嵌入具體行業語境，金融、醫療、法律等高價值場景的數據獲取成本顯著上升，rubric 的設計也會變得更加嚴格。

在這一階段，依賴靜態數據集和離線評測的方式開始顯露局限性。

Agent 要想進一步提升，很難只靠訓練時吃下更多人類知識，而需要在實際運行中不斷修正行為。這也是近期 online learning 討論升溫的背景。

如果把長程 Agent 的發展類比自動駕駛，那么當前階段更接近有限路段的輔助駕駛。

真正的 FSD 時刻，依賴于大量真實場景數據的積累。用戶數據帶來的場景多樣性，是系統泛化能力的關鍵來源。

在 Agent 領域，同樣的邏輯正在顯現。誰能率先建立高質量的數據飛輪，誰就更有可能率先交付可靠的長程 Agent。

當 Agent 能夠在一周尺度上穩定產出，它才真正具備進入組織、承擔崗位、創造持續經濟價值的資格。

AgentIF-OneDay 的意義，正在于此。

它并不宣告某個系統已經足夠成熟，而是清晰地標出了下一段路的難度與方向。

最后，強烈大家去看看論文原文！

以及去紅杉中國xbench的官網去看看，上面有各種各樣的打分和排名，還有些好玩的小東西！

https://xbench.org/

AI一年，人間十年。

連投資人都這么努力，我們也多看些論文吧……

Paper Link:

https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

website:

https://xbench.org/

github:

https://github.com/xbench-ai/AgentIF-OneDay

huggingface:

https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

離大譜！他花12美元給AI投毒，ChatGPT、Claude全中招

雷科技 2026-05-28 16:44:02
255 跟貼 255
階躍發布Step 3.7 Flash：一款為「燒錢時代」準備的Agent模型

機器之心Pro 2026-05-29 16:42:38
0 跟貼 0

ChatGPT 免費、豆包收費：同一道商業題的兩種解法

鈦媒體APP 2026-05-08 15:28:12
105 跟貼 105

Claude Code上新，竟然是個“銷金窟”

智東西 2026-05-29 16:12:14
0 跟貼 0
企業落地AI，不怕慢，就怕錯

虎嗅APP 2026-05-29 19:11:58
0 跟貼 0

當「龍蝦」走進編輯部，媒體工作流如何被AI重構？

36氪 2026-05-29 14:36:54
0 跟貼 0

5秒完成3D場景編輯，北大&港中文&上海AI Lab搞出VGGT-Edit

量子位 2026-05-27 17:03:21
0 跟貼 0
宇樹科技王興興：兩三個月后機器人奔跑速度或將超過博爾特，希望推動具身智能邁向ChatGPT時刻

每日經濟新聞 2026-05-28 23:21:19
0 跟貼 0

剛剛，智元拿下WorldArena世界模型總分冠軍！

機器之心Pro 2026-05-29 21:54:56
0 跟貼 0
X平臺瘋傳！這個國產開源模型，把信息圖生成整明白了 ? 附實測

智東西 2026-05-29 21:57:26
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
從存儲到智能數據中樞：綠聯AI NAS憑什么站在行業最前面？

雷科技 2026-05-29 19:26:50
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
科技巨頭瘋狂搶電，卻沒人看懂真正的戰場

DeepTech深科技 2026-05-29 19:11:07
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
海外投資人集體轉向！AI最關注這個指標

財聯社 2026-04-30 10:25:38
0 跟貼 0
Opus 4.8來了，Anthropic估值即將突破萬億美元

虎嗅APP 2026-05-29 18:55:15
2 跟貼 2
我把日程表丟給ChatGPT，它用"精要主義"拆穿了我的忙碌假象

報錯免疫體 2026-05-26 03:36:33
0 跟貼 0
程序員用ChatGPT給狗設計疫苗，腫瘤真的縮小了，科學家都服了

DeepTech深科技 2026-03-15 18:11:33
0 跟貼 0
巨人軍主帥阿部慎之助因家暴被逮捕：源于長女咨詢ChatGPT后求助

東瀛萬事通 2026-05-27 14:44:54
2 跟貼 2
孩子去“光頭強家”，對著床上被子一頭栽下去，沒想到是模型！

笑出豬叫的趣聞閣 2026-05-26 17:08:43
1 跟貼 1
“未完成事件”不會自動消失！丨心理療愈小錦囊

上海黃浦 2026-05-28 16:33:28
0 跟貼 0
ChatGPT給我安排了個90年代周末，孩子一整天沒碰屏幕

硅嶼手記 2026-05-28 06:55:08
0 跟貼 0
答好每一張人生試卷

新浪財經 2026-05-29 10:41:17
0 跟貼 0
“沒有題了，我們只能送你們到這兒” 高三最后一次考試，老師把溫柔寫在了卷尾

封面新聞 2026-05-29 16:18:07
0 跟貼 0
小男孩經過多次思考后終于跳上平臺，網友：看到了小時候的自己

學申論的談妹 2026-05-29 03:00:38
188 跟貼 188
杭州公園引入“黑科技”：一天抓7000多只蚊子！“河邊坐一個半小時沒被咬”“我都想買一個放家里”

都市快報橙柿互動 2026-05-29 09:17:46
5469 跟貼 5469
豹2主戰坦克，經歷不斷迭代進化，依舊是陸地之王 #軍事科普

戰爭黑匣子 2026-05-28 21:40:47
1 跟貼 1
環塔對于猛士，不只是比賽，更是M817 Ultimate的技術迭代加速器

30秒懂車 2026-05-28 14:42:12
0 跟貼 0
男子用一袋水驅動飛輪，傳統抽水機順利運轉，農業技術真奇妙！

搞笑柒月 2026-05-28 13:14:18
1 跟貼 1
優衣庫等品牌收集非必要個人信息被通報

封面新聞 2026-05-29 12:10:44
1842 跟貼 1842
王傳福再放兩個大招！汽車界炸鍋了！

大佬灼見 2026-05-29 23:25:34
2 跟貼 2
神舟二十二號載人飛船順利撤離空間站組合體

央視新聞客戶端 2026-05-29 14:55:45
1237 跟貼 1237
官方通報低保老人被貸款20萬

看看新聞Knews 2026-05-29 15:25:38
1181 跟貼 1181
稻城亞丁景區問題，最新通報

云南網絡廣播電視臺 2026-05-29 09:45:59
1249 跟貼 1249
女生雙唇什么形態最好，這幾個維度很重要，達到就完美

藍精靈搞笑 2026-05-29 12:36:24
0 跟貼 0
歐盟官員：中國占全球制造業的份額已從6%增長到30%

澎湃新聞 2026-05-29 14:22:13
656 跟貼 656
把人踢下樓生意就好了，這是什么邏輯啊

新大陸影視 2026-05-29 11:20:37
1 跟貼 1
23歲業余愛好者靠ChatGPT破解60年數學難題

量子位 2026-04-30 10:33:26
0 跟貼 0

“一定要投”！摩根士丹利明確看好A股硬科技，外資加速回流，中國資產戰略配置正當其時

“一定要投”！摩根士丹利明確看好A股硬科技，外資加速回流，中國資產戰略配置正當其時

每日經濟新聞

2026-05-29 17:43:32

別喝“駝奶”了，全世界的駱駝也擠不出那么多的駝奶

別喝“駝奶”了，全世界的駱駝也擠不出那么多的駝奶

黃河新流域

2026-05-14 15:10:42

每天一個西紅柿，研究發現：三周后身體炎癥下降38%，延緩腦衰老

每天一個西紅柿，研究發現：三周后身體炎癥下降38%，延緩腦衰老

科學認識論

2026-05-28 10:06:49

霍華德淘汰賽選NBA現役最佳：家鄉情結與大個子偏好的雙重勝利

霍華德淘汰賽選NBA現役最佳：家鄉情結與大個子偏好的雙重勝利

籃壇第一線

2026-05-30 00:40:56

大定破2萬！余承東：全新M9是地球上最強SUV，沒有之一！網友：廣告法能不能管管他

大定破2萬！余承東：全新M9是地球上最強SUV，沒有之一！網友：廣告法能不能管管他

大白聊IT

2026-05-28 21:21:39

中國移動迎來史上最年輕的總經理！

中國移動迎來史上最年輕的總經理！

ICT解讀者

2026-05-08 19:50:41

生育大局已定：如不出意外，2026年起中國人口將迎來3大變化

生育大局已定：如不出意外，2026年起中國人口將迎來3大變化

蜉蝣說

2026-03-17 15:58:31

帶孫子最狠的一招：不罵不吼，就兩字，我照做3年，孫子越來越懂事

帶孫子最狠的一招：不罵不吼，就兩字，我照做3年，孫子越來越懂事

心理觀察局

2026-05-20 07:51:20

又一個巨頭倒下了？虧損超62億，一代空調大王爆雷！

又一個巨頭倒下了？虧損超62億，一代空調大王爆雷！

素衣讀史

2026-05-29 22:12:03

徹底沒得選！德部長帶40家巨頭落地北京，警告歐盟不準碰中國

徹底沒得選！德部長帶40家巨頭落地北京，警告歐盟不準碰中國

嘆為觀止易

2026-05-30 00:26:16

重返騎士信號？詹姆斯轉發2016年奪冠高光：這支球隊實在太棒了

重返騎士信號？詹姆斯轉發2016年奪冠高光：這支球隊實在太棒了

羅說NBA

2026-05-29 08:44:56

女子凌晨乘網約車在車內排泄，司機崩潰：臭味洗不掉！乘客全程清醒，還和男友打電話……

女子凌晨乘網約車在車內排泄，司機崩潰：臭味洗不掉！乘客全程清醒，還和男友打電話……

環球網資訊

2026-05-29 13:42:23

建國初，甚至有部分將帥手握幾十萬兵力，為何沒一人敢擁兵自重？

建國初，甚至有部分將帥手握幾十萬兵力，為何沒一人敢擁兵自重？

史之銘

2026-05-29 16:55:36

DO&皇馬跟隊：穆里尼奧已簽下三年合同，皇馬主席選舉后官宣

DO&皇馬跟隊：穆里尼奧已簽下三年合同，皇馬主席選舉后官宣

懂球帝

2026-05-29 22:20:07

法網｜爆冷出局后，辛納有點后悔

法網｜爆冷出局后，辛納有點后悔

北青網-北京青年報

2026-05-29 08:58:06

最高層終于給房地產托底了！

櫻桃大房子

2026-05-29 22:03:02

綠營想用牢飯鎖定馬英九？臺商集體倒戈鄭麗文，這才是致命反殺！

綠營想用牢飯鎖定馬英九？臺商集體倒戈鄭麗文，這才是致命反殺！

坦蕩的雪莉

2026-05-29 08:17:10

688033，被證監會立案！

中國基金報

2026-05-29 21:46:04

3分鐘傾家蕩產？年入千億“精神鴉片”，正精準掏空中國人的錢包

3分鐘傾家蕩產？年入千億“精神鴉片”，正精準掏空中國人的錢包

趣文說娛

2026-05-12 19:53:22

巔峰對決！吳宜澤VS趙心童比賽時間公布小吳再戰艾倫復刻世錦賽

巔峰對決！吳宜澤VS趙心童比賽時間公布小吳再戰艾倫復刻世錦賽

念洲

2026-05-29 14:09:37

從硅谷到中關村，AI信息與測評

188文章數 8關注度

往期回顧全部

科技要聞

Claude Opus 4.8凌晨突發上線

頭條要聞

釋永信被判24年中國佛教協會：完全是咎由自取

頭條要聞

釋永信被判24年中國佛教協會：完全是咎由自取

體育要聞

即使是文班亞馬，也做不到這件事

娛樂要聞

奚夢瑤何猷君將于6月在法國舉行婚禮

財經要聞

近3個月跌超20% 黃金"猴市"下的眾生相

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

家居

時尚

游戲

手機

數碼要聞

宏碁推多款游戲新品：兩款筆記本、一款串流掌機，還有鍵盤、背包

家居要聞

云棲舒展如流云

蜂鳥餐椅線面交錯
古老而持久石影扶手椅
生與命相依舊公寓改造

推廣中獎名單-更新至2026年4月28日推廣

亞運會電競項目名單出爐！LOL、MLBB等項目暫缺陣容

手機要聞

華為雙箭齊發：Mate80系列618官降500元，闊比例直板新機曝光！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：在线永久免费观看的毛片| 91超碰在| 色国产视频| www.黄色| 青青草原国产精品啪啪视频 | 把插八插露脸对白内射| 精品在线观看视频二区| 成人福利一区二区视频在线| 韩国三级+mp4| 日本视频www色| 免费无码AV片在线观看中文 | 中文字幕乱码无码人妻系列蜜桃| 亚洲av成人一区二区三区色| 一本到无码av专区无码不卡| 蜜臀久久精品亚洲一区| 九九碰九九爱97超碰| 国产精品成人亚洲| 国产制服丝袜动漫在线| 无码国产偷倩在线播放| 淫荡人妻中文字幕| 色综合久久中文字幕无码| 噜噜噜色噜噜噜久久| 日韩在线视频观看免费网站| 国产AV大全| 爽到无码高潮喷水aV无码| 成人国产三级在线观看| 亚洲avav天堂av在线网爱情| 3P在线看| 国产在线线精品宅男网址| 亚洲区日韩精品中文字幕| 国产精品爽爽v在线观看无码| 欧美日韩精品一区二区在线观看| 中文字幕人妻日韩精品| 久久精品国产亚洲AV麻| 中文字幕亚洲欧美日韩专区| 国产亚洲精品第一综合| 澳门毛片精品一区二区三区| 国产探花精品在线播放| 亚洲综合国产精品第一页| 欧美成人午夜在线观看视频| 成人毛片网|

<em id="ia8qh"><td id="ia8qh"></td></em>