<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      ChatGPT、Manus、Genspark哪家強?紅杉中國xbench出了考卷

      0
      分享至

      最近,紅杉中國 xbench 在行業里有不少動作,連發兩篇Agent有關的論文。

      老朋友應該都知道,xbench是紅杉中國推出的一款AI基準測試,用來量化AI系統在真實場景的效用價值,采用的是長青評估機制。


      xbench想在市面上魚龍混雜的“刷榜”、“野榜”、“紙面數據”之外,建立起一套評價標準,更好地衡量 AI 模型在真實業務場景中,解決復雜問題的能力。

      印象中的投資機構,親自下場參與模型能力測評以及技術標準定義的,不算多。
      而在AI新技術范式影響下的VC,似乎已經有了新的組織形態,以及在新組織形態上長出來的技術理解和成果。
      記得xbench剛發布的時候,我的理解還停留在大模型測評集的階段,感覺是投資人為了追求更精準的判斷力,主動打造的一手實驗數據。
      現在再看,紅杉中國對AI模型能力邊界和Agent發展路線的理解,不亞于一線的技術型公司。

      所以,別以為投資人不懂技術、很好忽悠了。
      我甚至有種恐慌,也許有一天,頭部基金,用Venture Studio等形式,親自下場做產品也很正常。
      聽說已經有了。
      難道下一個字節跳動,會是投資人在投資機構里,自己vibe coding出來的嗎?
      說不定真的有可能。


      https://xbench.org/

      具體說說這兩篇論文是咋回事。

      上周,xbench 聯合 UniPat AI 發布了 BabyVision,一個專注于純視覺理解能力的評測集。

      它討論的主題很明確:在世界模型和視覺多模態這條路上,模型的潛力遠沒有被完全釋放。

      那套評測并不急著給模型打分,更像是在提醒行業,未來的能力增長,很可能來自對真實世界結構的重新理解。

      這一周,xbench 又向前推了一步。

      這一次,關注點從「看懂世界」轉向了「把一天過完」。


      https://xbench.org/agi/agentif

      AgentIF-OneDay 的出現,標志著 Agent 評測從短時、單點、封閉任務,正式進入長時、復雜、全場景的現實尺度。

      它試圖回答一個簡單又殘酷的問題:如果把人類一天的任務量完整交給一個 Agent,它能否在沒有人工介入的情況下,把事情真正做完。

      在當前的行業語境下,這個問題比任何排行榜都更重要。

      01.當單點能力接近 PhD,Agent 的短板開始暴露

      過去一年,大模型在單點推理任務上的進步已經非常明顯。

      無論數學、代碼,還是知識密集型問答,分鐘級任務的完成質量已經逼近人類高水平專家。

      ScienceQA、DeepSearch 這類評測的多次升級,也不斷拉高著模型的上限。

      問題出現在時間被拉長之后。

      一旦任務復雜度超過普通人一小時可以處理的范圍,Agent 的整體完成度會出現明顯下滑。


      這種下滑并不體現在某個步驟做錯,而是體現在全過程的失控:上下文斷裂、中間目標丟失、工具調用前后不一致、隱含約束被忽略,最終導致任務在形式上完成,實質上失敗。

      這道鴻溝的存在,讓「Agent 已經很強」與「Agent 還不能真正替你工作」這兩種判斷同時成立。

      xbench 在這一階段選擇引入 AgentIF-OneDay,本質上是一次尺度的重構。

      評測的核心不再是模型知道多少知識,也不只是能否完成某個高難度推理點,而是把注意力轉向一個更貼近現實的問題:完成一個任務,需要消耗多少人類時間,這個時間背后,對應著怎樣的經濟價值。

      02.用「人類一天」重新定義 Agent 的能力邊界

      AgentIF-OneDay 背后的一個關鍵判斷,是將任務復雜度與知識深度解耦。

      在傳統評測中,復雜度往往意味著推理鏈更長、知識點更冷門、邏輯結構更精巧。

      但在真實工作中,復雜度更多來自時間和協同成本。一個任務并不一定難,卻可能極其耗時,需要反復確認信息、切換工具、處理格式、校驗結果,還要在過程中持續保持目標一致。

      xbench 提出了兩個決定 Agent 能力上限的軸線:scaling context 與 scaling domain。


      前者關注時間維度。

      Agent 是否能在更長的執行周期中維護上下文狀態,記住中間結果,遵守先前的約束,在多步驟、多工具的交互中保持一致性。

      從分鐘級,到小時級,再到一天級,這是一個對穩定性和記憶管理要求極高的過程。

      后者關注任務分布。

      現實世界的工作很少是單一領域的連續推理,而是跨 domain、跨格式、跨語境的混合任務。

      目標表述往往不完整,約束隱藏在附件里,評估標準隨場景變化。

      Agent 能否覆蓋更廣泛的任務類型,決定了它是否具備真正的通用性。

      AgentIF-OneDay 正是沿著這兩條軸線展開設計。它把評測的時間尺度推進到 OneDay,同時覆蓋生活、學習與職業等多個高頻場景,試圖描繪出當前 Agent 在真實世界任務分布中的能力輪廓。

      03.把一天拆開,工作流、范例與迭代才是真實世界


      在構造評測任務之前,xbench 分析了大量用戶的真實工作日志。

      一個有意思的發現是,具體內容千差萬別,但任務結構高度穩定。

      大多數人的一天,可以被抽象為三種類型。

      第一類是工作流執行。

      用戶清楚知道該做什么,步驟明確,難點集中在執行的繁瑣性和信息校驗上。

      以 NeurIPS 行程規劃為例,Agent 需要跨站點核驗信息、收集時間節點、判斷日程是否發布,再給出不同優化目標下的方案。

      這類任務考驗的不是創造力,而是耐心、準確性和流程一致性。

      第二類是范例參考。

      用戶無法完整描述規則,只能提供示例或附件。換手機套餐的例子中,Agent 需要從文件中推斷隱含條件,在顯式指令與隱式約束之間做出平衡。

      這是人類日常工作中最常見的模式,也是 Agent 走向內容生產、報告生成等職業型任務的前提。

      第三類是迭代式編輯。

      需求在過程中不斷變化,約束逐步顯現,解法并不預先存在。

      更新會場布局的任務,要求 Agent 在多輪修改中保持上下文一致,同時遵守來自不同文件的硬性條件。這類任務對狀態管理和長期一致性的要求極高。


      AgentIF-OneDay 的 104 道任務,正是圍繞這三種結構展開。

      文件驅動的合成任務覆蓋了 PDF、PPT、Excel、圖像、代碼等 15 種以上格式,模擬的正是現實工作中極為常見的跨來源、跨工具流程。

      04.當評分變得細碎,Agent 的失誤也無處可藏

      為了避免「結果對了就算贏」的粗糙判斷,AgentIF-OneDay 為每道任務設計了細粒度的評分標準,總計 767 個評分點。

      這些評分點既包含正向指標,也包含負向指標。

      格式是否一致、結構是否復現、步驟是否完整,會被逐一檢查;誤刪內容、越界生成、錯誤操作,同樣會被明確扣分。


      評測系統采用 LLM 作為裁判,并結合網頁檢索、HTML 渲染、多模態比對等自動校驗方式,盡量減少主觀偏差。

      在這套機制下,Agent 的得分不只取決于有沒有完成任務,更取決于過程是否干凈,是否正確解析附件,是否在迭代中保持一致。

      評測結果也呈現出一些值得玩味的現象。


      從整體任務成功率來看,Manus、Genspark 與 ChatGPT-Agent 集中在 0.62–0.65 區間,構成第一梯隊。

      不同技術路線的 Agent,在真實任務鏈上的體感差異并沒有拉開數量級。

      這在一定程度上印證了模型能力的重要性,在不引入 test-time scaling 的前提下,多智能體框架本身很難制造巨大差距。

      從任務領域看,ChatGPT-Agent 更偏向專業生產力,Manus 在生活助手場景表現突出,Genspark 更適合學習型任務。


      不同產品的迭代方向,決定了各自的長項與短板。

      從能力維度看,Genspark 在隱式指令推斷上表現最佳,Manus 在開放工作流執行中更穩定,Minimax-Agent 在迭代式編輯中優勢明顯。


      隱式結構理解依然是當前 Agent 普遍的薄弱環節,尤其是在格式遷移和規則抽取任務中,完整正確的案例仍然罕見。

      這些結果共同指向一個結論:穩定性、文件處理鏈路、隱式結構理解能力,以及跨工具的狀態管理,才是決定 Agent 能否承擔一天工作量的關鍵。

      05.從OneDay到OneWeek,Agent的下一道門檻

      在 AgentIF-OneDay 之后,xbench 已經開始構建 OneWeek 級別的評測集。

      一周尺度的任務,帶來的挑戰并不僅僅是時間更長。

      隨著跨度增加,任務往往會自然嵌入具體行業語境,金融、醫療、法律等高價值場景的數據獲取成本顯著上升,rubric 的設計也會變得更加嚴格。

      在這一階段,依賴靜態數據集和離線評測的方式開始顯露局限性。

      Agent 要想進一步提升,很難只靠訓練時吃下更多人類知識,而需要在實際運行中不斷修正行為。這也是近期 online learning 討論升溫的背景。

      如果把長程 Agent 的發展類比自動駕駛,那么當前階段更接近有限路段的輔助駕駛。

      真正的 FSD 時刻,依賴于大量真實場景數據的積累。用戶數據帶來的場景多樣性,是系統泛化能力的關鍵來源。

      在 Agent 領域,同樣的邏輯正在顯現。誰能率先建立高質量的數據飛輪,誰就更有可能率先交付可靠的長程 Agent。

      當 Agent 能夠在一周尺度上穩定產出,它才真正具備進入組織、承擔崗位、創造持續經濟價值的資格。

      AgentIF-OneDay 的意義,正在于此。

      它并不宣告某個系統已經足夠成熟,而是清晰地標出了下一段路的難度與方向。

      最后,強烈大家去看看論文原文!

      以及去紅杉中國xbench的官網去看看,上面有各種各樣的打分和排名,還有些好玩的小東西!


      https://xbench.org/

      AI一年,人間十年。

      連投資人都這么努力,我們也多看些論文吧……


      Paper Link:

      https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

      website:

      https://xbench.org/

      github:

      https://github.com/xbench-ai/AgentIF-OneDay

      huggingface:

      https://huggingface.co/datasets/xbench/AgentIF-OneDay

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “一定要投”!摩根士丹利明確看好A股硬科技,外資加速回流,中國資產戰略配置正當其時

      “一定要投”!摩根士丹利明確看好A股硬科技,外資加速回流,中國資產戰略配置正當其時

      每日經濟新聞
      2026-05-29 17:43:32
      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      黃河新流域
      2026-05-14 15:10:42
      每天一個西紅柿,研究發現:三周后身體炎癥下降38%,延緩腦衰老

      每天一個西紅柿,研究發現:三周后身體炎癥下降38%,延緩腦衰老

      科學認識論
      2026-05-28 10:06:49
      霍華德淘汰賽選NBA現役最佳:家鄉情結與大個子偏好的雙重勝利

      霍華德淘汰賽選NBA現役最佳:家鄉情結與大個子偏好的雙重勝利

      籃壇第一線
      2026-05-30 00:40:56
      大定破2萬!余承東:全新M9是地球上最強SUV,沒有之一!網友:廣告法能不能管管他

      大定破2萬!余承東:全新M9是地球上最強SUV,沒有之一!網友:廣告法能不能管管他

      大白聊IT
      2026-05-28 21:21:39
      中國移動迎來史上最年輕的總經理!

      中國移動迎來史上最年輕的總經理!

      ICT解讀者
      2026-05-08 19:50:41
      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      蜉蝣說
      2026-03-17 15:58:31
      帶孫子最狠的一招:不罵不吼,就兩字,我照做3年,孫子越來越懂事

      帶孫子最狠的一招:不罵不吼,就兩字,我照做3年,孫子越來越懂事

      心理觀察局
      2026-05-20 07:51:20
      又一個巨頭倒下了?虧損超62億,一代空調大王爆雷!

      又一個巨頭倒下了?虧損超62億,一代空調大王爆雷!

      素衣讀史
      2026-05-29 22:12:03
      徹底沒得選!德部長帶40家巨頭落地北京,警告歐盟不準碰中國

      徹底沒得選!德部長帶40家巨頭落地北京,警告歐盟不準碰中國

      嘆為觀止易
      2026-05-30 00:26:16
      重返騎士信號?詹姆斯轉發2016年奪冠高光:這支球隊實在太棒了

      重返騎士信號?詹姆斯轉發2016年奪冠高光:這支球隊實在太棒了

      羅說NBA
      2026-05-29 08:44:56
      女子凌晨乘網約車在車內排泄,司機崩潰:臭味洗不掉!乘客全程清醒,還和男友打電話……

      女子凌晨乘網約車在車內排泄,司機崩潰:臭味洗不掉!乘客全程清醒,還和男友打電話……

      環球網資訊
      2026-05-29 13:42:23
      建國初,甚至有部分將帥手握幾十萬兵力,為何沒一人敢擁兵自重?

      建國初,甚至有部分將帥手握幾十萬兵力,為何沒一人敢擁兵自重?

      史之銘
      2026-05-29 16:55:36
      DO&皇馬跟隊:穆里尼奧已簽下三年合同,皇馬主席選舉后官宣

      DO&皇馬跟隊:穆里尼奧已簽下三年合同,皇馬主席選舉后官宣

      懂球帝
      2026-05-29 22:20:07
      法網|爆冷出局后,辛納有點后悔

      法網|爆冷出局后,辛納有點后悔

      北青網-北京青年報
      2026-05-29 08:58:06
      最高層終于給房地產托底了!

      最高層終于給房地產托底了!

      櫻桃大房子
      2026-05-29 22:03:02
      綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

      綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

      坦蕩的雪莉
      2026-05-29 08:17:10
      688033,被證監會立案!

      688033,被證監會立案!

      中國基金報
      2026-05-29 21:46:04
      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      趣文說娛
      2026-05-12 19:53:22
      巔峰對決!吳宜澤VS趙心童 比賽時間公布 小吳再戰艾倫復刻世錦賽

      巔峰對決!吳宜澤VS趙心童 比賽時間公布 小吳再戰艾倫復刻世錦賽

      念洲
      2026-05-29 14:09:37
      2026-05-30 01:32:49
      AI異類 incentive-icons
      AI異類
      從硅谷到中關村,AI信息與測評
      188文章數 8關注度
      往期回顧 全部

      科技要聞

      Claude Opus 4.8凌晨突發上線

      頭條要聞

      釋永信被判24年 中國佛教協會:完全是咎由自取

      頭條要聞

      釋永信被判24年 中國佛教協會:完全是咎由自取

      體育要聞

      即使是文班亞馬,也做不到這件事

      娛樂要聞

      奚夢瑤何猷君將于6月在法國舉行婚禮

      財經要聞

      近3個月跌超20% 黃金"猴市"下的眾生相

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      數碼
      家居
      時尚
      游戲
      手機

      數碼要聞

      宏碁推多款游戲新品:兩款筆記本、一款串流掌機,還有鍵盤、背包

      家居要聞

      云棲 舒展如流云

      推廣中獎名單-更新至2026年4月28日推廣

      亞運會電競項目名單出爐!LOL、MLBB等項目暫缺陣容

      手機要聞

      華為雙箭齊發:Mate80系列618官降500元,闊比例直板新機曝光!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线永久免费观看的毛片| 91超碰在| 色国产视频| www.黄色| 青青草原国产精品啪啪视频 | 把插八插露脸对白内射| 精品在线观看视频二区| 成人福利一区二区视频在线| 韩国三级+mp4| 日本视频www色| 免费无码AV片在线观看中文 | 中文字幕乱码无码人妻系列蜜桃| 亚洲av成人一区二区三区色| 一本到无码av专区无码不卡| 蜜臀久久精品亚洲一区| 九九碰九九爱97超碰| 国产精品成人亚洲| 国产 制服丝袜 动漫在线| 无码国产偷倩在线播放| 淫荡人妻中文字幕| 色综合久久中文字幕无码| 噜噜噜色噜噜噜久久| 日韩在线视频观看免费网站| 国产AV大全| 爽到无码高潮喷水aV无码| 成人国产三级在线观看| 亚洲avav天堂av在线网爱情| 3P在线看| 国产在线线精品宅男网址| 亚洲区日韩精品中文字幕| 国产精品爽爽v在线观看无码| 欧美日韩精品一区二区在线观看| 中文字幕人妻日韩精品| 久久精品国产亚洲AV麻| 中文字幕亚洲欧美日韩专区| 国产亚洲精品第一综合| 澳门毛片精品一区二区三区| 国产探花精品在线播放| 亚洲综合国产精品第一页| 欧美成人午夜在线观看视频| 成人毛片网|