<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      李飛飛再出手,空間智能的ImageNet來了

      0
      分享至

      ImageNet之后,李飛飛再出手!

      李飛飛團隊最新發(fā)布ESI-Bench——一個專門用來評測具身空間智能的新基準。



      過去的空間智能評測默認給模型最優(yōu)觀測,而ESI-Bench第一個把觀察者變成行動者,閉合了感知-行動回路。

      它為具身空間智能領域提供了一個系統(tǒng)性的評測框架,覆蓋人類核心空間認知能力的四大維度。

      論文的核心結論是:現(xiàn)在的AI看圖很厲害,但離「會動、會摸、會主動找答案」的空間智能還差得遠



      ESI-Bench是什么

      ESI-Bench發(fā)布的背景,是由于目前的空間智能benchmark,測的都是「被動感知」。

      把一張或幾張圖片扔給模型,問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」,這樣的題目測出來的是模型的視力,而非空間推理能力。

      反觀人類是怎么做的?人類會站起來繞到物體背后去看,會把抽屜拉開,會把水倒出來量一量。

      這就是ESI-Bench的核心立場:把觀察者變成行動者



      現(xiàn)實世界里,智能體必須像人類一樣,主動決定行動、獲取證據(jù),再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」(Perception-Action Loop)。

      ESI-Bench就是這樣一套超越現(xiàn)有基準的空間智能新評測基準,它包含10個任務類別,29個子類別,3081個任務實例,全部在OmniGibson仿真平臺上構建,場景素材來自BEHAVIOR-1K場景庫。



      所有任務圍繞Spelke的四大核心知識系統(tǒng)設計,也就是人類嬰兒天生就具備的空間直覺:物體表征、布局與幾何、數(shù)量表征、目標導向行動。

      它的關鍵設定在于行動強制。每一道題,AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片,它要決定往哪走、看什么、拿什么、怎么操作。



      舉幾個具體的例子:

      比如評測中有一道「剛性容納」題:給定幾個容器和幾個物體,要求把物體全部裝進去。有的容器開口小、有的內(nèi)部有隔板、有的蓋子需要掀開才能看到真實容量。

      模型必須走近、俯身、甚至把容器拿起來從底部觀察,才能判斷能不能裝得下。



      還有「液體體積」題:兩個杯子,從外觀看不出容量差異,模型需要把水倒進去測試,或者直接拿起來掂量。

      這么一說,大家應該也能直觀感受到這套評測基準的設計理念:

      正確答案不在任何單張圖片里,智能體必須主動行動并推理出正確結果

      團隊特別指出,與此前工作相比,ESI-Bench在三個地方有所超越:





      從空間感知到空間能力:在這里,智能體不僅根據(jù)他們能感知到什么來評估,還根據(jù)他們是否知道部署哪些具體能力來解決空間任務來評估;

      選擇性感知:智能體必須確定哪些觀察值得獲取,優(yōu)先考慮與任務相關的信息而不是冗余或無信息的輸入;

      解決感知歧義:智能體必須通過誤導性觀察進行推理,以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。

      測完發(fā)現(xiàn)了啥?3個核心結論

      團隊拿當前最強的多模態(tài)大模型做了全面測試,包括GPT-5和Gemini系列。



      這是最主要的實驗結果圖,包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率,涵蓋2D+VLM、3D+LLM及人類基線。

      核心結論有3個。

      第一,感知不是瓶頸,行動才是

      好消息是,主動探索確實有效。在沒有額外指令的情況下,智能體自發(fā)涌現(xiàn)出多種空間策略。

      比如繞到物體背后觀察(move-behind)、切換俯視角度(top-down)、把物體拿起來(pick-up)、把水倒出來驗證(pour-out)。



      Gemini 3.1在「部分遮擋」任務上,如果給到最佳觀察視角,準確率從14.6%暴漲到95.1%。

      這說明,模型本身的感知能力是好的,只要給對視角,它就能看得懂。



      但問題在于,模型自己找不到那個對的視角。

      更糟糕的問題在于,被動多視角策略不僅沒用,反而有害。

      讓GPT-5多看幾張隨機角度的圖片,空間距離任務的準確率從53.9%降到49.1%。圖看得多了,分反而低了。

      GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數(shù)



      團隊把這個現(xiàn)象命名為「動作盲視」(Action Blindness),一個差動作導致一個差視角,差視角觸發(fā)更差動作,形成不可逆的級聯(lián)失敗。

      在結構圍合任務上,主動探索策略和上帝視角的差距高達49.7%。



      也就是說,空間智能的卡點不在于視覺模型不夠強,而是行動策略幾乎為零

      第二,3D重建不是萬能藥,不完美的3D比2D更坑。

      既然2D被動看圖不行,那上3D呢?這也是當前很多具身智能團隊的路子,先重建三維場景,再在場景圖上做推理。

      結果發(fā)現(xiàn),如果給的是真值3D(上帝視角的完美幾何),那確實很強。

      Gemini在材質(zhì)透明任務上,2D版本得分44.0%,3D版本得分60.4%,提升16.4個百分點。在需要精確深度信息的任務上,3D grounding有天然優(yōu)勢。

      但如果是真實重建呢?團隊用當前最先進的VGGT模型做場景重建,再把重建結果喂給推理模型。

      結果那叫一個慘不忍睹:幾何配置任務上,2D基線得分27.5%,VGGT重建后的場景圖得分只有9.9%。



      這說明,不完美的3D不是中性失敗,它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差,把這些失真信息編碼成場景圖,就等于給推理模型喂了一份「有毒」的輸入。

      相比之下,2D雖然信息少,但至少不失真;3D如果重建質(zhì)量不過關,比2D還不如。

      第三,元認知缺陷:模型不知道自己看沒看夠。

      論文里還有一組對比實驗,探討了智能體和人類的空間推理能力究竟還有多大差距。

      結果發(fā)現(xiàn),盡管人類與模型之間存在感知差距,但該差距可能比普遍認為的要小。

      在部分類別中,模型的被動表現(xiàn)甚至能與人類持平或超越人類。

      在真實軌跡條件下,Gemini在部分遮擋任務上達到88.4%的準確率,而人類為87.4%;GPT-5在材質(zhì)透明度任務上達到96.3%,人類則為97.2%。



      然而在主動探索場景下,二者的差距急劇顯現(xiàn)。

      人類憑借明確的觀察目標和停止時機,表現(xiàn)遠超模型,且主動探索的表現(xiàn)更接近真實軌跡下的被動表現(xiàn)。

      例如在物理接觸任務中,人類準確率為88.3%,而 GPT-5僅為 64.2%;在材質(zhì)透明度任務中,人類準確率為93.6%,Gemini 3.1則為52.3%。

      通過分析模型與人類的探索軌跡,團隊發(fā)現(xiàn)人類表現(xiàn)出更強的認知謹慎性:在做出判斷前會收集更多觀測,主動尋找可能證偽當前假設的視角,并在模糊情境下降低置信度。

      而模型則會過早停止探索,即便證據(jù)存在模糊性,也僅在少數(shù)步驟后就以高置信度做出判斷,進而產(chǎn)生與場景狀態(tài)相悖的空間幻覺。



      模型的過度自信,還因動作選擇的方向偏差而加劇:模型不會探查正交角度或?qū)ふ夷芡品跏加∠蟮囊暯牵欠磸拖蛲环较蛞苿樱e累的是冗余信息而非有效觀測。

      團隊把它定性為元認知(metacognition)缺陷:模型不知道自己不知道。

      它缺乏一種內(nèi)建的「懷疑機制」,無法評估當前信息是否充分,無法根據(jù)矛盾證據(jù)調(diào)整信念。

      這個問題從根本上區(qū)別于感知能力,也是一個更加底層的挑戰(zhàn),僅靠更強的視覺編碼器或更多的探索步驟無法解決。

      論文作者

      最后,再介紹一下這項工作的作者團隊。



      一作是Yining Hong

      Yining Hong,斯坦福大學的博士后,導師為Yejin Choi教授,同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。



      她曾在UCLA獲得計算機科學博士學位,本科就讀于上海交通大學電子工程系。

      此外,她還是一名職業(yè)音樂家,平時會和樂隊一起巡演,同時也是CVPR 2026的社交主席,負責組織CVPR招待會和音樂表演。

      Jiageng Liu(劉家耕),加州大學洛杉磯分校(UCLA)Mobility Lab的博士生。



      其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班,獲人工智能學士學位。

      Han Yin,清華大學本科生,斯坦福大學Intern,專業(yè)為計算機科學與技術。



      李飛飛、吳佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同時出現(xiàn)在作者列表里。





      另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。


      [1]https://arxiv.org/abs/2605.18746
      [2]https://esi-bench.github.io/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      觀察者網(wǎng)
      2026-05-21 16:49:06
      朱新遠已任上海教育行政部門主要負責人

      朱新遠已任上海教育行政部門主要負責人

      上觀新聞
      2026-05-22 17:59:07
      炸了!周也戀情曝光,對象身份不簡單

      炸了!周也戀情曝光,對象身份不簡單

      黎兜兜
      2026-05-22 12:29:13
      奔馳碾殺貓男社死!囂張連累公司,更多惡行被扒,勢力大也得坐牢

      奔馳碾殺貓男社死!囂張連累公司,更多惡行被扒,勢力大也得坐牢

      奇思妙想草葉君
      2026-05-22 01:59:21
      小學老師被扎眼球:同事曝更多隱情,眼睛毀了,工作也可能不保

      小學老師被扎眼球:同事曝更多隱情,眼睛毀了,工作也可能不保

      削桐作琴
      2026-05-21 20:58:08
      美國暫停一項對臺軍售案,外交部回應

      美國暫停一項對臺軍售案,外交部回應

      澎湃新聞
      2026-05-22 15:28:26
      炸穿內(nèi)娛!景甜被曝簽海外代孕協(xié)議,3000萬轉(zhuǎn)賬+5000萬坐地起價

      炸穿內(nèi)娛!景甜被曝簽海外代孕協(xié)議,3000萬轉(zhuǎn)賬+5000萬坐地起價

      草莓解說體育
      2026-05-22 14:58:18
      日本2025世博會電動大巴報廢,當時宣稱日本制造,如今改口稱中國制造

      日本2025世博會電動大巴報廢,當時宣稱日本制造,如今改口稱中國制造

      可達鴨面面觀
      2026-05-22 09:28:08
      80后地產(chǎn)女王自殺,倒在樓市黎明前

      80后地產(chǎn)女王自殺,倒在樓市黎明前

      南風窗
      2026-05-22 17:14:35
      美國副防長訪華被中方推遲 特朗普手握"籌碼"進退兩難

      美國副防長訪華被中方推遲 特朗普手握"籌碼"進退兩難

      健身狂人
      2026-05-22 15:00:09
      英格蘭世界杯26人名單出爐!凱恩賴斯領銜,福登馬奎爾遺憾落選

      英格蘭世界杯26人名單出爐!凱恩賴斯領銜,福登馬奎爾遺憾落選

      奧拜爾
      2026-05-22 17:06:14
      形勢有多嚴峻?網(wǎng)傳中學生都感到極其壓抑了,評論區(qū)炸鍋…

      形勢有多嚴峻?網(wǎng)傳中學生都感到極其壓抑了,評論區(qū)炸鍋…

      慧翔百科
      2026-05-22 11:33:16
      小因扎吉:我們是本賽季全世界唯一不敗球隊,很遺憾無緣冠軍

      小因扎吉:我們是本賽季全世界唯一不敗球隊,很遺憾無緣冠軍

      懂球帝
      2026-05-22 06:56:16
      四川一國企退休職工幫同事維權與董事長爭執(zhí)后猝死,董事長建議去起訴

      四川一國企退休職工幫同事維權與董事長爭執(zhí)后猝死,董事長建議去起訴

      澎湃新聞
      2026-05-22 14:58:28
      烏克蘭無人機“團滅”俄聯(lián)邦安全局赫爾松總部,俄方損失約100人

      烏克蘭無人機“團滅”俄聯(lián)邦安全局赫爾松總部,俄方損失約100人

      山河路口
      2026-05-22 12:25:52
      貪官末日來了!中央反腐新規(guī)5月落地,無論在職退休一律終身追責

      貪官末日來了!中央反腐新規(guī)5月落地,無論在職退休一律終身追責

      細說職場
      2026-05-22 14:30:31
      交大樊同學和協(xié)和董小姐,其實是一類人

      交大樊同學和協(xié)和董小姐,其實是一類人

      互聯(lián)網(wǎng)思維
      2026-05-21 23:34:37
      公牛起訴小米:一個插線板的十年恩仇錄,遠不止插線板

      公牛起訴小米:一個插線板的十年恩仇錄,遠不止插線板

      品牌紀要
      2026-05-22 11:34:54
      美俄剛走,荷蘭就“憋不住”,光刻機巨頭,公開給中國遞了句軟話

      美俄剛走,荷蘭就“憋不住”,光刻機巨頭,公開給中國遞了句軟話

      清沐執(zhí)筆
      2026-05-22 16:14:17
      騎士球迷意難平!不止因為93-109再負尼克斯,更多在于以下五點!

      騎士球迷意難平!不止因為93-109再負尼克斯,更多在于以下五點!

      田先生籃球
      2026-05-22 13:03:49
      2026-05-22 18:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12674文章數(shù) 176467關注度
      往期回顧 全部

      科技要聞

      雷軍:輸給特斯拉不丟人

      頭條要聞

      80后地產(chǎn)女王自殺倒在樓市黎明前 曾稱或面臨刑事責任

      頭條要聞

      80后地產(chǎn)女王自殺倒在樓市黎明前 曾稱或面臨刑事責任

      體育要聞

      最糟糕裁判?他想要退役當市長

      娛樂要聞

      周也戀情曝光!對象身份不簡單

      財經(jīng)要聞

      證監(jiān)會擬對老虎、富途、長橋依法嚴厲處罰

      汽車要聞

      舒適智能配置滿 昊鉑S600開著沒那么運動也挺好

      態(tài)度原創(chuàng)

      教育
      健康
      房產(chǎn)
      游戲
      軍事航空

      教育要聞

      全國示范校名單公示!北京這8所學校上榜

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      房產(chǎn)要聞

      瘋搶511輪!今年海南最魔幻的地塊,被福建能源企業(yè)搶了!

      《紅色沙漠》又更新!玩家呼聲最大的要來了

      軍事要聞

      俄羅斯試射具備核打擊能力的高超音速導彈

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产精品成人精品无码区在线| 免费看成人aa片无码视频吃奶 | 蜜臀av入口一区二区三区| 亚洲天堂av福利在线| 欧洲中文字幕一区二区| 黄色A级国产免费大片视频| 亚洲精品一二三四区| 国产精品成人一区二区不卡| 欧美亚洲另类国产很色婷婷| 久久丫精品国产亚洲AV| 年轻女教师hd中字3| 国产亚洲精品综合一区二区| 日B免费视频| 曰本无码人妻丰满熟妇5g影院| 97精品国产91久久久久久久 | 四虎成人精品无码| 国内少妇偷人精品免费| 3p露脸在线播放| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 无码成人午夜在线观看| 色天使亚洲综合一区二区| 亚洲成人黄色| 国产精品成人va在线观看| 国产一级做a爰片久久毛片| 日韩欧美一| 伊人久久精品无码麻豆一区| 激情在线一区二区三区视频| 精品人妻无码一区二区三区四川人 | 无码人妻AⅤ一区二区三区用会员| 久久热这里只有精品99| 欧美A∨| 欧美精品一区二区三区中文字幕| 极品 在线 视频 大陆 国产| 国产成人精品亚洲一区二区麻豆 | 亚洲成人一卡| 国产亚洲AV三级| 欧美%20日韩%20亚洲%20精品二区| 国产中文字幕在线精品| 成人无码特黄特黄AV片在线| 色吊丝免费av一区二区| 欧美阿v视频|