<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      引入幾何約束后,VLM跨越了「空間推理」的認知鴻溝

      0
      分享至



      現(xiàn)有的視覺大模型普遍存在「語義-幾何鴻溝」(Semantic-to-Geometric Gap),不僅分不清東南西北,更難以處理精確的空間量化任務(wù)。例如問「你坐在沙發(fā)上時,餐桌在你的哪一側(cè)?」,VLM 常常答錯。

      這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細節(jié),導(dǎo)致其在空間推理時是在「憑空瞎猜」,這使得模型讀懂了畫面的語義,卻停留在「語言的世界」中,不具備現(xiàn)實世界賴以運行的幾何直覺,導(dǎo)致空間判斷漏洞百出。



      • 論文標(biāo)題:Geometrically-Constrained Agent for Spatial Reasoning
      • 論文鏈接:https://arxiv.org/pdf/2511.22659
      • 作者團隊:Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
      • 通訊單位:北京航空航天大學(xué),上海人工智能實驗室
      • 項目主頁:https://gca-spatial-reasoning.github.io
      • 項目代碼:https://github.com/gca-spatial-reasoning/gca

      針對這一痛點,北京航空航天大學(xué)上海人工智能實驗室的研究團隊創(chuàng)新提出了幾何約束智能體(Geometrically-Constrained Agent, GCA),開創(chuàng)了「先形式化約束,后確定性計算」的空間推理新范式。GCA 不依賴海量數(shù)據(jù)微調(diào),而是通過構(gòu)建形式化任務(wù)約束,強制 VLM 從「模糊直覺」轉(zhuǎn)向「精確求解」,通過視覺工具調(diào)用和編寫計算代碼進行參數(shù)化計算,為空間推理搭建了一座可驗證、確定性的幾何橋梁。

      GCA 直接帶領(lǐng) Qwen、Gemini 等基座模型實現(xiàn)「能力躍遷」。在公認高難度的 MMSI-Bench 測試中,GCA 將模型性能提升近 50%,擊敗現(xiàn)有 Training-based 及 Tool-integrated 方法,并在多個主流空間推理測試中確立了空間推理領(lǐng)域的新 SOTA。



      核心挑戰(zhàn):跨越「語義 - 幾何」的認知鴻溝

      視覺語言模型(VLM)在圖像描述與通用語義理解上表現(xiàn)卓越,然而,當(dāng)任務(wù)轉(zhuǎn)向需要高精度幾何計算的空間推理時 —— 例如判斷物體的精確朝向、測量距離或進行視角變換 —— 其表現(xiàn)卻顯著下滑。

      研究團隊指出,這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現(xiàn)為:

      • 視覺 & 幾何信息的有損壓縮:VLM 將豐富的像素信息壓縮為抽象的語義特征,這一過程如同將一幅詳細地圖簡化為幾個地標(biāo)名稱,導(dǎo)致物體精確位置、朝向、尺度等高保真幾何細節(jié)大量丟失。
      • 幾何想象的缺失:以「坐在沙發(fā)上」這一場景為例,VLM 僅能調(diào)用模糊的空間常識(知道人與沙發(fā)通常同向),卻無法在腦海中精確構(gòu)建出「從沙發(fā)視角看去」的三維場景。這種幾何想象力的匱乏,使其在面對復(fù)雜空間推理時力不從心。

      ? 核心方法:基于形式化約束的兩階段推理





      1. 任務(wù)形式化 —— 從「模糊指令」到「精確規(guī)則」

      VLM 首先扮演「語義分析師」的角色,利用其強大的語義理解能力,將模糊的自然語言指令轉(zhuǎn)化為明確的數(shù)學(xué)約束。這一步驟不涉及具體計算,而是確立規(guī)則:



      • 基于物體的參考系 (Object-based Frame):利用物體自身的坐標(biāo)系。例如指令「當(dāng)你在洗手時...」隱含了觀察者必須「面對洗手池」,因此參考系由洗手池的朝向決定。
      • 基于相機的參考系 (Camera-based Frame):即標(biāo)準(zhǔn)的視圖坐標(biāo)系。例如「從圖 1 的視角來看...」,此時參考系直接綁定為相機的基于方向的參考系 (Direction-based Frame):由兩個物體的位置關(guān)系定義。例如「烤箱在水槽的北面」,此時「北」的方向由從水槽指向烤箱的向量嚴(yán)格定義。





      2. 幾何計算 —— 在規(guī)則內(nèi)進行「確定性求解」



      • 智能工具調(diào)度與綁定:VLM 像指揮官一樣,調(diào)度 3D 重建等感知工具獲取數(shù)據(jù),并能智能地將「最左邊的椅子」等模糊描述,精準(zhǔn)綁定到具體的幾何對象上,消除語義歧義。
      • 感知與計算的無縫銜接:感知工具負責(zé)將視覺世界參數(shù)化為高保真 3D 表示,計算工具則負責(zé)執(zhí)行代碼、完成坐標(biāo)轉(zhuǎn)換,二者在統(tǒng)一框架下協(xié)同,實現(xiàn)從「看到」到「算準(zhǔn)」的閉環(huán)。
      • 檢索增強的可靠計算:采用類似 RAG 的策略,VLM 從一個已驗證的幾何公式庫中檢索正確模型來生成代碼,從根本上杜絕「幻覺」,確保每項計算都基于可靠的物理原理。

      實驗結(jié)果:全新的空間推理 SOTA

      在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個主流空間推理基準(zhǔn)上,GCA 證明了其有效性,構(gòu)建了一個全新的空間智能 SOTA。

      綜合性能提升

      GCA 取得了 65.1% 的平均準(zhǔn)確率,顯著超越了現(xiàn)有基于訓(xùn)練的方法與工具集成的方法。特別是在極具挑戰(zhàn)性的多圖空間推理基準(zhǔn) MMSI-Bench 中,面對復(fù)雜的視角變換與相對方位推斷,現(xiàn)有主流模型往往只能徘徊在 25%~30% 左右的「隨機猜測」水平線。

      而基于 Qwen3-VL-Thinking 構(gòu)建的 GCA,準(zhǔn)確率從 32.6% 躍升至 47.6%。這一數(shù)據(jù)證明,GCA 成功讓 VLM 擺脫了「蒙答案」的困境,向具備可靠的空間推理能力邁出了關(guān)鍵一步。

      強大的通用性

      GCA 并非特定模型的「專屬補丁」,而是一種無需訓(xùn)練(Training-free)的通用推理范式,可直接賦能各類基座模型。

      實驗顯示,在搭載 GCA 架構(gòu)后,受測模型在 MMSI-Bench 上的性能平均實現(xiàn)了約 37% 的相對提升。其中,基于 Gemini-2.5-Pro 構(gòu)建的 GCA 表現(xiàn)尤為驚艷,其準(zhǔn)確率從 36.9% 飛躍至 55.0%,有效地激發(fā)了頂級模型的空間推理潛力。





      通過系統(tǒng)的消融實驗與歸因分析,研究進一步證實了 GCA 架構(gòu)的前瞻性:



      • 可解釋的錯誤歸因:得益于 GCA 架構(gòu)的模塊化設(shè)計,研究團隊能夠?qū)ν评礞溌愤M行精確的錯誤歸因。分析顯示,VLM 在「任務(wù)形式化」階段的準(zhǔn)確率已高達~70%,當(dāng)前主要錯誤來源于下游感知工具(如 3D 重建失敗或遮擋)。這表明,GCA 的推理邏輯是穩(wěn)健的,其性能將隨著感知模型的進步而持續(xù)提升。



      總結(jié)與意義

      GCA 提出了一種「語言定義約束,幾何執(zhí)行計算」的新范式。通過將模糊的空間查詢轉(zhuǎn)化為帶約束的數(shù)學(xué)問題,GCA 有效避免了 VLM 在有損語義空間中進行不可靠的空間想象。這不僅大幅提升了推理的準(zhǔn)確性,也讓機器向擁有「幾何直覺」邁出了關(guān)鍵一步,回應(yīng)了攀登「空間智能」高峰的核心挑戰(zhàn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      外媒警告:如果臺海開戰(zhàn),解放軍首波攻勢會是“無人機海”

      外媒警告:如果臺海開戰(zhàn),解放軍首波攻勢會是“無人機海”

      子桑說
      2026-05-26 14:19:43
      64歲庾澄慶不滿被淘汰公開內(nèi)涵《歌手》節(jié)目

      64歲庾澄慶不滿被淘汰公開內(nèi)涵《歌手》節(jié)目

      鐵錘妹妹是只貓
      2026-05-27 03:19:24
      章子怡不讓汪曼熙汪璟怡!空支持醒醒!來長沙給汪峰孩子們買零食

      章子怡不讓汪曼熙汪璟怡!空支持醒醒!來長沙給汪峰孩子們買零食

      阿廢冷眼觀察所
      2026-05-27 04:55:07
      暴雨黃色預(yù)警繼續(xù):貴州中西部等地部分地區(qū)有大暴雨

      暴雨黃色預(yù)警繼續(xù):貴州中西部等地部分地區(qū)有大暴雨

      界面新聞
      2026-05-27 06:58:02
      0-4橫掃出局,3-4爆冷惜敗!東部最大的偽強隊,四巨頭也該散伙了

      0-4橫掃出局,3-4爆冷惜敗!東部最大的偽強隊,四巨頭也該散伙了

      籃球掃地僧
      2026-05-26 08:57:52
      749局高人揭秘:人死后大概率輪回為畜生,活人進入輪回永不超生

      749局高人揭秘:人死后大概率輪回為畜生,活人進入輪回永不超生

      飛云如水
      2024-11-16 13:10:04
      失眠根源竟在腸道?北大研究:給腸道補充丁酸,深睡時間提升100%

      失眠根源竟在腸道?北大研究:給腸道補充丁酸,深睡時間提升100%

      果殼
      2026-05-26 16:01:18
      足協(xié)官宣亞冠分配名額,中超僅4隊有遞補資格,泰山被禁賽兩賽季

      足協(xié)官宣亞冠分配名額,中超僅4隊有遞補資格,泰山被禁賽兩賽季

      體壇風(fēng)之子
      2026-05-27 05:00:03
      女子白嫖外賣:吃掉后投訴騎手,小哥上門現(xiàn)場抓包,已傳播到國外

      女子白嫖外賣:吃掉后投訴騎手,小哥上門現(xiàn)場抓包,已傳播到國外

      天天熱點見聞
      2026-05-26 06:07:42
      53歲袁立病房照曝光!錢再多有什么用?她給所有中年女人提了個醒

      53歲袁立病房照曝光!錢再多有什么用?她給所有中年女人提了個醒

      文刀貳
      2026-05-24 21:21:45
      我定居泰國15年,娶過3個妻子,發(fā)現(xiàn)泰國的女人都有一個共同特點

      我定居泰國15年,娶過3個妻子,發(fā)現(xiàn)泰國的女人都有一個共同特點

      千秋文化
      2026-05-26 19:45:23
      周三一定要管住手!別亂動!接下來大概率這樣走了!

      周三一定要管住手!別亂動!接下來大概率這樣走了!

      風(fēng)風(fēng)順
      2026-05-27 06:20:35
      阿爾瓦雷斯:若阿根廷能衛(wèi)冕世界杯冠軍,我們將被載入史冊

      阿爾瓦雷斯:若阿根廷能衛(wèi)冕世界杯冠軍,我們將被載入史冊

      生活新鮮市
      2026-05-27 08:01:04
      63歲黃仁勛回臺探親,和父母一起吃飯,96歲父親神采奕奕狀態(tài)超好

      63歲黃仁勛回臺探親,和父母一起吃飯,96歲父親神采奕奕狀態(tài)超好

      丫頭舫
      2026-05-26 17:55:54
      多國接到撤離警告,輿論憂心沖突失控,俄升級對烏克蘭報復(fù)性打擊

      多國接到撤離警告,輿論憂心沖突失控,俄升級對烏克蘭報復(fù)性打擊

      環(huán)球網(wǎng)資訊
      2026-05-27 06:54:19
      太辣眼了!網(wǎng)紅白冰,出軌聊天記錄曝光,?其中到底有多炸裂?

      太辣眼了!網(wǎng)紅白冰,出軌聊天記錄曝光,?其中到底有多炸裂?

      川渝視覺
      2026-05-24 20:57:57
      衛(wèi)健委已將左氧氟沙星列為重點監(jiān)控藥物!提醒:服用千萬注意

      衛(wèi)健委已將左氧氟沙星列為重點監(jiān)控藥物!提醒:服用千萬注意

      健康科普365
      2026-05-25 22:15:03
      教科書為何要刪掉《賣油翁》最后一句話?最后一句到底有何深意?

      教科書為何要刪掉《賣油翁》最后一句話?最后一句到底有何深意?

      心中的麥田
      2026-05-23 19:43:10
      張本智和父親:我兒子已經(jīng)來到世界第二,下一步就是滅了國乒!

      張本智和父親:我兒子已經(jīng)來到世界第二,下一步就是滅了國乒!

      拳擊時空
      2026-05-27 04:59:03
      我被國內(nèi)休學(xué)率震驚了:5年暴增240%!吳軍痛批:全民補習(xí)害了這一代孩子…

      我被國內(nèi)休學(xué)率震驚了:5年暴增240%!吳軍痛批:全民補習(xí)害了這一代孩子…

      二胎媽媽圈
      2026-05-25 22:31:04
      2026-05-27 09:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13088文章數(shù) 142653關(guān)注度
      往期回顧 全部

      科技要聞

      狂飆19%!美光科技市值破萬億美元

      頭條要聞

      牛彈琴:明知會被拒 特朗普向中東國家提了個非分要求

      頭條要聞

      牛彈琴:明知會被拒 特朗普向中東國家提了個非分要求

      體育要聞

      上賽季差點降入英甲,下賽季要踢英超了

      娛樂要聞

      臺媒貼臉!S媽被問大S嗑藥當(dāng)場沉默

      財經(jīng)要聞

      ST巖石退市背后:A股“炒殼”時代終結(jié)

      汽車要聞

      涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      數(shù)碼
      旅游
      公開課

      家居要聞

      生與命相依 舊公寓改造

      房產(chǎn)要聞

      招商地產(chǎn)接盤碧桂園!海口這個爛尾豪宅,要徹底改命?

      數(shù)碼要聞

      蘋果發(fā)布AirTag 2新固件3.0.49 更新內(nèi)容暫未披露

      旅游要聞

      渝見好“村”光|榮昌大榮寨社區(qū):瀨溪河畔的水墨江南

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚州AV成人无码久久精品| 亚洲人成亚洲人成在线观看| 国产免费一区二区三区在线观看| 不卡免费一区二区日韩av| 欧美寡妇xxxx黑人猛交| 亚欧成人精品一区二区| 亚洲老熟女一区二区三区| 午夜伦伦电影理论片| 成人免费AV网站| 97久久超碰国产精品2021| 国产熟女50岁一区二区| 久久精品国产网红主播| 国内精品影院久久久久| 亚洲欧洲日韩精品在线| 亚洲美女被黑人巨大在线播放| 亚洲精品天堂一区二区| 99国产精成人午夜视频一区二区| 麻豆乱码国产一区二区三区| 亚洲码亚洲码天堂码三区| 日韩欧美高清dvd碟片| 国产成人精品成人A在线观看| 日本熟妇人妻xxxxx人hd| 加勒比无码人妻东京热| 免费无码毛片一区二区app| 2021精品国产综合久久| 亚洲第一国产综合| 午夜精品福利亚洲国产| 黑巨人与欧美精品一区| 国产精品V日韩精品| 成人性做爰aaa片免费看| 久久国产精品老人性| 亚洲日韩乱码一区二区三区四区| 亚洲av片在线免费观看| 日本肥老妇色xxxxx日本老妇 | 平潭县| 好吊妞欧美视频免费| 在线国产极品尤物你懂的| 中国无码mv| 色花堂av资源| 国产精品1024永久观看| 人妻中文字幕亚洲精品|