<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      ReconVLA:具身智能研究首次獲得AI頂級會議最佳論文獎

      0
      分享至



      在長期以來的 AI 研究版圖中,具身智能雖然在機器人操作、自動化系統與現實應用中至關重要,卻常被視為「系統工程驅動」的研究方向,鮮少被認為能夠在 AI 核心建模范式上產生決定性影響。

      而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個清晰而重要的信號:讓智能體在真實世界中「看、想、做」的能力,已經成為人工智能研究的核心問題之一。

      這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認可:不僅是對某一個模型、某一項指標的認可,更是對具身智能作為通用智能核心范式之一的肯定。



      • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
      • 論文地址:https://arxiv.org/abs/2508.10333
      • 論文代碼:https://github.com/Chowzy069/Reconvla

      VLA 模型關鍵瓶頸:機器人真「看準」了嗎?



      近年來,Vision-Language-Action(VLA)模型在多任務學習與長時序操作中取得了顯著進展。然而,我們在大量實驗中發現,一個基礎但被長期忽視的問題嚴重制約了其性能上限:視覺注意力難以穩定、精準地聚焦于任務相關目標。

      以指令「將藍色積木放到粉色積木上」為例,模型需要在復雜背景中持續鎖定「藍色積木」和「粉色積木」。但現實中,許多 VLA 模型的視覺注意力呈現為近似均勻分布,不同于人類行為專注于目標物體,VLA 模型容易被無關物體或背景干擾,從而導致抓取或放置失敗。

      已有工作主要通過以下方式嘗試緩解這一問題:

      • 顯式裁剪或檢測目標區域(Explicit Grounding)
      • 預測目標邊界框作為中間輸出(COT Grounding)

      然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制,提升效果有限。

      ReconVLA:重建式隱式視覺定位的新范式


      為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

      不要求模型顯式輸出「看哪里」,而是通過「能否重建目標區域」,來約束模型必須學會精準關注關鍵物體。

      在 ReconVLA 中,動作預測不再是唯一目標。在生成動作表征的同時,模型還需要完成一項輔助任務:

      重建當前時刻所「凝視」的目標區域 ----- 我們稱之為 Gaze Region。

      這一重建過程由輕量級擴散變換器(Diffusion Transformer)完成,并在潛在空間中進行高保真復原。由于要最小化重建誤差,模型被迫在其內部視覺表示中編碼關于目標物體的精細語義與結構信息,從而在注意力層面實現隱式而穩定的對齊。

      這一機制更接近人類的視覺凝視行為,而非依賴外部檢測器或符號化坐標監督。



      方法概覽


      ReconVLA 的整體框架由兩個協同分支組成:

      1. 動作預測分支: 模型以多視角圖像、自然語言指令與機器人本體狀態為輸入,生成動作 token,直接驅動機器人執行操作。

      2. 視覺重建分支: 利用凍結的視覺 tokenizer,將指令關注的目標區域(Gaze region)編碼為高保真潛在 token。主干網絡額外輸出同維度的重建 token,并以此作為條件,引導擴散去噪過程逐步復原目標區域的視覺表示。

      重建損失在像素與潛在空間層面為模型提供了隱式監督,使視覺表征與動作決策在訓練過程中緊密耦合。



      大規模重建預訓練


      為賦予 ReconVLA 穩定的視覺重建與泛化能力,我們構建了一個大規模機器人預訓練數據集:

      • 數據規模:超過 10 萬條交互軌跡,約 200 萬張圖像。
      • 數據來源:BridgeData V2、LIBERO、CALVIN 等開源機器人數據集。
      • 自動化標注:利用微調后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動生成指令對應的目標物體區域(Gaze region),用于重建監督。

      該預訓練過程不依賴動作標簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力,并為未來擴展至互聯網級視頻數據奠定了一定基礎。

      實驗結果



      在 CALVIN 仿真基準上,ReconVLA 在長時序任務中顯著優于現有方法:

      • ABC→D 泛化任務:平均完成長度達到3.95,全面領先同期所有對比方法。
      • ABCD→D 長程任務:平均完成長度為4.23,完整任務成功率達70.5%。

      值得一提的是,在 CALVIN 極具挑戰的長程任務「stack block」上我們的方法成功率達到 79.5%,遠高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監督的方法可以在復雜長程任務中實現更靈活的運動規劃。



      在真實機器人實驗中,我們基于 AgileX PiPer 六自由度機械臂,測試了疊碗、放水果、翻杯與清理餐桌等任務。ReconVLA 在所有任務上均顯著優于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現出強大的視覺泛化能力。



      對比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率,由此可分析出:

      僅用精細化的目標區域作為模型隱式監督可以實現更加精確的注意力,更高的任務成功率以及更簡單的模型夾構。



      而消融實驗表明:

      1. 全圖重建仍然由于僅有動作監督的基線,因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環境下難以展現更好的效果。

      2. 重建目標區域(Gaze region)具有顯著效果,這個機制使得模型專注于目標物體,避免被無關背景干擾。

      3. 大規模預訓練顯著提升了模型在視覺重建,隱式 Grounding 及跨場景泛化的能力。

      總結


      ReconVLA 的核心貢獻并非引入更復雜的結構,而是重新審視了一個基礎問題:機器人是否真正理解了它正在注視的世界。

      通過重建式隱式監督,我們為 VLA 模型提供了一種更自然、更高效的視覺對齊機制,使機器人在復雜環境中做到「看得準、動得穩」。

      我們期待這一工作能夠推動具身智能從經驗驅動的系統設計,邁向更加扎實、可擴展的通用智能研究范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      無緣高級別賽事!徐文婧缺席引爭議,國羽教練組報名眼光遭質疑

      無緣高級別賽事!徐文婧缺席引爭議,國羽教練組報名眼光遭質疑

      小蘭看體育
      2026-05-05 16:21:49
      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      美軍中央司令部:在霍爾木茲海峽已經擊沉6艘試圖阻撓商船航行的伊朗小型船只

      美軍中央司令部:在霍爾木茲海峽已經擊沉6艘試圖阻撓商船航行的伊朗小型船只

      魯中晨報
      2026-05-05 09:38:03
      研究表明:性經驗越多的男性,陽痿、早泄勃起等問題越少!

      研究表明:性經驗越多的男性,陽痿、早泄勃起等問題越少!

      燈錦年
      2026-05-04 14:09:21
      特朗普直接掀桌了,以色列下絕殺令!中方的預判果然應驗了

      特朗普直接掀桌了,以色列下絕殺令!中方的預判果然應驗了

      春之寞陌
      2026-05-04 18:35:55
      國乒橫零封澳洲,王皓再遭質疑:向鵬不上場,就算奪冠他也沒金牌

      國乒橫零封澳洲,王皓再遭質疑:向鵬不上場,就算奪冠他也沒金牌

      云舟史策
      2026-05-05 22:12:33
      警告三次不如動真格一次!中國下達逐客令,巴拿馬反應出乎意料

      警告三次不如動真格一次!中國下達逐客令,巴拿馬反應出乎意料

      史行途
      2026-05-05 18:05:43
      26 歲范丞丞和71歲媽媽合影,范媽媽狀態絕了,根本不像七十多

      26 歲范丞丞和71歲媽媽合影,范媽媽狀態絕了,根本不像七十多

      橙星文娛
      2026-05-04 17:19:52
      賴清德偷偷離臺,乘坐私人飛機竄訪,轉頭卻發現,自己恐難返程

      賴清德偷偷離臺,乘坐私人飛機竄訪,轉頭卻發現,自己恐難返程

      浪子阿邴聊體育
      2026-05-04 16:17:32
      日本大佬空降北京,中方高層集體缺席,3大致命錯誤早已斷送前路

      日本大佬空降北京,中方高層集體缺席,3大致命錯誤早已斷送前路

      古史青云啊
      2026-05-05 22:09:44
      20多年前陳紅在陳凱歌家拍照,她躺在沙發上的樣子,堪稱人間尤物!

      20多年前陳紅在陳凱歌家拍照,她躺在沙發上的樣子,堪稱人間尤物!

      感覺會火
      2026-04-28 21:18:46
      4-1,山東泰山腳下不斬無名之輩,球迷:劫富濟貧,看了2場假球?

      4-1,山東泰山腳下不斬無名之輩,球迷:劫富濟貧,看了2場假球?

      我就是一個說球的
      2026-05-05 23:03:46
      美光市值突破7000億美元

      美光市值突破7000億美元

      每日經濟新聞
      2026-05-05 21:43:06
      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      草莓解說體育
      2026-04-12 17:05:01
      深度|“自由計劃”落地第一天:美伊交火,阿聯酋遭襲,海峽斗法將重燃戰火?

      深度|“自由計劃”落地第一天:美伊交火,阿聯酋遭襲,海峽斗法將重燃戰火?

      上觀新聞
      2026-05-05 20:31:11
      心理學揭秘:一個人對家人暴躁易怒,對外人卻溫和有禮,并非天性冷血,真正原因藏在這兩點深層心理里

      心理學揭秘:一個人對家人暴躁易怒,對外人卻溫和有禮,并非天性冷血,真正原因藏在這兩點深層心理里

      心理觀察局
      2026-05-02 06:59:03
      印度媒體評湯尤杯最佳陣容:國羽男隊僅3人入選,女隊遺憾2人入選

      印度媒體評湯尤杯最佳陣容:國羽男隊僅3人入選,女隊遺憾2人入選

      小蘭看體育
      2026-05-05 11:41:47
      新世界發展擬156億出售酒店資產

      新世界發展擬156億出售酒店資產

      地產微資訊
      2026-05-05 20:33:23
      西貝,在嘉定踢了一腳超級“烏龍”

      西貝,在嘉定踢了一腳超級“烏龍”

      尚虹橋
      2026-05-05 19:36:35
      溥儀這氣質哪像傀儡?拋開立場,那時的溥儀骨子里依然是傲慢的!

      溥儀這氣質哪像傀儡?拋開立場,那時的溥儀骨子里依然是傲慢的!

      史之銘
      2026-04-28 22:35:50
      2026-05-05 23:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12919文章數 142642關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      美軍稱“布什”號航母正穿越阿拉伯海 搭載60多架戰機

      頭條要聞

      美軍稱“布什”號航母正穿越阿拉伯海 搭載60多架戰機

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      親子
      游戲
      家居
      公開課

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      親子要聞

      爸爸給娃洗澡時,無論怎么擺弄他都不哭,網友:拿開水燙我也哭 別說他了

      LPL最速放假戰隊誕生!再次喜提全年放假待遇,0-3成涅槃組送分隊

      家居要聞

      靈動實用 生活藝術場

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久综合亚洲色一区二区三区| 国产欧美日韩不卡一区二区三区 | 人妻少妇精品无码专区二区| 欧美一区二区三区性视频| 粉嫩AV一区二区凹凸精品| 免费国产高清在线精品一区| 久久精品国产88久久综合| 免费av在线亚洲一区| 天堂а√在线中文在线| AV人摸人人人澡人人超碰| 欧美a在线| 亚洲丝袜人妻| 制服丝袜先锋影音| 亚洲大成色www永久网站动图| 中文字幕亚洲资源一区二区| 亚洲精品国模一区二区| 国产成人片无码视频| 中文字幕精品人妻| 亚洲男人的天堂久久香蕉| 成人午夜免费无码视频在线观看| 豆花av| 性一交一乱一乱一视频 | 无码精品人妻一区二区三区湄公河| 91丝袜精品久久久久久无码人妻 | 国产av大全| 亚洲人妻精品一区二区| 久久久精品94久久精品| 中文字字幕在线中文乱码| 男女毛多水多亚洲| 日本成人| 国产精品永久不卡免费视频| 99精品在线| 亚洲偷自拍国综合| 无码无需播放器av网站| 亚洲欧美色欲天天| 国产精品日韩av在线播放| 国产精品女主播在线视频 | 无码成a毛片免费| 精品人妻蜜臀一区二区三区| 欧美丰满熟妇bbbbbb| 久久久久人妻一区精品色|