<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      HiF-VLA:以motion為中心打造「邊想邊做」的世界動作模型

      0
      分享至



      本文第一作者為西湖大學科研助理藺明慧,通訊作者為阿里巴巴達摩院算法專家黃思騰和西湖大學人工智能系副主任王東林。所有作者均來自西湖大學機器智能實驗室(MiLAB)和西湖機器人科技有限公司,團隊工作 ReconVLA 近期獲得 AAAI 2026 最佳論文獎。

      具身智能要想真正在復雜場景中落地,離不開對長程任務(Long-horizon tasks)的穩定執行。然而,現有的 VLA(視覺-語言-動作)模型大多停留在「動作模仿」階段,缺乏對物理世界動態變換的深刻理解,在長線操作中極易陷入因果混淆;同時,傳統通過直接堆疊多幀圖像來引入時間維度的方法,不僅容易引入大量靜態背景冗余,更會帶來災難性的推理延遲與顯存溢出。



      為解決上述挑戰,來自西湖大學、浙江大學、西湖機器人等機構的研究團隊提出了一種以運動(Motion)為中心的全新雙向時空推理框架 HiF-VLA。拋棄冗余的像素級輸入,HiF-VLA 巧妙提取低維緊湊的 Motion 向量作為動態先驗,在一個創新的「聯合專家」模塊中,同步完成未來視覺運動的預測與高精度動作序列的生成。

      相比傳統的時空建模范式,HiF-VLA 徹底摒棄了無用的視覺背景干擾,不僅在極長的歷史觀測窗口下依然保持了恒定、極低的推理延遲,更賦予了機器人真正「邊想邊做」的物理直覺。在 CALVIN 與 LIBERO-LONG 等長程任務評測中,其成功率顯著超越現有 SOTA 方法,為構建真正理解世界運行規律的 WAM(世界動作模型)開辟了全新路徑。

      目前,該工作已被 CVPR 2026 接收,代碼已開源。

      • 論文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
      • 論文鏈接:
      • https://arxiv.org/abs/2512.09928
      • 項目主頁:
      • https://hifvla.github.io/
      • 代碼:
      • https://github.com/OpenHelix-Team/HiF-VLA

      01 研究動機:

      從「動作模仿」到「理解物理世界」



      當前主流的 VLA(視覺-語言-動作)模型,本質上大多是高級的「動作模仿」。它們接收當前的圖像觀測,直接映射出對應的動作。

      這種范式在短視距任務中尚可應付,但在執行長程任務時卻屢屢翻車。為什么?因為模型缺乏對物理世界「動態變化」的理解。它們不知道自己剛才做了什么,也無法預判當前動作會對環境產生怎樣的影響,從而極易陷入因果混淆。

      要打破這種「短視」魔咒,模型必須從單純的「動作模仿」走向「物理理解」。這就要求我們引入World Action Model (WAM)的概念——智能體不僅要會「做」,還要能在腦海中「想」(推演環境的變化)。

      如何賦予機器人「邊想邊做」的時空推理能力?最直觀的想法是把過去幀和未來幀的圖像全部塞進大模型里。但現實是骨感的:圖像級別的時空建模不僅會導致算力爆炸,還會引入大量的靜態背景冗余,使得關鍵的物理變化被淹沒。HiF-VLA 團隊找到了一個高效的切入點:運動(Motion)。

      02 核心方案:

      HiF-VLA 的「三位一體」時空推理


      相比于冗余的像素,Motion 是捕捉物理世界動態演變最純粹、最高效、最本質的表征。以 Motion 為中心,HiF-VLA 構建了一個名為Hindsight-Insight-Foresight (HiF)的雙向時空推理框架。

      1. Hindsight(后見之明):打破馬爾可夫假設的「記憶錨點」

      智能體必須擁有連貫的自我意識。HiF-VLA 將機器人過去的歷史幀通過視頻編解碼器(H.264、MPEG-4 等)提取為低維且緊湊的 Motion 動態先驗。這就像給機器人植入了一個記憶中樞,它不需要回看過去的錄像,就能精確感知到「環境剛剛經歷了怎樣的運動變化」。這個歷史上下文,是后續一切推理的基石。

      2. Insight(洞察現在)和 Foresight(先見之明):走向 WAM 的「全知視角」

      真正的智能,既需要扎根當下,更需要預判未來。在 HiF-VLA 框架中,這兩個能力被完美解耦又緊密交織,共同構成了邁向 WAM(世界動作模型)的核心:

      • Insight(洞察現在):負責深度解析當前的語言指令和實時視覺觀測,讓機器人感知「我此時此刻面臨的是什么環境,需要完成什么具體目標」。

      • Foresight(預見未來):基于當下的 Insight,HiF-VLA 在輸出動作的同時,會初步地預測未來的運動趨勢。這相當于在模型內部嵌入了一個虛擬物理模擬器,讓機器人能夠提前推演自身的行為后果。

      3. 深度對齊:視覺與動作的協同預測

      這是 HiF-VLA 最為核心、也最出彩的創新——歷史調制的聯合專家(Hindsight-modulated joint expert)。如果說 Hindsight 和 Foresight 拉長了時間軸,那么聯合專家模塊則改變了模型的生成目標。HiF-VLA 認為,視覺與動作的割裂是阻礙模型理解物理規律的絆腳石,因此設計的聯合專家模塊絕不是簡單地將視覺特征和語言指令拼接,而是執行了一個雙目標協同的策略:

      • 視覺 Motion 預測 + 動作序列生成:聯合專家在歷史信息(Hindsight)的動態調制下,被強制要求同時輸出對未來視覺 Motion 的預測以及高精度的執行動作序列。

      • 為什么這很重要?這種雙目標的聯合對齊,逼迫模型不能只死記硬背動作,而是必須去理解「我輸出這個動作后,物理世界的視覺表征會發生怎樣的動態變換」。

      通過將「預測未來視覺變化(想)」與「規劃動作序列(做)」深度綁定,HiF-VLA 實現了真正的Think-while-acting(邊想邊做)。它不再是盲目地模仿專家軌跡,而是產生了真實的「物理直覺」。

      03 實驗結果


      Q1:HiF-VLA 與 SOTA 的 VLA 模型相比較如何?

      HiF-VLA 在多樣化的短程和長程任務中展現出了強大的能力。





      團隊尤其關注 HiF-VLA 在長程任務上的表現。在 LIBERO-LONG 任務套件以及 CALVIN ABC-D 長程任務評測中,HiF-VLA 的表現顯著優于諸多 SOTA 方法。同時,在真實世界的長程任務測試中,HiF-VLA 也展現出更加穩定且優越的任務完成性能(更多詳細指標請參閱原論文)。

      Q2:HiF-VLA 是否有效地緩解了傳統方法中的視覺冗余和低效問題?



      ? 傳統做法的困境:當簡單粗暴地將歷史多幀圖像塞給模型時,顯存瞬間爆炸。峰值 GPU 顯存直接翻倍飆升至 63.6 GB(漲幅 2.06 倍),推理延遲更是暴增到 229.5 ms(高達 3.15 倍)。更令人窒息的是,由于引入了海量冗余的靜態背景噪聲,模型反而被干擾了視線,平均成功率(Avg. SR)不升反降。

      ? HiF-VLA 的解決方案:HiF-VLA 巧妙地將歷史幀編碼為低維、結構化的運動向量。引入 Hindsight 模塊后,模型面對同樣長度的歷史窗口,峰值顯存僅僅維持在 31.4 GB,相較于 Baseline 幾乎做到了「零負擔」(僅增加極微小的 1.02 倍開銷)。同時,推理延遲(117.7 ms)也遠低于傳統堆疊方法。最重要的是,在剔除了視覺冗余后,它讓模型能專注理解物理運動,成功將平均成功率大幅提升。

      Q3:隨著時間跨度的增加,HiF-VLA 在推理時的可擴展性如何?



      拒絕指數級成本增長,打破長序列計算瓶頸。

      從推理效率對比圖可以直觀看出,隨著歷史時間跨度的增加,傳統堆疊圖像幀的方法會遭遇指數級的計算延遲暴漲甚至顯存溢出(OOM)。而 HiF-VLA 憑借提取低維緊湊的 Motion 特征,徹底打破了長序列推理的計算瓶頸,隨著歷史觀測窗口變長,都始終保持穩定且極低的推理延遲,展現出了在處理長程動態變換時強大的時間可擴展性。

      Q4:HiF-VLA 所謂的「邊想邊做」究竟是怎樣的過程?



      眼見為實:motion 預測與 action 執行的時空高度吻合。

      從可視化結果中可以看到,HiF-VLA 在執行動作的同一時刻,其內部聯合專家模塊已經精準預測出了由紅色箭頭標識的未來視覺運動場。這有力地證明了模型并非在盲目背誦指令,而是真正實現了「邊想邊做」。它能清晰地預判自身動作將引發環境中怎樣的物理動態變換,從而在復雜任務中展現出精準的「物理直覺」。

      04 總結


      從機械的「動作模仿」進化為理解物理規律的「世界動作模型(WAM)」,HiF-VLA 邁出了至關重要的一步。它證明了機器人的動作不應只是對指令的盲目響應,而應當是在對過去的洞察與對未來的預判交織下,自然而然的物理反饋。對于具身智能走向更復雜、更真實的物理世界,HiF-VLA 無疑提供了一個極具潛力和啟發性的全新范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “未來的杰青毀于5000元”

      “未來的杰青毀于5000元”

      必記本
      2026-05-21 09:24:30
      俄羅斯人想不通,烏克蘭無人機為何如此強大呢?背后原因浮出水面

      俄羅斯人想不通,烏克蘭無人機為何如此強大呢?背后原因浮出水面

      揭秘歷史的真相
      2026-05-21 20:49:11
      陳靖會見波蘭眾議院代表團

      陳靖會見波蘭眾議院代表團

      上觀新聞
      2026-05-21 21:41:09
      “原配老板娘”出鏡直播!潔麗雅公關部天塌了

      “原配老板娘”出鏡直播!潔麗雅公關部天塌了

      廣告創意
      2026-05-21 18:13:30
      張水華:說我不上夜班天天調休是造謠 卻承認:連續3個月都上白班

      張水華:說我不上夜班天天調休是造謠 卻承認:連續3個月都上白班

      念洲
      2026-05-22 10:22:51
      606票:16票,歐盟報復開始,對中國進口鋼鐵征收50%關稅

      606票:16票,歐盟報復開始,對中國進口鋼鐵征收50%關稅

      流史歲月
      2026-05-21 14:25:07
      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      岐黃傳人孫大夫
      2026-05-13 10:00:10
      福建男子癌癥怕掏空家底,放棄治療,不料妻子料理完后事,發現丈夫卡里190萬被婆家弄走,婆婆:那是兒子留給我的!

      福建男子癌癥怕掏空家底,放棄治療,不料妻子料理完后事,發現丈夫卡里190萬被婆家弄走,婆婆:那是兒子留給我的!

      黎兜兜
      2026-05-21 14:40:58
      穆里尼奧狂喜!哈蘭德正式攤牌曼城:終身合同作廢,非皇馬不去

      穆里尼奧狂喜!哈蘭德正式攤牌曼城:終身合同作廢,非皇馬不去

      奶蓋熊本熊
      2026-05-22 01:01:17
      都罵關羽守不住荊州,殊不知,當時至少有25名敵將,共同圍毆他!

      都罵關羽守不住荊州,殊不知,當時至少有25名敵將,共同圍毆他!

      大運河時空
      2026-05-21 13:45:03
      100萬真的是一筆巨款。

      100萬真的是一筆巨款。

      老陸不老
      2026-05-21 09:29:17
      G2輸尼克斯!米切爾親承投不進球+強調不累,阿倫反思需增加進攻

      G2輸尼克斯!米切爾親承投不進球+強調不累,阿倫反思需增加進攻

      籃球資訊達人
      2026-05-22 14:07:40
      有人曾用它擦了屁股,后來疼得自殺了……

      有人曾用它擦了屁股,后來疼得自殺了……

      果殼
      2026-05-21 12:15:19
      同學聚會每人需交1800元,我嫌貴沒去,次日派出所民警上門:

      同學聚會每人需交1800元,我嫌貴沒去,次日派出所民警上門:

      小秋情感說
      2026-05-22 07:55:41
      臺陸委會副主委梁文杰:“兩岸同屬中華民族”不是問題!

      臺陸委會副主委梁文杰:“兩岸同屬中華民族”不是問題!

      荊楚寰宇文樞
      2026-05-21 23:02:41
      上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

      上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

      漢史趣聞
      2026-05-19 14:34:42
      潛伏20年特工“打火機”落網:策反美軍火商,被捕時只說了一句話

      潛伏20年特工“打火機”落網:策反美軍火商,被捕時只說了一句話

      長江濁酒客
      2026-05-10 11:19:08
      日本U17后衛竹內悠三:中國隊身體硬朗、速度出眾、技術扎實

      日本U17后衛竹內悠三:中國隊身體硬朗、速度出眾、技術扎實

      懂球帝
      2026-05-22 10:53:06
      發射倒計時!神舟二十三號陣容大換血,3位老航天員落選

      發射倒計時!神舟二十三號陣容大換血,3位老航天員落選

      肖茲探秘說
      2026-05-20 18:22:48
      裁判穿SGA球鞋!這還怎么玩?裝都不裝了!

      裁判穿SGA球鞋!這還怎么玩?裝都不裝了!

      柚子說球
      2026-05-21 20:32:56
      2026-05-22 15:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13060文章數 142651關注度
      往期回顧 全部

      科技要聞

      雷軍:輸給特斯拉不丟人

      頭條要聞

      上海180多名老年人被騙認購動物 其中不乏大學教授

      頭條要聞

      上海180多名老年人被騙認購動物 其中不乏大學教授

      體育要聞

      最糟糕裁判?他想要退役當市長

      娛樂要聞

      周也戀情曝光!對象身份不簡單

      財經要聞

      又一存儲芯片類產品,價格暴漲300%

      汽車要聞

      配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

      態度原創

      房產
      時尚
      教育
      公開課
      軍事航空

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      沒想到今年最火的發型是它,從18歲到80歲都適合

      教育要聞

      小升初幾何:正方形面積是100,求圓的面積

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國代理海軍部長:正研擬暫停對臺140億美元軍售計劃

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人成人一区二区三区| 人妻精品久久久久中文字幕86 | 无码乱人伦一区二区亚洲一| 伊人成色综合人夜夜久久| AV黄色网址| 国产性色av高清在线观看| 国产麻豆视频精品| 国产精品制度丝袜电影| 日韩精品一区二区我不卡影院| 又黄又爽又色的少妇毛片| 久99视频精品免费观看福利| 久久成人电影| 大伊香蕉精品视频一区| 日本熟妇一区二区三区| 中文字幕亚洲综合久久2020| 国产成人综合网亚洲第一| 欧美做受???免费| 人妻无码系列| 国产久草免视频| 欧美xxxx做受欧美88高清| 国产成人精品综合| 国产中文字幕日韩精品| 亚洲国产精品毛片av不卡在线| 最新亚洲中文字幕在线| 国产精品国产精品偷麻豆| 国产精品国产三级国产an| 亚洲高清在不卡一区二区三区| 亚洲伊人情人综合网站| 欧美日韩欧美| 超碰免费在线观看| 日本不卡一区| 万源市| 麻豆精品三级国产国语| 亚洲乱理伦片在线观看中字| 国产AV无码专区亚洲AV潘金链| av一区二区中文字幕| 精品国产三级a在线观看不卡| 人妻欧美亚洲| 成在人线AV无码免费高潮喷水| 波多野结衣AV无码久久一区| 性欧美暴力猛交69hd|