<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      千尋智能高陽團隊提出 Point-VLA:視覺定位實現語言指令精準執行

      0
      分享至



      設想這樣一個場景:你打電話讓同事去辦公室某個地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經喝過的礦泉水瓶中,讓對面同學遞過來你之前喝過的那個,只用語言幾乎無法準確描述——「左邊第二個」?「有點舊的那個」?這時候,人們更傾向于用手指一下,或者拿出圖片來指代。

      這揭示了一個根本問題:人類在面對面交流時,會自然地通過手勢、指點來完成對物體或位置的定位(grounding),而不是依賴復雜的文本描述。即使對于人類這樣強大的多模態大腦,純語言指令也存在歧義,難以準確傳達空間信息。在雜亂場景、相似物體眾多的環境中,語言描述往往力不從心。

      同理,當我們只用語言給視覺-語言-動作(Vision-Language-Action,VLA)模型下達指令時,就如同讓人在電話里描述復雜場景,面臨兩個根本性困境:

      第一,語言在某些場景下根本無法精確表達。比如在無參考點的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標式的描述既不自然又難以準確傳達。再比如雜亂場景中的特定目標,或者形狀不規則的物體,語言的表達能力觸及了邊界。

      第二,即使可以用復雜詳細的語言描述,VLA 模型也難以泛化理解。研究發現,雖然先進的視覺-語言模型(VLM)能以 60-70% 的準確率定位復雜描述的目標,但 text-only VLA 在執行時的成功率卻只有 25% 左右。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍。

      千尋智能高陽團隊的研究人員注意到這兩個根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機器人能像人一樣「看著圖、指著點」來理解指令,在真實機器人操作任務中實現了高達 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。

      • 論文標題:Point What You Mean: Visually Grounded Instruction Policy
      • 論文鏈接:https://arxiv.org/pdf/2512.18933
      • 項目主頁:https://yuhang-harry.github.io/Point-VLA



      圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點精確放置等語言指令難以勝任的任務

      語言的邊界:VLA 模型面臨的根本挑戰

      視覺-語言-動作(VLA)模型近年來在具身智能領域取得了顯著進展,能夠將自然語言指令直接轉化為機器人動作。然而,研究團隊發現,VLA 模型仍然受制于語言本身的固有局限性。

      兩大核心問題:

      1. 語言無法表達的場景(Inexpressible References)

      在真實世界中,有些場景語言根本無法精確描述,無論你怎么努力:

      • 無參考點的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標式的描述,語言表達起來既不自然又容易出錯。
      • 不規則 / 無定形物體:一個形狀復雜、紋理獨特的陶土塊,用語言描述「紅藍條紋、頂部方形底部圓形」仍然模糊不清。
      • 雜亂場景中的特定目標:在八個相同瓶子的桌面上,即使你說「右側第二排中間偏左的那個」,聽者依然難以確定。

      這些場景的共同特點是:語言的表達能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。

      2. 復雜描述的泛化困境(Limited Generalization)

      即使在某些場景下,我們可以通過非常詳細、復雜的語言描述來補全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復雜的空間描述。

      研究團隊的實驗揭示了一個令人驚訝的現象:

      • 先進的 VLM(如 GPT-4V)在面對詳細的文本描述時,能夠以 60-70% 的準確率定位目標。
      • 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。

      這說明,即使 VLM「看懂」了復雜的語言描述,VLA 模型在將其轉化為精確動作時仍然力不從心。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍,導致在雜亂場景、OOD 物體、精確放置等任務中表現急劇下降。這兩個問題共同構成了 VLA 模型在真實世界部署的根本瓶頸。



      圖 2:VLM 能以 60-70% 準確率定位復雜文本描述的目標(左兩例),但 text-only VLA 執行成功率僅 25%,揭示了語言-動作對齊的鴻溝。右側展示了語言根本無法描述的場景(無參考點平面),Point-VLA 通過視覺定位解決了這兩類問題

      Point-VLA:像人一樣「指著說」

      為了突破語言的固有局限,千尋智能高陽團隊提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達,那就像人類一樣,用「指」的方式來明確目標。

      視覺定位指令(Visually Grounded Instruction)

      Point-VLA 的關鍵創新在于引入了視覺定位指令。具體而言,系統在機器人觀察到的第一幀圖像上疊加一個邊界框(bounding box),明確標注出目標物體或位置。這個邊界框就像人類用手指指向目標一樣,提供了明確的像素級空間線索。

      例如,對于「拿起瓶子」這個指令:

      • 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復雜,VLA 難以準確執行)
      • Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)

      這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個物體、什么位置)編碼在視覺線索中,完美結合了語言的抽象性和視覺的精確性。



      圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動生成邊界框,結合簡短文本指令,機器人即可精確執行操作

      統一的策略架構

      Point-VLA 采用統一的策略架構,能夠同時處理純文本指令和視覺定位指令。在訓練時,模型以 1:1 的比例接收兩種模態的數據:

      • 純文本指令:保持模型對常規語言指令的理解能力。
      • 視覺定位指令:學習利用像素級視覺線索進行精確操作。

      這種聯合訓練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動」),也能在需要時接受視覺定位來完成復雜任務,實現了靈活的「即插即用」能力。

      視頻展示 Point-VLA 在真實機器人上的操作效果,包括雜亂場景抓取、精確放置等任務

      可擴展的自動數據標注 Pipeline

      視覺定位指令需要為每個演示標注邊界框,這可能帶來數據標注成本的挑戰。千尋智能團隊開發了一套自動數據標注 Pipeline,利用多模態大語言模型(MLLM)自動生成視覺定位監督信號。

      Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內容,自動識別關鍵幀并在第一幀上標注目標物體的邊界框。為了提升模型的泛化能力,研究團隊還設計了兩種數據增強策略——隨機平移和局部 CutMix。隨機平移鼓勵模型關注目標的相對位置而非絕對坐標,局部 CutMix 則防止模型過擬合特定物體的視覺特征。

      這套 Pipeline 使得研究團隊能夠從現有的演示數據中高效生成大量視覺定位監督信號,無需額外的人工標注成本,支持無縫的數據集成和擴展。



      圖 4:Point-VLA 訓練流程——MLLM 自動從演示視頻中生成邊界框標注,結合隨機平移和 CutMix 增強,與純文本數據聯合訓練統一策略

      實驗驗證:從 32.4% 到 92.5% 的跨越

      千尋智能團隊在真實機器人平臺上進行了全面的實驗驗證,涵蓋 6 個具有挑戰性的操作任務,包括不規則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實驗結果令人振奮:Point-VLA 在所有任務上的平均成功率達到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍

      在最具挑戰性的雜亂場景抓取任務中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務中從 23.3% 提升到 90.0%。這些結果充分證明了視覺定位在消除歧義和實現精確操作方面的強大能力。



      圖 5:6 個評估任務的真實機器人實驗場景,涵蓋目標物體指代(不規則物體、OOD 物體)和目標位置指代(雜亂抓取、蛋槽、平面放置)等挑戰



      表 1:六個真實機器人操作任務的成功率(%)對比,其中text-vla和interleave-vla均經過與Point-vla同樣數據量,精細文本方位詞標注訓練至收斂,保證對比公平性,數據集信息見論文fig5

      語言邊界場景的突破

      研究團隊特別設計了兩類「語言邊界」場景來驗證 Point-VLA 的能力:

      • 場景 1:語言根本無法表達的任務

      在無參考點的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標式的描述,語言表達既不自然又難以準確傳達。純文本 VLA 在這類任務上的成功率僅 30%。

      而 Point-VLA 通過在圖像上直接標注目標位置的邊界框,繞過了語言表達的邊界,成功率達到95%

      • 場景 2:復雜描述難以泛化

      在包含 8 個相同瓶子的雜亂桌面上,需要用「拿起右側、最左邊那排瓶子中間的那個」這樣復雜的描述。雖然 VLM 能以 60-70% 準確率定位,但 text-only VLA 在執行時成功率僅 43.3%——模型難以泛化理解如此復雜的空間關系描述。

      Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復雜的語言描述就能準確執行,成功率提升到94.3%

      此外,研究團隊還在多個機器人平臺和 VLA 模型骨架上進行了驗證,包括 π0.5 和 π0 兩個不同的基礎模型,以及雙臂機器人和全身人形機器人。結果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴展性。

      在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團隊在三種空間指代任務上進行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結果顯示,Point-VLA 在純文本模式下的表現與 baseline 相當或更好,而在使用視覺定位時則在復雜空間指代任務上取得最高成功率。這說明視覺定位訓練提升了模型對空間關系的理解能力,即使在不使用視覺定位時也能受益。

      在數據擴展性實驗中,隨著訓練數據量的增加,Point-VLA 的性能持續提升,而純文本 VLA 很快達到飽和。在 OOD 物體抓取任務中,當訓練數據從 3 個場景增加到 12 個場景時,Point-VLA 的準確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監督信號使模型能夠更有效地從數據中學習。



      圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時在復雜空間指代上取得最高成功率。(下)隨訓練數據增加,Point-VLA 性能持續提升,而純文本 VLA 很快飽和

      技術意義與未來展望

      Point-VLA 的提出具有重要的理論和實踐意義。首先,它揭示并解決了 VLA 領域的一個根本性問題:語言本身的表達能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發展路徑。

      其次,自動數據標注 Pipeline 使得視覺定位監督信號的獲取成本大幅降低,支持從現有演示數據中無縫生成訓練數據,為大規模 VLA 模型的訓練提供了可行的技術路線。

      92.5% 的成功率使得 VLA 模型首次在復雜真實場景中達到了實用化的門檻。Point-VLA 展示的精確操作能力,為機器人在工業、服務等領域的實際應用提供了技術基礎。更重要的是,Point-VLA 驗證了「指著說」這種人類自然交互方式在人機交互中的有效性,啟發了未來具身智能系統在多模態交互方面的探索。

      關于千尋智能 Spirit AI

      千尋智能致力于推動具身智能和機器人技術的發展,通過創新的 AI 算法使機器人能夠更好地理解和執行人類指令。高陽團隊專注于視覺-語言-動作模型的研究,在多模態學習、機器人操作等領域取得了一系列突破性成果。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新款不知火舞性感手辦推出!前凸后翹難以抵擋!

      新款不知火舞性感手辦推出!前凸后翹難以抵擋!

      游民星空
      2026-05-03 23:45:02
      感動!吳宜澤身披國旗舉起世錦賽冠軍 父母現場見證 母親激動落淚

      感動!吳宜澤身披國旗舉起世錦賽冠軍 父母現場見證 母親激動落淚

      我愛英超
      2026-05-05 06:06:03
      王曉晨前凸后翹,大白兔飽滿,超愛了,這般魅力誰能不愛?

      王曉晨前凸后翹,大白兔飽滿,超愛了,這般魅力誰能不愛?

      TVB的四小花
      2026-05-05 07:36:47
      沖突升級!阿聯酋石油設施遭伊朗無人機襲擊,燃起大火,多人受傷,伊朗:美國軍事冒險所致!阿聯酋稱攔截15枚導彈、4架無人機

      沖突升級!阿聯酋石油設施遭伊朗無人機襲擊,燃起大火,多人受傷,伊朗:美國軍事冒險所致!阿聯酋稱攔截15枚導彈、4架無人機

      每日經濟新聞
      2026-05-05 11:29:04
      廣東男籃出發北京!陳家政、黃明依隨隊,杜鋒或調整12人大名單

      廣東男籃出發北京!陳家政、黃明依隨隊,杜鋒或調整12人大名單

      籃球大陸
      2026-05-05 09:29:32
      一場搶七定命運!活塞官宣續約比克斯塔夫 魔術炒掉主帥莫斯利

      一場搶七定命運!活塞官宣續約比克斯塔夫 魔術炒掉主帥莫斯利

      羅說NBA
      2026-05-05 05:41:04
      醫生說,凡是得大病的人,都有這幾個共性,句句都是大實話,很準

      醫生說,凡是得大病的人,都有這幾個共性,句句都是大實話,很準

      蟬吟槐蕊
      2026-05-05 09:19:38
      破防!詹姆斯為了侮辱我他!居然干這種事....

      破防!詹姆斯為了侮辱我他!居然干這種事....

      柚子說球
      2026-05-05 13:25:30
      伊朗媒體:兩枚導彈擊中穿越霍爾木茲海峽的美國軍艦

      伊朗媒體:兩枚導彈擊中穿越霍爾木茲海峽的美國軍艦

      新華社
      2026-05-04 18:51:04
      卡拉格:曼城1-3落后時阿爾特塔可能都要給莫耶斯開香檳了

      卡拉格:曼城1-3落后時阿爾特塔可能都要給莫耶斯開香檳了

      懂球帝
      2026-05-05 09:46:22
      回不來了!美國一句話,賴清德被架在火上烤,還想“順”到美國?

      回不來了!美國一句話,賴清德被架在火上烤,還想“順”到美國?

      知法而形
      2026-05-04 17:45:49
      小楊哥一家四口罕現身!懶理大徒弟小黃背刺,二二因勞累被推著走

      小楊哥一家四口罕現身!懶理大徒弟小黃背刺,二二因勞累被推著走

      裕豐娛間說
      2026-05-05 10:25:42
      當年的東北“地下市長”,霸占過20多位女明星,狠起來連自己都砍

      當年的東北“地下市長”,霸占過20多位女明星,狠起來連自己都砍

      為什么有冬天夏天
      2024-05-08 23:38:12
      權志龍穿涉種族歧視T恤登臺!公司火速道歉

      權志龍穿涉種族歧視T恤登臺!公司火速道歉

      喜歡歷史的阿繁
      2026-05-04 20:04:49
      過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

      過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

      攬星河的筆記
      2026-05-04 15:45:23
      尷尬!安徽一媽媽為女兒單招錄取民辦專科辦升學宴,強硬回懟嘲諷

      尷尬!安徽一媽媽為女兒單招錄取民辦專科辦升學宴,強硬回懟嘲諷

      火山詩話
      2026-05-04 07:59:31
      游客拍巴塘公廁臟亂被工作人員圍堵,兩次報警脫身,官方通報致歉

      游客拍巴塘公廁臟亂被工作人員圍堵,兩次報警脫身,官方通報致歉

      阿豐聊娛
      2026-05-04 20:33:57
      豆包,你這么垃圾,怎么好意思收費?

      豆包,你這么垃圾,怎么好意思收費?

      崇曉視界
      2026-05-04 17:24:53
      倒反天罡!法官向刺殺川普的槍手道歉

      倒反天罡!法官向刺殺川普的槍手道歉

      大洛杉磯LA
      2026-05-05 06:11:22
      調整!5月5日央視直播世乒賽有變,16強誕生,林詩棟梁靖崑再出戰

      調整!5月5日央視直播世乒賽有變,16強誕生,林詩棟梁靖崑再出戰

      等等talk
      2026-05-05 10:38:52
      2026-05-05 13:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12908文章數 142640關注度
      往期回顧 全部

      科技要聞

      OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

      頭條要聞

      吳宜澤18-17奪冠:1家3口"兵分兩路"10年 已押上一切

      頭條要聞

      吳宜澤18-17奪冠:1家3口"兵分兩路"10年 已押上一切

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      英皇25周年演唱會 張敬軒被救護車拉走

      財經要聞

      五一假期,中國年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      家居
      教育
      本地
      時尚
      旅游

      家居要聞

      靈動實用 生活藝術場

      教育要聞

      聽課猛如虎,做題二百五

      本地新聞

      用青花瓷的方式,打開西溪濕地

      參觀了設計師花7年打磨的家,太開眼了!

      旅游要聞

      十載筑夢向新行 樂享初夏夢享券——2026上海國際旅游度假區第二輪“夢享券”開搶在即

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 55夜色66夜色国产精品| 精品国产乱码久久久久app下载 | aa性欧美老妇人牲交免费| 精品无码国产自产拍在线观看蜜| 亚洲AV优女天堂波多野结衣| 91欧美在线久久一区黄瓜| 中国自由XXX色视频| 色欲久久人妻内射| 亚洲人成电影在线天堂色| 色色五月婷| 亚洲欧美综合一,二,三区| 亚洲AV无码久久精品成人| 成人硅胶娃做爰无码www| 99网友自拍视频在线| 在线人成视频播放午夜福利| 国产不卡一区二区在线| 亚洲高清在不卡一区二区三区| 国产高潮视频在线观看| 99久久无码一区人妻a黑| 国产精品人成在线播放| 久久综合88| 国产综合精品日本亚洲777| 波多野结衣一区二区三区高清av| 精品人妻码一区二区三区| 精品人妻一区介绍| 日本无遮挡边做边爱边摸| 人伦片无码中文字幕| av午夜福利一片免费看| 久久精品国产精品亚洲毛片| 国产综合精品91老熟女| 麻豆成人精品国产免费| 丁香花成人电影| 99精品热视频| 狠狠操狠狠撸| 国产精品特级毛片一区二区三区| 久久精品国产99国产精品严洲| 国产精品毛片一区视频播| 国产精品天干在线观看| 1024你懂的国产精品| 久久亚洲女同第一区综合| 欧洲精品一区二区三区久久 |