中大 ×MBZUAI 開源 A?,機器人控制成本大降。
開放世界機器人操作一直被大模型算力成本、推理延遲兩大難題卡脖子:千億級 VLM 骨干 + 迭代擴散 / 流匹配動作頭,讓普通硬件根本跑不動實時控制。
來自中山大學、MBZUAI、Spatialtemporal AI 與 ATeam 的團隊直接給出全開源、全透明、自適應、高效率的解決方案 ——A?截斷式視覺 - 語言 - 動作模型,一套預算感知自適應推理方案,同時加速骨干網絡與動作頭,推理延遲最高降 72%、骨干計算量砍 76.6%,性能還能打平甚至反超主流基線。
從仿真到真機、從單臂到多平臺,A?憑開源全棧跑出 SOTA,徹底打破VLA 模型 “高性能 = 高成本” 的魔咒。
01
行業痛點:VLA模型很強,
但用不起、跑不動
Vision-Language-Action(VLA)已經成為通用機器人操作的主流范式:大尺度視覺語言模型(VLM)把多模態觀測壓縮為隱式表示,動作頭(擴散 / 流匹配)再映射為連續電機指令,泛化性拉滿。
但落地代價極其昂貴:
? 為了保證語義理解與可供性推理,模型必須使用數十億參數的 VLM 骨干,推理耗時極長;
? 為了動作平滑與精準,動作頭普遍采用擴散或流匹配架構,需要十數輪迭代去噪,算力開銷巨大;
? 現有優化大多只針對 VLM 主干,動作頭始終是被忽略的瓶頸,即便主干加速,整體延遲依然居高不下;
? 最終結果是:能跑 SOTA 的 VLA 模型,必須依賴高端計算集群,普通硬件無法實現實時控制。
團隊總結出三個關鍵觀察,直接戳中效率優化核心:
1.軌跡收斂:流匹配軌跡 3 步內就鎖定正確模式,后續迭代收益遞減;
2.動作冗余:連續控制步動作平滑變化,只需粗更新;
3.層間耦合:VLM 中間層已包含足夠空間視覺特征,沒必要跑完全層。
一句話:算力只花在“會改變動作”的地方,A?就此誕生。
02
核心設計:一套自適應框架,
同時卷性能與效率
A?沒有走 “輕量化重訓” 或 “單純剪枝” 的老路,而是從推理全鏈路出發,提出一套預算感知、動態退出、層間熱啟動的協同加速方案,在不損失任務成功率的前提下,實現效率數量級提升。
整體架構
A?由 VLM 骨干與動作頭組成,VLM提供語義與可供性特征,動作頭支持流匹配(FM)與MLP兩種實現;自適應推理方案同時壓縮骨干計算量與動作頭迭代次數,兼顧速度與成功率。
![]()
圖1:A1模型整體架構
1.多出口訓練:讓每一層都具備動作預測能力
傳統 VLA 只在最后一層輸出動作,A?在訓練階段就讓 VLM每一層都連接共享動作頭,直接監督各層輸出的動作序列。這一設計讓模型在推理時,可以隨時在中間層讀取動作結果,為動態早停打下基礎。
2.動作一致性早停:算力只花在 “必要的層”
推理時,模型逐層計算動作,并與上一層結果做一致性校驗。當動作變化小于閾值時,直接判定 “特征足夠”,提前終止主干前向。團隊使用余弦相似度、L2 距離等指標衡量動作穩定性,并通過訓練集統計得到分層閾值,在 “節省算力” 與 “保持精度” 之間取得最優平衡。
3.層間截斷流匹配:解決早停帶來的次生瓶頸
動態早停雖然加速了 VLM,但會讓流匹配動作頭在每一層都重復執行完整去噪步驟,反而拖慢速度。為此,團隊提出層間熱啟動流匹配:
? 大幅減少單輪去噪步數(從 10 步降至 2 步);
? 上一層的動作輸出,直接作為下一層去噪的初始值,實現熱啟動;
? 避免從隨機噪聲重新開始,既保證精度,又把動作頭開銷壓到最低。
4.多機器人泛化訓練:開源數據也能練出強遷移模型
A?采用兩階段訓練:第一階段在大規模開源機器人數據上預訓練,學習通用操作先驗;第二階段在真實機器人軌跡上微調,適配不同機型與場景。
團隊還融合了 15951 條自研真機數據,進一步縮小仿真到現實的差距,讓模型在 Franka、AgiBot、WuJie-Arm等多款機械臂上都能穩定工作。
03
深度解讀:
A?到底解決了VLA的哪些核心痛點?
如果只看加速數字,很容易低估 A?的價值。它真正的突破,是重新定義了高效VLA的設計范式。
1.第一次實現主干與動作頭聯合加速
過去的加速方案都是 “單邊優化”:要么壓 VLM,要么簡動作頭。A?證明,只有協同優化,才能實現端到端延遲大幅下降。早停降低主干計算,熱啟動流匹配降低動作頭迭代,兩者耦合,才把延遲從數十秒壓到秒級。
2. 用最小精度損失換取最大效率收益
實驗顯示,即便減少 76.6% 的主干計算,任務成功率僅小幅下降。這說明:VLA模型存在極端嚴重的過計算,大量深層特征對機器人操作來說并非必需。A?用數據證實,動態優化不是 “妥協精度”,而是 “回歸合理計算”。
3.開源全棧,打破封閉壁壘
當前頂尖 VLA 大多依賴閉源數據與私有框架,社區難以復現。A?全程使用開源數據訓練,并開放權重、代碼、數據處理流程與評估腳本,讓小型實驗室與普通開發者也能搭建高性能、低成本的機器人控制模型。
04
實驗驗證:
從仿真到真機,全面超越現有開源方案
A?在三類標準場景上完成系統驗證,結果顯示:它在效率上大幅領先,在性能上同樣達到SOTA。
仿真環境:高精度與強泛化兼顧
在 LIBERO 長期操作基準上,A?實現 96.6% 的平均成功率,在物體操作任務上接近滿分;在 VLABench 長程推理任務上,A?超越 π?.5 等模型,展現出優秀的語言理解與任務規劃能力;在分布偏移更大的LIBERO-Plus 上,A?零射性能達到 75.3%,顯著優于對比方法,證明其特征具備強泛化性。
![]()
表1:LIBERO、VLABench 主流模型成功率對比,A1取得領先性能。
真實機器人:跨平臺穩定執行
在 Franka、AgiBot、WuJie-Arm、Dobot-Arm 四款機械臂上,A?完成放杯子、擺水果、撿膠水、擦桌子、疊積木等一系列日常操作,平均成功率達到56.7%,明顯高于 π?與 π?.5。尤其在小樣本學習場景下,A?能快速適應新任務,表現出極強的實用潛力。![]()
表2:真機多平臺結果表
RoboChallenge:開源模型登頂
在包含 30 個復雜真機任務的 RoboChallenge 上,A?在完全開源、無閉源數據的條件下,取得 29.00% 的平均成功率,超過 π?、X-VLA、RDT-1B 等一眾開源模型,證明開源路線同樣可以做到頂尖水平。
![]()
表3:RoboChallenge 基準結果表
效率表現:延遲與計算量雙降
在最優配置下,A?-FM 單回合推理時間從 37.8 秒降至 10.5 秒,降幅達 72.3%;A?-MLP最多可減少 76.6% 的主干計算,依舊保持 92% 以上的成功率;在真機 AgiBot 上,模型計算量降低 84.6%,操作精度幾乎沒有下降,真正實現 “低成本、高可用”。
表4、5:自適應早停效率表
![]()
![]()
行為可視化:更穩定、更魯棒
從任務執行視頻可以直觀看到:對比模型容易出現物體混淆、夾爪提前閉合、抓取偏移等問題;A?能穩定識別目標,動作連貫,在長程任務中依然保持高可靠性。同時,動態推理可視化顯示:簡單移動在淺層即可退出,復雜操作才進入深層,算力分配高度智能。
![]()
圖2:任務執行對比
![]()
圖3:真機動態推理可視化
05
局限與未來
A?打開的下一代VLA研究方向
盡管 A?在效率與性能上取得顯著突破,團隊仍清晰指出當前方案的改進空間,并為后續研究指明方向。
第一,當前預訓練依賴帶標注的可供性數據,未來可引入無監督或自監督方法,從海量機器人視頻與交互數據中自動挖掘可供性先驗,進一步擴大數據來源。
第二,A?以模仿學習為基礎,在長程任務中仍存在累積誤差。后續可結合強化學習,通過環境實時反饋修正策略,提升復雜場景下的魯棒性與成功率。
第三,云邊推理與機械臂執行之間的同步延遲,仍會影響操作流暢度。團隊計劃采用異步執行、預測控制等方式,提升真機運行的順滑度。
第四,A?已成功部署在自研雙臂移動平臺,下一步將重點拓展雙臂協同、移動操作、非結構環境適應等能力,向更通用的家庭與工業機器人邁進。
06
A?第一次把 “高性能、高效率、全開源” 三件事同時做到位,用一套簡單優雅的自適應截斷方案,把 VLA 模型從 “實驗室奢侈品” 拉到 “可落地實用款”。
從仿真到真機、從單臂到雙臂、從小樣本到泛化,A?證明:開源透明的研究,完全能打贏閉源方案。
全套代碼、權重、數據 pipeline 已開放,機器人底層玩家可以直接沖了。
論文信息
標題:A?: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
代碼:https://github.com/ATeam
項目頁:https://ATeam.com/en/research/68bc2cde8497d7f238dde690
鏈接:https://arxiv.org/abs/2604.05672
論文作者介紹:
張凱東,中山大學計算機學院2024級碩士,本科畢業于中山大學智能工程學院,師從梁小丹教授。研究方向為具身智能。
![]()
張健,穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺博士生,研究方向為具身智能。分別于2023年和2020年從北京大學和合肥工業大學獲得碩士和學士學位。
![]()
許镕濤 MBZUAI研究員,無界智慧CTO。中科院自動化所多模態人工智能國重(前模識國重)博士, 在學期間曾獲得中科院院長獎、兩次IEEE旗艦會議最佳論文提名獎、國獎、北京市和中科院優秀畢業生。華中科技大學數學與計算機雙學士學位。研究方向為具身智能與機器人,提出全球首個基于空間可供性操作大模型A0,曾在銀河通用共同主導全球首個具身導航大模型NaVid。在頂級學術會議和期刊(RSS,IRCA,IROS,CVPR,ICCV,ECCV,NeurIPS,ICML,ICLR,AAAI,EMNLP,MICCAI,TPAMI,TIP,TNNLS,TII,TIM,TMM,TCSVT,ISPRS)上共發表論文80余篇,其中以第一作者或通訊作者發表論文近40篇,含ESI高被引論文3篇,IEEE Trans封面文章1篇,發表8次Oral論文。擁有10余項發明專利,研究成果應用于YOLO系列,以及無界智慧、銀河通用、華為、Momenta等多款產品。
![]()
梁小丹是中山大學深圳校區的教授,同時也是穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺系的副教授。她曾是卡內基梅隆大學的項目科學家,與邢教授合作。
她在視覺語言理解與生成及其在具身人工智能中的應用方面發表了 120 余篇前沿論文,這些論文發表于該領域最負盛名的期刊和會議,谷歌引用量超過 30000 次。
她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領域主席,并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學者獎。她的研究成果已被應用于多家知名人工智能公司(如 Deepseek、聯想、字節跳動和騰訊)的關鍵產品中。
![]()
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.