原力靈機(jī)發(fā)布Realtime-VLA V2：從遙操作到真實(shí)部署，VLA提速的系統(tǒng)解法

2026-04-08 17:44:09　來源: AI科技大本營

北京舉報(bào)

分享至

責(zé)編 | 夢依丹

出品丨原力靈機(jī)投稿

最近刷屏的 GEN-1 有一個(gè)非常重要的 Feature，就是它的執(zhí)行速度非常“快”：能夠以一種明顯不拖沓的節(jié)奏完成任務(wù)，并相較此前方案實(shí)現(xiàn)了約 3 倍提速。而這一效果的取得，“依賴系統(tǒng)級組件”，并“不只是模型權(quán)重”的改進(jìn)。

事實(shí)上，關(guān)于 GEN-1 極速執(zhí)行的底層邏輯，Generalist 在最新技術(shù)報(bào)告中給出了答案：GEN-1 并非一個(gè)機(jī)械疊加機(jī)器人動作模塊的微調(diào)版視覺語言模型（VLM），也不僅是一個(gè)世界模型，而是一個(gè)面向物理交互、具備“一等公民”地位的原生基礎(chǔ)模型。這與原力靈機(jī)堅(jiān)持的技術(shù)路線高度一致。原力靈機(jī)明確提出“具身原生”這一全新 AI 范式，將其作為具身智能的核心實(shí)現(xiàn)路徑，徹底區(qū)別于行業(yè)普遍采用的“嫁接式訓(xùn)練”，從智能本質(zhì)與形成機(jī)制上扎根于物理交互。

正是基于這種深耕物理世界交互的共識，比較巧的是，恰好在最近一段時(shí)間里，我也專門研究了在 VLA 控制下如何讓機(jī)器人真正快速地運(yùn)動起來。相關(guān)結(jié)果最終整理為題為《Realtime-VLA V2》的技術(shù)報(bào)告，并已公開在：

文章：https://arxiv.org/abs/2603.26360
視頻與 rrd 文件：https://dexmal.github.io/realtime-vla-v2/
代碼：https://github.com/dexmal/realtime-vla-v2

總結(jié)來說，我們實(shí)現(xiàn)了以數(shù)倍于遙操作采集訓(xùn)練數(shù)據(jù)的速度執(zhí)行 VLA，并且在多個(gè)真實(shí)場景任務(wù)上完成了驗(yàn)證。

在三個(gè)不同任務(wù)上比較遙操演示速度（上）算法運(yùn)行速度（中）和人手操作速度（下）

當(dāng)然，要做到這一點(diǎn)，絕不是靠一個(gè)“巧妙算法打天下”，而是“端到端的全面踩坑”。下面我按照時(shí)間順序，記錄一下整個(gè)推進(jìn)過程。

遙操作數(shù)據(jù)最初甚至無法錄制

出乎意料的是，整個(gè)項(xiàng)目的第一道難關(guān)，竟然是遙操作數(shù)據(jù)本身難以采集。

由于我們的目標(biāo)是在“真實(shí)”場景中研究任務(wù)執(zhí)行，而不僅限于傳統(tǒng)的“疊衣服”類 demo，因此我們還選擇了一些來自工業(yè)客戶的擺放類任務(wù)。例如在視頻展示的上料任務(wù)中，需要將工件放置到工裝上，這一過程要求 sub-mm 級精度，稍有偏差就會發(fā)生卡滯。我最初嘗試親自進(jìn)行遙操作，結(jié)果發(fā)現(xiàn)這個(gè)任務(wù)幾乎無法順利完成，一度懷疑它是否具備可行性。

但反復(fù)嘗試之后，我們逐步總結(jié)出一套有效的方法論。概括來說，核心在于：心要靜。是的，這看似“玄學(xué)”的訣竅，背后對應(yīng)了我們針對遙操作員的若干重要優(yōu)化：

盡可能將動作設(shè)計(jì)成“機(jī)器人友好”的形式，減少必須依賴超高精度控制的步驟占比
允許主臂基座靈活調(diào)整位置（DOS-W1 支持該能力），為遙操作員提供更舒適的姿態(tài)，降低疲勞
每采集 1 小時(shí)，固定休息 10 分鐘
在采集初期接受效率較低的現(xiàn)實(shí)，直到慢慢達(dá)到“人臂合一”的無我境界，采集效率自然上去

總體來看，目標(biāo)是讓遙操作員盡可能建立起對機(jī)器人末端的直接控制感，在視覺、觸覺反饋和動作執(zhí)行之間形成穩(wěn)定耦合，從而提升采集質(zhì)量與一致性。

我們不得不承認(rèn)，人類本身依然是一個(gè)超強(qiáng)真實(shí)世界自主 RL Agent。經(jīng)過一系列優(yōu)化后，演示數(shù)據(jù)總算可以較穩(wěn)定地錄制出來。不過即便如此，采集到的演示速度仍顯著低于最終應(yīng)用需求。換句話說，從項(xiàng)目一開始，我們就必須把目標(biāo)設(shè)定為：“推理速度要遠(yuǎn)超訓(xùn)練數(shù)據(jù)本身”。

充滿細(xì)節(jié)的時(shí)序問題

有了數(shù)據(jù)之后，自然就是盡快 Finetune 一版 VLA，再結(jié)合 RTC 算法縮短每一步之間的間隔，看看效果。

結(jié)果也并不意外：系統(tǒng)很快暴露出問題。我們發(fā)現(xiàn)，如果想以合理成功率完成任務(wù)，別說超過演示數(shù)據(jù)的速度（定義為 1x），實(shí)際上往往需要降到 0.75x 甚至 0.5x 才能穩(wěn)定運(yùn)行。

這是否意味著當(dāng)前 VLA 模型能力不足？為此，我們做了更深入的排查，并發(fā)現(xiàn)一個(gè)非常關(guān)鍵的問題：推理與執(zhí)行鏈路中的時(shí)序延遲遠(yuǎn)比預(yù)期嚴(yán)重。

為了驗(yàn)證這一點(diǎn)，團(tuán)隊(duì)做了一個(gè)簡單實(shí)驗(yàn)：測量控制指令從發(fā)送到真正被機(jī)械臂執(zhí)行，以及從執(zhí)行到傳感器反饋可觀測之間的時(shí)間差。

結(jié)果非常明確：給機(jī)械臂發(fā)送位置指令后，通常需要約 150ms，機(jī)械臂才能實(shí)際運(yùn)動到對應(yīng)位置；隨后還要再經(jīng)過約 50ms，我們才能從傳感器反饋中觀察到這一變化。這個(gè)時(shí)延顯著超出我們此前的預(yù)期，也明顯不同于以往在 UR 等工業(yè)機(jī)械臂平臺上的經(jīng)驗(yàn)。

這一現(xiàn)象其實(shí)不難理解。我們所使用的是桌面級輕量機(jī)械臂，其控制系統(tǒng)往往會對輸入進(jìn)行顯式或隱式平滑，以避免運(yùn)動過于抖動。但由于機(jī)械臂 API 并不提供對未來軌跡的原生支持，任何形式的平滑都不可避免地引入相位滯后。

既然如此，一個(gè)自然的思路是：在 VLA 推理時(shí)，模型其實(shí)已經(jīng)隱含包含了“未來軌跡”信息，那么我們是否可以在發(fā)送給機(jī)械臂的軌跡上進(jìn)行適當(dāng)“預(yù)放大”，以抵消系統(tǒng)平滑造成的時(shí)延影響？

實(shí)驗(yàn)結(jié)果非常直觀。如上圖所示，當(dāng)輸入軌跡變成綠色所示那種經(jīng)過適度“夸張”的形式后，機(jī)械臂的實(shí)際執(zhí)行軌跡（橙色）就能更好地貼合模型原始輸出（藍(lán)色）。

但這一方案也帶來了新的問題。帶有明顯“過沖”特征的控制信號，會顯著增加機(jī)械臂抖動風(fēng)險(xiǎn)；而一旦機(jī)械臂抖動，相機(jī)隨之抖動，視覺輸入進(jìn)一步惡化，再反饋到模型端后，系統(tǒng)很容易進(jìn)入不穩(wěn)定狀態(tài)。

為此，我們在模型輸出之后引入了額外的速度規(guī)劃與位置規(guī)劃，通過優(yōu)化方法將高加速度段的變化分散到其他時(shí)段中，使最終下發(fā)給機(jī)械臂的軌跡既具備補(bǔ)償效果，又不會引發(fā)過強(qiáng)抖動。

完成這些處理之后，對于大多數(shù)任務(wù)，系統(tǒng)已經(jīng)可以直接 2x 速度下取得較為理想的效果。

挑戰(zhàn)極限：上機(jī)器學(xué)習(xí)！

不過，我們對 2x 的狀態(tài)仍然不完全滿意。我一直在問一個(gè)問題：還能不能更快？

進(jìn)一步分析動作序列后可以發(fā)現(xiàn)，不同階段對速度的要求并不一致。比如在精細(xì)接觸階段，系統(tǒng)通常需要更慢、更穩(wěn)；而在空中轉(zhuǎn)移階段，則完全可以更快。

于是，一個(gè)自然的方向就是加 RL：讓系統(tǒng)自動學(xué)習(xí)“在什么時(shí)刻應(yīng)該以什么速度執(zhí)行”。

這類思路此前已有論文提出，代表性工作如 Speed Tuning。不過，任何涉及真實(shí)世界機(jī)器人 RL 的工作，落地起來都非常復(fù)雜。

這時(shí)，團(tuán)隊(duì)里一位實(shí)習(xí)生提出了一個(gè)非常有效的思路：既然采集過程中本來就需要有人在旁監(jiān)控，不如直接讓他加RL。于是，我們形成了目前最穩(wěn)定、也最 work 的一種“油門式采集”方法：

具體做法是：先讓現(xiàn)有模型自主執(zhí)行推理，人類站在旁邊觀察；當(dāng)判斷當(dāng)前階段可以更快時(shí)，就按下加速鍵；當(dāng)感覺應(yīng)當(dāng)減速時(shí)，就按下減速鍵。這個(gè)過程很像在駕駛過程中踩油門和剎車，只不過調(diào)節(jié)對象變成了執(zhí)行速度。

采集到這樣的數(shù)據(jù)后，再用于訓(xùn)練新的模型，并持續(xù)迭代，我們便得到了一系列速度逐步提升的模型。

不得不說，人類確實(shí)是非常高效的真實(shí)世界自主 Agent。我們發(fā)現(xiàn)，這種 DAgger-style 的迭代方式非常靠譜，幾乎適用于各種任務(wù)，并且不太會引入復(fù)雜的系統(tǒng)不穩(wěn)定問題。

也正因如此，機(jī)器人的執(zhí)行速度得以進(jìn)一步向前推進(jìn)。

與人類速度的比較，以及進(jìn)一步的邊界

如果這是一個(gè)童話故事，那么結(jié)尾大概會是：“最終我們讓機(jī)器人達(dá)到了媲美人類的速度，項(xiàng)目圓滿完成。”但現(xiàn)實(shí)通常不會如此簡單。

確實(shí)，經(jīng)過上述優(yōu)化之后，機(jī)器人在我們測試過的任務(wù)上的執(zhí)行速度已經(jīng)有了非常明顯的提升。甚至在旁觀其疊衣服時(shí)，已經(jīng)能清晰聽見關(guān)節(jié)電機(jī)高速運(yùn)轉(zhuǎn)的聲音。我們還專門讓人類以一種“不快不慢、但合理”的節(jié)奏，按照“機(jī)器人完成任務(wù)的方式”來執(zhí)行同樣任務(wù)，結(jié)果顯示：在部分任務(wù)上，機(jī)器人確實(shí)已經(jīng)接近“人手速度”。

但問題在于，人類從來不是以“機(jī)器人式”的方式完成任務(wù)。

人類雙手在結(jié)構(gòu)、力量分布、材料特性和控制自由度上，依然展現(xiàn)出極強(qiáng)的生物學(xué)優(yōu)勢。很多動作，人類可以以高度靈活、近乎一步到位的方式自然完成，而這些能力，目前的機(jī)器人硬件體系仍無法真正復(fù)制。

我們當(dāng)然可以在六軸機(jī)械臂體系下持續(xù)探索其極限，但是離人的性能，還是差著很遠(yuǎn)。

另一方面，當(dāng)我們把執(zhí)行速度不斷推高后，在各種延時(shí)的debuff下，VLA 模型本身其實(shí)也逐漸被推到了一個(gè)并不理想的工作區(qū)間：它需要在很高的提前量下以很準(zhǔn)的要求輸出未來位置。

所以在執(zhí)行速度的這條路上，如果要繼續(xù)走，必然還是要和硬件以及模型都再大戰(zhàn)一番，才能再繼續(xù)突破了。

這些問題，就留待未來繼續(xù)解決。

不過，我們?nèi)匀幌Ｍㄟ^這次工作的記錄與開源，讓更多人在構(gòu)建機(jī)器人 demo 時(shí)，能夠真正重視執(zhí)行速度這一問題，而不是讓行業(yè)外的人繼續(xù)形成“用了 VLA 之后機(jī)器人只能慢吞吞動作”的刻板印象。

【活動分享】2026 奇點(diǎn)智能技術(shù)大會將于 4 月 17-18 日在上海環(huán)球港凱悅酒店正式召開，大會聚焦大模型技術(shù)演進(jìn)、智能體系統(tǒng)工程、OpenClaw 生態(tài)實(shí)踐及 AI 行業(yè)落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書等頭部企業(yè)的 50+ 位技術(shù)決策者分享實(shí)戰(zhàn)案例。旨在幫助技術(shù)管理者與一線 AI 落地人員規(guī)避選型風(fēng)險(xiǎn)、降低試錯(cuò)成本、獲取可復(fù)用的工程方法論，真正實(shí)現(xiàn) AI 技術(shù)的規(guī)模化落地與商業(yè)價(jià)值轉(zhuǎn)化。這不僅是一場技術(shù)的盛宴，更是決策者把握 2026 AI 拐點(diǎn)的戰(zhàn)略機(jī)會。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.