責(zé)編 | 夢依丹
出品丨原力靈機(jī)投稿
最近刷屏的 GEN-1 有一個(gè)非常重要的 Feature,就是它的執(zhí)行速度非常“快”:能夠以一種明顯不拖沓的節(jié)奏完成任務(wù),并相較此前方案實(shí)現(xiàn)了約 3 倍提速。而這一效果的取得,“依賴系統(tǒng)級組件”,并“不只是模型權(quán)重”的改進(jìn)。
事實(shí)上,關(guān)于 GEN-1 極速執(zhí)行的底層邏輯,Generalist 在最新技術(shù)報(bào)告中給出了答案:GEN-1 并非一個(gè)機(jī)械疊加機(jī)器人動作模塊的微調(diào)版視覺語言模型(VLM),也不僅是一個(gè)世界模型,而是一個(gè)面向物理交互、具備“一等公民”地位的原生基礎(chǔ)模型。這與原力靈機(jī)堅(jiān)持的技術(shù)路線高度一致。原力靈機(jī)明確提出“具身原生”這一全新 AI 范式,將其作為具身智能的核心實(shí)現(xiàn)路徑,徹底區(qū)別于行業(yè)普遍采用的“嫁接式訓(xùn)練”,從智能本質(zhì)與形成機(jī)制上扎根于物理交互。
正是基于這種深耕物理世界交互的共識,比較巧的是,恰好在最近一段時(shí)間里,我也專門研究了在 VLA 控制下如何讓機(jī)器人真正快速地運(yùn)動起來。相關(guān)結(jié)果最終整理為題為《Realtime-VLA V2》的技術(shù)報(bào)告,并已公開在:
文章:https://arxiv.org/abs/2603.26360
視頻與 rrd 文件:https://dexmal.github.io/realtime-vla-v2/
代碼:https://github.com/dexmal/realtime-vla-v2
總結(jié)來說,我們實(shí)現(xiàn)了以數(shù)倍于遙操作采集訓(xùn)練數(shù)據(jù)的速度執(zhí)行 VLA,并且在多個(gè)真實(shí)場景任務(wù)上完成了驗(yàn)證。
![]()
在三個(gè)不同任務(wù)上比較遙操演示速度(上)算法運(yùn)行速度(中)和人手操作速度(下)
當(dāng)然,要做到這一點(diǎn),絕不是靠一個(gè)“巧妙算法打天下”,而是“端到端的全面踩坑”。下面我按照時(shí)間順序,記錄一下整個(gè)推進(jìn)過程。
![]()
遙操作數(shù)據(jù)最初甚至無法錄制
出乎意料的是,整個(gè)項(xiàng)目的第一道難關(guān),竟然是遙操作數(shù)據(jù)本身難以采集。
由于我們的目標(biāo)是在“真實(shí)”場景中研究任務(wù)執(zhí)行,而不僅限于傳統(tǒng)的“疊衣服”類 demo,因此我們還選擇了一些來自工業(yè)客戶的擺放類任務(wù)。例如在視頻展示的上料任務(wù)中,需要將工件放置到工裝上,這一過程要求 sub-mm 級精度,稍有偏差就會發(fā)生卡滯。我最初嘗試親自進(jìn)行遙操作,結(jié)果發(fā)現(xiàn)這個(gè)任務(wù)幾乎無法順利完成,一度懷疑它是否具備可行性。
但反復(fù)嘗試之后,我們逐步總結(jié)出一套有效的方法論。概括來說,核心在于:心要靜。是的,這看似“玄學(xué)”的訣竅,背后對應(yīng)了我們針對遙操作員的若干重要優(yōu)化:
盡可能將動作設(shè)計(jì)成“機(jī)器人友好”的形式,減少必須依賴超高精度控制的步驟占比
允許主臂基座靈活調(diào)整位置(DOS-W1 支持該能力),為遙操作員提供更舒適的姿態(tài),降低疲勞
每采集 1 小時(shí),固定休息 10 分鐘
在采集初期接受效率較低的現(xiàn)實(shí),直到慢慢達(dá)到“人臂合一”的無我境界,采集效率自然上去
總體來看,目標(biāo)是讓遙操作員盡可能建立起對機(jī)器人末端的直接控制感,在視覺、觸覺反饋和動作執(zhí)行之間形成穩(wěn)定耦合,從而提升采集質(zhì)量與一致性。
我們不得不承認(rèn),人類本身依然是一個(gè)超強(qiáng)真實(shí)世界自主 RL Agent。經(jīng)過一系列優(yōu)化后,演示數(shù)據(jù)總算可以較穩(wěn)定地錄制出來。不過即便如此,采集到的演示速度仍顯著低于最終應(yīng)用需求。換句話說,從項(xiàng)目一開始,我們就必須把目標(biāo)設(shè)定為:“推理速度要遠(yuǎn)超訓(xùn)練數(shù)據(jù)本身”。
![]()
充滿細(xì)節(jié)的時(shí)序問題
有了數(shù)據(jù)之后,自然就是盡快 Finetune 一版 VLA,再結(jié)合 RTC 算法縮短每一步之間的間隔,看看效果。
結(jié)果也并不意外:系統(tǒng)很快暴露出問題。我們發(fā)現(xiàn),如果想以合理成功率完成任務(wù),別說超過演示數(shù)據(jù)的速度(定義為 1x),實(shí)際上往往需要降到 0.75x 甚至 0.5x 才能穩(wěn)定運(yùn)行。
這是否意味著當(dāng)前 VLA 模型能力不足?為此,我們做了更深入的排查,并發(fā)現(xiàn)一個(gè)非常關(guān)鍵的問題:推理與執(zhí)行鏈路中的時(shí)序延遲遠(yuǎn)比預(yù)期嚴(yán)重。
為了驗(yàn)證這一點(diǎn),團(tuán)隊(duì)做了一個(gè)簡單實(shí)驗(yàn):測量控制指令從發(fā)送到真正被機(jī)械臂執(zhí)行,以及從執(zhí)行到傳感器反饋可觀測之間的時(shí)間差。
![]()
結(jié)果非常明確:給機(jī)械臂發(fā)送位置指令后,通常需要約 150ms,機(jī)械臂才能實(shí)際運(yùn)動到對應(yīng)位置;隨后還要再經(jīng)過約 50ms,我們才能從傳感器反饋中觀察到這一變化。這個(gè)時(shí)延顯著超出我們此前的預(yù)期,也明顯不同于以往在 UR 等工業(yè)機(jī)械臂平臺上的經(jīng)驗(yàn)。
這一現(xiàn)象其實(shí)不難理解。我們所使用的是桌面級輕量機(jī)械臂,其控制系統(tǒng)往往會對輸入進(jìn)行顯式或隱式平滑,以避免運(yùn)動過于抖動。但由于機(jī)械臂 API 并不提供對未來軌跡的原生支持,任何形式的平滑都不可避免地引入相位滯后。
既然如此,一個(gè)自然的思路是:在 VLA 推理時(shí),模型其實(shí)已經(jīng)隱含包含了“未來軌跡”信息,那么我們是否可以在發(fā)送給機(jī)械臂的軌跡上進(jìn)行適當(dāng)“預(yù)放大”,以抵消系統(tǒng)平滑造成的時(shí)延影響?
![]()
實(shí)驗(yàn)結(jié)果非常直觀。如上圖所示,當(dāng)輸入軌跡變成綠色所示那種經(jīng)過適度“夸張”的形式后,機(jī)械臂的實(shí)際執(zhí)行軌跡(橙色)就能更好地貼合模型原始輸出(藍(lán)色)。
但這一方案也帶來了新的問題。帶有明顯“過沖”特征的控制信號,會顯著增加機(jī)械臂抖動風(fēng)險(xiǎn);而一旦機(jī)械臂抖動,相機(jī)隨之抖動,視覺輸入進(jìn)一步惡化,再反饋到模型端后,系統(tǒng)很容易進(jìn)入不穩(wěn)定狀態(tài)。
為此,我們在模型輸出之后引入了額外的速度規(guī)劃與位置規(guī)劃,通過優(yōu)化方法將高加速度段的變化分散到其他時(shí)段中,使最終下發(fā)給機(jī)械臂的軌跡既具備補(bǔ)償效果,又不會引發(fā)過強(qiáng)抖動。
完成這些處理之后,對于大多數(shù)任務(wù),系統(tǒng)已經(jīng)可以直接 2x 速度下取得較為理想的效果。
![]()
挑戰(zhàn)極限:上機(jī)器學(xué)習(xí)!
不過,我們對 2x 的狀態(tài)仍然不完全滿意。我一直在問一個(gè)問題:還能不能更快?
進(jìn)一步分析動作序列后可以發(fā)現(xiàn),不同階段對速度的要求并不一致。比如在精細(xì)接觸階段,系統(tǒng)通常需要更慢、更穩(wěn);而在空中轉(zhuǎn)移階段,則完全可以更快。
于是,一個(gè)自然的方向就是加 RL:讓系統(tǒng)自動學(xué)習(xí)“在什么時(shí)刻應(yīng)該以什么速度執(zhí)行”。
這類思路此前已有論文提出,代表性工作如 Speed Tuning。不過,任何涉及真實(shí)世界機(jī)器人 RL 的工作,落地起來都非常復(fù)雜。
這時(shí),團(tuán)隊(duì)里一位實(shí)習(xí)生提出了一個(gè)非常有效的思路:既然采集過程中本來就需要有人在旁監(jiān)控,不如直接讓他加RL。于是,我們形成了目前最穩(wěn)定、也最 work 的一種“油門式采集”方法:
![]()
具體做法是:先讓現(xiàn)有模型自主執(zhí)行推理,人類站在旁邊觀察;當(dāng)判斷當(dāng)前階段可以更快時(shí),就按下加速鍵;當(dāng)感覺應(yīng)當(dāng)減速時(shí),就按下減速鍵。這個(gè)過程很像在駕駛過程中踩油門和剎車,只不過調(diào)節(jié)對象變成了執(zhí)行速度。
采集到這樣的數(shù)據(jù)后,再用于訓(xùn)練新的模型,并持續(xù)迭代,我們便得到了一系列速度逐步提升的模型。
不得不說,人類確實(shí)是非常高效的真實(shí)世界自主 Agent。我們發(fā)現(xiàn),這種 DAgger-style 的迭代方式非常靠譜,幾乎適用于各種任務(wù),并且不太會引入復(fù)雜的系統(tǒng)不穩(wěn)定問題。
也正因如此,機(jī)器人的執(zhí)行速度得以進(jìn)一步向前推進(jìn)。
![]()
與人類速度的比較,以及進(jìn)一步的邊界
如果這是一個(gè)童話故事,那么結(jié)尾大概會是:“最終我們讓機(jī)器人達(dá)到了媲美人類的速度,項(xiàng)目圓滿完成。”但現(xiàn)實(shí)通常不會如此簡單。
確實(shí),經(jīng)過上述優(yōu)化之后,機(jī)器人在我們測試過的任務(wù)上的執(zhí)行速度已經(jīng)有了非常明顯的提升。甚至在旁觀其疊衣服時(shí),已經(jīng)能清晰聽見關(guān)節(jié)電機(jī)高速運(yùn)轉(zhuǎn)的聲音。我們還專門讓人類以一種“不快不慢、但合理”的節(jié)奏,按照“機(jī)器人完成任務(wù)的方式”來執(zhí)行同樣任務(wù),結(jié)果顯示:在部分任務(wù)上,機(jī)器人確實(shí)已經(jīng)接近“人手速度”。
但問題在于,人類從來不是以“機(jī)器人式”的方式完成任務(wù)。
人類雙手在結(jié)構(gòu)、力量分布、材料特性和控制自由度上,依然展現(xiàn)出極強(qiáng)的生物學(xué)優(yōu)勢。很多動作,人類可以以高度靈活、近乎一步到位的方式自然完成,而這些能力,目前的機(jī)器人硬件體系仍無法真正復(fù)制。
我們當(dāng)然可以在六軸機(jī)械臂體系下持續(xù)探索其極限,但是離人的性能,還是差著很遠(yuǎn)。
另一方面,當(dāng)我們把執(zhí)行速度不斷推高后,在各種延時(shí)的debuff下,VLA 模型本身其實(shí)也逐漸被推到了一個(gè)并不理想的工作區(qū)間:它需要在很高的提前量下以很準(zhǔn)的要求輸出未來位置。
所以在執(zhí)行速度的這條路上,如果要繼續(xù)走,必然還是要和硬件以及模型都再大戰(zhàn)一番,才能再繼續(xù)突破了。
這些問題,就留待未來繼續(xù)解決。
不過,我們?nèi)匀幌Mㄟ^這次工作的記錄與開源,讓更多人在構(gòu)建機(jī)器人 demo 時(shí),能夠真正重視執(zhí)行速度這一問題,而不是讓行業(yè)外的人繼續(xù)形成“用了 VLA 之后機(jī)器人只能慢吞吞動作”的刻板印象。
![]()
【活動分享】2026 奇點(diǎn)智能技術(shù)大會將于 4 月 17-18 日在上海環(huán)球港凱悅酒店正式召開,大會聚焦大模型技術(shù)演進(jìn)、智能體系統(tǒng)工程、OpenClaw 生態(tài)實(shí)踐及 AI 行業(yè)落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書等頭部企業(yè)的 50+ 位技術(shù)決策者分享實(shí)戰(zhàn)案例。旨在幫助技術(shù)管理者與一線 AI 落地人員規(guī)避選型風(fēng)險(xiǎn)、降低試錯(cuò)成本、獲取可復(fù)用的工程方法論,真正實(shí)現(xiàn) AI 技術(shù)的規(guī)模化落地與商業(yè)價(jià)值轉(zhuǎn)化。這不僅是一場技術(shù)的盛宴,更是決策者把握 2026 AI 拐點(diǎn)的戰(zhàn)略機(jī)會。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.