![]()
本文的第一作者為香港大學博士生陸宇翔,團隊包括香港大學博士后劉哲、香港大學博士生范嫻喆、楊振亞、侯京華、李俊奕、丁凱欣,通訊作者為香港大學助理教授趙恒爽。
具身智能正以前所未有的速度發展,VLA 模型展現出越來越強的動作和泛化能力。然而,當我們真正把 VLA 模型部署到物理世界時,一個核心挑戰浮出水面:實時性。
想象一下讓機器人打乒乓球:球高速飛來時,哪怕只有 100 毫秒的延遲,也可能意味著錯過最佳擊球時機。對于真實世界中的機器人來說,動作不僅要「做得準」,還必須「反應得快」。
現有實時 VLA 方法大多關注如何讓動作更連續、更平滑。但這些方法往往忽略了動態環境中更關鍵的一點:機器人到底能多快根據新變化做出反應?
來自香港大學和大曉機器人的研究團隊提出了FASTERFastActionSampling for ImmediaTEReaction),首次系統性地重新審視了動作分塊策略中的反應延遲問題,并提出了一種面向流匹配 VLA 模型的快速動作采樣方法。通過將即時動作的采樣過程壓縮至單步完成,顯著降低了機器人開始行動所需的時間。
FASTER 是一個即插即用方案:無需修改模型架構,也無需額外訓練成本。目前代碼已開源,歡迎學術界和工業界試用,共同推動具身智能在真實場景的落地。
![]()
- 論文鏈接:https://arxiv.org/abs/2603.19199
- 項目主頁:https://innovator-zero.github.io/FASTER/
- 開源代碼:https://github.com/innovator-zero/FASTER
VLA 模型是如何運行的?
目前主流的 VLA 模型,例如 π0.5、X-VLA 等,采用的是動作分塊(Action Chunking)策略。模型不是每次只預測下一個動作,而是一次性預測未來幾十步的連續動作。這樣做的好處是,機器人可以獲得更長時間范圍內的動作計劃,執行起來也更加平滑。
但 VLA 面對著一個現實問題:模型推理速度往往跟不上機器人控制頻率。
在真實機器人系統中,控制器通常以固定頻率運行,例如 30Hz,也就是每 33.3 毫秒執行一次控制指令。但 VLA 的推理基本無法在一個控制周期內完成,即使用 RTX 4090、5090 這類高端 GPU,生成一個動作塊也可能需要遠超一個控制周期的時間。
因此,機器人端側通常會采用兩類推理管線:同步推理異步推理
![]()
- 同步推理:機器人執行完當前動作塊后,會停下來等待模型生成下一段動作。這樣做可以避免觀測狀態和執行狀態之間出現偏差,即感知-執行差異。但問題也很明顯:機器人會頻繁停頓,動作不連貫,任務表現也會受到影響。
- 異步推理:機器人會提前開始下一段動作的推理。模型在生成新動作的同時,機器人繼續執行當前還沒有執行完的動作。這樣可以消除動作塊之間的停頓,讓機器人運動更加絲滑。為進一步緩解感知-執行差異,RTC、VLASH 等方法會將重疊時間內已經規劃好的動作作為先驗輸入給 VLA,使模型能夠生成符合當前運動慣性的后續動作。
Rethinking:什么才是真正的「反應能力」?
異步推理解決了動作卡頓的問題,但它真的提升了 VLA 的反應能力嗎?
本文的一個關鍵洞見是:反應時間并不是一個簡單等于模型推理延遲的常數,而應該被建模為一個隨機變量。
這是因為真實世界中的外部事件是隨機發生的。
如果事件恰好發生在模型開始推理之前,那么機器人可以在本輪推理完成后盡快響應,反應最快。但如果事件剛好發生在模型開始推理之后,那么這次推理已經「錯過」了這個新事件,只能等到下一輪推理完成后才能響應。
![]()
論文進一步分析指出,從期望反應時間來看,普通異步推理相比同步推理的收益其實相當有限:僅僅縮短了 0.5 倍的推理延遲。也就是說,如果推理延遲不變,單純改成異步并不能從根本上解決問題。
這就引出了本文提出的一個新指標:TTFA(Time to First Action)
在動作分塊策略中,機器人并不需要等待整個動作塊都生成完才能開始動。真正決定機器人能否快速響應的,是第一個動作什么時候能夠生成出來。
這和 LLM 中的 TTFT(Time to First Token)很類似,用戶感受到的響應速度很大程度上取決于第一個 token 出現得有多快。
因此,FASTER 認為:要提升 VLA 的真實反應能力,不能只做異步推理,還必須同時壓縮 TTFA,并提高推理-執行閉環的頻率。
VLA 的瓶頸在哪里?
當前許多 VLA 都采用基于流匹配(Flow Matching)或 Diffusion 的動作專家來生成動作。
這類模型通常采用恒定時間步調度,動作塊中的每一個動作,無論是馬上要執行的第一個動作,還是幾十步之后才會執行的遠期動作,都會使用相同數量的采樣步。
如果模型默認使用 10 步采樣,那么它必須完成全部 10 步采樣之后,才能輸出第一個動作。這就形成了一個明顯的反應瓶頸:機器人明明只需要第一個動作就可以開始動,卻必須等待整個動作塊完成全部采樣。
于是,一個很自然的問題出現了:為什么近期動作和遠期動作需要同等程度的「精雕細琢」?
![]()
FASTER 對動作采樣過程進行了實驗分析,并發現動作塊內部存在明顯的非均勻性。具體來說,論文使用了平直度(Straightness)指標來衡量流匹配采樣路徑的彎曲程度。路徑越接近直線,說明這個動作越容易通過少量采樣步準確生成。
實驗結果顯示:
- 早期動作的采樣路徑更接近直線插值;
- 早期動作的中間估計結果與最終輸出之間的偏差更小;
- 早期動作的生成復雜度明顯低于遠期動作。
這也符合物理世界中的直覺:基于當前狀態,下一瞬間該怎么動通常約束更強、變化更小;而越遠期的動作受到更多未來不確定性的影響,自然更難預測。
既然近期動作更容易預測,而又直接決定機器人的反應速度,那么為什么不讓模型優先生成這些動作?
核心創新:Horizon-Aware Schedule
![]()
為了解決上述問題,FASTER 提出了Horizon-Aware Schedule(HAS),思想是解耦動作塊中不同時間位置動作的采樣進度。HAS 會為動作塊中的每一個動作分配一個不同的完成時刻(hit time)。
近期動作使用較少的采樣步數,優先生成;遠期動作仍然保留較完整的采樣過程,保持動作軌跡質量。
這樣,模型不再需要等到整個動作塊全部采樣完成后才輸出動作,而是可以先把最關鍵的即時動作生成出來,讓機器人盡快開始響應。
混合調度策略:讓預訓練模型平滑適應 HAS
直接用 HAS 去微調一個預訓練 VLA 模型,可能會帶來兩個問題。
第一個問題是,現有預訓練模型通常是在恒定時間步調度下訓練出來的。如果微調時突然切換成動態變化的 HAS,會額外拉大預訓練和微調之間的差距。
第二個問題是,在訓練中隨機采樣時間步時,對于近期動作來說,在 HAS 下它們對應的局部時間步有較大概率變成 0,使得這些動作幾乎總是直接使用真實動作作為輸入,模型反而學不到如何自己生成這些動作。
為了解決這兩個問題,FASTER 提出了一種混合調度策略(Mixed Scheduling Strategy)。
具體做法是:給定一個混合概率 p,每個訓練樣本都有 p 的概率使用 HAS,同時也有 1-p 的概率保留原來的恒定時間步調度。模型在微調時既能學習新的 HAS 時間步參數化方式,也不會完全丟掉預訓練階段熟悉的固定時間步設置。
最重要的是,這個過程不需要修改模型結構,也不會引入額外訓練成本,可以直接整合進現有 VLA 的微調流程。
流式推理接口:生成一個,執行一個
有了 HAS 之后,動作可以被漸進式生成。FASTER 因此進一步設計了一個流式客戶端-服務器接口(Streaming Client-Server Interface)。
在模型端,一旦某個動作完成采樣,就會立即發送給機器人控制器,模型則繼續采樣和完善后續動作。
機器人客戶端則會持續監聽來自模型的新動作,并將接收到的動作加入緩沖區,機器人可以一邊執行已經收到的動作,一邊等待后續動作到來。
此外,FASTER 還引入了早停機制。當執行范圍內需要的動作都已完成采樣時,模型可以提前終止剩余采樣步驟,直接進入下一輪推理準備。這等價于縮短了一次推理-執行周期,從而進一步提高閉環響應頻率。
因此,FASTER 不只是降低了第一個動作的生成延遲,也提高了整個系統的更新頻率。
實驗結果:更低 TTFA,更快反應
FASTER 在兩種 GPU 平臺上進行了真實測速實驗,分別是高性能的 RTX 4090 和消費級的 RTX 4060。
![]()
結果顯示,FASTER 可以顯著降低 TTFA 和期望反應時間。尤其是在 RTX 4060 上,X-VLA 的 TTFA 從 399.5 ms 降低到 129.2 ms,達到 3 倍以上加速;期望反應時間也從 599.5 ms 降低到 229.2 ms,提升約 2.6 倍。對于 π0.5,FASTER 同樣帶來了穩定提升。
![]()
由于真實環境中的外部事件是隨機發生的,論文進一步統計了不同方法在隨機事件下誰更可能反應更快。
結果表明,FASTER 相比同步推理有超過 80% 的概率反應更快;相比普通異步推理也具有明顯優勢。尤其是在 X-VLA 上,FASTER 達到了 100% 的優勢概率。這意味著 FASTER 的反應時間上界甚至低于基線方法的下界,形成了嚴格的性能支配。
VLA 打乒乓球:反應速度決定能不能接到球
在乒乓球任務中,機器人需要根據高速飛來的乒乓球及時調整球拍姿態,并在合適的位置和角度完成擊球。這不僅要求動作準確,也對反應速度提出了極高要求。
![]()
![]()
實驗結果顯示:
- 同步推理方法由于反應太慢,幾乎無法接到球。
- 普通異步方法雖然動作更連續,但反應速度仍然不足,導致回球角度不佳或擊球無力。
- 使用 FASTER 后,機器人能夠更早開始調整球拍姿態,在接觸球的一瞬間保持更合理、更有力的擊球角度,因此最終得分顯著領先。
這個結果很好地說明了一個事實:在動態交互任務中,動作質量不僅取決于預測是否準確,還取決于這個動作是否來得及執行。
日常操作任務:更快,也更穩定
除了高動態任務,本文也在抓放飲料和疊毛巾等日常操作任務中進行了測試。
![]()
![]()
在這些任務中,反應速度并不像乒乓球那樣關鍵,但實時交互仍然會影響任務完成效率和動作穩定性。
FASTER 在這些任務中也能實現更快、更穩定的運動表現。相比同步推理,它減少了動作塊之間的停頓;相比普通異步推理,它進一步提升了閉環更新頻率,使機器人能夠更及時地根據當前狀態調整動作。
仿真評測:加速不以犧牲質量為代價
為了驗證 HAS 是否會影響動作預測質量,本文還在 LIBERO 和 CALVIN 兩個常用仿真基準上進行了測試。
![]()
需要注意的是,仿真基準本身通常不會直接受到推理延遲的影響,因此這些實驗主要用于評估:FASTER 在加速采樣后,是否仍然能保持原模型的任務性能。
結果顯示,FASTER 基本保持了與原始模型相當的性能,僅在個別任務上出現輕微下降。這說明 HAS 雖然對近期動作采用了更激進的采樣策略,但整體上仍能維持較高的動作生成質量。
總結
當前具身智能研究大多關注如何讓機器人在更復雜的任務中「做得更好」,FASTER 則提出了一個同樣重要但被低估的問題:在物理世界中部署 VLA 模型時,「多快能開始動」與「動作做得多準」同樣關鍵。
傳統評價往往更關注動作預測精度或任務成功率,但在動態交互場景中,反應速度本身就可能決定動作是否還有意義。對于乒乓球、動態抓取等任務來說,一個再準確的動作,如果來得太晚,也就失去了價值。
FASTER 通過 Horizon-Aware Schedule 將即時動作的采樣壓縮到單步完成,并結合流式推理接口和早停機制,同時降低 TTFA、提高推理-執行閉環頻率。在真機實驗中,顯著提升了 VLA 的反應能力,尤其是在消費級 GPU 上展現出很強的實際部署價值。
總體來看,FASTER 為實時 VLA 和通用具身智能的落地提供了一條簡單、有效且可擴展的路徑:不是讓整個動作塊都更快生成,而是讓機器人最需要的第一個動作先到。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.