![]()
在音樂術語中,Legato(連音)意味著音符之間平滑過渡、毫無間斷,演奏出流暢優美的旋律。鋼琴家的手指在琴鍵上滑動,小提琴家的弓在琴弦上連貫運行 —— 這種 "連音" 技巧讓音樂充滿生命力。一位真正掌握連音技巧的演奏者,不需要靠后期剪輯來彌補斷點,而是能夠知道如何讓每一個音符自然地流向下一個。
機器人領域同樣在追求這樣的 "連音" 效果:讓機器人的動作像音樂一樣流暢自然,沒有猶豫和停頓。然而,要讓一臺機器人真正做到這一點,遠比想象中困難。
近日,千尋智能高陽團隊的研究成果 《Learning Native Continuation for Action Chunking Flow Policies》 被機器人頂會 RSS 2026 接收!這項工作從訓練機制出發,讓機器人動作天然具有連續性,實現了 "連音" 般的流暢執行,在五個真實世界操作任務上超越了現有方法,為具身智能領域的動作生成研究提供了新的思路。
![]()
- 論文標題:Learning Native Continuation for Action Chunking Flow Policies
- 論文鏈接:https://arxiv.org/pdf/2602.12978
- 項目主頁:https://lyfeng001.github.io/Legato/
1. 機器人為什么會 "猶豫"?
想象一下,你讓機器人倒水、疊碗或折毛巾,它卻在執行過程中頻繁停頓、猶豫不決,甚至突然改變主意 —— 比如原本計劃用左手抓取物體,執行到一半卻又想換成右手,結果兩只手都沒抓到,白白浪費了時間。這種 "猶豫" 不僅讓動作看起來別扭,還會直接拖慢任務完成的速度,在需要精準配合的場景下甚至會導致任務失敗。
這背后的根源,要從當前主流的機器人基礎模型的動作建模方式說起。
1.1 動作分塊:一把雙刃劍
目前,主流的 Vision Language Action(VLA)模型普遍采用一種叫做 "動作分塊"(Action Chunking)的技術:機器人不是每次只規劃下一個動作,而是一口氣規劃出未來一段時間(比如接下來 1 秒)的完整動作序列,然后依次執行。這樣做有兩個明顯的好處:
- 動作更連貫,因為模型能看到更長時間范圍內的規劃;
- 推理效率更高,不需要每個單獨的時間步的動作都調用一次模型。
但問題也隨之而來:每當一段動作序列執行完畢、下一段序列接上來的時候,兩段序列之間往往存在明顯的不連續性。就像兩段錄音硬拼在一起,接縫處總會有一個突兀的 "斷點"—— 機器人會在這個瞬間出現停頓、抖動,甚至方向突變。這個問題在需要高頻控制的精細操作任務中尤為明顯。
更深層的原因在于,基于流匹配(Flow Matching)的 VLA 模型本身具有多模態性 —— 面對同一個場景,模型可能規劃出多種合理的動作方案(比如用左手或右手抓取)。當兩段動作序列獨立生成時,前一段選擇了方案 A,后一段卻可能選擇了方案 B,兩者在接縫處發生 "模態切換",導致機器人的動作出現突兀的跳變。
這種現象在任務中途尤為危險:機器人已經伸出了左手,卻在下一個動作塊里突然決定改用右手,不僅動作難看,還可能直接碰倒目標物體。
1.2 RTC 的修補
為了解決這個問題,研究者們提出了Real-Time Chunking(RTC)方法。它的思路是:在生成新的動作序列時,把上一段序列末尾還沒執行完的部分 "借" 過來,用來引導下一個序列的生成,通過讓下一個序列的前半部分和上一個序列沒有執行的部分比較像,來保證兩段序列之間的平滑過渡。
這個方法具有非常好的效果,也因此得到了廣泛應用。可以把它理解為一種 "接力棒傳遞" 的機制:新的動作序列不是憑空開始,而是從上一段序列的后半部分 "接棒" 繼續。
然而,這個方法實際上存在一些不可避免的缺陷:
- 推理階段 RTC:連續性機制只在推理時臨時 "打補丁",模型在訓練時從未見過這種情況。訓練和推理的條件不一致,就像一個學生平時練習的題型和考試題型完全不同 —— 模型在推理時面對 "部分已知的前綴" 時,并不知道該如何正確利用這些信息,容易產生 "虛假的多模態切換",也就是機器人在執行過程中突然 "改變主意"。
- 訓練階段 RTC:雖然在訓練時也引入了這種拼接機制,但做法是直接把前綴片段硬拼接到執行部分的前面,并將這部分固定、不再更新。這樣一來,前綴和后續動作之間依然缺乏有機聯系:模型只是被告知 "前面這段是固定的,你只需要生成后面的部分"。
兩種方式都沒有從根本上解決問題:連續性是從外部強加給模型的,而不是模型自己學會的。這就好比一個演奏者不是真正掌握了連音技巧,而是靠后期剪輯把兩段錄音拼在一起 —— 聽起來勉強過得去,但終究缺少那種渾然天成的流暢感。
![]()
2. Legato 的解決方案
讓連續性成為模型的 "天賦"
Legato 的核心思想可以用一句話概括:與其在推理時給模型 "打補丁",不如在訓練時就讓模型學會如何天然地生成連續的動作。
這個思路的轉變看似簡單,實現起來卻需要解決兩個關鍵問題:
- 第一,如何在訓練時讓模型真正 "看到" 并學會利用已知的前綴信息;
- 第二,如何確保訓練時學到的行為和推理時實際執行的行為完全一致,不出現 "雙重標準"。
Legato 通過四個精心設計的機制,系統性地解決了這兩個問題。一個直覺上的類比是:我們希望機器人就像一位經驗豐富的接力跑運動員:不僅知道自己該跑哪一段,還清楚地知道上一棒跑到了哪里、速度是多少,并據此調整自己起跑的節奏,而不是每次都從靜止狀態重新出發。
![]()
2.1 噪聲-真實值混合機制
在標準的流匹配(Flow Matching)訓練中,模型每次都是從完全隨機的噪聲出發,通過多步去噪,最終生成完整的動作序列。這就好比讓一個學生每次都從一張白紙開始作答 —— 他永遠不知道 "如果已經寫了一半,接下來該怎么寫"。長此以往,模型只會從零開始規劃,一旦推理時被要求 "接著已有的動作繼續",就會手足無措。
Legato 改變了這一點,它引入了引導向量ω∈[0,1]^H,用來控制每個時間步的初始狀態,將訓練時的起點從 "純噪聲" 變成 "噪聲與真實動作的混合":
- 對于已經執行過的前綴部分(ω=1):初始狀態直接就是真實動作,模型知道 "這里已經發生了什么",需要在此基礎上繼續規劃
- 對于需要自由預測的未來部分(ω=0):初始狀態是純噪聲,模型需要完全自主規劃
- 對于中間的過渡區域(0<ω<1):初始狀態是真實動作和噪聲的混合,引導強度從強到弱逐漸減弱,形成平滑的過渡
用公式表達就是:
![]()
其中 A 是真實動作,ε 是噪聲,⊙ 表示逐元素相乘。通過這種設計,模型在訓練時就能反復練習 "如何從部分已知的狀態出發,生成流暢的后續動作",而不是每次都從零開始。久而久之,模型自然就學會了如何利用已知的前綴信息:這種能力是從訓練中內化的,而不是推理時臨時拼湊的。
2.2 逐步引導的去噪動力學
僅僅改變初始狀態還不夠。研究團隊發現了一個重要現象:如果只在初始化時引入引導,隨著去噪步驟的推進,模型會逐漸 "忘記" 已知的前綴信息。就像一個人在嘈雜的環境中試圖記住一段旋律,時間越長,記憶就越模糊,最終生成的動作仍然可能偏離預期。
研究團隊通過實驗驗證了這一點:單次引導(one-shot guidance)在去噪過程中確實無法維持對前綴的約束,前綴區域的動作會隨著去噪步驟的推進逐漸漂移。
為了解決這個問題,Legato 在每一步去噪前都進行混合,而不是只在初始化時:
![]()
這就像給模型裝了一個 "記憶錨":無論去噪進行到哪一步,模型都會被不斷提醒 "前綴是什么樣的",并圍繞這個約束來規劃后續動作。這種逐步引導的機制,使得前綴區、過渡區和自由生成區形成一個統一、連貫的動力學系統,而不是三段割裂的拼接。
2.3 訓練-推理一致性
問題在于:推理時,模型在每一步去噪前都會進行真實值和噪聲的混合(即上面的逐步引導);但訓練時,標準流匹配的優化目標是針對 "從純噪聲出發的去噪過程" 設計的,并沒有考慮這種逐步引導的存在。所以如果不針對訓練目標進行調整,訓練的目標即標準流匹配與實際執行的動力學實際上是不一致的。
Legato 的解決方案:重新推導訓練目標,使其與逐步引導的推理動力學完全對齊。具體來說,研究團隊從逐步引導的動力學方程出發,反推出了一個新的速度場訓練目標:
![]()
這個公式的妙處在于:它保留了標準流匹配的幾何方向(即 "朝著真實動作運動" 的大方向不變),只是根據引導強度 κ 調整了速度的大小。換句話說,Legato 并沒有顛覆流匹配的基本框架,而是在其基礎上做了一個精準的 "校準"—— 讓訓練時學到的速度場,與推理時逐步引導所產生的有效速度場完全吻合。
這樣一來,訓練和推理之間的 "雙重標準" 被徹底消除,模型在推理時的行為完全符合它訓練時學到的規律。
![]()
2.4 隨機化混合參數
在真實部署中,不同的硬件平臺推理速度不同(高端 GPU 和邊緣計算設備的延遲可能相差數倍),不同的任務對動作流暢度的要求也不同(精細操作需要更強的連續性,而快速移動任務則更注重響應速度)。如果每換一個場景就要重新訓練一個模型,代價太高,也不現實。
Legato 的解決方案是:在訓練時對混合參數 (d,r) 進行隨機化,讓模型在訓練階段就見識各種不同的引導向量:
- d(推理延遲):控制前綴的長度,對應不同硬件平臺的計算速度。d 越大,說明推理延遲越高,需要 "借用" 的前綴越長
- r(過渡區長度):控制從強引導到弱引導的過渡速度,決定動作的流暢程度。r 越大,過渡越平緩,動作越流暢;r 越小,過渡越陡峭,模型響應越靈敏
通過在訓練時讓模型見識各種不同的 (d, r) 組合,同一個模型在推理時只需要調整這兩個參數,就能適配不同的硬件延遲和流暢度需求,無需重新訓練。這大大降低了 Legato 在實際部署中的門檻。同時,由于模型在訓練時已經見過各種調度情況,推理時的行為也更加穩定魯棒,不會因為參數的細微變化而出現大幅波動。
3. 實驗結果
研究團隊在雙臂機器人上進行了廣泛的真實世界實驗,涵蓋五個操作任務:疊碗、倒東西、拾取放置、疊毛巾、開抽屜。這些任務的選取頗具代表性:它們不僅覆蓋了旋轉主導、平移主導等多樣的運動模式,還包含了大量需要在多個選項中做出選擇的場景 —— 比如疊碗時選擇抓哪個碗、拾取放置時決定用左手還是右手。
這類多模態選擇場景,正是最容易觸發 "虛假多模態切換" 的地方,也是檢驗連續性方法的最佳試金石。
![]()
3.1 基本實驗結果
實驗結果表明,Legato 相對于 RTC 以及 Training-Time RTC 均有一定的優勢:
- 猶豫明顯減少:機器人在執行過程中的停頓和 "改變主意" 現象大幅降低,動作軌跡更加干凈利落。從軌跡圖上可以直觀地看到,Legato 的執行曲線更加平滑,而 RTC 的曲線則呈現出明顯的鋸齒狀波動,這些波動正是機器人在兩種動作方案之間反復橫跳的痕跡
- 任務完成時間縮短:在五個任務上平均縮短約 10%,在倒東西等高度依賴連續性的任務上提升尤為突出,最高提升幅度超過 20%
- 軌跡平滑性顯著提升:以 NSPARC 指標衡量,平均提升約 10%,部分任務(如倒東西)提升幅度超過 40%
![]()
![]()
更多的消融實驗、仿真測試以及詳細分析可參考原文。
3.2 實際部署使用指南
研究發現,在 d=delay, s=0.5H, r=H-d-s 的參數設置下,模型的表現較好。其中 H 是動作序列的總長度,d 對應實際的推理延遲,s 是每個序列執行的步數,r 則是過渡區的長度。這個參數設置在大多數任務和硬件平臺上都能取得不錯的效果,可以作為部署時的默認配置。
與此同時,該研究推薦在一個標準 flow matching 訓練至較好的 base model 基礎上進行 Legato 的 finetune,會獲得更好的模型表現。
4. 總結
Legato 提出了一種讓流匹配策略天然具備連續性的訓練方法,從根本上解決了動作分塊策略中長期存在的連續性問題。它的核心貢獻在于:
- 原生連續性:讓模型從訓練階段就學會如何從 "部分已知的動作" 出發生成后續動作,連續性是模型內化的能力,而不是推理時外部修補的結果
- 訓練-推理一致性:通過重塑速度場,從數學上保證訓練和推理的動力學完全對齊,從根本上消除虛假多模態切換,而不是用更強的約束去壓制它
- 靈活可控:通過隨機化混合參數,一個模型即可適配不同硬件延遲和流暢度需求,大幅降低實際部署的門檻
Legato 讓機器人的動作真正像音樂中的連音一樣:不是兩段錄音的生硬拼接,而是演奏者發自內心、渾然天成的流暢表達。隨著具身智能走向更廣泛的真實世界應用,這種 "天然流暢" 的能力,將成為機器人部署時流暢執行運動不可或缺的條件。
希望 Legato 這篇工作能夠為具身智能社區帶來新的啟發,推動機器人操作技術邁向更高的水平。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.