網易首頁 > 網易號 > 正文申請入駐

千尋智能高陽團隊提出Legato，入選RSS 2026

2026-05-29 10:15:12　來源: 機器之心Pro

天津舉報

分享至

在音樂術語中，Legato（連音）意味著音符之間平滑過渡、毫無間斷，演奏出流暢優美的旋律。鋼琴家的手指在琴鍵上滑動，小提琴家的弓在琴弦上連貫運行 —— 這種 "連音" 技巧讓音樂充滿生命力。一位真正掌握連音技巧的演奏者，不需要靠后期剪輯來彌補斷點，而是能夠知道如何讓每一個音符自然地流向下一個。

機器人領域同樣在追求這樣的 "連音" 效果：讓機器人的動作像音樂一樣流暢自然，沒有猶豫和停頓。然而，要讓一臺機器人真正做到這一點，遠比想象中困難。

近日，千尋智能高陽團隊的研究成果《Learning Native Continuation for Action Chunking Flow Policies》被機器人頂會 RSS 2026 接收！這項工作從訓練機制出發，讓機器人動作天然具有連續性，實現了 "連音" 般的流暢執行，在五個真實世界操作任務上超越了現有方法，為具身智能領域的動作生成研究提供了新的思路。

論文標題：Learning Native Continuation for Action Chunking Flow Policies
論文鏈接：https://arxiv.org/pdf/2602.12978
項目主頁：https://lyfeng001.github.io/Legato/

1. 機器人為什么會 "猶豫"？

想象一下，你讓機器人倒水、疊碗或折毛巾，它卻在執行過程中頻繁停頓、猶豫不決，甚至突然改變主意 —— 比如原本計劃用左手抓取物體，執行到一半卻又想換成右手，結果兩只手都沒抓到，白白浪費了時間。這種 "猶豫" 不僅讓動作看起來別扭，還會直接拖慢任務完成的速度，在需要精準配合的場景下甚至會導致任務失敗。

這背后的根源，要從當前主流的機器人基礎模型的動作建模方式說起。

1.1 動作分塊：一把雙刃劍

目前，主流的 Vision Language Action（VLA）模型普遍采用一種叫做 "動作分塊"（Action Chunking）的技術：機器人不是每次只規劃下一個動作，而是一口氣規劃出未來一段時間（比如接下來 1 秒）的完整動作序列，然后依次執行。這樣做有兩個明顯的好處：

動作更連貫，因為模型能看到更長時間范圍內的規劃；
推理效率更高，不需要每個單獨的時間步的動作都調用一次模型。

但問題也隨之而來：每當一段動作序列執行完畢、下一段序列接上來的時候，兩段序列之間往往存在明顯的不連續性。就像兩段錄音硬拼在一起，接縫處總會有一個突兀的 "斷點"—— 機器人會在這個瞬間出現停頓、抖動，甚至方向突變。這個問題在需要高頻控制的精細操作任務中尤為明顯。

更深層的原因在于，基于流匹配（Flow Matching）的 VLA 模型本身具有多模態性 —— 面對同一個場景，模型可能規劃出多種合理的動作方案（比如用左手或右手抓取）。當兩段動作序列獨立生成時，前一段選擇了方案 A，后一段卻可能選擇了方案 B，兩者在接縫處發生 "模態切換"，導致機器人的動作出現突兀的跳變。

這種現象在任務中途尤為危險：機器人已經伸出了左手，卻在下一個動作塊里突然決定改用右手，不僅動作難看，還可能直接碰倒目標物體。

1.2 RTC 的修補

為了解決這個問題，研究者們提出了Real-Time Chunking（RTC）方法。它的思路是：在生成新的動作序列時，把上一段序列末尾還沒執行完的部分 "借" 過來，用來引導下一個序列的生成，通過讓下一個序列的前半部分和上一個序列沒有執行的部分比較像，來保證兩段序列之間的平滑過渡。

這個方法具有非常好的效果，也因此得到了廣泛應用。可以把它理解為一種 "接力棒傳遞" 的機制：新的動作序列不是憑空開始，而是從上一段序列的后半部分 "接棒" 繼續。

然而，這個方法實際上存在一些不可避免的缺陷：

推理階段 RTC：連續性機制只在推理時臨時 "打補丁"，模型在訓練時從未見過這種情況。訓練和推理的條件不一致，就像一個學生平時練習的題型和考試題型完全不同 —— 模型在推理時面對 "部分已知的前綴" 時，并不知道該如何正確利用這些信息，容易產生 "虛假的多模態切換"，也就是機器人在執行過程中突然 "改變主意"。
訓練階段 RTC：雖然在訓練時也引入了這種拼接機制，但做法是直接把前綴片段硬拼接到執行部分的前面，并將這部分固定、不再更新。這樣一來，前綴和后續動作之間依然缺乏有機聯系：模型只是被告知 "前面這段是固定的，你只需要生成后面的部分"。

兩種方式都沒有從根本上解決問題：連續性是從外部強加給模型的，而不是模型自己學會的。這就好比一個演奏者不是真正掌握了連音技巧，而是靠后期剪輯把兩段錄音拼在一起 —— 聽起來勉強過得去，但終究缺少那種渾然天成的流暢感。

2. Legato 的解決方案

讓連續性成為模型的 "天賦"

Legato 的核心思想可以用一句話概括：與其在推理時給模型 "打補丁"，不如在訓練時就讓模型學會如何天然地生成連續的動作。

這個思路的轉變看似簡單，實現起來卻需要解決兩個關鍵問題：

第一，如何在訓練時讓模型真正 "看到" 并學會利用已知的前綴信息；
第二，如何確保訓練時學到的行為和推理時實際執行的行為完全一致，不出現 "雙重標準"。

Legato 通過四個精心設計的機制，系統性地解決了這兩個問題。一個直覺上的類比是：我們希望機器人就像一位經驗豐富的接力跑運動員：不僅知道自己該跑哪一段，還清楚地知道上一棒跑到了哪里、速度是多少，并據此調整自己起跑的節奏，而不是每次都從靜止狀態重新出發。

2.1 噪聲-真實值混合機制

在標準的流匹配（Flow Matching）訓練中，模型每次都是從完全隨機的噪聲出發，通過多步去噪，最終生成完整的動作序列。這就好比讓一個學生每次都從一張白紙開始作答 —— 他永遠不知道 "如果已經寫了一半，接下來該怎么寫"。長此以往，模型只會從零開始規劃，一旦推理時被要求 "接著已有的動作繼續"，就會手足無措。

Legato 改變了這一點，它引入了引導向量ω∈[0,1]^H，用來控制每個時間步的初始狀態，將訓練時的起點從 "純噪聲" 變成 "噪聲與真實動作的混合"：

對于已經執行過的前綴部分（ω=1）：初始狀態直接就是真實動作，模型知道 "這里已經發生了什么"，需要在此基礎上繼續規劃
對于需要自由預測的未來部分（ω=0）：初始狀態是純噪聲，模型需要完全自主規劃
對于中間的過渡區域（0<ω<1）：初始狀態是真實動作和噪聲的混合，引導強度從強到弱逐漸減弱，形成平滑的過渡

用公式表達就是：

其中 A 是真實動作，ε 是噪聲，⊙ 表示逐元素相乘。通過這種設計，模型在訓練時就能反復練習 "如何從部分已知的狀態出發，生成流暢的后續動作"，而不是每次都從零開始。久而久之，模型自然就學會了如何利用已知的前綴信息：這種能力是從訓練中內化的，而不是推理時臨時拼湊的。

2.2 逐步引導的去噪動力學

僅僅改變初始狀態還不夠。研究團隊發現了一個重要現象：如果只在初始化時引入引導，隨著去噪步驟的推進，模型會逐漸 "忘記" 已知的前綴信息。就像一個人在嘈雜的環境中試圖記住一段旋律，時間越長，記憶就越模糊，最終生成的動作仍然可能偏離預期。

研究團隊通過實驗驗證了這一點：單次引導（one-shot guidance）在去噪過程中確實無法維持對前綴的約束，前綴區域的動作會隨著去噪步驟的推進逐漸漂移。

為了解決這個問題，Legato 在每一步去噪前都進行混合，而不是只在初始化時：

這就像給模型裝了一個 "記憶錨"：無論去噪進行到哪一步，模型都會被不斷提醒 "前綴是什么樣的"，并圍繞這個約束來規劃后續動作。這種逐步引導的機制，使得前綴區、過渡區和自由生成區形成一個統一、連貫的動力學系統，而不是三段割裂的拼接。

2.3 訓練-推理一致性

問題在于：推理時，模型在每一步去噪前都會進行真實值和噪聲的混合（即上面的逐步引導）；但訓練時，標準流匹配的優化目標是針對 "從純噪聲出發的去噪過程" 設計的，并沒有考慮這種逐步引導的存在。所以如果不針對訓練目標進行調整，訓練的目標即標準流匹配與實際執行的動力學實際上是不一致的。

Legato 的解決方案：重新推導訓練目標，使其與逐步引導的推理動力學完全對齊。具體來說，研究團隊從逐步引導的動力學方程出發，反推出了一個新的速度場訓練目標：

這個公式的妙處在于：它保留了標準流匹配的幾何方向（即 "朝著真實動作運動" 的大方向不變），只是根據引導強度 κ 調整了速度的大小。換句話說，Legato 并沒有顛覆流匹配的基本框架，而是在其基礎上做了一個精準的 "校準"—— 讓訓練時學到的速度場，與推理時逐步引導所產生的有效速度場完全吻合。

這樣一來，訓練和推理之間的 "雙重標準" 被徹底消除，模型在推理時的行為完全符合它訓練時學到的規律。

2.4 隨機化混合參數

在真實部署中，不同的硬件平臺推理速度不同（高端 GPU 和邊緣計算設備的延遲可能相差數倍），不同的任務對動作流暢度的要求也不同（精細操作需要更強的連續性，而快速移動任務則更注重響應速度）。如果每換一個場景就要重新訓練一個模型，代價太高，也不現實。

Legato 的解決方案是：在訓練時對混合參數 (d,r) 進行隨機化，讓模型在訓練階段就見識各種不同的引導向量：

d（推理延遲）：控制前綴的長度，對應不同硬件平臺的計算速度。d 越大，說明推理延遲越高，需要 "借用" 的前綴越長
r（過渡區長度）：控制從強引導到弱引導的過渡速度，決定動作的流暢程度。r 越大，過渡越平緩，動作越流暢；r 越小，過渡越陡峭，模型響應越靈敏

通過在訓練時讓模型見識各種不同的 (d, r) 組合，同一個模型在推理時只需要調整這兩個參數，就能適配不同的硬件延遲和流暢度需求，無需重新訓練。這大大降低了 Legato 在實際部署中的門檻。同時，由于模型在訓練時已經見過各種調度情況，推理時的行為也更加穩定魯棒，不會因為參數的細微變化而出現大幅波動。

3. 實驗結果

研究團隊在雙臂機器人上進行了廣泛的真實世界實驗，涵蓋五個操作任務：疊碗、倒東西、拾取放置、疊毛巾、開抽屜。這些任務的選取頗具代表性：它們不僅覆蓋了旋轉主導、平移主導等多樣的運動模式，還包含了大量需要在多個選項中做出選擇的場景 —— 比如疊碗時選擇抓哪個碗、拾取放置時決定用左手還是右手。

這類多模態選擇場景，正是最容易觸發 "虛假多模態切換" 的地方，也是檢驗連續性方法的最佳試金石。

3.1 基本實驗結果

實驗結果表明，Legato 相對于 RTC 以及 Training-Time RTC 均有一定的優勢：

猶豫明顯減少：機器人在執行過程中的停頓和 "改變主意" 現象大幅降低，動作軌跡更加干凈利落。從軌跡圖上可以直觀地看到，Legato 的執行曲線更加平滑，而 RTC 的曲線則呈現出明顯的鋸齒狀波動，這些波動正是機器人在兩種動作方案之間反復橫跳的痕跡
任務完成時間縮短：在五個任務上平均縮短約 10%，在倒東西等高度依賴連續性的任務上提升尤為突出，最高提升幅度超過 20%
軌跡平滑性顯著提升：以 NSPARC 指標衡量，平均提升約 10%，部分任務（如倒東西）提升幅度超過 40%

更多的消融實驗、仿真測試以及詳細分析可參考原文。

3.2 實際部署使用指南

研究發現，在 d=delay, s=0.5H, r=H-d-s 的參數設置下，模型的表現較好。其中 H 是動作序列的總長度，d 對應實際的推理延遲，s 是每個序列執行的步數，r 則是過渡區的長度。這個參數設置在大多數任務和硬件平臺上都能取得不錯的效果，可以作為部署時的默認配置。

與此同時，該研究推薦在一個標準 flow matching 訓練至較好的 base model 基礎上進行 Legato 的 finetune，會獲得更好的模型表現。

4. 總結

Legato 提出了一種讓流匹配策略天然具備連續性的訓練方法，從根本上解決了動作分塊策略中長期存在的連續性問題。它的核心貢獻在于：

原生連續性：讓模型從訓練階段就學會如何從 "部分已知的動作" 出發生成后續動作，連續性是模型內化的能力，而不是推理時外部修補的結果
訓練-推理一致性：通過重塑速度場，從數學上保證訓練和推理的動力學完全對齊，從根本上消除虛假多模態切換，而不是用更強的約束去壓制它
靈活可控：通過隨機化混合參數，一個模型即可適配不同硬件延遲和流暢度需求，大幅降低實際部署的門檻

Legato 讓機器人的動作真正像音樂中的連音一樣：不是兩段錄音的生硬拼接，而是演奏者發自內心、渾然天成的流暢表達。隨著具身智能走向更廣泛的真實世界應用，這種 "天然流暢" 的能力，將成為機器人部署時流暢執行運動不可或缺的條件。

希望 Legato 這篇工作能夠為具身智能社區帶來新的啟發，推動機器人操作技術邁向更高的水平。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.