網易首頁 > 網易號 > 正文申請入駐

全球首個肌肉驅動機器人成功完成Sim-to-Real遷移！

2026-04-20 19:44:40　來源: 機器人大講堂

安徽舉報

分享至

在機器人技術向著柔性、安全、高動態持續邁進的過程中，以氣動人工肌肉（PAMs）為核心、搭配肌腱傳動的機械臂，一直被視作最貼近生物運動邏輯的理想形態。

相比傳統剛性電機驅動方案，這類設計能夠將驅動單元全部布置在機械臂基座，大幅降低運動部件質量，配合氣動肌肉的強勁爆發力，在高速動態任務中具備天然優勢；同時，結構本身自帶的機械柔順性，能在碰撞時顯著降低沖擊力，讓機器人在人機共融場景中具備更高安全邊際，甚至在技能學習階段，就能展現出更高的樣本效率。

但就是這樣一種理論上近乎完美的設計，卻在實際落地中寸步難行。放眼全球機器人實驗室，肌肉驅動+肌腱傳動的機械臂幾乎都停留在單關節、簡單動作的驗證階段，多自由度、復雜動態任務的工程化應用始終是空白。

核心障礙并非機械結構設計，而是肌肉與肌腱耦合帶來的極端復雜動力學特性 ——高度非線性、遲滯效應、隨溫度與關節位置變化的摩擦特性，讓傳統解析建模徹底失效，控制算法無從下手，更讓仿真到現實（Sim-to-Real）的遷移成為不可能完成的任務。

就在2026年4月，這一困擾領域十余年的技術死結被徹底解開。馬克斯·普朗克智能系統研究所聯合波士頓大學、牛津大學、阿爾伯塔大學等機構的研究團隊，在最新論文中提出廣義執行器網絡（Generalized Actuator Network，GeAN），徹底拋棄對扭矩傳感器的依賴，僅依靠關節位置軌跡即可完成復雜執行器動力學建模，在四自由度氣動肌肉驅動肌腱傳動機械臂PAMY2上，首次實現精準目標到達、動態杯球兩大高難度任務的純仿真訓練、零樣本實機部署。

基于肌腱驅動與肌肉驅動機器人的杯球策略。該行為完全通過習得的執行器模型在仿真中完成訓練，并零樣本遷移至實體機器人運行。

這是全球范圍內，四自由度肌肉驅動機械臂Sim-to-Real遷移的首次成功驗證，直接填補了柔性肌肉機器人從仿真到現實的核心技術空白。

01.

肌肉機械臂的Sim-to-Real困境：域隨機化失效，混合訓練效率低下

過去十年，Sim-to-Real遷移已經成為機器人強化學習的核心路徑。從四足機器人的復雜地形行走、人形機器人的步態控制，到乒乓球、足球等高速對抗任務，仿真訓練+零樣本落地的模式，憑借GPU并行加速的優勢，將原本需要數天的實機訓練壓縮至分鐘級，同時避免了實機長時間運行帶來的機械磨損、能耗過高、環境重置困難等問題。而支撐這一切的基礎，是仿真器與真實機器人之間盡可能小的動態偏差，以及域隨機化（Domain Randomization）對殘余偏差的抹平能力。

但這套成熟體系，在肌肉驅動肌腱傳動機械臂面前完全失效。

首先，氣動人工肌肉的動力學特性遠超傳統執行器的復雜程度。作為核心驅動單元，PAMs的輸出力與氣壓、長度呈現強非線性關系，同時自帶顯著的遲滯效應，即便輸入相同控制信號，不同運動方向、不同運動速度下的輸出扭矩都會出現明顯偏差；更棘手的是，環境溫度、使用時長帶來的肌肉疲勞，都會持續改變其動態特性，讓固定參數的解析模型完全失去意義。

其次，肌腱傳動進一步放大了建模難度。肌腱在機械臂內部的導向結構中穿行，摩擦系數并非固定值，而是隨關節角度、肌腱張力、運動速度實時變化；四自由度設計下，不同關節的肌腱運動相互耦合，一個關節的運動會直接改變其他肌腱的受力與摩擦狀態，形成多變量強耦合的非線性系統，傳統剛體動力學模型無法兼容這種復雜的接觸與傳動特性。

這就導致，肌肉驅動機械臂的Sim-to-Real偏差，比傳統電機驅動機器人大出數個數量級。域隨機化的核心邏輯，是在仿真中對物理參數添加噪聲，讓策略適應動態變化，從而兼容現實偏差。但面對肌肉機械臂的巨大偏差，過度增加噪聲會直接導致策略性能崩塌，噪聲過小又無法覆蓋現實動態范圍，陷入兩難境地。

在此之前，領域內針對肌肉驅動系統的Sim-to-Real探索，全部局限在極低復雜度場景。已有研究要么針對單關節機械臂，僅實現簡單的定點到達；要么依靠純解析模型+域隨機化，完成單次敲擊這類極簡動態動作；還有研究放棄純仿真路線，采用仿真與實機混合訓練，僅對任務目標（如乒乓球）進行仿真，機器人本體全程使用實機，即便經過樣本效率優化，依舊需要數小時的實機交互，無法滿足復雜任務的規模化訓練需求。

所有嘗試都指向同一個結論：不解決肌肉+肌腱執行器的精準建模問題，肌肉驅動機械臂的Sim-to-Real就永遠無法實現。而傳統解析建模已經走到盡頭，唯一的出路，是用數據驅動的方式，讓神經網絡自主學習這套無法用公式描述的復雜動力學。

02.

GeAN核心創新：拋棄扭矩傳感器，使用關節位置軌跡學習執行器動力學

研究團隊沒有陷入“用復雜公式逼近真實動態”的傳統思路，而是對機械臂動力學進行了模塊化拆分：機械臂本體的剛體運動、與環境的交互動力學，屬于解析可建模部分，直接沿用成熟的扭矩驅動仿真器；僅將最復雜、無法解析建模的肌肉驅動與肌腱傳動部分，交給神經網絡學習，由此構建出全新的Sim-to-Real遷移流程，而流程的核心，就是廣義執行器網絡GeAN。

GeAN的設計靈感源于早期執行器網絡（Actuator Network），但做出了顛覆性改進。早期執行器網絡僅適用于系列彈性執行器，且必須依賴扭矩傳感器獲取真實扭矩標簽，限制了應用范圍。而GeAN徹底擺脫對扭矩傳感器的依賴，直接從關節位置軌跡中學習控制信號到關節扭矩的映射關系，讓這套方法能夠適配絕大多數無扭矩傳感器的低成本肌肉驅動機器人。

為了精準捕捉肌肉執行器的遲滯特性，GeAN將關節位置、控制信號的歷史序列作為網絡輸入，而非單一時刻的狀態。研究團隊發現，傳統稠密歷史序列容易導致過擬合，因為連續測量值差異極小，網絡難以提取有效特征。為此，GeAN將輸入改造為增量歷史序列，即記錄當前值與歷史值的差值，同時對所有輸入進行零均值、單位方差歸一化，放大連續測量值的差異，讓網絡更高效地學習遲滯與動態變化規律。實驗驗證，步長為1的短序列、長度為3的歷史窗口，能在精度與計算效率之間達成最優平衡。

在訓練監督信號的設計上，團隊提出兩種損失函數，并通過大量實驗驗證了最優方案。

第一種是扭矩損失：通過逆動力學函數，將真實關節位置、速度、加速度轉化為虛擬扭矩標簽，再讓網絡預測扭矩與虛擬標簽做均方誤差優化。這種方法直接針對扭矩空間優化，但忽略了扭矩誤差到位置誤差的傳遞關系，無法保證最終關節位置的精準度。

第二種是位置損失：將網絡預測的扭矩輸入仿真器，直接計算仿真輸出的關節位置與真實關節位置的偏差，以位置偏差為損失函數反向更新網絡。團隊從動力學方程中嚴格推導得出，扭矩誤差與位置誤差存在明確的映射關系，位置損失直接優化最終部署的核心指標，避免了扭矩空間優化的間接性缺陷。

在800條真實測試軌跡的驗證中，位置損失訓練的GeAN展現出壓倒性優勢：單步（2毫秒）位置誤差比扭矩損失模型低6%，500步（1秒）長序列滾動誤差低29%，遠超作為基線的無監督執行器網絡（UAN）。UAN將執行器建模轉化為強化學習任務，在肌肉驅動系統中因部分可觀測問題導致優化脆弱，最終誤差是GeAN的數倍，完全無法支撐Sim-to-Real遷移。

為了應對低數據場景下的模型認知不確定性，團隊進一步構建了 5個GeAN組成的集成模型，每個模型采用不同隨機初始化、不同數據排列訓練，在仿真每一步隨機抽取一個模型輸出扭矩。這種設計能有效避免策略過擬合到單一模型的誤差分布，在數據量不足時，顯著提升策略遷移的魯棒性。

03.

全流程Sim-to-Real部署：33分鐘實機數據，純仿真訓練零樣本落地

基于GeAN的肌肉機械臂Sim-to-Real流程，全程分為三個階段，無需實機策略微調，真正實現“訓練在仿真，落地在現實”。

仿真到現實遷移流程總覽。(1) 基于位置損失訓練執行器網絡，使網絡輸出的扭矩能讓仿真關節位置與探索數據相匹配。(2) 在仿真中進行強化學習訓練，由訓練好的執行器網絡將策略輸出的控制信號轉換為扭矩，輸入至包含機械臂與外部物體的扭矩驅動仿真器。(3) 零樣本遷移到真實機器人系統。

第一階段：實機數據采集與GeAN訓練。研究團隊在PAMY2機械臂上采集2500條開環運動軌跡，每條軌跡時長2秒，總數據采集時間約1.4小時。數據僅記錄關節位置與控制信號，通過后向差分、中心差分計算速度與加速度，無需任何扭矩、力傳感器數據。數據集按8:2劃分為訓練集與驗證集，在單張NVIDIA A100 GPU上訓練150輪，僅需25分鐘即可完成GeAN訓練。

四自由度肌肉驅動機器人 PAMY2 （左側）及其仿真模型（右側）

第二階段：仿真環境構建與強化學習策略訓練。將訓練好的GeAN集成到MJX GPU仿真器中，GeAN負責將策略輸出的控制信號轉化為關節扭矩，扭矩輸入標準剛體動力學仿真器，完成機械臂與任務環境的交互模擬。團隊采用PPO算法進行并行強化學習訓練，1024個并行實例同時運行，大幅縮短訓練時間，策略僅在仿真中完成學習，全程不與真實機器人交互。

到達任務可視化示意圖。真實機器人（左側）的運動被同步到 MuJoCo 仿真環境（右側），用以直觀顯示與目標位置的距離。當偏差低于公式所定義的成功閾值時，目標標記會從紅色變為綠色。

第三階段：零樣本實機部署。將仿真訓練完成的策略直接加載到真實PAMY2機械臂，無需任何參數微調、無需實機迭代優化，直接運行任務。

在數據效率的探索中，團隊發現了更具工程價值的結論：將訓練數據削減至1000條軌跡，僅需33分鐘實機采集時間，GeAN的建模精度幾乎沒有下降，對應的策略遷移成功率保持在原有水平；繼續削減數據量，集成GeAN的策略性能下滑幅度，遠低于單一GeAN模型，證明集成結構在低數據場景下的核心價值。這意味著，GeAN能夠以極低的數據成本，完成肌肉驅動機械臂的Sim-to-Real建模，大幅降低工程落地門檻。

04.

雙任務實測驗證：精準到達超90%成功率，杯球任務全球首次突破

研究團隊選擇了精準目標到達與動態杯球兩大任務，從靜態精準度、動態控制能力兩個維度，全面驗證GeAN的Sim-to-Real遷移效果，所有結果均為100次實機 Rollout 的統計值，具備極強的說服力。

精準目標到達任務是檢驗機械臂控制精度的基礎任務，要求機械臂從隨機初始狀態，快速移動至隨機生成的目標關節位置，成功標準為四關節平均位置誤差小于2°。這一任務僅涉及機械臂本體運動，無外部干擾，直接驗證GeAN對執行器動力學的建模精度。

觀測狀態包含當前關節位置、速度、上一時刻控制信號以及目標位置，策略輸出控制信號增量，獎勵函數融合目標距離懲罰、動作平滑懲罰、關節限位懲罰與集成模型分歧懲罰，引導策略快速、平穩地到達目標。

到達任務與杯球任務策略在實體機器人上的成功率（數值越高越好）。所有結果均基于 100 次試驗計算得出。誤差棒表示采用威爾遜區間計算得到的 95% 置信區間。在兩項任務中，使用集成模型與不使用集成模型的配置表現相近。降低動作懲罰項會在一定程度上降低遷移效果。

實機測試結果顯示，集成GeAN策略的成功率達到90% ，最終關節平均誤差僅1.32°；單一GeAN策略成功率93%，平均誤差1.22°，兩者性能幾乎持平。

到達任務中最終關節位置與目標之間的平均絕對偏差（數值越低越好）。誤差棒表示通過自助法計算的、100 次試驗的 95% 置信區間。使用集成模型與不使用集成模型的最終偏差相近，而降低動作懲罰會導致偏差增大。

這一精度在肌肉驅動肌腱傳動機械臂中堪稱突破性成果，徹底打破了“肌肉臂無法精準控制”的行業認知。

而當降低動作平滑懲罰權重后，策略動作變得劇烈，超出GeAN訓練數據分布，仿真與現實偏差放大，成功率下降至70%，平均誤差升至1.94°，也從側面證明了平滑控制對肌肉臂Sim-to-Real的重要性。

動態杯球任務是機器人領域經典的高難度動態任務，要求機械臂通過快速甩動、姿態調整，將繩索懸掛的小球精準甩入末端執行器的杯體中，需要極強的爆發力、精準的時序控制與動態響應能力，是檢驗仿真遷移效果的黃金標準。

這一任務的難度遠高于目標到達：首先，小球與繩索帶來了額外負載與外部受力，而GeAN訓練時從未接觸過這類負載，模型需要具備極強的泛化能力；其次，小球運動存在明顯的動態耦合，仿真與現實的繩索、小球動力學偏差，會直接影響任務成敗；最后，實機中小球的視覺跟蹤存在遮擋、噪聲問題，進一步增加了控制難度。

為了提升策略魯棒性，團隊在仿真中加入小球位置高斯噪聲與隨機丟失模擬，匹配實機的視覺跟蹤誤差。觀測狀態在機械臂狀態基礎上，增加小球位置與速度，獎勵函數以杯球成功為稀疏核心獎勵，配合動作、速度、模型分歧懲罰。

最終，集成GeAN策略在實機上實現75%的成功率，單一GeAN策略成功率74%，完成了全球首次肌肉驅動機械臂杯球任務的Sim-to-Real遷移。失敗案例主要集中在繩索纏繞機械臂、小球入杯后彈出，這兩類問題源于仿真與現實的繩索碰撞、小球接觸動力學偏差，與GeAN的執行器建模無關，通過優化仿真的繩索與杯體物理模型，即可進一步提升成功率。

兩大任務的成功驗證，充分證明GeAN不僅能精準建模肌肉與肌腱的復雜動力學，還具備極強的泛化能力，能夠應對未見過的外部負載與動態干擾，為肌肉驅動機械臂的復雜任務落地奠定了基礎。

05.

結語與未來

此次GeAN的提出，并非一次簡單的算法改進，而是從根源上解決了肌肉驅動機械臂的產業化核心障礙，讓這種安全、柔順、高速的機器人設計，真正具備了走出實驗室、進入真實場景的可能。

論文地址：https://arxiv.org/pdf/2604.09487

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.