如果你只在展會Demo里見過四足機器人的能耐,大概印象還停留在“遙控走路、預設動作”的階段。真正把一只機器狗扔進完全陌生的障礙賽場,不讓人類插手,讓它自己看路、判斷什么時候該跑、什么時候該跳,這件事,產業界目前還極少有機器人能做到。
在底層研究層面,南京大學研究團隊則走了一條更偏“生物啟發”的路徑:不依賴專家操作數據,直接讓機器人從真實狗的運動捕捉數據里學習自然步態。近日,他們在《自然通訊》《Nature Communications》上發表了這項成果。
![]()
基于一套融合“運動本能”與“任務規劃”的整合控制器,一臺宇樹四足機器人Go2僅靠正前方一枚深度相機,就在六類障礙物隨機排列的敏捷賽場上跑出平均1.1米/秒的速度,跨欄時最高沖刺到3.2米/秒,全場自主通關成功率超過78%。
01.
不是步態切換本身有多難,而是“誰來決策”的問題
讓四足機器人在不同地形上切換步態,企業產品早已能夠做到。真正的難點在于:當場地變成完全陌生的隨機障礙組合,沒有人類遙控、沒有預設路線、連全局定位都沒有的時候,機器人能不能自主判斷“前面是跳桿,我得提速,然后在合適時機起跳”?
南京大學團隊給出的答案是兩套協同工作的神經網絡。底層叫基礎行為控制器(BBC),相當于機器人的“小腦”和“脊髓”,負責維持平衡并產生五種基本步態——行走、踱步、小跑、慢跑和跳躍。上層是任務特定控制器(TSC),相當于“大腦”,用深度相機感知環境,自主決定調用哪種步態、給多大的速度指令。
這種架構的靈感來自神經科學:動物運動時,腦干和脊髓負責基礎步態和姿勢反射,大腦皮層和基底神經節則負責整合感官信息、做出行為規劃。論文將這套生物學分工搬到了機器人身上。
02.
從狗的動捕數據里學運動直覺
BBC最獨特的地方在于,它的步態不是工程師手工調參設計出來的,而是從真實狗的運動捕捉數據中“搬”到機器人身上的。研究團隊從公開的狗運動數據中提取了五種步態的骨骼動畫,通過運動重定向技術映射到Go2機器人身上
為了從數據中分離出不同的行為模式,他們設計了一種半監督的生成對抗模仿學習算法,僅用不到5%的標注數據,就訓練出了一個可以通過切換隱變量輸入來改變步態的策略網絡。
一個額外的好處是,除了離散的“步態類型”隱變量,系統還學到了一個連續的“風格”隱變量。調整這個變量,可以在同一種步態下改變小腿關節的擺動幅度等細節,讓動作看起來更接近生物的自然感,而非機械的重復。
這套BBC對速度指令的跟蹤精度也相當可觀:平均線性速度跟蹤誤差僅0.04米/秒,這為上層TSC的精準調度提供了可靠基礎。
03.
純視覺驅動的自主決策
讓機器狗“看懂”障礙場的是TSC。它接收來自Intel RealSense D435i深度相機的畫面,深度值被裁剪在0.3到4米范圍內,以50Hz的頻率刷新,然后輸出當前應該使用的步態類型、目標線速度和角速度等指令。
![]()
訓練TSC采用了一種“特權學習”架構。先讓一個教師策略訪問所有“上帝視角”信息,如精確的地形高程圖、障礙物類型、與下一個導航點的相對偏航角等,輕松學會在隨機場地中高速通行。然后訓練一個學生策略,它只能看到深度圖像和自身關節狀態,被要求模仿教師的行為并預測那些被隱藏的環境信息。
為了讓視覺系統能扛住真實世界里的傳感器噪聲,團隊還在深度編碼器中引入了自監督對比學習目標BYOL,訓練時給圖像隨機加入白噪聲、背景噪聲、高斯模糊等擾動。消融實驗表明,去掉這個模塊,成功率直接大幅下降。
值得注意的是,由于TSC采用門控循環單元(GRU)編碼歷史深度信息,即使下一個障礙還未完整進入當前畫面,機器人也能提前預判并準備切換行為,這在實際測試中表現為連貫、流暢的障礙間過渡。
04.
十分鐘打通虛擬到現實
仿真器中訓練好的策略搬到真實機器人上,往往會因為物理參數不匹配而出問題。傳統做法是手動調參或大范圍隨機化,效率低且難以精調。
團隊采用了一種叫進化對抗仿真器辨識(EASI)的方法來解決這個問題。簡單說,在真實世界和仿真器中各采集一小段運動數據(只需80秒),然后用一個神經網絡判別器猜測每組數據來自哪個世界,同時讓進化策略算法自動調整仿真器的物理參數,變得越來越以假亂真。
整個過程在GPU并行加速下不到10分鐘就能完成。
仿真器參數校準后,BBC在增強仿真器中微調約4000步(約兩小時),即可直接部署到真實機器人上,幾乎沒有性能損失。聯合頻譜和軌跡對比顯示,優化后的仿真器與真實世界的動力學特性高度吻合。
05.
看得見的敏捷
最終的系統在多項測試中交出了扎實的成績單。
在六類障礙物(A字板、跳桿、繞桿、蹺蹺板、輪胎跳、隧道)隨機排列的7×10米場地上,500次隨機測試中機器人跑出平均1.1米/秒的速度,平均完成時間24秒,成功率超過78%。
![]()
對比實驗中,傳統MPC控制器和缺少自然步態的基線方法無法順利通過跳桿等障礙;人類操作員手動遙控BBC,也因反應跟不上實時變化而難以完賽。
在跨欄專項測試中,四個跳桿隨機間隔2.5至3.5米放置,全程約15米。機器人自主從慢跑過渡到跳躍姿態,最高速度達到3.2米/秒,跳躍時身體高度可達0.54米。接觸序列記錄顯示,起跳時機和空中姿態都呈現出接近生物的運動特征。
![]()
各種單障礙測試中,本文方法對各類障礙幾乎達到100%成功率,且速度優于對照組。
06.
未來與結語
這項工作的核心貢獻不在于證明四足機器人能跑步,這件事產業界已經做到了。它的價值在于驗證了一條技術路徑:用模仿學習從動物數據中提取可端到端切換的自然步態庫,配合純視覺的自主環境理解,在隨機障礙場景中實現完整的感知-決策-運動閉環。
當然,這套系統也有明確的局限。任務特定控制器對障礙物幾何形狀的泛化能力有限,當障礙明顯超出訓練分布,比如更換了尺寸不同的障礙物,成功率會下降。
論文在補充材料中也展示了,對于遠超機器人跳躍能力的高箱,純粹的跳躍策略不再夠用,需要額外的“編輯策略”學習攀爬行為。
![]()
但無論如何,這項研究向動物級敏捷這個長期目標邁出了堅實一步。當機器人的步態不再來自工程手冊,而是來自對自然運動的模仿,它們的動作就會更流暢、更高效,也更接近我們期待中那種自然而然的靈動。
論文鏈接:https://www.nature.com/articles/s41467-026-72475-9
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.