蛇形機器人的運動方式迎來了一次全新突破。
日本大阪公立大學的研究團隊讓蛇形機器人學會了一項新技能——滾動前進。這不是簡單的翻滾,而是讓機器人變形成輪胎狀,通過移動重心讓重力驅動滾動。
更關鍵的是,他們用深度強化學習(Deep Reinforcement Learning)訓練出的控制器,讓機器人滾出了幾乎直線軌跡。
實驗數據顯示,與傳統方法相比,新方法在多個指標上都實現了大幅提升:軌跡曲率半徑提升66倍(從0.89米提升到58.75米),旅行效率達到0.43,是傳統蜿蜒運動的2-10倍,速度達到0.207 m/s,約為另一種先進步態的2倍。
![]()
這項研究已發表在機器人領域權威期刊《Robotics and Autonomous Systems》上。
01.
為什么要讓蛇形機器人"滾"起來?
傳統蛇形機器人主要依靠蜿蜒爬行前進,這種運動方式看起來很酷,但存在一個重要問題:能耗太高。
為了產生S形波動,機器人需要同時驅動十幾個伺服電機,每個都要輸出大扭矩來對抗地面摩擦力。對于依靠電池供電的機器人來說,這簡直是超級能耗負擔。
研究團隊另辟蹊徑,提出了一種基于重心轉移(COG shift)的滾動運動方法。具體來說,機器人首尾相連形成環形結構,然后通過移動頭部或尾部關節來改變重心位置。當重心偏離支撐點后,重力產生的力矩就能驅動滾動。
這相當于讓重力來"打工",大幅降低了能耗需求。在平坦地面上,這種滾動運動的能效是傳統蜿蜒運動的2-10倍。而且,這種平行雙輪形態比單環形狀提供了更好的穩定性。
![]()
不過,早期的設計存在一個關鍵問題。
團隊在2023年就提出了這個想法,并用試錯法和遺傳算法設計了控制器。但由于只依靠加速度計反饋滾動角度,無法保持直線行駛。當路面條件發生變化時,機器人容易偏離預定軌跡。
02.
強化學習讓機器人學會"走直線"
為了解決直線性問題,研究團隊引入了深度強化學習來設計控制器。
他們采用了Soft Actor-Critic (SAC)算法,這是一種離線策略的深度強化學習算法。通過在仿真環境中進行訓練,讓機器人學會如何利用陀螺儀和加速度計的反饋信息來維持直線運動。
關鍵創新在于引入了觀測緩沖區(observation buffer)機制。
由于伺服電機存在驅動角度范圍和角速度限制,而滾動運動是通過可動連桿變形和地面反作用力產生的,系統存在從動作變化到運動生成的時間延遲。這會嚴重影響強化學習的收斂性。
為此,團隊提出了帶有時間積分動作的觀測緩沖區結構,有效改善了在關節角速度約束下的學習收斂性。觀測值包括:
- 經過低通濾波的加速度和角速度
- 目標關節角度
- 歷史觀測值緩沖
![]()
訓練時還引入了設計的獎勵函數。除了基本的滾動速度獎勵,還加入了轉向懲罰項,用于鼓勵機器人保持直線前進:
當檢測到偏航角速度增大時,獎勵值會相應降低。這讓強化學習策略學會了利用陀螺儀反饋來修正行進方向。
實驗結果證明了這種方法的有效性。在不同的觀測緩沖區大小下,緩沖區越大,獎勵收斂速度越快,行駛速度也越高。當緩沖區大小為Nd=20、Nskip=2時,機器人達到了最佳性能。
![]()
03.
實驗驗證:能效和直線度雙雙大幅提升
研究團隊在真實環境中進行了大量實驗驗證。
在光滑地板上的測試中,強化學習設計的滾動運動實現了45.59米的曲率半徑,遠超試錯法的1.74米和優化算法的2.62米。即使在有防水罩的情況下,曲率半徑仍達到23.90米。
從運動軌跡對比可以看出,試錯法設計的運動會產生明顯的偏航,優化算法稍有改善但仍有曲線,而強化學習方法實現了近乎直線運動。
![]()
能效方面的提升同樣顯著。實驗測得:
- 滾動運動功耗僅27W,而傳統側向蜿蜒需要54.9W
- 行駛效率η達到0.43,是側向蜿蜒(0.24)的近2倍
- 速度達到0.207 m/s,與傳統方法相當但能耗降低一半
特別值得一提的是,強化學習方法不再嚴格區分踢腿階段、重心轉移階段和自由滾動階段,而是實現了連續平滑的運動控制。從關節角度變化曲線可以看出,運動模式呈現三角波形,這是由于伺服電機最大角速度約束自然形成的。
![]()
這種方法的另一個優勢是魯棒性強。即使實驗模型由于關節負載導致形狀偏離理想圓形,速度低于仿真結果,但基于IMU傳感器反饋的策略仍能在適當時機驅動關節,保證機器人持續前進。
當然,這種滾動運動也有局限性。在草地等復雜地形上無法實現滾動,此時仍需切換到傳統的蜿蜒運動模式。但在平坦地面上,滾動模式讓蛇形機器人的續航能力大幅提升,有效緩解了電池容量限制。
![]()
研究團隊表示,這種基于強化學習的控制框架考慮了關節角速度約束,對于采用高減速比伺服電機的四足機器人等系統也有潛在應用價值。未來他們將繼續研究如何在輕微起伏的地形上實現滾動運動,并探索通過切換運動模式來實現轉向控制。
這項研究展示了深度強化學習在機器人運動控制中的巨大潛力,為蛇形機器人在實際應用中的能效優化提供了新思路。
論文鏈接:
https://www.sciencedirect.com/science/article/pii/S0921889026000436?via%3Dihub
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.