<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      具身智能:形態(tài)、行動(dòng)、感知與學(xué)習(xí)的協(xié)同作用

      0
      分享至

      Embodied Intelligence: A Synergy of Morphology,Action, Perception and Learning

      具身智能:形態(tài)、行動(dòng)、感知與學(xué)習(xí)的協(xié)同作用

      https://dl.acm.org/doi/pdf/10.1145/3717059



      具身智能強(qiáng)調(diào)智能受到大腦、身體與環(huán)境緊密耦合的影響。它通過(guò)信息感知和與環(huán)境的物理交互過(guò)程持續(xù)且動(dòng)態(tài)地生成。在過(guò)去的幾年中,具身智能的研究范圍也在不斷擴(kuò)大,并受到了來(lái)自不同領(lǐng)域的廣泛關(guān)注。與此同時(shí),大量與具身智能相關(guān)的研究成果被提出,尤其是在最近幾年。在本文中,我們從具身智能是形態(tài)、行動(dòng)、感知與學(xué)習(xí)四者協(xié)同作用的視角出發(fā),對(duì)其進(jìn)行了全面綜述,并對(duì)現(xiàn)有研究進(jìn)行了系統(tǒng)的總結(jié)與分類(lèi)。具體而言,由于具身智能是所有這些組成部分協(xié)同作用的結(jié)果,而非各自獨(dú)立發(fā)揮作用,我們主要關(guān)注形態(tài)、行動(dòng)、感知與學(xué)習(xí)這四個(gè)組成部分之間的關(guān)聯(lián),并指出未來(lái)研究可以從它們的內(nèi)在聯(lián)系中獲益的領(lǐng)域。

      CCS概念:? 計(jì)算機(jī)系統(tǒng)組織 → 機(jī)器人自主性;
      附加關(guān)鍵詞與短語(yǔ):具身智能,形態(tài),行動(dòng),感知,學(xué)習(xí)

      1 引言

      具身智能是一種計(jì)算方法,用于通過(guò)考慮智能體與其環(huán)境之間的嚴(yán)格耦合(這種耦合受到智能體自身身體、感知與運(yùn)動(dòng)系統(tǒng)以及大腦的限制的調(diào)節(jié)),來(lái)設(shè)計(jì)和理解具身且處于情境中的智能體的智能行為[23]。具身智能強(qiáng)調(diào)智能受到大腦、身體與環(huán)境緊密耦合的影響。它通過(guò)信息感知和與環(huán)境的物理交互過(guò)程持續(xù)且動(dòng)態(tài)地生成。具身智能是生物體在復(fù)雜環(huán)境中生存的基礎(chǔ),廣泛存在于植物、動(dòng)物及其他生物有機(jī)體中。Held 和 Hein [70] 通過(guò)著名的“小貓實(shí)驗(yàn)”驗(yàn)證了視覺(jué)、發(fā)育與運(yùn)動(dòng)之間的關(guān)系。在該實(shí)驗(yàn)中,兩只新生小貓被放在同一個(gè)房間里。一只可以主動(dòng)自由移動(dòng),另一只則通過(guò)特殊設(shè)計(jì)的裝置被動(dòng)地執(zhí)行相同的運(yùn)動(dòng)。盡管兩只小貓接收到相同的視覺(jué)刺激,但一段時(shí)間后觀察到,主動(dòng)小貓發(fā)育出了正常的感官-運(yùn)動(dòng)系統(tǒng),而被動(dòng)小貓則表現(xiàn)出嚴(yán)重的感官-運(yùn)動(dòng)障礙。該實(shí)驗(yàn)有力地證明了具身學(xué)習(xí)的重要性。

      在本文中,我們討論具身人工智能,這并非一個(gè)新概念。早在 20 世紀(jì) 50 年代,艾倫·圖靈就指出,構(gòu)建智能機(jī)器的一種方法是賦予它感知世界的能力,并讓它自行發(fā)展[184]。在經(jīng)典的人工智能書(shū)籍和教科書(shū)中,智能體的定義是通過(guò)傳感器感知環(huán)境,并通過(guò)執(zhí)行器作用于該環(huán)境[159]。因此,身體-環(huán)境交互一直是研究、模擬和擴(kuò)展智能的重要途徑。當(dāng)前,由大數(shù)據(jù)、深度學(xué)習(xí)及圖形處理器支持的人工智能技術(shù)在視覺(jué)感知、語(yǔ)言處理和語(yǔ)音處理等領(lǐng)域取得了前所未有的成功。然而,更側(cè)重于動(dòng)作執(zhí)行的機(jī)器人領(lǐng)域尚未取得同樣成功的成果。此外,即使在前述取得巨大成功的領(lǐng)域中,大多也是在受限環(huán)境的假設(shè)下實(shí)現(xiàn)的。一旦面向開(kāi)放環(huán)境,當(dāng)前的人工智能技術(shù)仍面臨巨大挑戰(zhàn)。造成這一問(wèn)題的核心原因在于,我們更多地關(guān)注了智能體的感知和學(xué)習(xí)能力,而未充分挖掘其動(dòng)作和行為能力。具身人工智能的提出正是為了強(qiáng)調(diào)身體的作用,特別是其對(duì)智能行為的影響。相反,忽略身體影響的智能技術(shù)被稱(chēng)為離身智能。需要注意的是,在離身智能研究中,動(dòng)作并非完全被忽略,但通常更側(cè)重于模擬大腦活動(dòng)以做出決策并實(shí)現(xiàn)動(dòng)作,例如下棋和玩電腦游戲。此外,在離身智能研究中身體也并非完全被忽略,但身體通常僅被用來(lái)被動(dòng)執(zhí)行指令。

      在過(guò)去的幾年中,出現(xiàn)了一些從不同角度探討具身智能的教程和綜述論文。我們?cè)诖诉M(jìn)行簡(jiǎn)要分析并闡明本文的動(dòng)機(jī)。參考文獻(xiàn)[153]最初揭示了一個(gè)事實(shí),即更高層次的認(rèn)知和智能行為需要從自下而上的方式來(lái)理解,并建立了一個(gè)具身智能架構(gòu)。自此,具身智能引起了越來(lái)越多的關(guān)注。尤其是在最近幾年,具身智能在機(jī)器人學(xué)、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)等領(lǐng)域變得相當(dāng)熱門(mén)。當(dāng)前的綜述論文主要分為兩類(lèi)。第一類(lèi)緊密沿襲參考文獻(xiàn)[152, 153]的研究路線。參考文獻(xiàn)[79]從時(shí)間尺度的角度對(duì)具身智能進(jìn)行了綜述,并討論了在復(fù)雜的自主與自適應(yīng)系統(tǒng)中交互如何起作用。參考文獻(xiàn)[173]討論了編碼在身體中的物理智能。然而,具身智能關(guān)注的是智能體的身體、大腦與環(huán)境之間的緊密耦合。需要指出的是,物理智能也支持利用身體產(chǎn)生動(dòng)作、進(jìn)行感知和學(xué)習(xí),但它并未考慮其與大腦及環(huán)境的關(guān)系。第二類(lèi)綜述更關(guān)注與機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)及基礎(chǔ)模型高度相關(guān)的最新進(jìn)展,其中總結(jié)了一些更具體的研究課題,如視覺(jué)語(yǔ)言導(dǎo)航、基礎(chǔ)模型及模擬器[47, 53, 122]。參考文獻(xiàn)[116]對(duì)具身人工智能進(jìn)行了較為全面的綜述,但忽略了形態(tài)與動(dòng)作之間的聯(lián)系。與上述兩類(lèi)不同,參考文獻(xiàn)[157]系統(tǒng)討論了具身智能的歸納偏置,分析了形態(tài)、表示與學(xué)習(xí)的作用,并描述了智能體與環(huán)境之間的能量交換。然而,參考文獻(xiàn)[157]的目標(biāo)是強(qiáng)調(diào)具身智能中的挑戰(zhàn)與機(jī)遇,并提出可能顯著推動(dòng)機(jī)器人學(xué)習(xí)領(lǐng)域當(dāng)前技術(shù)發(fā)展水平的研究方向。在本文中,我們將具身智能視為形態(tài)、行動(dòng)、感知與學(xué)習(xí)的協(xié)同作用,并對(duì)現(xiàn)有研究進(jìn)行了全面綜述與分類(lèi)。我們主要關(guān)注形態(tài)、行動(dòng)、感知與學(xué)習(xí)這四個(gè)組成部分之間的聯(lián)系,并基于身體、大腦與環(huán)境的緊密耦合,提供了一個(gè)統(tǒng)一的具身智能框架。

      本文組織如下:第2節(jié)簡(jiǎn)要介紹發(fā)展歷史;第3節(jié)聚焦于所提出的具身智能架構(gòu);第4節(jié)介紹一些研究前沿;第5節(jié)給出結(jié)論。

      2 漫長(zhǎng)的過(guò)去與短暫的歷史

      具身智能擁有漫長(zhǎng)的過(guò)去,卻只有短暫的歷史。亞里士多德、查爾斯·達(dá)爾文、莫里斯·梅洛-龐蒂、克洛德·貝爾納、沃爾特·坎農(nóng)、馬丁·海德格爾、諾伯特·維納、讓·皮亞杰、詹姆斯·吉布森等人的一系列工作,為具身智能在哲學(xué)、生理學(xué)、心理學(xué)和認(rèn)知科學(xué)領(lǐng)域的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。當(dāng)前最具代表性的觀點(diǎn)是:大腦在具身智能中發(fā)揮著重要作用,但它并非認(rèn)知的起源。由于感知與行動(dòng)之間存在一個(gè)動(dòng)態(tài)循環(huán),感知與認(rèn)知通過(guò)身體-環(huán)境交互建立起一種相互依存的關(guān)系。因此,感知-行動(dòng)循環(huán)實(shí)際上是認(rèn)知的核心。這一框架模糊了感知與認(rèn)知之間的界限。這與參考文獻(xiàn)[8]中所提到的內(nèi)容是一致的:一旦我們開(kāi)始探究動(dòng)物在實(shí)際世界中所使用的機(jī)制,就很難判斷感知在哪里結(jié)束,認(rèn)知又從哪里開(kāi)始。

      然而,現(xiàn)代人工智能起源于1950年代的達(dá)特茅斯會(huì)議,此后相當(dāng)長(zhǎng)一段時(shí)期內(nèi),人工智能研究主要局限于符號(hào)處理范式(亦稱(chēng)符號(hào)主義)。這種方法在實(shí)際應(yīng)用中的局限性很快顯現(xiàn)出來(lái),從而催生了聯(lián)結(jié)主義的發(fā)展。聯(lián)結(jié)主義包括多層感知機(jī)、前饋神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò),以及當(dāng)前在學(xué)術(shù)界和工業(yè)界廣泛流行的深度神經(jīng)網(wǎng)絡(luò)方法。這種利用神經(jīng)網(wǎng)絡(luò)模擬認(rèn)知科學(xué)的方法在適應(yīng)性、泛化性和學(xué)習(xí)等方面確實(shí)取得了巨大進(jìn)展,但并未解決智能體與真實(shí)物理世界交互中的挑戰(zhàn)性問(wèn)題,并且在可解釋性等方面也表現(xiàn)出很大的局限性。

      事實(shí)上,符號(hào)主義和聯(lián)結(jié)主義的根本問(wèn)題在于它們忽視了與物理世界的交互。莫拉維克悖論最初于20世紀(jì)80年代提出,該悖論指出:計(jì)算機(jī)像成年人一樣下棋相對(duì)容易,但要像一歲兒童一樣具備感知和行動(dòng)能力卻相當(dāng)困難甚至不可能。有趣的是,當(dāng)我們審視當(dāng)今人工智能蓬勃發(fā)展的成就時(shí),確實(shí)仍然難以找到解決這一問(wèn)題的根本性突破。羅德尼·布魯克斯曾提出,智能需要身體,強(qiáng)調(diào)智能是具身的且與環(huán)境密切相關(guān)。這一觀點(diǎn)推動(dòng)了以具身人工智能為代表的行為主義的誕生。需要注意的是,本文所指的“EAI”是利用人工智能方法對(duì)具身智能進(jìn)行的模擬,它不同于生物體固有的具身智能。本文聚焦于具身人工智能。除非另有說(shuō)明,本文后續(xù)內(nèi)容中提到的“具身智能”和“離身智能”分別指代“具身人工智能”和“離身人工智能”。

      具身智能與離身智能并非相互排斥。在符號(hào)主義、聯(lián)結(jié)主義和行為主義中都可以找到具身智能和離身智能的影子,只是各有側(cè)重。它們也共享相同的目標(biāo),包括理解生物系統(tǒng)、模仿智能行為以及設(shè)計(jì)人工智能體。在大數(shù)據(jù)、深度學(xué)習(xí)及圖形處理器的驅(qū)動(dòng)下,離身智能在以互聯(lián)網(wǎng)信息處理為代表的領(lǐng)域取得了巨大成功,而與機(jī)制和材料高度相關(guān)的具身智能則已成為智能機(jī)器人的核心基礎(chǔ)。

      在探索智能的過(guò)程中,具身智能與離身智能應(yīng)當(dāng)相互補(bǔ)充、協(xié)同發(fā)展,共同促進(jìn)對(duì)智能的理解、模擬與擴(kuò)展。具身智能與離身智能的緊密結(jié)合,是實(shí)現(xiàn)通用人工智能的必要條件。

      3 具身智能架構(gòu)

      在本節(jié)中,我們構(gòu)建了一個(gè)統(tǒng)一的具身智能框架,該框架由形態(tài)、行動(dòng)、感知和學(xué)習(xí)四個(gè)模塊組成(圖1)。由于具身智能是所有這些模塊協(xié)同作用的結(jié)果,我們更多地關(guān)注它們之間的連接(圖1中的連線),而非模塊本身。為此,本節(jié)將介紹與圖1中連線相對(duì)應(yīng)的八個(gè)子節(jié)。由于圖1中的連線8?(從學(xué)習(xí)到行動(dòng))實(shí)際上是許多現(xiàn)有研究的基礎(chǔ),我們首先介紹它,然后再依次介紹其他連線。


      3.1 基于學(xué)習(xí)的行動(dòng)生成(L → A)

      本子節(jié)對(duì)應(yīng)于圖1中從學(xué)習(xí)到行動(dòng)的連線8?,聚焦于利用機(jī)器學(xué)習(xí)方法生成行動(dòng)。實(shí)際上,行動(dòng)生成問(wèn)題在經(jīng)典控制理論和現(xiàn)代控制理論中已有數(shù)百年的廣泛研究。在經(jīng)典控制領(lǐng)域,應(yīng)用最廣泛的PID控制器通過(guò)調(diào)節(jié)比例項(xiàng)、積分項(xiàng)和微分項(xiàng)這三個(gè)參數(shù)來(lái)工作,相當(dāng)方便且有效。然而,參數(shù)調(diào)整需要豐富的工程經(jīng)驗(yàn),這限制了此類(lèi)方法在更復(fù)雜場(chǎng)景中的應(yīng)用。隨后,在20世紀(jì)50年代,基于狀態(tài)空間模型的現(xiàn)代控制理論得以建立。這類(lèi)方法高度依賴白箱模型來(lái)獲取控制器參數(shù),并能夠完成完整的穩(wěn)定性分析。然而,對(duì)于復(fù)雜的機(jī)器人和過(guò)程控制系統(tǒng),難以獲得精確的模型,數(shù)學(xué)計(jì)算與實(shí)際應(yīng)用之間始終存在較大差距。所有這些局限性促使人們考慮引入人工智能技術(shù)來(lái)開(kāi)發(fā)新的智能控制方法,其中強(qiáng)化學(xué)習(xí)方法變得越來(lái)越受歡迎。

      強(qiáng)化學(xué)習(xí)的基本思想應(yīng)歸功于20世紀(jì)50年代由理查德·貝爾曼建立的馬爾可夫決策過(guò)程[9],智能體基于當(dāng)前狀態(tài)選擇最優(yōu)行動(dòng)。在此基礎(chǔ)上,克里斯·沃特金斯于1989年提出的Q-learning算法[196]為強(qiáng)化學(xué)習(xí)奠定了基礎(chǔ)。然而,強(qiáng)化學(xué)習(xí)也存在收斂困難、泛化能力差等局限性。隨著深度學(xué)習(xí)的發(fā)展,深度Q網(wǎng)絡(luò)[127]將卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力與強(qiáng)化學(xué)習(xí)的行動(dòng)學(xué)習(xí)能力無(wú)縫結(jié)合,在人機(jī)棋類(lèi)對(duì)弈中取得了巨大成功,再次激發(fā)了強(qiáng)化學(xué)習(xí)領(lǐng)域的新一輪研究熱潮。近期研究表明,強(qiáng)化學(xué)習(xí)也廣泛應(yīng)用于生物智能[134]。

      目前,強(qiáng)化學(xué)習(xí)方法已成為具身智能的重要方法。需要注意的是,強(qiáng)化學(xué)習(xí)算法的設(shè)計(jì)是機(jī)器學(xué)習(xí)領(lǐng)域關(guān)注的問(wèn)題[187]。我們可以直接使用現(xiàn)成的強(qiáng)化學(xué)習(xí)算法,如PPO [167]和SAC [66],這些算法被最廣泛地用于為智能體生成行動(dòng)。需要做的是確定狀態(tài)空間、行動(dòng)空間和獎(jiǎng)勵(lì)函數(shù),這些都與具體任務(wù)密切相關(guān)。從這個(gè)意義上說(shuō),L → A是圖1中其他連線的基礎(chǔ)。

      3.2 基于形態(tài)的行動(dòng)生成(M → A)

      本子節(jié)對(duì)應(yīng)于圖1中從形態(tài)到行動(dòng)的連線1?,強(qiáng)調(diào)形態(tài)計(jì)算。通過(guò)形態(tài)計(jì)算,在與環(huán)境交互時(shí),原本需要由大腦完成的部分計(jì)算可以卸載到身體上。身體被用來(lái)提高計(jì)算效率并進(jìn)一步控制自身的行為。這種現(xiàn)象在日常生活中相當(dāng)普遍。例如,一個(gè)人可以輕松地抓取一個(gè)物體,而無(wú)需仔細(xì)計(jì)算運(yùn)動(dòng)軌跡和接觸力。近年來(lái),隨著機(jī)構(gòu)學(xué)、軟體機(jī)器人等領(lǐng)域的發(fā)展,形態(tài)計(jì)算正迎來(lái)新的機(jī)遇[72, 138],并在Sim2Real遷移和低功耗計(jì)算方面已經(jīng)展現(xiàn)出巨大優(yōu)勢(shì)[23]。

      3.2.1 典型示例。利用形態(tài)計(jì)算實(shí)現(xiàn)對(duì)更復(fù)雜行為控制的一個(gè)典型例子是20世紀(jì)90年代研發(fā)的被動(dòng)行走機(jī)器人(圖2)[37, 125]。通過(guò)設(shè)計(jì)特殊的形態(tài)結(jié)構(gòu),該機(jī)器人無(wú)需主動(dòng)控制輸入即可在緩坡上實(shí)現(xiàn)穩(wěn)定的步態(tài)。這項(xiàng)工作摒棄了動(dòng)力學(xué)建模與控制中對(duì)機(jī)器人關(guān)節(jié)控制的嚴(yán)格要求,使機(jī)器人能夠完全依賴自身的形態(tài)來(lái)控制其行為。


      近年來(lái),更多新穎的形態(tài)結(jié)構(gòu)不斷涌現(xiàn)。參考文獻(xiàn)[52]探索了利用形態(tài)計(jì)算實(shí)現(xiàn)四足機(jī)器人快速奔跑的方法。參考文獻(xiàn)[103]利用動(dòng)態(tài)形態(tài)計(jì)算為蛇形機(jī)器人生成周期性步態(tài)。參考文獻(xiàn)[10]從自然系統(tǒng)和人工系統(tǒng)中的顯示、感知和交互等方面闡述了形態(tài)計(jì)算在觸覺(jué)感知中的應(yīng)用。受沙漠蝗蟲(chóng)的啟發(fā),參考文獻(xiàn)[201]研究了動(dòng)物腿部適應(yīng)不同地面的控制方法,并在玻璃、砂巖、木材和網(wǎng)格等表面上進(jìn)行了機(jī)器人動(dòng)態(tài)粘附實(shí)驗(yàn)。

      然而,由于增加機(jī)器人系統(tǒng)的形態(tài)計(jì)算可能會(huì)降低總體能量需求和控制器的復(fù)雜度,因此建立了一個(gè)能量視角,將機(jī)器人表征為機(jī)器與其環(huán)境之間為實(shí)現(xiàn)特定目標(biāo)集而進(jìn)行的能量與信息交換[95]。這反過(guò)來(lái)促使我們開(kāi)發(fā)用于能量收集及其他益處的形態(tài)計(jì)算。例如,參考文獻(xiàn)[59]評(píng)估了跳躍運(yùn)動(dòng)中肌肉的形態(tài)計(jì)算,參考文獻(xiàn)[92]利用機(jī)器人自適應(yīng)形態(tài)、控制及后續(xù)行為之間的相互聯(lián)系,驗(yàn)證了大腦與身體之間的緊密耦合可以通過(guò)能量收集來(lái)提高能效[170],這一點(diǎn)值得進(jìn)一步研究。

      總體而言,該領(lǐng)域的研究工作主要與機(jī)構(gòu)設(shè)計(jì)密切相關(guān),且大多涉及人工干預(yù)。參考文獻(xiàn)[54]從可編程動(dòng)態(tài)系統(tǒng)的角度提出了形態(tài)計(jì)算的形式化分析方法,并指出形態(tài)計(jì)算不僅適用于機(jī)器人,還可以廣泛應(yīng)用于化學(xué)系統(tǒng)、統(tǒng)計(jì)物理等科學(xué)領(lǐng)域。然而,目前仍缺乏從人工智能技術(shù)角度對(duì)形態(tài)計(jì)算進(jìn)行系統(tǒng)性的指導(dǎo)。由于形態(tài)計(jì)算的巨大潛力,許多學(xué)者一直在積極探索該領(lǐng)域。盡管形態(tài)計(jì)算的完整理論模型尚未建立,但已經(jīng)出現(xiàn)了兩類(lèi)相對(duì)成熟的方法:儲(chǔ)層計(jì)算和信息論。

      3.2.2 用于形態(tài)計(jì)算的物理儲(chǔ)層計(jì)算。儲(chǔ)層計(jì)算是形態(tài)計(jì)算中最常用的方法[81],屬于動(dòng)態(tài)系統(tǒng)分析方法。在儲(chǔ)層計(jì)算模型中,物理形態(tài)被視為一個(gè)物理儲(chǔ)層計(jì)算設(shè)備[131]。儲(chǔ)層計(jì)算模型的計(jì)算機(jī)制是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中中間層的參數(shù)隨機(jī)固定,僅需訓(xùn)練輸出層的參數(shù)。因此,由于只需解決一個(gè)線性優(yōu)化問(wèn)題,網(wǎng)絡(luò)訓(xùn)練變得非常方便。由于儲(chǔ)層計(jì)算具有強(qiáng)大的動(dòng)態(tài)系統(tǒng)描述能力,它已成為分析形態(tài)計(jì)算的有力工具。

      然而,由于儲(chǔ)層內(nèi)部參數(shù)不需要顯式學(xué)習(xí),因此可以利用物理身體的動(dòng)力學(xué)來(lái)實(shí)現(xiàn)儲(chǔ)層計(jì)算。參考文獻(xiàn)[68]利用質(zhì)量-彈簧系統(tǒng)構(gòu)建了一個(gè)儲(chǔ)層計(jì)算模型,并詳細(xì)分析了其動(dòng)態(tài)特性,為形態(tài)計(jì)算提供了一個(gè)通用的儲(chǔ)層計(jì)算模型(圖3(a))。因此,后續(xù)工作主要是構(gòu)建不同的物理儲(chǔ)層計(jì)算模型來(lái)實(shí)現(xiàn)形態(tài)計(jì)算。從這個(gè)意義上說(shuō),對(duì)儲(chǔ)層計(jì)算模型的研究可以有效指導(dǎo)形態(tài)計(jì)算設(shè)備的設(shè)計(jì)。一個(gè)典型的例子是,如果前述質(zhì)量改為剛性桿,就可以形成張拉整體結(jié)構(gòu)(見(jiàn)圖3(b))。這是一種由受拉構(gòu)件連接剛性元件的穩(wěn)定結(jié)構(gòu)。參考文獻(xiàn)[148]使用四個(gè)執(zhí)行器控制一個(gè)具有24個(gè)自由度的張拉整體機(jī)器人,展示了張拉整體的計(jì)算能力。最近,參考文獻(xiàn)[149]提出了一個(gè)用于張拉整體機(jī)器人力學(xué)建模與控制的統(tǒng)一框架。


      在四足機(jī)器人步態(tài)控制任務(wù)中(圖4(a)),研究者發(fā)現(xiàn)直接使用傳統(tǒng)儲(chǔ)層計(jì)算模型中的簡(jiǎn)單線性層難以實(shí)現(xiàn)復(fù)雜的形態(tài)控制,因此引入了非線性層以進(jìn)一步提升儲(chǔ)層計(jì)算模型的性能[42]。參考文獻(xiàn)[74]驗(yàn)證了仿生魚(yú)機(jī)器人系統(tǒng)也滿足儲(chǔ)層計(jì)算模型中的回聲狀態(tài)特性,并且利用魚(yú)形機(jī)器人的游動(dòng)動(dòng)作可以顯著提升其形態(tài)計(jì)算能力(見(jiàn)圖4(b))。參考文獻(xiàn)[12]指出,折紙結(jié)構(gòu)也能具備足夠的動(dòng)態(tài)性能,從而擁有足夠的形態(tài)計(jì)算能力來(lái)模擬高階非線性系統(tǒng),并以此實(shí)現(xiàn)了一種新穎的機(jī)器人爬行策略(見(jiàn)圖4(c))。此外,參考文獻(xiàn)[130]利用儲(chǔ)層計(jì)算模擬了人類(lèi)皮膚的形態(tài)計(jì)算能力,參考文獻(xiàn)[182]則利用機(jī)器人的自然動(dòng)力學(xué)來(lái)識(shí)別風(fēng)向。近年來(lái),儲(chǔ)層計(jì)算,特別是物理儲(chǔ)層計(jì)算發(fā)展迅速,其通過(guò)物理設(shè)備實(shí)現(xiàn)儲(chǔ)層計(jì)算,與具身形態(tài)計(jì)算高度相關(guān)。參考文獻(xiàn)[131]對(duì)物理儲(chǔ)層計(jì)算的最新進(jìn)展進(jìn)行了詳細(xì)綜述。除了物理儲(chǔ)層計(jì)算之外,當(dāng)前利用各種物理形態(tài)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法也引起了不同領(lǐng)域研究者的極大關(guān)注。

      此外,軟體機(jī)器人近年來(lái)受到越來(lái)越多的關(guān)注,并取得了巨大進(jìn)展。與剛性機(jī)器人相比,軟體機(jī)器人在可變形性、靈活性、安全性等方面具有更好的特性,更適合在復(fù)雜路面上驅(qū)動(dòng)以及操縱未知物體[89]。需要指出的是,由于軟體機(jī)器人身體動(dòng)力學(xué)復(fù)雜,其控制非常具有挑戰(zhàn)性,但從具身形態(tài)計(jì)算的角度來(lái)看,這種復(fù)雜的動(dòng)力學(xué)反而是一種有價(jià)值的計(jì)算資源[109],因此軟體機(jī)器人成為儲(chǔ)層計(jì)算的理想工具。受章魚(yú)的啟發(fā),參考文獻(xiàn)[132]將章魚(yú)臂用作儲(chǔ)層計(jì)算設(shè)備,通過(guò)從其物理身體讀取線性和靜態(tài)輸出,能夠模擬復(fù)雜的非線性行為,并且無(wú)需外部控制器,通過(guò)收斂到極限環(huán)即可實(shí)現(xiàn)閉環(huán)控制?;谶@項(xiàng)工作,參考文獻(xiàn)[133]展示了這類(lèi)軟體機(jī)器人對(duì)非線性連續(xù)函數(shù)的逼近和控制能力。參考文獻(xiàn)[90]進(jìn)一步利用這一機(jī)制實(shí)現(xiàn)了水中的物體定位(圖5)。此外,參考文獻(xiàn)[48]用軟體手?jǐn)U展了具身形態(tài)計(jì)算的范圍,并開(kāi)發(fā)了一種用于氣動(dòng)驅(qū)動(dòng)軟體手的儲(chǔ)層模型。參考文獻(xiàn)[208]指出,軟體材料長(zhǎng)時(shí)間浸泡在水中后產(chǎn)生的褶皺有助于實(shí)現(xiàn)某些計(jì)算任務(wù),并將其應(yīng)用于主動(dòng)觸覺(jué)感知。參考文獻(xiàn)[137]利用軟體觸須傳感器進(jìn)行形態(tài)計(jì)算,實(shí)現(xiàn)了主動(dòng)距離估計(jì)。參考文獻(xiàn)[46]研究了調(diào)節(jié)軟體硅膠夾持器阻尼特性的方法,實(shí)現(xiàn)了動(dòng)態(tài)形態(tài)計(jì)算。可以看出,軟體機(jī)器人作為一種非常有前途的機(jī)器人形態(tài),已成為具身形態(tài)計(jì)算的重要發(fā)展方向。相信軟體機(jī)器人的發(fā)展必將推動(dòng)新一輪具身形態(tài)計(jì)算的熱潮。


      3.2.3 形態(tài)計(jì)算的信息論方法。盡管基于動(dòng)態(tài)系統(tǒng)的方法,特別是儲(chǔ)層計(jì)算模型,已經(jīng)取得了巨大成功,但這類(lèi)方法主要旨在定性模擬具身形態(tài)計(jì)算,缺乏定量評(píng)估能力,這限制了對(duì)形態(tài)計(jì)算機(jī)制的進(jìn)一步深入分析,而信息論方法在這方面具有明顯優(yōu)勢(shì)。實(shí)際上,評(píng)估形態(tài)計(jì)算系統(tǒng)性能最重要的事情是分析原本應(yīng)由“大腦”承擔(dān)的計(jì)算中有多少被卸載到了“身體”。受此想法的啟發(fā),參考文獻(xiàn)[58]指出,對(duì)形態(tài)計(jì)算進(jìn)行定量分析需要建立一個(gè)包含大腦、執(zhí)行器、傳感器和環(huán)境的認(rèn)知系統(tǒng)因果模型。

      此外,一些工作從分析控制復(fù)雜度的角度來(lái)評(píng)估形態(tài)智能。例如,參考文獻(xiàn)[158]利用概率最優(yōu)控制方法,通過(guò)優(yōu)化控制器復(fù)雜度來(lái)分析機(jī)器人的形態(tài)能夠承擔(dān)多少計(jì)算工作。參考文獻(xiàn)[38]比較了不同形態(tài)對(duì)應(yīng)的控制器的熵,以分析形態(tài)如何影響行為。參考文獻(xiàn)[150]研究了在微觀尺度上使用熵來(lái)表征機(jī)器人具身性的方法。“廉價(jià)控制”也為形態(tài)智能提供了另一種途徑,即系統(tǒng)必須充分利用具身智能的作用來(lái)追求廉價(jià)控制。參考文獻(xiàn)[155]進(jìn)一步將此思想引入強(qiáng)化學(xué)習(xí),建立了一個(gè)鼓勵(lì)形態(tài)計(jì)算的新的優(yōu)化目標(biāo)。與參考文獻(xiàn)[58]的框架相比,這些工作通過(guò)間接分析控制器的復(fù)雜度來(lái)分析形態(tài)的作用。最近,參考文獻(xiàn)[49]指出,簡(jiǎn)單性通常是在逐個(gè)行動(dòng)的基礎(chǔ)上量化的,通過(guò)約束狀態(tài)與行動(dòng)之間的互信息可以獲得簡(jiǎn)單行動(dòng),這滿足了策略的復(fù)雜度要求。需要注意的是,這些定量分析工作大多是與實(shí)際物理形態(tài)無(wú)關(guān)的理論研究。如何結(jié)合具體的物理形態(tài)實(shí)現(xiàn)對(duì)形態(tài)計(jì)算的定量分析,仍然存在巨大挑戰(zhàn)。

      3.2.4 小結(jié)。總的來(lái)說(shuō),該領(lǐng)域的研究工作主要探討如何將“大腦”負(fù)責(zé)的計(jì)算任務(wù)卸載到“身體”,以及如何準(zhǔn)確評(píng)估“身體”所承擔(dān)的形態(tài)計(jì)算。這是一個(gè)融合了機(jī)構(gòu)學(xué)、材料學(xué)和控制技術(shù)的新型交叉學(xué)科方向。除了人工設(shè)計(jì)形態(tài)結(jié)構(gòu)之外,形態(tài)計(jì)算的理論也取得了長(zhǎng)足的進(jìn)步,包括儲(chǔ)層計(jì)算模型和信息論分析方法。高維機(jī)器人控制領(lǐng)域中常見(jiàn)的“維度災(zāi)難”問(wèn)題,有望通過(guò)形態(tài)帶來(lái)的優(yōu)勢(shì)得到有效克服,我們也將此稱(chēng)為“形態(tài)的祝?!薄?/p>

      3.3 基于行動(dòng)的形態(tài)控制(A → M)

      本子節(jié)對(duì)應(yīng)于圖1中從行動(dòng)到形態(tài)的連線2?。形態(tài)結(jié)構(gòu)被用來(lái)簡(jiǎn)化對(duì)特定行動(dòng)的控制。對(duì)于具身智能體而言,無(wú)論其形態(tài)多么復(fù)雜,都具有某種“結(jié)構(gòu)性”特征。這種結(jié)構(gòu)信息有助于減小行動(dòng)生成的優(yōu)化空間,保證解的可行性和可解釋性。

      在為具有復(fù)雜形態(tài)的智能體設(shè)計(jì)控制器時(shí),傳統(tǒng)的強(qiáng)化學(xué)習(xí)并未利用智能體的形態(tài)特征,而僅僅是將來(lái)自智能體不同部位的觀測(cè)簡(jiǎn)單拼接起來(lái),并直接輸出所有控制變量。這導(dǎo)致控制變量的搜索空間很大,并且學(xué)習(xí)到的控制變量難以在不同形態(tài)之間遷移?;谛袆?dòng)的形態(tài)控制的主要任務(wù)是如何有效地將形態(tài)信息整合到行動(dòng)控制器的學(xué)習(xí)過(guò)程中。最直接的想法是對(duì)智能體的形態(tài)信息進(jìn)行編碼以解決形態(tài)控制問(wèn)題。參考文獻(xiàn)[31]提出了顯式編碼和隱式編碼兩種方法。對(duì)于顯式編碼,不同關(guān)節(jié)的相對(duì)位姿被拼接成一個(gè)向量,這有助于對(duì)機(jī)器人的運(yùn)動(dòng)學(xué)結(jié)構(gòu)進(jìn)行建模。這種編碼方法利用了一些先驗(yàn)信息,但僅限于簡(jiǎn)單的拼接操作,僅適用于某些機(jī)械臂,而不適用于更復(fù)雜的形態(tài)。對(duì)于隱式編碼,形態(tài)的編碼是在迭代優(yōu)化學(xué)習(xí)策略的過(guò)程中進(jìn)行優(yōu)化的,這意味著算法不僅搜索從狀態(tài)到行動(dòng)的最優(yōu)映射,同時(shí)還發(fā)現(xiàn)形態(tài)的最優(yōu)編碼。盡管該方法在具有不同自由度的同類(lèi)型機(jī)械臂之間的遷移能力上表現(xiàn)出良好性能,但它給優(yōu)化帶來(lái)了新的困難,并且機(jī)器人的先驗(yàn)形態(tài)信息沒(méi)有得到充分利用。

      目前,更先進(jìn)的技術(shù),如圖神經(jīng)網(wǎng)絡(luò)和Transformer [185],被廣泛用于高效地表示形態(tài)信息,并直接用于提高強(qiáng)化學(xué)習(xí)的效率。更重要的是,直接考慮形態(tài)信息的控制器在跨平臺(tái)遷移中表現(xiàn)出良好的性能,并且在控制新型具身智能體時(shí)具有顯著優(yōu)勢(shì)。

      3.3.1 用于形態(tài)控制的圖神經(jīng)網(wǎng)絡(luò)。在強(qiáng)化學(xué)習(xí)領(lǐng)域,許多工作引入圖結(jié)構(gòu)來(lái)提高學(xué)習(xí)效率。但其中大多數(shù)僅限于使用圖結(jié)構(gòu)來(lái)描述智能體所處的環(huán)境,而非智能體自身的形態(tài)結(jié)構(gòu)[161, 169]。參考文獻(xiàn)[192]建立了一種基本的形態(tài)圖模型方法,其中節(jié)點(diǎn)代表不同的關(guān)節(jié),邊代表關(guān)節(jié)之間的依賴關(guān)系。利用該圖模型,可以直接使用圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制來(lái)處理各個(gè)關(guān)節(jié)之間的關(guān)系。在每個(gè)學(xué)習(xí)迭代中,每個(gè)節(jié)點(diǎn)可以將其狀態(tài)信息分發(fā)給相鄰節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)綜合其他節(jié)點(diǎn)發(fā)送的狀態(tài)信息來(lái)更新自身狀態(tài)。通過(guò)這種方式,形態(tài)信息被有效地納入學(xué)習(xí)過(guò)程中,有助于控制器更快地學(xué)習(xí)。在此基礎(chǔ)上,參考文獻(xiàn)[16]引入了參數(shù)凍結(jié)技術(shù)來(lái)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò),以解決高維連續(xù)控制問(wèn)題。盡管參考文獻(xiàn)[192]提出的方法有效利用了形態(tài)信息,但需要為圖結(jié)構(gòu)中對(duì)應(yīng)于智能體不同部分的不同節(jié)點(diǎn)設(shè)計(jì)不同的策略。參考文獻(xiàn)[78]提出了一種使用圖結(jié)構(gòu)針對(duì)不同形態(tài)智能體的統(tǒng)一控制策略。其核心思想是將智能體的形態(tài)分解為不同的獨(dú)立模塊,但其實(shí)質(zhì)仍然依賴于相鄰節(jié)點(diǎn)的消息來(lái)影響策略。這樣,可以為不同模塊獨(dú)立設(shè)計(jì)控制策略,并針對(duì)不同形態(tài)實(shí)現(xiàn)統(tǒng)一的控制器。這也為控制器設(shè)計(jì)的預(yù)訓(xùn)練模型提供了啟示。最近,參考文獻(xiàn)[199]使用圖神經(jīng)網(wǎng)絡(luò)來(lái)描述智能體各模塊之間的結(jié)構(gòu)信息,指出結(jié)構(gòu)相似的模塊可以共享控制策略。通過(guò)將此結(jié)構(gòu)信息融入基于模型的強(qiáng)化學(xué)習(xí)中,顯著縮小了搜索空間,并在物理實(shí)驗(yàn)中驗(yàn)證了結(jié)果(圖6)。


      總的來(lái)說(shuō),使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行形態(tài)控制的初衷在于:形態(tài)信息能夠產(chǎn)生有利于學(xué)習(xí)控制器的歸納偏置。然而,目前能夠處理的機(jī)器人的自由度和類(lèi)型仍然相對(duì)有限。需要進(jìn)一步的研究來(lái)適應(yīng)形態(tài)差異顯著的情況下的高效遷移。一般而言,對(duì)于形態(tài)結(jié)構(gòu)簡(jiǎn)單的智能體,不同的形態(tài)描述方法之間差異不大。對(duì)于形態(tài)復(fù)雜的智能體,圖結(jié)構(gòu)方法相比簡(jiǎn)單形態(tài)的方法表現(xiàn)出更優(yōu)越的性能。在實(shí)際使用中,需要利用圖模型準(zhǔn)確捕捉智能體的形態(tài)特征。

      3.3.2 用于形態(tài)控制的Transformer。盡管圖模型在形態(tài)控制中發(fā)揮著積極作用,但機(jī)器人的形態(tài)通常是一種稀疏圖結(jié)構(gòu),經(jīng)過(guò)多輪消息傳遞后關(guān)鍵信息可能會(huì)消失,這就是所謂的“過(guò)度平滑”問(wèn)題。近年來(lái),Transformer作為一種基于自注意力機(jī)制的模型受到了廣泛關(guān)注[185]。如果將注意力設(shè)計(jì)為“邊到頂點(diǎn)”的聚合單元,Transformer可以被視為全連接圖上的圖神經(jīng)網(wǎng)絡(luò)。參考文獻(xiàn)[101]直接使用Transformer實(shí)現(xiàn)不同組件之間的消息傳遞,而編碼器和解碼器可以分別作用于不同的組件。盡管這種方法展示了Transformer的潛力,但它忽略了機(jī)器人真實(shí)的物理形態(tài)。參考文獻(xiàn)[73]進(jìn)一步揭示了節(jié)點(diǎn)位置信息對(duì)自注意力機(jī)制的作用,并將形態(tài)信息嵌入到Transformer模型中,用于異構(gòu)形態(tài)的聯(lián)合策略學(xué)習(xí)。它克服了傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)中稀疏結(jié)構(gòu)導(dǎo)致的過(guò)度平滑問(wèn)題。此外,針對(duì)大規(guī)模機(jī)器人形態(tài)控制問(wèn)題,參考文獻(xiàn)[62]將機(jī)器人形態(tài)作為T(mén)ransformer的輸入,通過(guò)構(gòu)建“Metamorph”來(lái)學(xué)習(xí)通用策略,以同時(shí)控制大量不同的機(jī)器人,為具身形態(tài)學(xué)習(xí)的大規(guī)模預(yù)訓(xùn)練模型奠定了基礎(chǔ)(圖7)。


      3.3.3 形態(tài)遷移。對(duì)于不同形態(tài)之間的形態(tài)控制遷移,由于圖神經(jīng)網(wǎng)絡(luò)及類(lèi)似方法直接描述了形態(tài)的特征,因此在形態(tài)相似的智能體之間觀察到了良好的遷移性能。然而,當(dāng)形態(tài)差異較大時(shí),遷移性能會(huì)下降,因?yàn)椴煌螒B(tài)之間對(duì)應(yīng)的狀態(tài)空間和行動(dòng)空間存在顯著差異。

      為此,參考文獻(xiàn)[69]提出了一種對(duì)策略進(jìn)行分層解耦的方法,其中僅遷移高層策略,而低層策略仍獨(dú)立學(xué)習(xí)。由于高層策略與低層策略之間存在耦合,如果不同形態(tài)智能體的低層策略差異顯著,高層策略的遷移也難以成功。因此,引入互信息來(lái)最小化形態(tài)與低層行動(dòng)之間的差異,從而實(shí)現(xiàn)不同智能體低層策略的對(duì)齊??傮w而言,當(dāng)前大多數(shù)工作仍處于仿真階段,如何在真實(shí)機(jī)器人(尤其是仿生機(jī)器人和人形機(jī)器人)上實(shí)現(xiàn)這些方法,仍然是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

      3.3.4 小結(jié)。由于高維度、非線性和強(qiáng)耦合等因素,使用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)對(duì)復(fù)雜智能體的形態(tài)控制極具挑戰(zhàn)性。然而,形態(tài)信息提供了非常重要且有用的先驗(yàn)信息,能夠顯著約束搜索空間。因此,以適當(dāng)?shù)姆绞綄⑿螒B(tài)信息引入學(xué)習(xí)算法中,以提高控制器的學(xué)習(xí)效率,并在將控制策略遷移到其他未知形態(tài)時(shí)保證性能,這一點(diǎn)至關(guān)重要,這也體現(xiàn)了“形態(tài)的祝福”。當(dāng)前,圖神經(jīng)網(wǎng)絡(luò)和Transformer是用于描述形態(tài)結(jié)構(gòu)的代表性方法。這些工作仍然主要在仿真環(huán)境中進(jìn)行,所學(xué)策略在遷移到物理系統(tǒng)時(shí)會(huì)遇到許多困難。盡管為不同機(jī)器人設(shè)計(jì)統(tǒng)一的形態(tài)控制器非常有吸引力,但仍存在諸多困難。受近年來(lái)自然語(yǔ)言和計(jì)算機(jī)視覺(jué)等領(lǐng)域預(yù)訓(xùn)練模型的啟發(fā),針對(duì)不同形態(tài)的統(tǒng)一預(yù)訓(xùn)練大模型也是未來(lái)的一個(gè)重要研究方向。

      3.4 感知驅(qū)動(dòng)的形態(tài)變換(P → M)

      本子節(jié)對(duì)應(yīng)于圖1中從感知到形態(tài)的連線3?,其中智能體根據(jù)環(huán)境感知信息在線變換形態(tài)。形態(tài)變換在我們的生活中相當(dāng)常見(jiàn)。例如,當(dāng)人們?cè)诒嫔峡焖倩袝r(shí),會(huì)本能地降低身體以保持平衡;鳥(niǎo)類(lèi)受驚后會(huì)快速扇動(dòng)翅膀飛走。這種形態(tài)變換在機(jī)器人領(lǐng)域也經(jīng)常出現(xiàn),特別是對(duì)于兩棲機(jī)器人和可變形機(jī)器人而言,它們能夠通過(guò)適應(yīng)環(huán)境和任務(wù),在感知驅(qū)動(dòng)下改變自身的身體結(jié)構(gòu)或參數(shù)。由于在線形態(tài)變換與感知信息相耦合,因此需要較高的實(shí)時(shí)性。最近,參考文獻(xiàn)[171]報(bào)道了一種多模態(tài)移動(dòng)機(jī)器人,它通過(guò)改變附屬部件來(lái)增強(qiáng)其運(yùn)動(dòng)能力(圖8(a))。在變換其輪子、腿和螺旋槳之后,它可以切換為無(wú)人地面車(chē)輛、移動(dòng)倒立擺、無(wú)人機(jī)系統(tǒng)等。它依靠形態(tài)變換在不同地形間穿行。此外,參考文獻(xiàn)[140]提出的四足機(jī)器人可以在不同地面上行走時(shí)動(dòng)態(tài)調(diào)整腿長(zhǎng)以適應(yīng)不同地形(見(jiàn)圖8(b))。另一個(gè)典型例子是參考文獻(xiàn)[177]報(bào)道的兩棲飛行-驅(qū)動(dòng)車(chē)輛。參考文獻(xiàn)[94]提出了一種變色龍軟體機(jī)器人,可以模仿變色龍根據(jù)環(huán)境改變自身顏色。參考文獻(xiàn)[202]利用熱、化學(xué)或電刺激持續(xù)驅(qū)動(dòng)液態(tài)金屬液滴運(yùn)動(dòng),并使輪式機(jī)器人改變重心以產(chǎn)生滾動(dòng)力矩。


      3.4.1 小結(jié)。感知驅(qū)動(dòng)的形態(tài)變換與硬件高度相關(guān)。盡管有許多相關(guān)的工作,但仍然缺乏標(biāo)準(zhǔn)化的設(shè)計(jì)原則。此外,由于形態(tài)變換高度依賴于材料和機(jī)構(gòu)領(lǐng)域,其實(shí)際實(shí)現(xiàn)仍然面臨巨大挑戰(zhàn)。

      3.5 學(xué)習(xí)驅(qū)動(dòng)的形態(tài)優(yōu)化(L → M)

      本子節(jié)對(duì)應(yīng)于圖1中從學(xué)習(xí)到形態(tài)的連線4?,聚焦于利用學(xué)習(xí)技術(shù)實(shí)現(xiàn)形態(tài)優(yōu)化。在生物學(xué)中,形態(tài)優(yōu)化現(xiàn)象很常見(jiàn)。生物體的形態(tài)在進(jìn)化過(guò)程中被優(yōu)化以適應(yīng)環(huán)境。例如,四肢是從魚(yú)鰭進(jìn)化而來(lái)的,在形態(tài)進(jìn)化趨于穩(wěn)定之后,學(xué)習(xí)到了更好的直立行走行為。此外,形態(tài)參數(shù)還可以通過(guò)后天運(yùn)動(dòng)進(jìn)一步優(yōu)化。受此啟發(fā),我們可以通過(guò)協(xié)同優(yōu)化來(lái)搜索更適用于控制策略學(xué)習(xí)的形態(tài)。對(duì)具身智能體的形態(tài)和控制策略進(jìn)行聯(lián)合優(yōu)化,有助于更高效地完成任務(wù)。如圖9所示,智能體在學(xué)習(xí)跨越障礙物行走的同時(shí),其腿部形態(tài)也得到了優(yōu)化。


      參考文獻(xiàn)[135]指出,人類(lèi)更擅長(zhǎng)設(shè)計(jì)物理系統(tǒng)而非智能控制系統(tǒng)。基于學(xué)習(xí)的大腦-身體協(xié)同進(jìn)化思想在具身智能領(lǐng)域早期就受到了廣泛關(guān)注[151],有時(shí)也被稱(chēng)為發(fā)育機(jī)器人和人工生命等。參考文獻(xiàn)[172]首次使用進(jìn)化學(xué)習(xí)框架在仿真中實(shí)現(xiàn)了形態(tài)與控制器的協(xié)同優(yōu)化。一個(gè)3D剛體機(jī)器人被表示為有向圖基因型,并使用圖上的進(jìn)化算法來(lái)優(yōu)化機(jī)器人的形態(tài)。這些工作受到了廣泛關(guān)注,因?yàn)樗鼈冇兄谠O(shè)計(jì)出更好適應(yīng)環(huán)境和任務(wù)的機(jī)器人形態(tài)[4, 19, 76, 107, 119, 124, 174]。參考文獻(xiàn)[5]指出,形態(tài)與控制的協(xié)同進(jìn)化類(lèi)似于大腦-身體的協(xié)同作用,但忽略了環(huán)境的影響。該研究驗(yàn)證了環(huán)境復(fù)雜性對(duì)形態(tài)復(fù)雜性的影響。盡管自本世紀(jì)初以來(lái),形態(tài)與控制的協(xié)同優(yōu)化已經(jīng)取得了一些進(jìn)展,但優(yōu)化過(guò)程受限于軟件和硬件仿真條件,并未取得重大突破。在過(guò)去十年中,隨著制造技術(shù)、圖形仿真與渲染技術(shù)以及計(jì)算技術(shù)的快速發(fā)展,形態(tài)與控制協(xié)同優(yōu)化方法取得了巨大成就。

      目前,該領(lǐng)域的工作主要包括形態(tài)參數(shù)和結(jié)構(gòu)的優(yōu)化,使用的方法主要包括強(qiáng)化學(xué)習(xí)[63, 65]和遺傳優(yōu)化[71]。近年來(lái),也有僅使用強(qiáng)化學(xué)習(xí)同時(shí)優(yōu)化結(jié)構(gòu)和參數(shù)的工作。該領(lǐng)域需要解決的問(wèn)題不僅包括形態(tài)的高效表示,還包括算法的高效優(yōu)化。

      3.5.1 進(jìn)化強(qiáng)化學(xué)習(xí)方法。早期的形態(tài)與控制協(xié)同優(yōu)化問(wèn)題主要基于進(jìn)化搜索方法,其中進(jìn)化搜索空間很大(包括形態(tài)參數(shù)和控制器參數(shù)的搜索)。近年來(lái),該領(lǐng)域的工作主要集中在針對(duì)特定任務(wù)需求的不同編碼方法的研究上[34, 97, 142]。盡管形態(tài)和控制應(yīng)該聯(lián)合優(yōu)化,但它們實(shí)際上是在不同的尺度上優(yōu)化的。以生物為例,形態(tài)的變化更像是一個(gè)進(jìn)化過(guò)程,而控制器的設(shè)計(jì)在給定特定形態(tài)后更像是一個(gè)后天學(xué)習(xí)過(guò)程。因此,一個(gè)很自然的想法是使用進(jìn)化優(yōu)化方法來(lái)優(yōu)化形態(tài)結(jié)構(gòu)和參數(shù),并使用強(qiáng)化學(xué)習(xí)方法來(lái)實(shí)現(xiàn)控制器參數(shù)的優(yōu)化?;趨⒖嘉墨I(xiàn)[192]提出的圖神經(jīng)網(wǎng)絡(luò)控制器,參考文獻(xiàn)[193]將機(jī)器人形態(tài)設(shè)計(jì)描述為一個(gè)圖搜索問(wèn)題。它引入了物種的概念,并設(shè)計(jì)了添加和刪除節(jié)點(diǎn)的突變操作,從而在圖結(jié)構(gòu)上實(shí)現(xiàn)進(jìn)化搜索。為了使用圖神經(jīng)網(wǎng)絡(luò)作為控制器,參數(shù)可以在控制器之間共享,從而大大減少了控制器的學(xué)習(xí)時(shí)間。參考文獻(xiàn)[63]開(kāi)發(fā)了一個(gè)進(jìn)化環(huán)境和一個(gè)稱(chēng)為“深度進(jìn)化強(qiáng)化學(xué)習(xí)”的計(jì)算框架,用于探索具身智能與環(huán)境之間的關(guān)系。該論文還通過(guò)形態(tài)進(jìn)化學(xué)習(xí)機(jī)制驗(yàn)證了進(jìn)化生物學(xué)中的“鮑德溫效應(yīng)”,即生物體習(xí)得的行為會(huì)影響物種的進(jìn)化。這種方法相當(dāng)高效,因?yàn)檫M(jìn)化算法本質(zhì)上等價(jià)于零階優(yōu)化。

      3.5.2 直接強(qiáng)化學(xué)習(xí)方法。隨著強(qiáng)化學(xué)習(xí)的快速發(fā)展,一些工作嘗試直接使用強(qiáng)化學(xué)習(xí)來(lái)協(xié)同優(yōu)化形態(tài)和控制[65]。參考文獻(xiàn)[165]使用PPO聯(lián)合計(jì)算形態(tài)參數(shù)和控制參數(shù)(圖10)。這對(duì)于學(xué)習(xí)來(lái)說(shuō)是困難的,因?yàn)樾螒B(tài)搜索空間很大,并且形態(tài)與控制相互耦合。為此,作者通過(guò)僅優(yōu)化指定機(jī)器人組件的參數(shù)(而非機(jī)器人的結(jié)構(gòu))來(lái)限制形態(tài)搜索空間。在此基礎(chǔ)上,參考文獻(xiàn)[164]使用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了腿式軟體機(jī)器人的形態(tài)搜索和控制策略學(xué)習(xí),并進(jìn)一步實(shí)現(xiàn)了從仿真到真實(shí)的遷移。針對(duì)自組裝智能體,參考文獻(xiàn)[146]將形態(tài)和控制統(tǒng)一在行動(dòng)空間中。形態(tài)搜索和控制設(shè)計(jì)被描述為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,并設(shè)計(jì)了相應(yīng)的動(dòng)態(tài)圖網(wǎng)絡(luò)控制器,使其形態(tài)與機(jī)器人形態(tài)對(duì)齊。參考文獻(xiàn)[65]使用強(qiáng)化學(xué)習(xí)聯(lián)合學(xué)習(xí)形態(tài)和控制策略以跨越障礙物行走。參考文獻(xiàn)[214]在學(xué)習(xí)過(guò)程中將形態(tài)變換和控制優(yōu)化分為兩個(gè)階段,并使用策略梯度方法聯(lián)合優(yōu)化形態(tài)和控制行動(dòng)。最近,參考文獻(xiàn)[117, 118]將圖神經(jīng)網(wǎng)絡(luò)引入形態(tài)與控制協(xié)同優(yōu)化的強(qiáng)化學(xué)習(xí)框架中,為形態(tài)學(xué)習(xí)中的仿真到真實(shí)遷移提供了一條可行途徑。


      3.5.3 物理實(shí)現(xiàn)。盡管形態(tài)與控制協(xié)同優(yōu)化的學(xué)習(xí)過(guò)程通常在仿真環(huán)境中進(jìn)行,但人們一直試圖在物理世界中實(shí)現(xiàn)學(xué)習(xí)到的形態(tài)。早在2000年,參考文獻(xiàn)[107]就使用3D打印技術(shù)實(shí)現(xiàn)了進(jìn)化得到的形態(tài)。然而,人們也發(fā)現(xiàn)仿真環(huán)境與物理環(huán)境之間存在巨大差異。在仿真中表現(xiàn)良好的形態(tài),在物理制造出來(lái)后無(wú)法達(dá)到預(yù)期的性能[75]。為了解決這個(gè)問(wèn)題,參考文獻(xiàn)[18]提出了一種連續(xù)形態(tài)建模方法。參考文獻(xiàn)[96]研究了如何將仿真到真實(shí)的遷移效果也納入優(yōu)化過(guò)程中。參考文獻(xiàn)[156]進(jìn)一步針對(duì)撲翼研究了這種仿真與真實(shí)的差異與形態(tài)復(fù)雜度之間的關(guān)系,結(jié)果表明仿真到真實(shí)的差距實(shí)際上是非單調(diào)的。對(duì)于不同類(lèi)型的機(jī)器人,一些工作首先在仿真中進(jìn)行形態(tài)進(jìn)化,然后利用遷移技術(shù)在物理機(jī)器人上實(shí)現(xiàn)它們。例如,關(guān)于腿式機(jī)器人[141, 160]、軟體機(jī)器人[98]和模塊化機(jī)器人[6]的工作主要遵循仿真到真實(shí)的遷移途徑。隨著機(jī)器人組件種類(lèi)日益豐富和成本降低,直接在物理系統(tǒng)中優(yōu)化智能體形態(tài)成為可能。參考文獻(xiàn)[20]使用機(jī)械臂操作不同的立方體模塊,通過(guò)對(duì)模塊進(jìn)行編碼并對(duì)組裝后形態(tài)的性能進(jìn)行物理評(píng)估,實(shí)現(xiàn)了進(jìn)化優(yōu)化(圖11)。最近,參考文獻(xiàn)[139]設(shè)計(jì)了一種四足機(jī)器人,其股骨和脛骨上安裝了線性執(zhí)行器,允許改變腿長(zhǎng)。基于這些優(yōu)化,獲得了一種直接進(jìn)行物理形態(tài)進(jìn)化的學(xué)習(xí)方法,并在不同地形上進(jìn)行了實(shí)驗(yàn)??傮w而言,直接應(yīng)用于物理系統(tǒng)的形態(tài)優(yōu)化研究仍處于起步階段,可優(yōu)化的參數(shù)非常有限。到目前為止,形態(tài)優(yōu)化已相對(duì)成功地應(yīng)用于軟體機(jī)器人和機(jī)器人手的結(jié)構(gòu)設(shè)計(jì)中。


      過(guò)去幾年,機(jī)器人形態(tài)進(jìn)化的進(jìn)展相對(duì)緩慢。一個(gè)重要的原因是人們只關(guān)注了剛性元件的有限組合。針對(duì)這個(gè)問(wèn)題,參考文獻(xiàn)[71]利用遺傳算法實(shí)現(xiàn)了包含多種材料屬性的體素化軟體機(jī)器人的形態(tài)優(yōu)化。參考文獻(xiàn)[34]研究了不同材料的體素模型形態(tài),這些材料大致模擬了骨骼、組織、肌肉等。參考文獻(xiàn)[33]進(jìn)一步將控制系統(tǒng)嵌入到機(jī)器人形態(tài)的物理仿真中,提出了所謂的“進(jìn)化電生理軟體機(jī)器人”。最近,參考文獻(xiàn)[97]使用直接編碼方法實(shí)現(xiàn)了3D體素軟體機(jī)器人的形態(tài)進(jìn)化,并將其應(yīng)用于生物體實(shí)現(xiàn)(圖12)。由于3D體素軟體機(jī)器人的形態(tài)優(yōu)化、控制和制造都非常困難,一些工作開(kāi)始轉(zhuǎn)向2D體素軟體機(jī)器人的進(jìn)化學(xué)習(xí)[126]。參考文獻(xiàn)[88]研究了軟體機(jī)器人中的“變態(tài)”現(xiàn)象。這些工作大多主要考慮形態(tài)進(jìn)化本身,較少考慮環(huán)境交互過(guò)程中的控制優(yōu)化。為此,參考文獻(xiàn)[11]提出將進(jìn)化優(yōu)化與強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合,實(shí)現(xiàn)軟體機(jī)器人形態(tài)與控制的協(xié)同設(shè)計(jì)。針對(duì)基于2D體素的軟體機(jī)器人,開(kāi)發(fā)了一個(gè)Evolution Gym環(huán)境(圖13)。Evolution Gym中的機(jī)器人由許多“細(xì)胞”作為基本單元組成,包括軟細(xì)胞、剛性細(xì)胞和能夠主動(dòng)收縮或擴(kuò)張的執(zhí)行器細(xì)胞。這使得機(jī)器人可以在形狀上自由進(jìn)化,最終完成在不同地形上移動(dòng)和操縱物體等一系列任務(wù)。


      另一個(gè)典型的形態(tài)與控制協(xié)同優(yōu)化應(yīng)用是機(jī)器人手形態(tài)優(yōu)化。優(yōu)化后的形態(tài)應(yīng)該能夠適應(yīng)需要操縱和抓取的物體。參考文獻(xiàn)[1]應(yīng)用進(jìn)化策略來(lái)優(yōu)化機(jī)器人夾持器的形態(tài),并引入圖元網(wǎng)絡(luò)來(lái)提高搜索效率。此外,還實(shí)現(xiàn)了對(duì)定制化兩指夾持器形態(tài)的微調(diào)。針對(duì)強(qiáng)力抓取、捏取抓取和側(cè)向抓取,參考文獻(xiàn)[144]將手的形態(tài)和控制參數(shù)投影到共同的潛在空間中,并提出了一種貝葉斯優(yōu)化算法來(lái)搜索最佳的手部形態(tài)(圖14)。最近,參考文獻(xiàn)[206]從計(jì)算機(jī)圖形學(xué)的角度,基于籠狀變形模型設(shè)計(jì)了一種通用的形態(tài)表示方法。這種方法的優(yōu)點(diǎn)在于可以用更少的參數(shù)描述豐富的形態(tài)。通過(guò)將該模型與可微分模擬器相結(jié)合,形成了一種端到端的學(xué)習(xí)方法。


      3.5.4 小結(jié)。當(dāng)前大多數(shù)研究工作都在仿真環(huán)境中得到驗(yàn)證。如何將仿真器中的形態(tài)進(jìn)化結(jié)果遷移到物理系統(tǒng),或者直接在物理系統(tǒng)中進(jìn)行進(jìn)化,是一個(gè)值得進(jìn)一步探討的前沿研究方向。此外,值得注意的是,在機(jī)械領(lǐng)域已經(jīng)有許多成熟的形態(tài)設(shè)計(jì)方法。如何將這些經(jīng)驗(yàn)性信息,以及相關(guān)的物理約束和外部知識(shí),與數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法相結(jié)合,以協(xié)同優(yōu)化形態(tài)和控制,將是提高學(xué)習(xí)效率的有效工具。

      3.6 感知驅(qū)動(dòng)的行動(dòng)生成(P → A)

      本子節(jié)對(duì)應(yīng)于圖1中從感知到行動(dòng)的連線5?。環(huán)境感知信息被用來(lái)引導(dǎo)智能體生成行動(dòng),以實(shí)時(shí)與環(huán)境交互。這種范式在眾多機(jī)器人任務(wù)中最為常見(jiàn)。例如,在自動(dòng)駕駛領(lǐng)域,視覺(jué)感知及其他感知方式被用于自主導(dǎo)航。許多機(jī)器人操作任務(wù)也借助視覺(jué)感知來(lái)生成抓取合成。當(dāng)前大多數(shù)機(jī)器感知研究也屬于這一類(lèi)別。

      3.6.1 傳統(tǒng)視覺(jué)操作與導(dǎo)航。在過(guò)去的幾十年中,傳感器和感知算法發(fā)展迅速。許多最新的硬件和算法已被集成到機(jī)器人平臺(tái)中。典型的常用傳感器包括Kinect、RealSense和事件相機(jī)等。此外,用于目標(biāo)檢測(cè)、識(shí)別、分割和跟蹤等傳統(tǒng)任務(wù)的計(jì)算機(jī)視覺(jué)算法[211, 226]在深度學(xué)習(xí)時(shí)代得到了進(jìn)一步發(fā)展。在此背景下,感知-行動(dòng)任務(wù)得到了極大發(fā)展,其中機(jī)器人操作和視覺(jué)導(dǎo)航是兩個(gè)代表性任務(wù)。

      對(duì)于機(jī)器人操作任務(wù),早期工作主要屬于分析方法[13]的范疇,即使用接觸模型來(lái)計(jì)算合適的接觸力和扭矩。然而,分析方法需要對(duì)象的完整知識(shí),而這在僅有部分且?guī)в性肼暤母兄畔⒌那闆r下很難獲得。隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域的巨大成功,越來(lái)越多的數(shù)據(jù)驅(qū)動(dòng)方法被提出用于機(jī)器人操作[136]。此外,端到端方法(即單個(gè)網(wǎng)絡(luò)直接從視覺(jué)輸入回歸出行動(dòng))變得越來(lái)越普遍。在視覺(jué)導(dǎo)航任務(wù)中,智能體需要規(guī)劃一條合理的路徑到達(dá)目的地。借助視覺(jué)同時(shí)定位與建圖(SLAM),智能體能夠很好地感知和理解其周?chē)h(huán)境[22]。近年來(lái),更先進(jìn)的SLAM算法,如度量-語(yǔ)義SLAM [166]和動(dòng)態(tài)SLAM [195],已被提出用于處理動(dòng)態(tài)環(huán)境。傳統(tǒng)的機(jī)器人視覺(jué)導(dǎo)航通常遵循全局路徑規(guī)劃結(jié)合局部運(yùn)動(dòng)控制的多階段范式,這需要大量的先驗(yàn)知識(shí)和工程設(shè)計(jì)工作。與機(jī)器人操作類(lèi)似,越來(lái)越多的端到端學(xué)習(xí)方法被提出,直接將視覺(jué)輸入映射為運(yùn)動(dòng)指令[205]。毫無(wú)疑問(wèn),感知驅(qū)動(dòng)的行動(dòng)生成在機(jī)器人領(lǐng)域中極為常見(jiàn)。我們僅關(guān)注兩個(gè)重要的新興方向——多模態(tài)融合和語(yǔ)言引導(dǎo)——這兩個(gè)方向也可以結(jié)合成一個(gè)統(tǒng)一的、以語(yǔ)言為條件的多模態(tài)感知驅(qū)動(dòng)行動(dòng)生成框架(圖15)[204]。

      3.6.2 多模態(tài)感知驅(qū)動(dòng)的導(dǎo)航與操作。多模態(tài)感知被廣泛用于導(dǎo)航。一般來(lái)說(shuō),視覺(jué)和深度信息對(duì)于移動(dòng)機(jī)器人是必需的。Kinect、RealSense、超聲波和激光雷達(dá)常用于室內(nèi)和室外場(chǎng)景[50]。一系列多模態(tài)數(shù)據(jù)集已為研究和工業(yè)目的而開(kāi)發(fā)[56, 217]。最近,其他感知模態(tài),如4D毫米波雷達(dá),在一些極端天氣條件下展現(xiàn)了潛在應(yīng)用價(jià)值[191]。此外,多模態(tài)感知對(duì)于某些單感知模態(tài)難以解決的任務(wù)也至關(guān)重要。例如,視覺(jué)、觸覺(jué)和聽(tīng)覺(jué)模態(tài)常常被融合在一起以識(shí)別物體的不同屬性。參考文獻(xiàn)[14]回顧了在機(jī)器人操作中集成多模態(tài)感知所取得的進(jìn)展。參考文獻(xiàn)[111]系統(tǒng)地解決了視覺(jué)-聽(tīng)覺(jué)-觸覺(jué)模態(tài)融合用于材料識(shí)別時(shí)的弱配對(duì)問(wèn)題。近年來(lái),多模態(tài)感知已被用于更廣泛和復(fù)雜的任務(wù),如精確抓取[194]和手中操作[176]。

      3.6.3 語(yǔ)言條件下的導(dǎo)航與操作。另一個(gè)重要方向是將語(yǔ)言與感知相結(jié)合,從而提供與人類(lèi)的自然交互界面。一個(gè)代表性任務(wù)是視覺(jué)語(yǔ)言導(dǎo)航(VLN),其中智能體通過(guò)將語(yǔ)言與其視覺(jué)感知以及生成的導(dǎo)航行動(dòng)對(duì)齊來(lái)執(zhí)行導(dǎo)航指令[53]。智能體需要同時(shí)理解導(dǎo)航指令和視覺(jué)感知信息,然后生成相應(yīng)的導(dǎo)航行動(dòng)。參考文獻(xiàn)[3]提出了VLN問(wèn)題的基本框架,并在MatterPort3D環(huán)境中建立了一個(gè)基準(zhǔn)。當(dāng)前對(duì)VLN任務(wù)的研究涉及計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和跨模態(tài)處理中的許多最新方法,以幫助智能體更好地解決任務(wù)。隨著VLN的成功,許多工作將此思想擴(kuò)展到操作場(chǎng)景,形成了所謂的視覺(jué)-語(yǔ)言-操作(VLM)任務(wù)[220]。從本質(zhì)上講,VLM表現(xiàn)出與VLN相似的特征,但可能面臨更多挑戰(zhàn),因?yàn)椴僮魍ǔP枰?xì)粒度的行動(dòng)空間和更復(fù)雜的規(guī)劃。

      3.6.4 小結(jié)。感知驅(qū)動(dòng)的行動(dòng)生成任務(wù)在機(jī)器人技術(shù)中非常常見(jiàn)。隨著深度學(xué)習(xí)和計(jì)算技術(shù)的快速發(fā)展,將感知信息直接投影到行動(dòng)空間的端到端模型已成為解決這類(lèi)問(wèn)題的主流方法。此外,多模態(tài)感知和語(yǔ)言條件下的行動(dòng)任務(wù)在實(shí)際場(chǎng)景中變得越來(lái)越流行。然而,將自然語(yǔ)言、多模態(tài)感知和復(fù)雜行動(dòng)三者對(duì)齊仍然存在巨大挑戰(zhàn)。

      3.7 行動(dòng)驅(qū)動(dòng)的感知改進(jìn)(A → P)

      本子節(jié)對(duì)應(yīng)于圖1中從行動(dòng)到感知的連線6?,強(qiáng)調(diào)感知可以通過(guò)有目標(biāo)的探索得到改進(jìn)。該領(lǐng)域的研究工作早在20世紀(jì)80年代就引起了關(guān)注,當(dāng)時(shí)主動(dòng)感知首次被系統(tǒng)性地討論[7]。在主動(dòng)感知中,智能體在智能控制下采取運(yùn)動(dòng),以改進(jìn)其對(duì)環(huán)境的感知方式。理論上已經(jīng)證明,在引入運(yùn)動(dòng)之后,傳統(tǒng)計(jì)算機(jī)視覺(jué)領(lǐng)域的許多不適定或非線性問(wèn)題變成了適定和線性問(wèn)題[2]。從那以后,主動(dòng)感知被廣泛應(yīng)用于機(jī)器人技術(shù),并成為具身智能的重要組成部分[186]。

      早期,信息論方法是主動(dòng)感知的典型方法。例如,參考文獻(xiàn)[45]將許多視覺(jué)問(wèn)題歸結(jié)為狀態(tài)估計(jì)問(wèn)題,并使用信息論方法來(lái)研究狀態(tài)估計(jì)中的最優(yōu)傳感器選擇,這為主動(dòng)感知的貝葉斯方法奠定了基礎(chǔ)[147]。這些方法大多使用條件熵或互信息來(lái)衡量不確定性,但通常泛化能力較差。近年來(lái),強(qiáng)化學(xué)習(xí)逐漸成為實(shí)現(xiàn)主動(dòng)感知的重要方法[143]。下面,我們總結(jié)幾種典型的主動(dòng)感知任務(wù),并指出將語(yǔ)義和語(yǔ)言融入主動(dòng)感知任務(wù)的最新趨勢(shì)。

      3.7.1 主動(dòng)視覺(jué)感知。任何典型的計(jì)算機(jī)視覺(jué)任務(wù)(檢測(cè)、識(shí)別等)都可以通過(guò)引入行動(dòng)轉(zhuǎn)化為相應(yīng)的“主動(dòng)”版本。在此我們列舉一些典型的主動(dòng)視覺(jué)感知任務(wù)。其一是主動(dòng)目標(biāo)檢測(cè)[67],即待檢測(cè)的目標(biāo)不在初始視野內(nèi),智能體需要探索環(huán)境以發(fā)現(xiàn)目標(biāo),或者通過(guò)某種智能控制策略調(diào)整相機(jī)位姿,以更好地檢測(cè)被遮擋或尺度較小的目標(biāo)。主動(dòng)目標(biāo)識(shí)別任務(wù)[84]旨在當(dāng)當(dāng)前視野中提取的特征不足以區(qū)分目標(biāo)時(shí),通過(guò)調(diào)整相機(jī)位姿來(lái)獲得新的視野。例如,要識(shí)別一個(gè)人,從正面識(shí)別比從后腦勺識(shí)別要容易得多。還有一種主動(dòng)目標(biāo)跟蹤任務(wù)[222]。傳統(tǒng)的視覺(jué)目標(biāo)跟蹤任務(wù)需要準(zhǔn)確檢測(cè)視頻流中的目標(biāo)并進(jìn)行時(shí)序關(guān)聯(lián)。當(dāng)目標(biāo)移出視野時(shí),跟蹤算法就無(wú)法再正常工作。為此,主動(dòng)目標(biāo)跟蹤可以實(shí)時(shí)調(diào)整相機(jī)位姿,使運(yùn)動(dòng)目標(biāo)始終保持在視野內(nèi)。


      3.7.2 視覺(jué)語(yǔ)義導(dǎo)航。近年來(lái),一個(gè)重要的趨勢(shì)是研究語(yǔ)言條件下的主動(dòng)感知。這方面最典型的任務(wù)是視覺(jué)語(yǔ)義導(dǎo)航(VSN)(圖17)。與使用較長(zhǎng)語(yǔ)言導(dǎo)航指令的VLN不同,VSN僅要求用戶提供一個(gè)語(yǔ)義目標(biāo)物體,然后智能體便可在環(huán)境中自主搜索該目標(biāo)。此類(lèi)語(yǔ)義目標(biāo)可以通過(guò)語(yǔ)義標(biāo)簽[210]或物體圖像[225]給出。VSN任務(wù)實(shí)際上是主動(dòng)目標(biāo)檢測(cè)和識(shí)別任務(wù)的擴(kuò)展。由于VSN任務(wù)中待檢測(cè)的目標(biāo)是用語(yǔ)義信息描述的,這為與人的交互提供了可能。


      目前,VSN模型大多在仿真環(huán)境中訓(xùn)練,這導(dǎo)致了仿真環(huán)境與真實(shí)環(huán)境之間的差距。參考文獻(xiàn)[114]討論了具身不匹配問(wèn)題,即實(shí)際行動(dòng)空間與仿真環(huán)境中的行動(dòng)空間不匹配。參考文獻(xiàn)[216]利用機(jī)器人自身的能力,結(jié)合3D感知信息來(lái)提高其物體發(fā)現(xiàn)能力。參考文獻(xiàn)[57]構(gòu)建了一個(gè)實(shí)際的物理場(chǎng)景,以全面評(píng)估不同方法在仿真環(huán)境和物理環(huán)境中的性能差異。此外,該研究還指出模塊化設(shè)計(jì)方法顯著優(yōu)于端到端學(xué)習(xí)方法。

      然而,由于場(chǎng)景的先驗(yàn)信息通常能為物體發(fā)現(xiàn)帶來(lái)很大便利,一些方法利用場(chǎng)景先驗(yàn)來(lái)實(shí)現(xiàn)高效的物體發(fā)現(xiàn)[210]。但這些工作忽略了一個(gè)重要問(wèn)題:隨著時(shí)間的推移,場(chǎng)景本身可能會(huì)發(fā)生各種意想不到的變化。忽視場(chǎng)景的動(dòng)態(tài)性會(huì)嚴(yán)重降低物體發(fā)現(xiàn)能力的性能,也給長(zhǎng)期部署帶來(lái)困難。參考文獻(xiàn)[224]建立了一種動(dòng)態(tài)時(shí)空?qǐng)鼍皥D來(lái)解決這個(gè)問(wèn)題,該場(chǎng)景圖利用智能體在日常探索過(guò)程中收集的信息進(jìn)行實(shí)時(shí)更新,從而動(dòng)態(tài)適應(yīng)環(huán)境的變化。參考文獻(xiàn)[100]將動(dòng)態(tài)場(chǎng)景圖更新形式化為鏈接預(yù)測(cè)問(wèn)題,并設(shè)計(jì)了一個(gè)動(dòng)態(tài)模擬器來(lái)生成動(dòng)態(tài)場(chǎng)景。參考文獻(xiàn)[106]提出通過(guò)監(jiān)測(cè)對(duì)話來(lái)動(dòng)態(tài)獲取和實(shí)時(shí)預(yù)測(cè)人員的位置??偟膩?lái)說(shuō),動(dòng)態(tài)場(chǎng)景的處理仍處于相當(dāng)初步的階段。當(dāng)前,主動(dòng)感知任務(wù)正在快速發(fā)展。許多新任務(wù),如重排[197]、視聽(tīng)導(dǎo)航[30, 113]和整理[162]等已被提出。視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種感知模態(tài)也被應(yīng)用于主動(dòng)感知任務(wù)中[17, 112]。

      3.7.3 具身問(wèn)答。具身問(wèn)答(EQA)任務(wù)[40, 60]是主動(dòng)感知領(lǐng)域中的一個(gè)更高級(jí)的課題。在EQA任務(wù)中,智能體從3D環(huán)境中的隨機(jī)位置出發(fā),主動(dòng)探索環(huán)境以回答給定的自然語(yǔ)言問(wèn)題(圖18)。然而,當(dāng)前EQA任務(wù)的發(fā)展在語(yǔ)言理解、任務(wù)規(guī)劃、視覺(jué)感知和行動(dòng)執(zhí)行等方面仍面臨許多困難。


      3.7.4 小結(jié)。主動(dòng)感知是一類(lèi)典型的具身智能任務(wù),在該任務(wù)中,智能體在采取行動(dòng)的同時(shí)改進(jìn)了感知。它呈現(xiàn)出一種“以時(shí)間換空間”的特征(圖16),這實(shí)際上是一把雙刃劍。因此,由于其復(fù)雜性和部署難度,其應(yīng)用仍然相當(dāng)有限。近年來(lái),語(yǔ)義和語(yǔ)言越來(lái)越多地被融入主動(dòng)感知中,這可能為主動(dòng)感知的廣泛應(yīng)用提供更多機(jī)會(huì)。然而,針對(duì)動(dòng)態(tài)場(chǎng)景的主動(dòng)感知仍然極具挑戰(zhàn)性。

      3.8 行動(dòng)驅(qū)動(dòng)的具身學(xué)習(xí)(A → L)

      本子節(jié)對(duì)應(yīng)于圖1中從行動(dòng)到學(xué)習(xí)的連線7?。學(xué)習(xí)是具身智能的基本組成部分,只有當(dāng)智能體具備自主更新自身知識(shí)和技能的能力時(shí),它才能適應(yīng)不斷變化的開(kāi)放環(huán)境。當(dāng)前,利用豐富的互聯(lián)網(wǎng)數(shù)據(jù)構(gòu)建了各種大規(guī)模數(shù)據(jù)集,預(yù)訓(xùn)練的感知模型取得了前所未有的成功。然而,在這種學(xué)習(xí)范式下,數(shù)據(jù)采集和模型學(xué)習(xí)的過(guò)程是分離的。一個(gè)數(shù)據(jù)集是否真正適合某個(gè)學(xué)習(xí)任務(wù)仍然是一個(gè)懸而未決的問(wèn)題。此外,在訓(xùn)練模型之前必須執(zhí)行數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)注等操作,這遠(yuǎn)遠(yuǎn)不能滿足自主學(xué)習(xí)的要求。

      利用具身智能體的行動(dòng)來(lái)改進(jìn)感知性能,實(shí)際上是人類(lèi)學(xué)習(xí)的方式。例如,當(dāng)人類(lèi)看到一個(gè)新物體時(shí),我們會(huì)自然地操作該物體或從不同視角觀察它以主動(dòng)探索它,然后我們會(huì)意識(shí)到,無(wú)論從哪個(gè)視角看這個(gè)物體,它都是同一個(gè)物體。我們?cè)谶@個(gè)行動(dòng)-學(xué)習(xí)循環(huán)中不斷學(xué)習(xí)。探索過(guò)程實(shí)際上是一個(gè)數(shù)據(jù)采集和標(biāo)注的過(guò)程。受此啟發(fā),具身智能體被鼓勵(lì)去探索那些預(yù)訓(xùn)練感知模型可能表現(xiàn)不佳的區(qū)域。然后可以收集探索過(guò)程中觀察到的數(shù)據(jù)并進(jìn)行標(biāo)注,以進(jìn)一步改進(jìn)感知模型。這種行動(dòng)驅(qū)動(dòng)的具身學(xué)習(xí)范式通??梢苑譃槿齻€(gè)階段:探索策略學(xué)習(xí)、訓(xùn)練樣本收集和應(yīng)用部署。它將數(shù)據(jù)采集和模型學(xué)習(xí)無(wú)縫結(jié)合,并能在探索過(guò)程中持續(xù)提升智能體的能力。它已成為具身智能中一個(gè)非常有前景的方向。其主要成果可以分為面向感知的學(xué)習(xí)和面向表示的學(xué)習(xí),具體如下。

      3.8.1 通過(guò)學(xué)習(xí)改進(jìn)感知。參考文獻(xiàn)[28]引入了一種語(yǔ)義好奇心獎(jiǎng)勵(lì),利用當(dāng)前幀與前一幀語(yǔ)義地圖的一致性來(lái)引導(dǎo)智能體探索環(huán)境,并收集有助于提高模型性能的數(shù)據(jù)(圖19)。參考文獻(xiàn)[26]構(gòu)建了3D全局場(chǎng)景語(yǔ)義地圖,該地圖可以反投影到2D空間以生成偽標(biāo)簽,從而實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)。同時(shí),使用3D語(yǔ)義體素的數(shù)量作為獎(jiǎng)勵(lì),以鼓勵(lì)智能體探索具有更多語(yǔ)義信息的位置。參考文獻(xiàn)[190]分析了熟悉樣本和不熟悉樣本在具身學(xué)習(xí)過(guò)程中的不同作用,并設(shè)計(jì)了一種新的自監(jiān)督學(xué)習(xí)方法。上述所有工作均在仿真環(huán)境中實(shí)現(xiàn)。進(jìn)一步地,參考文獻(xiàn)[87]基于語(yǔ)義分布的不確定性學(xué)習(xí)探索軌跡,并嘗試進(jìn)行物理實(shí)現(xiàn)。參考文獻(xiàn)[219]提出了真實(shí)場(chǎng)景中的3D具身數(shù)據(jù)集,包括視覺(jué)數(shù)據(jù)和密集點(diǎn)云數(shù)據(jù)。它利用不同視角下3D感知結(jié)果的一致性來(lái)收集數(shù)據(jù)。


      當(dāng)前這些工作大多面向一些通用的感知模型,如目標(biāo)檢測(cè)和目標(biāo)分割。具身學(xué)習(xí)也可以與某些特定任務(wù)相結(jié)合,以實(shí)現(xiàn)一些有目標(biāo)的特定任務(wù)。例如,參考文獻(xiàn)[104]提出了一種智能體自動(dòng)學(xué)習(xí)構(gòu)建場(chǎng)景圖的通用方法。參考文獻(xiàn)[123]提出了具身NeRF,旨在自動(dòng)收集高質(zhì)量圖像以構(gòu)建3D場(chǎng)景。

      除了直接改進(jìn)感知模型的性能之外,另一類(lèi)研究通過(guò)自主行為學(xué)習(xí)直接進(jìn)行特征表示學(xué)習(xí)[198]。參考文獻(xiàn)[21]從一系列游戲中探索了好奇心驅(qū)動(dòng)的表示學(xué)習(xí)。參考文獻(xiàn)[154]利用機(jī)械臂通過(guò)簡(jiǎn)單的觸覺(jué)傳感器與物體進(jìn)行物理交互,以幫助學(xué)習(xí)視覺(jué)特征,并取得了有希望的結(jié)果。參考文獻(xiàn)[207]進(jìn)一步提出了DensePhysNet,通過(guò)主動(dòng)執(zhí)行一系列動(dòng)態(tài)交互來(lái)學(xué)習(xí)物體的若干物理屬性。

      3.8.2 小結(jié)。可以看出,行動(dòng)驅(qū)動(dòng)的具身學(xué)習(xí)能夠提供一種學(xué)習(xí)機(jī)制,該機(jī)制可進(jìn)一步用于某些下游任務(wù),如感知或理解。其核心是利用具身智能體的行動(dòng)進(jìn)行學(xué)習(xí),從而彌合數(shù)據(jù)采集與模型訓(xùn)練之間的鴻溝。通過(guò)這種方式,智能體的具身特性得到了充分利用。

      4 討論

      4.1 具身人工智能的優(yōu)、劣與難

      在深度學(xué)習(xí)技術(shù)驅(qū)動(dòng)的離身智能研究中,我們觀察到其在感知和學(xué)習(xí)任務(wù)中表現(xiàn)出的優(yōu)越性能,但由于其黑箱特性和可解釋性差,存在安全性問(wèn)題。此外,其訓(xùn)練過(guò)程中的收斂分析仍然是一個(gè)難點(diǎn)。在本節(jié)中,我們對(duì)具身智能的優(yōu)勢(shì)(Good)、劣勢(shì)(Bad)和難點(diǎn)(Ugly)進(jìn)行全面分析和評(píng)估。

      4.1.1 優(yōu)。具身智能最重要的特點(diǎn)是引入了“身體與環(huán)境的交互”,從而引入了行動(dòng)維度。如果能夠巧妙地利用身體,許多困難的任務(wù)會(huì)變得更容易。例如,從背面觀察一個(gè)人時(shí)很難識(shí)別出該人。為了解決這個(gè)問(wèn)題,離身智能的典型方法是利用先驗(yàn)知識(shí)或數(shù)據(jù)驅(qū)動(dòng)的方法提取更好的特征,而具身智能的典型方法是移動(dòng)到一個(gè)更好的視角,從而使識(shí)別任務(wù)變得更容易。此外,適當(dāng)利用身體形態(tài)信息也可以顯著簡(jiǎn)化控制器的設(shè)計(jì)。例如,合理設(shè)計(jì)飛機(jī)的氣動(dòng)構(gòu)型可以利用環(huán)境實(shí)現(xiàn)更靈活的運(yùn)動(dòng),而單純依賴控制算法的設(shè)計(jì)則非常困難。

      4.1.2 劣。傳統(tǒng)的具身智能過(guò)分強(qiáng)調(diào)身體和環(huán)境的作用,而忽視了知識(shí)和數(shù)據(jù)的作用。這樣一來(lái),大腦和身體的發(fā)展是不平衡的。此外,由于與環(huán)境的物理交互,具身智能的安全性也是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。例如,在物體識(shí)別任務(wù)中,如果模型達(dá)到了95%的識(shí)別準(zhǔn)確率,它可以被部署到一些實(shí)際應(yīng)用中;而在具身智能系統(tǒng)中,即使是1%的失敗率(例如在手術(shù)中)也可能帶來(lái)致命的后果。

      4.1.3 難。具身智能強(qiáng)調(diào)智能產(chǎn)生于環(huán)境、身體和大腦的緊密耦合。這一過(guò)程需要整合形態(tài)、行動(dòng)、感知、學(xué)習(xí),甚至語(yǔ)言理解。由于形態(tài)、感知、行動(dòng)、學(xué)習(xí)和語(yǔ)言屬于不同的領(lǐng)域,且具有顯著不同的特性,實(shí)現(xiàn)它們之間的對(duì)齊非常具有挑戰(zhàn)性。然而,具身智能的應(yīng)用需要環(huán)境感知、語(yǔ)言理解、行為控制等各個(gè)組件的完美實(shí)現(xiàn)。因此,很難以一種優(yōu)雅的端到端方式來(lái)實(shí)現(xiàn)它。

      4.2 具身智能與機(jī)器人學(xué)

      具身智能與機(jī)器人學(xué)密切相關(guān),兩者在許多情況下被相互混淆。具身智能的核心在于智能產(chǎn)生于身體與環(huán)境的交互。這里的“身體”不僅限于機(jī)器人。實(shí)際上,任何物理實(shí)體(例如,詹姆斯·瓦特發(fā)明的著名的離心調(diào)速器)或非物理實(shí)體(例如,數(shù)字人和仿真智能體)都是適用的。因此,具身智能更側(cè)重于通用理論、方法和技術(shù)的研究,而機(jī)器人可以被視為具身智能的一種體現(xiàn)形式。對(duì)于機(jī)器人本身而言,其智能行為可能來(lái)源于具身智能,也可能不是。

      然而,我們可以將“具身智能”這個(gè)詞解讀為用“具身的”來(lái)修飾“智能”。其中的“智能”通常可以指視覺(jué)檢測(cè)、語(yǔ)言問(wèn)答等智能任務(wù),這些屬于離身智能的范疇。但通過(guò)在前面加上“具身的”,我們得到了諸如具身視覺(jué)檢測(cè)和具身問(wèn)答等新任務(wù)。從這個(gè)意義上說(shuō),具身智能可以理解為離身智能的擴(kuò)展,旨在向機(jī)器人領(lǐng)域邁進(jìn)。另一方面,在機(jī)器人學(xué)領(lǐng)域,由于機(jī)器人通常具有物理身體,早期人們很少用“具身的”來(lái)修飾相關(guān)研究工作。當(dāng)前,機(jī)器人學(xué)與具身智能領(lǐng)域確實(shí)已經(jīng)深度融合。

      5 具身智能前沿

      5.1 來(lái)自離身機(jī)器學(xué)習(xí)的啟示

      傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域所倡導(dǎo)的有監(jiān)督學(xué)習(xí)方法要求訓(xùn)練集和測(cè)試集明確分離,并且需要提供準(zhǔn)確的標(biāo)簽。這顯然會(huì)阻礙智能體對(duì)動(dòng)態(tài)和開(kāi)放環(huán)境的適應(yīng)。幸運(yùn)的是,機(jī)器學(xué)習(xí)領(lǐng)域也意識(shí)到了這個(gè)問(wèn)題,并做出了巨大努力來(lái)解決它。自監(jiān)督學(xué)習(xí)提供了一種新的學(xué)習(xí)范式來(lái)減輕標(biāo)注壓力。通過(guò)各種手段為無(wú)標(biāo)簽樣本構(gòu)建偽標(biāo)簽,可以在特征學(xué)習(xí)階段取得良好效果[86]。此外,終身學(xué)習(xí)雖然起源于機(jī)器人學(xué)領(lǐng)域[183],但近年來(lái)在機(jī)器學(xué)習(xí)領(lǐng)域也受到了廣泛關(guān)注,并在識(shí)別和檢測(cè)等任務(wù)中提出了各種克服災(zāi)難性遺忘的方法[175]。它也已擴(kuò)展到強(qiáng)化學(xué)習(xí)領(lǐng)域,為具身智能體在真實(shí)環(huán)境中的性能提升帶來(lái)了巨大機(jī)遇。受這些離身機(jī)器學(xué)習(xí)成果的啟發(fā),我們認(rèn)為自監(jiān)督學(xué)習(xí)和終身學(xué)習(xí)的無(wú)縫結(jié)合也為具身智能提供了一條有前景的路徑。

      5.2 形態(tài)的作用

      當(dāng)前在仿真環(huán)境中研究的許多具身導(dǎo)航任務(wù)通常只使用簡(jiǎn)單的行動(dòng)空間,并未考慮智能體的形態(tài)特征[99]。此外,這些任務(wù)對(duì)環(huán)境有較高的約束,通常需要可通行的拓?fù)涞貓D,并且不考慮避障等問(wèn)題。如前所述,在具身智能中,形態(tài)是產(chǎn)生智能的重要工具,也是體現(xiàn)智能的重要途徑。它被視為具身智能的核心。然而,形態(tài)計(jì)算、形態(tài)控制和形態(tài)優(yōu)化等方向尚未成為支撐具身智能發(fā)展的重要研究方向。一個(gè)重要原因是形態(tài)的成功強(qiáng)烈依賴于材料,而材料在選擇、驅(qū)動(dòng)和設(shè)計(jì)方面仍然存在巨大挑戰(zhàn)[39]。近年來(lái),軟材料在具身智能中得到了廣泛應(yīng)用,因?yàn)檐涹w機(jī)器人中材料的固有特性能夠以剛性機(jī)器人無(wú)法實(shí)現(xiàn)的方式降低機(jī)械和算法復(fù)雜度。這為未來(lái)的工作提供了廣闊的研究空間。

      5.3 仿真到真實(shí)

      隨著計(jì)算機(jī)圖形學(xué)的快速發(fā)展,視覺(jué)仿真技術(shù)可以為具身智能研究提供逼真的平臺(tái),并為建立標(biāo)準(zhǔn)化基準(zhǔn)奠定良好基礎(chǔ)[15]。目前,有許多仿真平臺(tái)直接應(yīng)用于具身智能任務(wù),如AI2THOR [43]、Matterport3D [25]、Habitat [163]和iGibson [168]。然而,盡管當(dāng)前仿真環(huán)境中的視覺(jué)效果越來(lái)越逼真,但仿真環(huán)境不可能覆蓋真實(shí)世界的所有方面。此外,當(dāng)前仿真環(huán)境中的感知信息大多局限于視覺(jué)模態(tài)。在模擬聽(tīng)覺(jué)、觸覺(jué)等其他感知模態(tài)方面仍然存在巨大困難。當(dāng)我們將仿真中學(xué)習(xí)到的控制策略遷移到真實(shí)世界時(shí),由于難以對(duì)具身智能體的動(dòng)力學(xué)進(jìn)行建模,我們將面臨巨大的行為差距。因此,在仿真環(huán)境中訓(xùn)練的具身智能體在直接遷移到物理世界時(shí)仍然面臨嚴(yán)重的遷移問(wèn)題,這被稱(chēng)為Sim2Real問(wèn)題。目前,主要有兩種方法來(lái)解決這個(gè)問(wèn)題。一種方法是使用各種手段豐富仿真環(huán)境,例如域隨機(jī)化[129];另一種方法是盡可能縮小仿真環(huán)境與物理環(huán)境之間的感知和行動(dòng)空間差距。例如,參考文獻(xiàn)[27, 115]提出了語(yǔ)義感知方法。參考文獻(xiàn)[121]提出了一種環(huán)境增強(qiáng)方法以增加訓(xùn)練仿真環(huán)境的多樣性。參考文獻(xiàn)[114]考慮了行動(dòng)空間的具身不匹配問(wèn)題。參考文獻(xiàn)[115]建立了一種Sim2Real方法,利用語(yǔ)義和高級(jí)規(guī)劃來(lái)對(duì)齊仿真世界和物理世界。參考文獻(xiàn)[221]為可泛化的主動(dòng)目標(biāo)跟蹤構(gòu)建了一種結(jié)構(gòu)感知的表示。參考文獻(xiàn)[227]同時(shí)包含虛擬子集和真實(shí)子集用于訓(xùn)練。

      5.4 多模態(tài)具身智能與語(yǔ)言 grounding

      “多模態(tài)”在當(dāng)前具身智能研究中被頻繁提及[102]。最近發(fā)布的VIMA被稱(chēng)為多模態(tài)人工智能系統(tǒng)[85]。但這里的“多模態(tài)”通常指視覺(jué)、語(yǔ)言、聲音等,更側(cè)重于解決視覺(jué)環(huán)境感知與人類(lèi)指令和意圖之間的關(guān)系。從本質(zhì)上講,多模態(tài)融合仍然局限于離身智能領(lǐng)域。具身智能強(qiáng)調(diào)身體與環(huán)境的交互。這種交互包括多種不同的模態(tài),如視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)。如何有效融合這些異質(zhì)的多模態(tài)信息以實(shí)現(xiàn)多模態(tài)具身感知,是一個(gè)需要關(guān)注的重要問(wèn)題[194]。目前,視覺(jué)和聽(tīng)覺(jué)是研究相對(duì)較多的領(lǐng)域[29, 55, 189],相應(yīng)的傳感器也在快速發(fā)展。觸覺(jué)感知的研究相對(duì)滯后,這嚴(yán)重制約了具身智能的發(fā)展,但它對(duì)于身體與環(huán)境之間的物理交互至關(guān)重要[110]。它可以用來(lái)確保操作的安全性、穩(wěn)定性和靈活性,并且能夠獲取其他感知模態(tài)難以捕捉的獨(dú)特信息。

      語(yǔ)言grounding領(lǐng)域也是具身人工智能和機(jī)器人學(xué)的一個(gè)關(guān)鍵領(lǐng)域[61]。Grounding指的是智能體將其內(nèi)部的語(yǔ)言表示和符號(hào)與外部世界中的指稱(chēng)對(duì)象以及內(nèi)部狀態(tài)進(jìn)行內(nèi)在連接的能力。因此,具身機(jī)器人必須學(xué)會(huì)將“紅色”和“球”等詞與外部玩具(球)及其感知屬性(如紅色)聯(lián)系起來(lái)。但grounding并不一定需要將內(nèi)部符號(hào)與外部對(duì)象直接連接。事實(shí)上,即使是抽象詞匯也可以間接地與感官運(yùn)動(dòng)經(jīng)驗(yàn)和內(nèi)在感受相連接[24]。

      5.5 用于具身人工智能的大語(yǔ)言模型

      近年來(lái),大語(yǔ)言模型受到了廣泛關(guān)注。特別是GPT等大語(yǔ)言模型的出現(xiàn),為機(jī)器人應(yīng)用帶來(lái)了許多新的范式。參考文獻(xiàn)[85]開(kāi)發(fā)了一種用于操作任務(wù)的多模態(tài)提示。參考文獻(xiàn)[105]研究了預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型如何有益于語(yǔ)言條件下的機(jī)器人操作。參考文獻(xiàn)[215]和[44]嘗試使用大語(yǔ)言模型來(lái)解決多機(jī)器人協(xié)作問(wèn)題中的任務(wù)分配,并展示了有希望的結(jié)果。參考文獻(xiàn)[91]展示了人工智能生成內(nèi)容在機(jī)器人操作中的一些有趣應(yīng)用。最近,參考文獻(xiàn)[36]通過(guò)21個(gè)機(jī)構(gòu)的合作,匯集了來(lái)自22個(gè)不同機(jī)器人的數(shù)據(jù)集,展示了527種技能。所有這些嘗試都顯示了大語(yǔ)言模型在機(jī)器人應(yīng)用中的強(qiáng)大能力。然而,我們也必須看到,盡管這些技術(shù)的引入可能為具身智能的應(yīng)用帶來(lái)新的思路和機(jī)遇,但具身智能的許多關(guān)鍵挑戰(zhàn)并未真正得到解決。特別是,大語(yǔ)言模型更擅長(zhǎng)解決高級(jí)任務(wù)規(guī)劃和人與計(jì)算機(jī)的語(yǔ)言交互問(wèn)題,而對(duì)于導(dǎo)航和操作任務(wù)中的低級(jí)控制,仍然沒(méi)有理想的解決方案[209]。事實(shí)上,大語(yǔ)言模型的出發(fā)點(diǎn)與最初的具身智能存在某種程度的矛盾。此外,我們更應(yīng)該關(guān)注如何利用大語(yǔ)言模型來(lái)研究具身智能,而不是天真地直接使用大語(yǔ)言模型來(lái)實(shí)現(xiàn)具身智能。

      5.6 多智能體協(xié)作

      多智能體協(xié)作是具身智能不可或缺的一部分。與一些在簡(jiǎn)單離身環(huán)境中學(xué)習(xí)多智能體協(xié)作策略的工作[64, 80]不同,已經(jīng)涌現(xiàn)出大量在具身視覺(jué)環(huán)境中學(xué)習(xí)多智能體協(xié)作策略的研究,多智能體強(qiáng)化學(xué)習(xí)已成為學(xué)習(xí)多智能體協(xié)作策略的主流方法[32, 35]。在參考文獻(xiàn)[82, 83]中,兩個(gè)智能體學(xué)習(xí)在動(dòng)作層面協(xié)作搬運(yùn)家具。一些典型的具身任務(wù),如具身問(wèn)答和具身導(dǎo)航,也已擴(kuò)展到多智能體設(shè)置[181, 188]。然而,大多數(shù)多智能體協(xié)作任務(wù)只考慮同質(zhì)智能體,但已有工作嘗試?yán)卯愘|(zhì)智能體的不同能力來(lái)處理更復(fù)雜的任務(wù)[128]。此外,多智能體協(xié)作也帶來(lái)了智能體之間通信機(jī)制的挑戰(zhàn)。參考文獻(xiàn)[145]分析了異質(zhì)智能體之間的不同通信機(jī)制。參考文獻(xiàn)[93]將通信信息納入多智能體強(qiáng)化學(xué)習(xí)中。值得注意的是,除了多智能體協(xié)作外,已有研究表明多智能體之間的競(jìng)爭(zhēng)也能促進(jìn)智能體的技能學(xué)習(xí)能力[77, 203, 223]。隨著任務(wù)日益復(fù)雜,多智能體協(xié)作顯然將變得越來(lái)越重要和必要[51]。

      5.7 具身人工智能的安全性與脆弱性

      以深度學(xué)習(xí)為代表的人工智能技術(shù)中的安全問(wèn)題已引起越來(lái)越多的關(guān)注。一些像素級(jí)的攻擊會(huì)導(dǎo)致整個(gè)智能系統(tǒng)識(shí)別失敗甚至決策失敗。對(duì)于具身智能系統(tǒng)而言,由于涉及物理行動(dòng)執(zhí)行和交互,其安全問(wèn)題更應(yīng)該得到重視。一方面,我們看到許多現(xiàn)有的具身感知任務(wù)在面對(duì)未見(jiàn)過(guò)的場(chǎng)景或物體時(shí)性能顯著下降,并且在仿真環(huán)境中訓(xùn)練的策略遷移到物理環(huán)境也面臨巨大挑戰(zhàn)。另一方面,即使在一些成功的應(yīng)用場(chǎng)景中,具身探索的性能也可能受到某些攻擊的影響。例如,參考文獻(xiàn)[108]通過(guò)向環(huán)境添加紋理效果直接降低了具身問(wèn)答的準(zhǔn)確性。參考文獻(xiàn)[218]研究了針對(duì)視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的拜占庭魯棒聯(lián)邦具身智能體學(xué)習(xí)。針對(duì)視聽(tīng)導(dǎo)航,聲源的攻擊也可能導(dǎo)致導(dǎo)航任務(wù)失敗[213]。在具身智能的背景下,出現(xiàn)多少種攻擊方式,就會(huì)出現(xiàn)多少種防御方式。這將是未來(lái)很長(zhǎng)一段時(shí)間內(nèi)的重要課題。

      6 結(jié)論

      在本文中,我們回顧了具身智能,特別是具身人工智能的發(fā)展歷程。從形態(tài)、行動(dòng)、感知和學(xué)習(xí)的視角,提出了一個(gè)統(tǒng)一的具身智能框架,該框架主要關(guān)注這些組成部分之間的連接,而非它們本身。根據(jù)所提出的框架,我們對(duì)現(xiàn)有研究進(jìn)行了全面的總結(jié)和分類(lèi)。此外,我們還指出了未來(lái)研究可以從這些內(nèi)在聯(lián)系中獲益的領(lǐng)域。由于具身智能是形態(tài)、行動(dòng)、感知與學(xué)習(xí)的協(xié)同作用,學(xué)術(shù)界既面臨著巨大的機(jī)遇,也面臨著需要整合多個(gè)不同學(xué)科技術(shù)的挑戰(zhàn)。

      原文:https://dl.acm.org/doi/pdf/10.1145/3717059

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      塞爾維亞總統(tǒng):將在特朗普和普京之后對(duì)中國(guó)進(jìn)行國(guó)事訪問(wèn)

      塞爾維亞總統(tǒng):將在特朗普和普京之后對(duì)中國(guó)進(jìn)行國(guó)事訪問(wèn)

      俄羅斯衛(wèi)星通訊社
      2026-05-18 15:10:17
      有錢(qián)人私下玩的多花?網(wǎng)友:開(kāi)眼了

      有錢(qián)人私下玩的多花?網(wǎng)友:開(kāi)眼了

      另子維愛(ài)讀史
      2026-05-16 21:38:47
      快訊!連勝文發(fā)言了!

      快訊!連勝文發(fā)言了!

      故事終將光明磊落
      2026-05-18 13:58:07
      特朗普剛走,高市早苗想訪華,麻生坐不住了,一句話把其拉回現(xiàn)實(shí)

      特朗普剛走,高市早苗想訪華,麻生坐不住了,一句話把其拉回現(xiàn)實(shí)

      近史博覽
      2026-05-18 00:38:57
      天降橫財(cái),世界杯補(bǔ)貼砸中浙江隊(duì):至少進(jìn)賬170萬(wàn)人民幣

      天降橫財(cái),世界杯補(bǔ)貼砸中浙江隊(duì):至少進(jìn)賬170萬(wàn)人民幣

      姜大叔侃球
      2026-05-18 11:03:51
      影帝黃渤新片慘敗,成本超2億,票房不到100萬(wàn),觀眾因何棄他?

      影帝黃渤新片慘敗,成本超2億,票房不到100萬(wàn),觀眾因何棄他?

      影視高原說(shuō)
      2026-05-16 07:04:06
      約會(huì)時(shí)女人說(shuō)去廁所,其實(shí)是在給你兩個(gè)暗示,聽(tīng)懂的都不是凡人

      約會(huì)時(shí)女人說(shuō)去廁所,其實(shí)是在給你兩個(gè)暗示,聽(tīng)懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      29勝6負(fù)!哈登要進(jìn)總決了,火箭媒體不滿斯通,白送騎士半套陣容

      29勝6負(fù)!哈登要進(jìn)總決了,火箭媒體不滿斯通,白送騎士半套陣容

      巴叔體育
      2026-05-18 12:42:59
      李昇祐談無(wú)緣世界杯:我感到失望,希望韓國(guó)隊(duì)取得好成績(jī)

      李昇祐談無(wú)緣世界杯:我感到失望,希望韓國(guó)隊(duì)取得好成績(jī)

      懂球帝
      2026-05-18 16:54:43
      美方想要的,中方終于給了?魯比奧求放一個(gè)人,特朗普打破慣例

      美方想要的,中方終于給了?魯比奧求放一個(gè)人,特朗普打破慣例

      田園小歸
      2026-05-17 09:22:03
      農(nóng)村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      農(nóng)村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      舒山有鹿
      2026-05-17 11:37:46
      一半股民投降了

      一半股民投降了

      刀哥復(fù)盤(pán)筆記
      2026-05-18 14:15:01
      日媒放話:給中國(guó)50年追不上日本汽車(chē)!馬斯克:中國(guó)車(chē)企太能打

      日媒放話:給中國(guó)50年追不上日本汽車(chē)!馬斯克:中國(guó)車(chē)企太能打

      南宗歷史
      2026-05-18 12:37:52
      男子因臉紅被交警攔下查酒駕 吹氣2次也沒(méi)查出酒精 從不喝酒卻一直臉紅不退、嘴唇發(fā)紫

      男子因臉紅被交警攔下查酒駕 吹氣2次也沒(méi)查出酒精 從不喝酒卻一直臉紅不退、嘴唇發(fā)紫

      閃電新聞
      2026-05-18 15:29:40
      特朗普剛走,四國(guó)政要就來(lái)華,美專(zhuān)家感慨:中國(guó)開(kāi)啟"朝貢時(shí)代"

      特朗普剛走,四國(guó)政要就來(lái)華,美專(zhuān)家感慨:中國(guó)開(kāi)啟"朝貢時(shí)代"

      生活魔術(shù)專(zhuān)家
      2026-05-17 22:35:29
      盧秀燕叫囂:不管特朗普說(shuō)了什么,我們要對(duì)自己的“國(guó)家”有信心

      盧秀燕叫囂:不管特朗普說(shuō)了什么,我們要對(duì)自己的“國(guó)家”有信心

      達(dá)文西看世界
      2026-05-17 14:59:59
      18號(hào)收評(píng):市場(chǎng)全天縮量調(diào)整,所有人都注意,準(zhǔn)備迎接新的變盤(pán)了

      18號(hào)收評(píng):市場(chǎng)全天縮量調(diào)整,所有人都注意,準(zhǔn)備迎接新的變盤(pán)了

      春江財(cái)富
      2026-05-18 15:23:19
      來(lái)了!首個(gè)冠軍點(diǎn)!阿森納最快兩天內(nèi)奪冠,每輸一場(chǎng),或丟一冠

      來(lái)了!首個(gè)冠軍點(diǎn)!阿森納最快兩天內(nèi)奪冠,每輸一場(chǎng),或丟一冠

      嗨皮看球
      2026-05-18 12:19:47
      央視《主角》火了,誰(shuí)都沒(méi)想到,片酬最高的即不是張嘉益,也不是北電院長(zhǎng)?

      央視《主角》火了,誰(shuí)都沒(méi)想到,片酬最高的即不是張嘉益,也不是北電院長(zhǎng)?

      東方不敗然多多
      2026-05-17 14:21:23
      退役20年至今無(wú)人超越:發(fā)動(dòng)機(jī)只出了8%的力,協(xié)和號(hào)憑什么飛到2馬赫?

      退役20年至今無(wú)人超越:發(fā)動(dòng)機(jī)只出了8%的力,協(xié)和號(hào)憑什么飛到2馬赫?

      平流層散步者
      2026-05-17 00:45:04
      2026-05-18 19:08:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1409文章數(shù) 19關(guān)注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

      頭條要聞

      失業(yè)男子在車(chē)?yán)镒?天無(wú)奈向交警求助 如今找到新工作

      頭條要聞

      失業(yè)男子在車(chē)?yán)镒?天無(wú)奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂(lè)要聞

      票房會(huì)破14億!口碑第一電影出現(xiàn)了

      財(cái)經(jīng)要聞

      前4月工業(yè)生產(chǎn)較快增長(zhǎng) 失業(yè)率5.3%

      汽車(chē)要聞

      二排座椅能躺能轉(zhuǎn)/三排座椅能收納 零跑D99座艙玩法多樣

      態(tài)度原創(chuàng)

      親子
      時(shí)尚
      藝術(shù)
      房產(chǎn)
      公開(kāi)課

      親子要聞

      如何克服小孩挑食的毛?。窟@樣做專(zhuān)治挑食,網(wǎng)友:立馬抄作業(yè)”!

      夏天褲子不用多買(mǎi),提前準(zhǔn)備幾條休閑的闊腿褲,百搭舒適顯瘦

      藝術(shù)要聞

      《蘭亭序》不是行書(shū),故宮這件文物揭開(kāi)真面目,郭沫若的判斷是正確的!

      房產(chǎn)要聞

      突發(fā)!??谥匕跽{(diào)規(guī)!碧桂園要解套;新埠島要起飛了!

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: wwwwww.日本色| 国产成人无码综合亚洲日韩| 午夜AV| 曰本丰满熟妇xxxx性| 狠狠色香婷婷久久亚洲精品| 亚洲第一成人精品久久| 亚欧乱色精品免费观看| 伊人成人在线视频免费| 亚洲欧美日韩高清综合678| 影音先锋成人A片| 欧美激情乱伦| 中文人妻第9页| 亚洲精品揄拍自拍首页一| 午夜DY888国产精品影院| 亚洲国产日韩在线视频| AV黄色观看| 久草资源| 日本黄漫动漫在线观看视频| 日韩老熟女av搜索结果| jizzjizz欧美| 亚洲日韩国产成网在线观看| 日韩有码玖玖资源中文字幕人妻不卡| 国产va免费精品观看精品| 蜜桃av色偷偷av老熟女| 国产性三级高清在线观看| 香港日本三级亚洲三级| 玩弄放荡人妇系列av在线网站 | yy6080影院理论一级久久| 蜜桃无码一区二区三区| 国产乱妇乱子视频在播放| 富婆熟妇熟女二区三区| 自拍性旺盛老熟女| 五月天婷婷一本到伊人| 中文字幕av久久激情亚洲精品 | 日本欧美大码a在线观看| 久久精品欧美一区二区三区麻豆 | 久久精品一区二区东京热| 蜜桃视频婷婷狼人看在线视频| 男女做爰真人视频直播| 成人精品日日摸夜夜爽| www.四虎.com|