網易首頁 > 網易號 > 正文申請入駐

Science Robotics：機器人進入下半場，單體智能時代要結束了？

2026-04-24 15:24:42　來源: 人工智能學家

北京舉報

分享至

來源：學術頭條

過去兩年，機器人基礎模型進展迅速。以 RT-2、Gato、Octo 為代表的大規模預訓練模型，依托互聯網級數據與遷移學習，在感知、決策和控制等環節展現出跨任務泛化能力。行業內也逐漸形成一種主流判斷：當模型能夠在足夠多的任務之間遷移時，就有機會成為通用型機器人智能。

但這一判斷存在明顯局限。它默認機器人是一個獨立、全能的智能體，只在少數時刻接收人類的高層指令，其余時間則單獨應對相對靜態的環境。

現實場景并非如此。康復機器人需要與患者協同訓練，半自動駕駛系統需要與駕駛員實時共享控制權，倉儲協作機器人需要與工友協調路徑和作業節奏。機器人很少脫離人類單獨工作，更多時候，它們處在一個高度耦合、持續變化的人機協作網絡之中。

基于這一判斷，ETH Zurich團隊及其合作者在 Science Robotics 上發表觀點文章，提出機器人基礎模型需要完成一次從 autonomy（自主）邁向 alliance（同盟）的范式升級。

論文鏈接：

https://www.science.org/doi/10.1126/scirobotics.aea1822

研究團隊提出“生態學”視角：機器人不應只被定義為執行任務的工具，更應被訓練為能夠在開放、多智能體、持續演化的環境中，與人類及其他機器人共同學習、共同適應的協作伙伴。

為實現這一目標，他們提出了 6 項關鍵能力建設方向，包括交互先驗、伙伴建模、策略模塊化、規范適應、信任感知記憶與通信機制。

借助這些能力，機器人能在不同社會角色之間順暢切換，快速適應陌生協作者，并在家庭、工廠、診所及現場作業等復雜場景中實現穩定、高效的協同。

為什么？

人類之所以能夠與陌生人迅速建立協作，依賴的是在長期社會互動中形成的“社會常識”。我們知道何時讓路、何時發聲、何時接手主導角色，也能根據對方的反饋即時調整自己的行為。

當前的機器人模型普遍缺乏這類能力。要補上這一短板，僅靠任務訓練遠遠不夠，還需要交互學習、伙伴建模、角色靈活切換等一整套算法與系統架構支持。

更重要的是，評價體系也需要同步升級。論文指出，機器人不應只依據“能否獨立完成任務”來衡量，還應考察其在人機協作、機機協作團隊中的適應能力與魯棒性。

這意味著評估重心正在發生變化：從單一的工程性能指標，轉向面向真實協作場景的社會化能力指標。

如何實現？

研究團隊系統梳理了6 項關鍵能力建設。它們并非彼此孤立，而是相互支撐，共同決定機器人能否在協作中持續學習、快速適應，并在不同任務、不同伙伴、不同社會情境下重新組織已有知識。

圖｜6 項關鍵能力建設

1.交互先驗

人在協作時，會天然帶入大量長期積累的社會經驗。即使面對陌生人，也往往能迅速形成基本配合。機器人如果想達到類似水平，也需要具備交互先驗。

這類能力可以通過大規模多智能體數據或仿真環境獲得。例如，在真實或合成的多智能體軌跡上訓練基礎模型，使其隱式掌握常見協作模式。比如，當某個體靠近拾取物體時，其他成員通常會主動讓出空間。

一旦模型具備這類先驗，機器人在面對陌生伙伴時，就能更快預測對方行為并及時響應。

2.伙伴建模

機器人能否實現跨伙伴遷移，關鍵在于它是否能夠理解“對方正在做什么、準備做什么、相信什么”。在人類認知科學中，這種能力被稱為“心智理論”。

研究團隊介紹了心智理論的思路：將伙伴目標視作隱變量，通過一小段行為觀察窗口，輸出一個 embedding 向量。這個向量既能預測伙伴下一步行為，也能幫助機器人調整自身策略。

當這種心智理論風格推理模塊嵌入在經過大規模多智能體軌跡預訓練的 Transformer 中，模型會自動識別某些行為片段與未來行動之間的統計關系，如頻繁變向、頻繁切換注視目標等信號，并將其壓縮為具有社會意義的表征，例如“探索型或穩健型”“強勢型或溫和型”。

另一個相關方向是 ad hoc teamwork，也就是要求智能體與從未共同訓練過的隊友立即協作。近期的 N-Agent Ad hoc Teamwork benchmark 引入動態組隊機制，任務過程中隊友可能被替換或新增。結果顯示，能夠實時推斷隊友 embedding 的策略，恢復團隊表現的速度明顯更快。

在人機交互場景中，還需要更進一步的能力，也就是推斷人類如何看待機器人本身。機器人只有持續建模用戶的信念狀態，才能判斷何時需要主動解釋、何時需要澄清誤解，從而提升信任感與任務效率。

3.策略模塊化與組合性

實現靈活協作的一條重要路徑，是把機器人策略拆解為可復用模塊，再按場景動態組合。

例如，一個模塊負責任務技能，如插銷入孔；另一個模塊負責交互技能，如跟隨伙伴節奏。這樣一來，面對新任務或新團隊時，機器人只需替換相關模塊，無需重新訓練整個網絡。

Devin 等人的早期研究已經驗證了這種思路。他們將神經策略拆分為任務特定模塊與機器人特定模塊，通過混合組合，系統能夠直接適配從未見過的機器人與任務搭配。

這一框架還可以進一步擴展到角色層面，例如分別訓練 leader 與 follower 模塊，再根據團隊分工實時切換。

4.規范適應

機器人如果只是理解動作層面的協作，還遠遠不夠。真正具備同盟能力的系統，還必須理解所處環境中的社會規范。

每個組織、團隊或文化環境，都存在大量默認規則。從辦公場所禮儀到公共空間行為邊界，這些規則往往不會被明確寫出，卻決定互動是否順暢。一個服務機器人進入圖書館后仍以正常音量講話，很可能立刻失去用戶接受度。

研究團隊以 Social Norm Adaptive Robots 架構為例，說明如何將符號推理與機器學習結合，使機器人識別、遵守并逐步學習不同社會環境中的規范。實踐表明，這類顯式規范建模有助于提升互動質量與用戶信任。

難點在于，規范高度依賴語境，會隨群體變化，甚至相互沖突。機器人可能剛適應醫院病房規則，下一刻又進入私人家庭環境。因此，它需要具備低成本泛化能力，而不是每換場景就重新訓練。

5.信任感知記憶

高效合作離不開信任。人類會在長期互動中記住誰可靠、誰擅長什么、過去合作是否順利。機器人同樣需要類似機制。

這意味著系統需要具備長時記憶與持續學習能力，在反復協作中逐步形成對不同伙伴的認知，包括能力水平、偏好風格與可靠程度，并據此優化未來決策。

研究團隊引用了 artificial trust metric 的案例。在康復機器人場景中，當系統判斷患者需要幫助時，會主動增強輔助力度并提供引導；當判斷患者具備更高自主能力，或希望獲得更多控制權時，則主動退后，讓患者自行完成動作。

這種信任感知記憶能夠記錄交互成敗、錯誤模式與反饋信息，并持續更新面向特定伙伴的信任模型，最終影響任務分配、角色安排與協作方式。

6.作為遷移通道的通信

通信是實時協作的核心機制。機器人說出“我負責 A 區域，你負責 B 區域”時，傳遞的是最小但關鍵的意圖信息，使團隊成員無需依賴高成本試探即可完成協調。

圍繞合作式 AI，當前研究重點集中在三個問題：傳遞什么信息、何時傳遞、如何理解對方信號。研究團隊提出兩條互補路線：

將自然語言作為共享中介語。只要新成員理解這套語言體系，就能迅速加入團隊。大語言模型正在成為重要接口，負責把自由表達解析為結構化意圖，再生成簡潔、可執行的反饋。
讓智能體自主演化專屬通信協議。這類協議效率可能更高，但難點在于新加入成員能否快速理解。

與此同時，通信還必須具備透明性與可解釋性。機器人不僅要表達決策結果，也要說明理由，包括為什么 / 為什么不的解釋，以及經過校準的不確定性信息。這樣，伙伴才能及時修正判斷、從協作失誤中恢復，并動態調整信任水平。

具體實現方式包括：提升動作本身的可讀性、根據感知與執行軌跡自動生成語言摘要，以及保存“決策與理由”記錄，以支持后續追溯與查詢。

如何評估？

范式一旦轉變，評測體系也需要同步變化。過去的機器人學習基準，無論是在仿真環境還是真機測試中，大多圍繞“固定角色下能否完成任務”展開。但如果目標是衡量機器人在真實社會環境中的泛化能力，這套標準顯然不夠，需要新的評測框架。

研究團隊提出了 4 類關鍵評測方向：

1.交互泛化測試

過去我們關注機器人能否適應新環境、新物體，未來還要關注它能否適應新的合作對象。舉例來說，一臺協作機械臂先與某位人類伙伴共同訓練，隨后再與另一位陌生伙伴執行同一任務。此時考察的，不僅是任務完成率，還包括協作效率、達成共識所需時間，以及溝通誤解發生的次數。像 ZSC-Eval 這類工具，已經能夠生成多樣化的伙伴行為，用于系統評估智能體面對陌生協作者時的適應能力。

2.角色切換壓力測試

真實協作中，分工并非一成不變，角色隨時可能調整。因此，評測需要模擬任務進行中的職責切換。例如在送貨任務里，機器人 A 原本負責決策，機器人 B 負責執行；如果 A 的核心工具突然故障，B 是否能夠迅速接管指揮。關鍵指標包括接手速度、交接過程是否順暢，以及團隊效率是否明顯下降。這類測試能夠直接檢驗策略模塊能否在運行過程中完成重組。

3.社會魯棒性與規范適應

安全領域強調系統在異常輸入下的魯棒性，社會協作場景同樣需要類似能力。比如，人類隊友突然下達與此前指令相沖突的命令，機器人會機械執行，還是主動暫停并進行核對。另一種測試方式，是讓機器人在兩套不同社交規則的虛擬文化環境中執行同一任務，觀察它是否能夠根據情境調整行為方式。這類能力決定了機器人能否真正進入復雜、多元的人類社會。

4.人類滿意度與團隊績效

協作關系最終是否成立，核心標準仍然是人類是否愿意接受，以及團隊整體表現是否提升。因此，評測體系應納入 human-in-the-loop 實驗，讓真實用戶評價機器人的協作品質，例如“它是否讓工作更輕松”“它是否理解并適應你的偏好”。同時結合客觀指標，如任務成功率、完成耗時和錯誤數量。研究團隊進一步建議引入綜合性的同盟分數，將信任程度、溝通效率與協作流暢度統一納入評價體系。

還要做什么？

當然，這個想法也并非完美。研究團隊坦承，該文章聚焦在同盟感知機器人基礎模型的計算與學習維度，這些技術進展雖然必要，但并不充分。要讓人-機同盟真正落地，還需要以下多個并行領域的同步推進：

機器人硬件持續創新：更安全、低功耗的驅動器和耐用、響應迅速的傳感器，直接決定機器人能否安全可靠地與人共處；
高保真感知：具備密集、大面積觸覺感知的機械手，是實現遞物、力控等細粒度交互的前提；
具身認知視角：機器人的物理形態和感知-運動能力從根本上塑造它能學什么、能如何協作，這一因素必須與算法改進同步前進；
HRI 設計、安全與倫理框架：更直觀的溝通界面、社會化反饋機制，以及確保機器人行為與人類價值和安全標準對齊的倫理約束。

研究團隊還表示，規范問題本身也遠未解決，規范高度依賴語境、隨社群變化、甚至互相沖突，如何讓機器人在不經過大規模重新訓練的前提下適應全新的規范情境，仍是一個尚待解決的難題。

從自主走向同盟，本質上是在重新定義機器人“學習”與“泛化”的含義：未來的機器人基礎模型不再只是精煉技能，而是能在動態的人-機生態中持續適應。當機器人真的能走進新的環境、立即開始與周圍的人和機器共同學習，它們就從“工具”變成了“伙伴”。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.