目前,大部分機器人主要是基于特定機型、特定場景、特定任務進行固定程序的開發,機器人的智能化仍處于初級階段。
據IFR報告,全球87%的機器人故障源于非結構化環境下的執行失敗,而行業超60%研發投入耗費在場景適配的「填坑」工程中。
行業亟需一個具備多本體兼容、多場景適應和強大泛化能力的通用智能平臺。
幾日前,具身智能機器人國家隊——北京人形機器人創新中心(國家地方共建具身智能機器人創新中心,以下簡稱「北京人形機器人」)舉辦了一場發布會,發布全球首個支持多本體多場景應用的通用具身智能平臺「慧思開物」,或許標志著具身智能從「功能機」邁向「智能機」時代。
「慧思開物」通過統一架構,如同安卓系統為智能手機提供通用操作系統一樣,打破傳統機器人開發模式,解決了行業長期存在的碎片化、泛化性難的問題,統一為機器人賦予了跨場景、跨本體的智能化能力。
正如DeepSeek帶來AI大模型的進一步發展應用一樣,「慧思開物」將助力更多的機器人以更加便捷、更加靈活、更加普惠的方式應用到工業、特種作業、商業服務、養老及家庭等更多的行業領域。
發布會全程實時直播,并現場真實展示了搭載「慧思開物」平臺的各構型機器人以行云流水般的動作,完成了工業分揀、積木搭建、桌面整理、物流打包四大場景任務,展現了自然語言理解、視覺理解、空間感知、復雜任務理解、任務精準拆解、工具調用、雙臂協作、毫米級精度操作、自主糾錯、實時重規劃執行等方面的驚人進化。
全球首個通用具身智能平臺「慧思開物」
作為全球首個「一腦多能」、「一腦多機」的通用具身智能平臺,「慧思開物」的應用是對基于單一場景單一任務做專項開發這一傳統機器人應用開發模式的顛覆。
作為機器人中樞神經系統,「慧思開物」集成感知、決策、語言、學習及運動控制等高級認知功能,通過多專家智能體協同實現模型能力提升,增強機器人在復雜任務中的智能化與執行效率,同時通過低代碼方式降低機器人開發門檻,簡化開發流程,首次實現了單個軟件系統在機械臂、輪式機器人、人形機器人等多構型本體上的兼容,能夠適應多樣化的應用場景和任務。
![]()
- 一腦多能,一腦多機:「慧思開物」支持機器人適應從工業到家庭服務等多類場景,執行不同類別的復雜任務,實現了單個軟件系統對機械臂、輪式機器人、人形機器人等多構型本體的兼容。
- 強思維規劃能力:通過多專家智能體能力集成,「慧思開物」具備行業領先的自然交互、空間感知理解、任務精準拆解、長程任務規劃等能力。
- 輕松易開發式:首創機器人+App的操作模式,通過「慧思開物」App可以讓不懂算法、甚至不懂機器人的人或者企業也能夠較為輕松、快速地完成機器人應用開發。
分布式多具身智能體的架構
從系統架構方面來看,「慧思開物」本質上是分布式的多具身智能體,主要分為具身大腦、具身小腦(包括具身運控和具身操作)兩大部分,平臺由AI大模型驅動的「大腦」(任務規劃)和數據驅動的「小腦」(技能執行)構成,形成類似安卓的「底層系統+應用層」架構。
具身「大腦」具備自然交互、空間感知、意圖理解、分層規劃和錯誤反思等能力,具身「小腦」通過元技能庫和動態控制實現動作執行,形成從具身「大腦」進行任務規劃,再調用具身「小腦」技能庫執行具體動作,并將執行反饋傳遞給具身「大腦」的完整任務閉環。
具身大腦在云端運行,包括交互Agent、規劃Agent、反思Agent等,串聯起包括VLM(視覺語言模型)、MLLM(多模態大語言模型)等多類基礎模型,從而具備自然交互、空間感知、意圖理解、分層規劃和錯誤反思等能力;
具身小腦更多聚焦在端側,運行在機器人本體,由VA(視覺-行動)、VLA(視覺-語言-行動)模型和LLM(大語言模型)驅動,負責端到端執行任務。
其中具身操作涵蓋多類VLA(視覺-語言-動作)模型,構建元技能庫,實現穩健泛化抓取、技能拆解執行、錯誤實時處理等能力;具身運控則是采用強化模仿學習方式,提升運動的穩定性,實現全身控制、雙臂協作、穩定行走和移動導航等任務。
![]()
- 通用的系統級產品:「慧思開物」是解決行業共性問題、賦能行業發展的系統性通用具身智能平臺產品,提供底層開發支撐,而非單個模型。如VLA等執行模型只是平臺產品內具身操作部分的內容之一。
- 靈活開放系統架構:在整個系統產品內,除了內嵌自研的算法模塊外,「慧思開物」也支持接入各種其他模型,以及以開源模型為基礎結合真機數據訓練優化的模型等,未來也會更輕便的集成表現更好的模型,不斷提升平臺的功能。
現場直播Live Demo全球展示
發布會現場,北京人形機器人還進行了現場實況直播,真實展現在不同機型、不同場景、不同任務的情況下,搭載「慧思開物」的直觀表現。
1. 工業分揀:簡單便捷的「App+機器人」模式
傳統的機器人開發范式依賴復雜的編程調試與定制適配,門檻高、時間長。
然而在發布會現場,操作人員只在「慧思開物」App上面輕點幾步,幾分鐘就完成一款工業分揀機器人的任務設計開發與實際運行,充分展現了「慧思開物」面向用戶與開發者的簡便易用性能。
通過「慧思開物」 App直連,UR-5e機械臂能夠精準解析語音指令,進行合理的任務規劃與技能調用,并通過雙臂協同的方式完成分揀操作,同步對運行過程和結果實時反饋與顯示,操作直觀且簡便,展現了「慧思開物」在人機自然交互協作與機器人系統高效對接方面的技術優勢。
簡易便捷的「App+機器人」模式,將復雜的技術能力(如推理、規劃、技能調用)封裝為簡單易用的操作流程,用戶基于「慧思開物」 App可以直接下發操作指令,顯著降低了使用門檻。
同時,面向復雜任務的開發,平臺支持自定義模型和技能的快速添加,能夠靈活適配不同場景的應用需求,為工業自動化領域提供便捷、高效、智能的解決方案。
![]()
這其中,智能體的推理能力至關重要,需要準確的理解各種工具的能力并針對任務選擇合適的工具,并推理出能夠在工具能力之下實現的長程思維能力。
為了提升智能體的核心能力,可以針對性進行調優工作,如下表所示,在Function Call準召率上,通過增加通用基礎能力數據,并合成DPO訓練數據,在函數名匹配加全參數匹配評測的Function Call評測方法上,驗證了Function Call核心能力提升的同時其他能力保持穩步提升,同時通過在MMLU(大規模多任務語言理解)評測集上看到通用能力不損失。
![]()
2. 積木搭建:業內領先的復雜任務智能化拆解與執行
正如北京人形機器人CTO唐劍在發布會開篇提到的「莫拉維克悖論」,雖然多模態大模型讓機器人感知能力得到了巨大的提升,但是在具身操作各類任務下,視覺語言大模型仍然面臨以下五項巨大挑戰。
- 顏色誤分類:顏色與目標物體高度相似的物體被錯誤識別為目標本身。
- 顏色區分粗糙:難以分辨相近色調(例如樂高積塊中的淺藍色與深藍色)。
- 堆疊物體的幾何識別問題:顏色相同的相鄰或堆疊物體常被模型視為單一整體,因其無法識別物體間的清晰邊界。
- 空間理解缺陷:難以理解物體的相對位置、尺寸差異及空間依存關系(例如判斷哪些積木應置于其他積木之上)。
- 物理推理缺陷:對物體間物理支撐關系及力學約束的推理能力仍存在顯著局限(例如缺乏物理支撐的懸浮樂高積木)。
上述問題導致機器人在很多操作任務上無法準確地進行長程規劃。北京人形機器人針對視覺語言大模型在以上能力的缺失上,通過「慧思開物」智能體進行知識注入,以Zero-Shot的方式實現無訓練情況下視覺時空推理能力的提升。
通過積木復現這個典型例子上所得到的成功率極大提升,證明了框架有效性。
工作人員與「天工」閑聊的過程中隨機搭建了一個積木樣例,利用視覺大模型(VLM)對樣例進行拆解,精確規劃每一層的搭建順序,準確拾取相應積木,并按次序完成了3層積木的毫米級精準搭建。
![]()
真實展現大模型思維鏈能力,強大的擬人交互能力、視覺語言理解能力、空間解析能力以及毫米級的精細化操作,流暢精準完成積木搭建。
如下表所示,在MMB以及SEEDbench等視覺語言大模型空間智能評測數據集上,在「慧思開物」具身智能體加持下的各類開源和閉源多模態大模型空間理解能力上均得到了很大提升。
![]()
除了視覺語言問答相關評測之外,北京人形機器人還構建了適用于具身智能的評測集,能夠在空間相對位置、距離、成功失敗判斷、可達性以及可操作性等維度進行了評估,采用「慧思開物」具身智能平臺相比單純調用GPT-4o等多模態模型在具身智能能力上也有很大提升。
近期,北京人形機器人已將相關成果整理為EmbodiedVSR(Embodied Visual-Spaital-Reasoning)技術報告進行公開介紹[1],該技術報告系統闡述了多模態感知、空間推理與具身決策的協同機制,完整呈現了算法框架、實驗數據及工程化方案,后續將分階段開源核心代碼及配套數據集。
![]()
3. 桌面整理:業內領先的實時糾錯雙臂協同流暢操作
現有的具身操作由于成功率、運行速度等難以保證,大多停留在視頻展示階段。「慧思開物」發布會現場帶來了全球首個實時直播無懼干擾的VLA模型。
在一鏡到底的數分鐘展示中,「天工」機器人完美實現了雙臂協同桌面流暢整理,面對不同的桌面雜物布局,在被多次隨機的人為打斷或者移位干擾情況下,依然能夠精準識別桌面物品并實時反應、動態調整、自主重試,流暢絲滑、鍥而不舍地完成桌面上各類杯子、盒子、紙團等雜物的收納放置。
![]()
以上這些能力體現,均來自于北京人形機器人自研的端到端VLA模型,僅需數十小時數據的訓練,充分利用離散策略、自監督學習以及輕量級策略模型的高頻輸出。
此外,為了更好地實現操作過程中的抗干擾能力和錯誤恢復能力,北京人形機器人技術團隊提出了一種自監督數據過濾框架(SSDF)[2]從失敗數據中提取有價值的信息。該框架通過結合專家數據和失敗數據來計算失敗軌跡段的質量分數,并篩選出高質量的失敗數據片段用于訓練。
具體來說,SSDF通過三種自監督任務(掩碼狀態轉換預測、狀態轉換重構和動作自回歸)提取代表性特征,并根據這些特征計算失敗數據與專家數據之間的相似度,最終篩選出高質量的失敗數據片段用于模仿學習。
掩碼狀態轉換預測任務通過預測被掩碼的狀態轉換來學習狀態之間的依賴關系;狀態轉換重構任務通過重構狀態轉換來提取狀態變化的特征;動作自回歸任務則通過預測未來動作來學習動作序列的模式。
這些任務共同作用,使得SSDF能夠從失敗數據中提取出與專家數據相似的高質量片段。
通過更加有效的數據過濾和利用,SSDF框架可以大幅提高各種機器人系統在高不確定性環境中的表現。
![]()
4. 物流打包:首次實現全流程自主真實物流場景打包
發布會現場還展示了首個全尺寸人形機器人物流打包全流程的自主作業,展現機器人對長序列復雜任務的理解與執行能力和靈巧手在工具使用與精細操作中的優勢。
「天工」機器人左右手分別拿起物品和掃碼槍,通過頭部相機確認物品條形碼位置,雙手協同完成掃碼、裝箱、封箱及粘貼快遞標簽等一系列操作,最終將包裝箱放于物流傳送帶上。
![]()
這一物流打包場景的成功執行,有賴于一系列靈巧操作技能的精準實現與組合切換,對操作算法的多任務能力(如抓、放、推拉、掃碼、旋轉等)有極高的要求。
現有算法難以準確區分和適應不同任務,導致多任務操作失敗率較高。
為了解決這一問題,北京人形機器人技術團隊提出了一種名為Discrete Policy[3]的創新方法,通過向量量化變分自編碼器(VQ-VAE)將動作序列映射到離散的隱動作空間,并利用條件擴散模型生成任務特定的隱動作模式嵌入向量,從而解耦多任務動作空間。該方法通過離散化隱動作空間,有效區分不同任務的動作模式。
具體來說,VQ-VAE將連續的動作空間離散化為有限的隱動作空間,使得每個任務的動作模式可以被清晰地分離和識別,條件擴散模型則進一步生成任務特定的隱動作模式嵌入向量,確保機器人在執行不同任務時能夠選擇最合適的動作模式。
通過對多個技能任務的合理組合與切換,機器人能夠顯著提升其在動態環境中的適應能力,和面向更復雜場景、更長序列任務執行的應用。
![]()
5. 擬人移動:行走奔跑步更擬人更穩健
通過基于狀態記憶的預測型強化模仿學習方法,「天工」機器人實現了擬人感知行走。
在平坦地面上擬人直膝行走,在草地、雪地、沙丘、山地等復雜地形中,依然能夠步伐穩健平穩移動,具備強大抗干擾能力;通過感知環境,在面對連續多級階梯和大高度差地形時靈活的調整速度和步態,做到不磕碰,不踩楞,不踏空地通過。
![]()
· 強化模仿學習實現擬人直膝行走:
采用雙重模仿方式,部分關節直接模仿人類軌跡,保證了機器人直膝擬人步態。同時將人類運動捕捉數據編碼為高維運動基元,使機器人模仿人類關節之間的協調關系,使其在行走過程中能夠呈現出自然擺臂的動作,增強了整體動作的協調性。采用適當的獎勵機制與課程學習,平衡直膝行走擬人效果與行走穩定性。上述方法既保證了機器人直膝擬人步態,又保證了行走穩定性,讓機器人行走的節奏更加從容、自然,徹底告別了以往小碎步所帶來的生硬感。目前,該技術已成功在「天工Ultra」上實現高效穩定的擬人直膝行走,機器人行走速度可達 0.8 米 / 秒。
· 短時記憶增強平衡控制:
引入一段時序的本體歷史狀態信息形成短時記憶,通過能夠準確觀測的本體狀態信息實現對難以準確觀測的狀態信息的估計和預測,結合反復迭代的強化學習仿真訓練,使機器人擁有了近乎本能的平衡控制能力,實現各類復雜泛化地形的平穩通過,且具備強大抗干擾能力,能夠抵抗高達45Ns沖量的外部沖擊,在雪地等復雜地形被外力拖拽也能自動保持平衡。
結語
2024年12月,北京人形機器人發布了大規模多構型具身智能數據集和Benchmark——RoboMIND[4],作為業內首個經由多類視覺語言動作(VLA)及端到端模型充分驗證的跨本體標準化大規模數據集,包含10.7萬條機器人軌跡數據,涉及多達479項不同的任務,涵蓋了96種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務場景,具備高度的通用性和可擴展性,為「慧思開物」提供了從任務理解到操作執行的全流程數據支持。
![]()
正如安卓通過開源吸引全球開發者共建生態,「慧思開物」也將有序對外開源開放,通過本體開源、數據集開源、模型代碼開源和社區協作等方式,助力行業高質量發展,其開源數據集RoboMIND已吸引數千次下載。
如今,隨著通用具身智能平臺「慧思開物」的推出,機器人在具有高性能本體的同時,也將全面提升智能化水平。相信機器人將能更好地適應千變萬化的現實環境,真實走進千家萬戶,賦能千行百業。
廣西人工智能協會簡介:
廣西人工智能協會成立于2019年,是在黨的領導下,貫徹黨的科技政策方針路線,由高校、科研院所和相關機器人工廠企業等組成的,以為人工智能產業服務為宗旨,將AI產業化、產業AI化為任務的社會團體。協會與廣州、深圳、上海、北京、杭州、大連等國內人工智能產業發展的先進地區,建立了牢固的產業發展聯盟合作關系。
業務范圍:5G大數據、人工智能機器人、工業互聯網、智慧城市、智慧交通、智慧應急、智慧消防、智慧水利(水務)、智慧國土、智慧工業園、智慧礦山、智慧黨建、智慧公安、智慧醫療、智慧社區、智慧市政、數字展廳、AI智慧教育、AI智慧養老、AI智慧旅游、AI智慧大健康大數據平臺、AI智慧教育實訓室平臺、中國東盟(廣西)AI智慧健康心理運營中心平臺、AI虛擬仿真實訓室等。
職責:
政府的助手、行業的推手、企業的幫手,學院的能手
圍繞政府規劃,統籌社會資源,構建市場化解決方案;
圍繞行業需求,聚合企業優勢,打造產業化標桿項目;
圍繞企業發展,優化營商環境,培育創新化生態體系;
圍繞學院建設,融匯教育智慧,構筑專業化育才高地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.