![]()
機器之心編輯部
最近,全球的網(wǎng)民都化身「監(jiān)工」,圍觀了 Figure AI 的人形機器人直播在物流傳送帶上連續(xù)幾十個小時,不間斷地分揀包裹。
機器人能夠在真實的生產(chǎn)環(huán)境中連續(xù)工作,完全依靠自身的視覺系統(tǒng)自主完成了識別、抓取,和分揀的全套動作,標(biāo)志著具身智能的一個里程碑。
這次技術(shù)躍進(jìn)的背后,是當(dāng)前具身智能的核心:智能體(Agent)。如今,機器人已正式邁向了「基于模型的端到端推理」。
機器人不再只是按照預(yù)設(shè)程序完成單一動作,而是要依靠自身視覺系統(tǒng)識別環(huán)境、理解目標(biāo)、規(guī)劃動作,并在持續(xù)變化的物理世界中完成任務(wù)。
誰能讓機器人更好地看懂世界、推理任務(wù)、想象后果、執(zhí)行動作,誰就更接近通用具身智能的核心。
也正是在這個關(guān)鍵節(jié)點,國內(nèi)具身智能領(lǐng)域傳來一個重要進(jìn)展。
北京人形機器人創(chuàng)新中心(以下簡稱「北京人形」)在 WorldArena 全球權(quán)威評測中取得連續(xù)突破。
具身大一統(tǒng)模型 Pelican-Unify 1.0 登頂 WorldArena 權(quán)威榜單,EWM Score(綜合得分)穩(wěn)居榜首,3D Accuracy 接近滿分。
![]()
WorldArena 最新排行榜
此前,北京人形發(fā)布的 WoW 具身世界模型就已經(jīng)登頂 WorldArena Data Engine(數(shù)據(jù)引擎)賽道,并獲得 Hugging Face 官方重點推薦,隨后被斯坦福、Physical Intelligence(PI)等頂尖團(tuán)隊引用,顯示出其在具身世界模型與數(shù)據(jù)引擎方向上的技術(shù)影響力。
![]()
這意味著,北京人形成為全球唯一同時登頂 WorldArena 兩大核心賽道的機構(gòu),也由此拿下具身智能領(lǐng)域首個「雙冠王」,躋身具身大腦能力世界第一梯隊。
從榜單成績來看,Pelican-Unify 1.0 以得分位居榜首,在 WorldArena 覆蓋視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性、物理遵循、3D 準(zhǔn)確性、可控性等多維度的嚴(yán)苛評估中,Pelican-Unify 1.0 拿下綜合第一,展現(xiàn)出較強的均衡能力。其中在 3D Accuracy (3D 準(zhǔn)確率) 上更是達(dá)到了驚人的,接近滿分。
這說明該模型已經(jīng)具備接近真實世界的空間建模能力。因為 3D Accuracy 評估的并不是簡單的畫面質(zhì)量,而是模型對空間幾何關(guān)系的理解能力。Pelican-Unify 1.0 在這一指標(biāo)上接近滿分,說明它不只是看起來生成得像,而是能夠較準(zhǔn)確地理解和重建場景中的空間關(guān)系,這對于機器人而言非常關(guān)鍵。
讓智能體走向物理世界
2025 年以來,智能體成了整個 AI 行業(yè)最熱的詞。OpenAI、谷歌、Anthropic 接連押注,國內(nèi)大模型廠商幾乎無一缺席。智能體的核心邏輯并不復(fù)雜:讓模型不只是回答問題,而是「完成任務(wù)」—— 感知環(huán)境、制定計劃、調(diào)用工具、持續(xù)執(zhí)行。
這個邏輯放在數(shù)字世界尚且勉強成立,但一旦進(jìn)入物理世界,問題就變得根本得多。
一個機器人要完成「把桌上的藍(lán)色零件放進(jìn)右側(cè)料箱」,它需要看懂當(dāng)前場景、理解指令意圖、預(yù)判抓取后的結(jié)果、再生成精確到毫米級的動作序列。
傳統(tǒng)具身智能系統(tǒng)的邏輯更像是「堆積木」:視覺模型負(fù)責(zé)看,語言模型負(fù)責(zé)說,世界模型負(fù)責(zé)預(yù)測,動作策略負(fù)責(zé)執(zhí)行。模型之間各司其職,流水線調(diào)用。
這套方案夠用,但有一個深層缺陷:模塊之間的語義鴻溝,始終是阻礙機器人真正「理解」任務(wù)的天花板。
2025 年 3 月,北京人形發(fā)布通用具身智能平臺「慧思開物」,提出了一條不同的路徑:讓理解、推理、想象與行動在同一個模型內(nèi)部協(xié)同演化,而不是在外部拼湊。
經(jīng)過超過一年的持續(xù)迭代與實踐積累,這一思路在 2026 年 5 月迎來了最具說服力的技術(shù)驗證:昨天,北京人形發(fā)布「慧思開物」平臺的首個「大一統(tǒng)」具身基礎(chǔ)模型:Pelican-Unify 1.0
![]()
- 技術(shù)報告:Pelican-Unify 1.0: A Unified Embodied Intelligence Model (UEI) for Understanding, Reasoning, Imagination and Action
- 報告地址:https://arxiv.org/pdf/2605.15153
Pelican-Unify 1.0 一問世就給出了非常亮眼的成績:在三個國際榜單上均實現(xiàn)了近 SOTA 的性能,不僅在 World Arena 上登頂,在 8 個 VLM Benchmark 的榜單在同級別(4B 以內(nèi))模型性能第一,也在 VLA 榜單 RoboTwin 評測中穩(wěn)居前列。成為全球首個在理解、推理、想象、行動等維度同時達(dá)到全球頂尖水平的統(tǒng)一具身智能模型
「大一統(tǒng)」的具體含義:
三大統(tǒng)一
在 Pelican-Unify 1.0 技術(shù)報告的開篇,北京人形團(tuán)隊引用了三句名言:亞里士多德的「靈魂從不離開意象而思考」;詹姆斯?威廉的「我的思考,始終服務(wù)于我的行動」;以及《禮記?中庸》中的「博學(xué)之,審問之,慎思之,明辨之,篤行之。」
它們其實反映了 Pelican-Unify 1.0 背后的一個核心判斷:要讓具身智能變強,需要一個能夠讓理解、推理、想象、行動互相約束、共同演化的統(tǒng)一回路。
也就是說,Pelican-Unify 1.0 的統(tǒng)一不是「把幾個模塊輸出拼在一起」,而是結(jié)構(gòu)上共享表征、相互約束條件、以同一個訓(xùn)練過程共同演化。
架構(gòu)上,Pelican-Unify 1.0 實現(xiàn)了三類統(tǒng)一:理解、推理和生成。這能讓理解、推理、想象、行動同生共長,同時學(xué)習(xí)「如何理解任務(wù)」、「未來會發(fā)生什么」以及「應(yīng)該執(zhí)行什么動作」。
而在具體的工程實現(xiàn)上,整個模型由兩個緊耦合的組件構(gòu)成:一個視覺-語言模型(VLM),承擔(dān)統(tǒng)一理解與統(tǒng)一推理;一個統(tǒng)一未來生成器(Unified Future Generator,UFG),承擔(dān)統(tǒng)一生成。
![]()
Pelican-Unify 1.0 與 VLA 模型和世界模型的架構(gòu)對比
統(tǒng)一建模:共享表征,三路協(xié)同
傳統(tǒng)流水線中,每個模塊都有自己的內(nèi)部狀態(tài):視覺模塊有特征向量,語言模塊有 token 序列,動作模塊有策略分布,世界模型有潛在狀態(tài)。它們各自優(yōu)化,彼此之間只傳遞壓縮后的輸出信號 —— 這正是語義鴻溝產(chǎn)生的根源。
Pelican-Unify 1.0 的做法是:用一個共享的稠密潛變量 z 取代所有這些分散的內(nèi)部狀態(tài),讓語言推理、視頻想象、動作預(yù)測的訓(xùn)練梯度全部作用于同一塊表征。如此一來,推理、想象、行動就不再是通過接口通信的三個系統(tǒng),而是能在共同的表征中相互約束、協(xié)同演化。
統(tǒng)一編碼器:把歷史、指令、場景壓入同一語義空間
統(tǒng)一編碼器由基于 Qwen3-VL 4B 初始化的視覺 - 語言模型承擔(dān)。
它接收的輸入是一個多模態(tài)上下文 c_t,其中包含三類信息:過去時刻的觀測序列 o(連續(xù)幀圖像)、歷史動作序列 a 、以及當(dāng)前語言指令 l。
![]()
這三類信息被統(tǒng)一編碼進(jìn)共享語義空間,而非由三個平行分支分別處理。
在此基礎(chǔ)上,VLM 自回歸地生成一條思維鏈推理跡 τ_t。這條推理跡并非事后解釋,而是模型對任務(wù)意圖、物理約束、未來后果與動作選擇的中間表征,它能讓語言推理成為具身生成過程中可訓(xùn)練、可監(jiān)督的一個組件,而不是漂浮在決策之外的語言注釋。
推理跡生成完畢后,VLM 取最后一層隱狀態(tài) h_{τ_t},通過一個投影層 P_? 壓縮為稠密潛變量 z:
![]()
這一步是整個架構(gòu)的關(guān)鍵耦合點。z 不只針對語言建模優(yōu)化,它還被下游的視頻和動作生成損失持續(xù)施壓,被迫同時編碼「物理世界將如何演化」和「應(yīng)當(dāng)執(zhí)行什么動作」所需的信息。
統(tǒng)一未來生成器:視頻想象與動作序列在同一個擴(kuò)散過程中聯(lián)合讀出
統(tǒng)一未來生成器由基于 Wan2.2-5B 初始化的擴(kuò)散 Transformer(DiT)承擔(dān),以 z 為條件,在同一個去噪過程中聯(lián)合生成未來視頻幀和低層動作序列。
具體而言,未來視頻先經(jīng)過視頻自編碼器壓縮為潛變量 x^v,動作軌跡歸一化為連續(xù)表示 x^a。在擴(kuò)散的每一步,視頻 token 和動作 token 被各自的輸入嵌入層轉(zhuǎn)換后,一起送入同一個 DiT 主干網(wǎng)絡(luò)處理:
![]()
其中 s 是擴(kuò)散時間步,z 通過交叉注意力注入。自注意力負(fù)責(zé)建模生成序列內(nèi)部的時序與空間依賴,交叉注意力負(fù)責(zé)注入語言 grounding 的任務(wù)語義,擴(kuò)散時間步則通過自適應(yīng)歸一化調(diào)控整體計算。
DiT 主干是兩類 token 共享的,只有輸入嵌入和輸出頭(d_v 讀出視頻、d_a 讀出動作)是模態(tài)專屬的。這意味著:視頻 token 和動作 token 在去噪過程的每一步都在同一空間中相互感知、相互約束。
訓(xùn)練目標(biāo)由三路損失組成:語言推理損失 _text(自回歸負(fù)對數(shù)似然)、視頻流匹配損失 _video(連續(xù)時間 flow matching)、以及動作預(yù)測損失 _action(SmoothL1 魯棒回歸):
![]()
三路損失共同作用于同一表征 z:
- 語言損失讓 z 與任務(wù)級語義對齊
- 視頻損失迫使 z 對物理世界的動態(tài)演化有預(yù)測性
- 動作損失將 z 錨定在可執(zhí)行的控制空間里
z 必須同時滿足三重壓力,才能在訓(xùn)練中存活。這正是統(tǒng)一范式的優(yōu)化層面含義:推理、想象、行動的一致性是通過梯度博弈自然涌現(xiàn)的。
實驗結(jié)果
第三方評測平臺驗證單項能力
技術(shù)架構(gòu)上的優(yōu)雅,最終要接受評測的檢驗。Pelican-Unify 1.0 給出了亮眼的解答:統(tǒng)一不意味著全面平庸,而是可以在專項能力上與專用模型同臺競爭。
在統(tǒng)一的理解和推理能力上達(dá)到了同級別模型第一。在 VLM 評測中,Pelican-Unify 1.0 在 8 個 General / Embodied Benchmarks 上取得64.7平均分,均達(dá)到 SOTA 水平,并在更具具身屬性的 Where2Place 和 PhyX 上相比基座模型分別提升28.220.6分,證明統(tǒng)一訓(xùn)練并沒有削弱通用多模態(tài)能力,反而增強了空間理解、物理理解和行動相關(guān)語義。
![]()
Pelican-Unify 1.0 與其它方法在一些通用和具身基準(zhǔn)上的成績比較
在統(tǒng)一的動作生成能力方面,整體性能和最佳模型性能相當(dāng)。Pelican-Unify 1.0 在 RoboTwin 50-task dual-arm benchmark 上取得93.5%平均成功率,其中 50 個任務(wù)中有 31 個任務(wù)成功率達(dá)到至少 95%,15 個任務(wù)達(dá)到 100%,覆蓋插拔、堆疊、交接等不同類型任務(wù),跟當(dāng)前 SOTA 模型性能基本持平,證明具身大一統(tǒng)模型具備強動作執(zhí)行能力。
![]()
Pelican-Unify 1.0 與主要 VLA 和世界模型在 RoboTwin 雙臂操作 50 任務(wù)基準(zhǔn)上的成績
這些成績單放在一起,傳達(dá)了一個清晰的信息:Pelican-Unify 1.0 確實能通過結(jié)構(gòu)性共享表征讓理解、推理、行動互相增強。這在具身智能研究中,尚屬首次如此全面的驗證。
北京人形與「慧思開物」
理解 Pelican-Unify 1.0 的完整意義,需要將其放回「慧思開物」平臺的整體布局,以及北京人形的機構(gòu)定位中來看。
2025 年 3 月,慧思開物正式發(fā)布,定位為全球首個「一腦多能、一腦多機」的通用具身智能平臺。其由 AI 大模型驅(qū)動的任務(wù)規(guī)劃「大腦」與數(shù)據(jù)驅(qū)動的端到端技能執(zhí)行「小腦」構(gòu)成,能實現(xiàn)單一軟件系統(tǒng)在機械臂、輪式機器人、人形機器人等多構(gòu)型本體上的兼容部署。
Pelican-Unify 1.0 作為平臺統(tǒng)一具身基礎(chǔ)模型的首發(fā)版本,為慧思開物提供了真正意義上的「認(rèn)知內(nèi)核」,讓「一腦多機」不再只是一個調(diào)度層把多個專家模型串起來,而是同一個理解-推理-想象-行動回路在不同本體上的自然泛化
這一能力在真實硬件上得到了驗證。模型在 UR5e 工業(yè)機械臂和天工人形機器人上的工業(yè)控制面板操作任務(wù)中,在零樣本泛化和組合任務(wù)兩類評測上,均全面超越模塊化基線方法。尤其在組合泛化測試中,模型僅憑各原子任務(wù)的訓(xùn)練數(shù)據(jù),無需任何組合示范,便能在自然語言指令下完成兩段任務(wù)的連續(xù)執(zhí)行。
![]()
組合泛化評估。在訓(xùn)練過程中,模型僅針對單個原子操作任務(wù)進(jìn)行優(yōu)化,未接觸其組合版本。測試時,會評估模型在未見過的組合任務(wù)上的表現(xiàn),這些任務(wù)需要結(jié)合多種已習(xí)得的技能,從而展示了模型在長周期具身操作中強大的組合泛化能力。
這正是「先想象,再行動」的閉環(huán)在物理世界中最直接的體現(xiàn):想象面在訓(xùn)練中已將每個原子動詞映射為未來幀分布,因此能夠在 A 階段結(jié)束后渲染出新初始態(tài),并以此重新條件化 B 階段的動作。整個過程沒有人工設(shè)計的狀態(tài)機,沒有模塊間的顯式通信。
![]()
Pelican-Unify 1.0 可將動作作為條件輸入,從而實現(xiàn)動作條件視頻預(yù)測。左圖:動作條件視頻預(yù)測模型概覽。右圖:本方法生成的視頻與真實值的對比。基于歷史觀測,該動作條件視頻預(yù)測模型實現(xiàn)了輸入動作指令與生成視頻幀之間的細(xì)粒度對齊。
如今,經(jīng)過一年多的場景打磨,慧思開物已從發(fā)布時的技術(shù)演示走向可量產(chǎn)的工業(yè)落地:
- 2025 年 9 月,搭載慧思開物的「具身天工 2.0」進(jìn)入福田康明斯發(fā)動機工廠,在無人生產(chǎn)線上完成料箱取放與搬運任務(wù);
- 同年 10 月,「慧思開物」SDK 正式開放,面向高校與產(chǎn)業(yè)伙伴構(gòu)建開源生態(tài);
- 在世界人工智能大會(WAIC)上,「慧思開物」協(xié)調(diào)四個異構(gòu)機器人完成多本體、多任務(wù)異步協(xié)作,展示了分布式具身智能體系統(tǒng)的協(xié)同能力。
北京人形的身份,在國內(nèi)具身智能版圖中具有獨特性。2023 年成立,由京城機電、優(yōu)必選、亦莊機器人、首程資本等共同發(fā)起;2024 年 10 月,獲授「國家地方共建具身智能機器人創(chuàng)新中心」稱號,正式確立國家級創(chuàng)新平臺定位;2026 年 2 月,完成首輪超 7 億元市場化融資,投資方涵蓋北京市人工智能產(chǎn)業(yè)投資基金、百度、東土科技等機構(gòu)與產(chǎn)業(yè)方。
軟硬件層面,北京人形已于今年 2 月發(fā)布了新一代通用機器人平臺具身天工 3.0,這也是行業(yè)內(nèi)首個實現(xiàn)觸物交互式全身高動態(tài)運動控制的全尺寸人形機器人;而此番 Pelican-Unify 1.0 同時登頂 WorldArena 兩大核心賽道,拿下具身智能領(lǐng)域首個「雙冠王」—— 運動能力與認(rèn)知智能的雙線突破,印證了北京人形軟硬件協(xié)同迭代的系統(tǒng)性能力積累。
![]()
作為國家隊,北京人形對「大一統(tǒng)」范式的堅持是一條需要更高研發(fā)門檻、更長周期驗證的路線。Pelican-Unify 1.0 登頂 WorldArena 的成績,是這條路線第一次在全球權(quán)威評測體系上得到系統(tǒng)性驗證。
而開源 RoboMIND 數(shù)據(jù)集、開放慧思開物 SDK、聯(lián)合高校建立聯(lián)合實驗室,則說明北京人形想做的不只是一家在榜單上領(lǐng)先的機構(gòu),而是一個讓中國具身智能整體研發(fā)效率因共同底座而加速的基礎(chǔ)設(shè)施提供者。
統(tǒng)一,不是終點
是全新的起點
2026 年,具身智能行業(yè)正處于真正的技術(shù)分層時刻。
量產(chǎn)端,頭部企業(yè)已跨過千臺乃至萬臺交付門檻,產(chǎn)業(yè)開始觸碰制造體系的真實極限;資本端,國家大基金三期首次出手具身賽道,單輪融資紀(jì)錄持續(xù)刷新;競爭端,百余家相關(guān)企業(yè)并立,行業(yè)的核心問題已經(jīng)從「能不能做出來」變成「做出來的東西,能不能在從未見過的場景里真正好用」。
這正是 Pelican-Unify 1.0 所回應(yīng)的問題。
在自然語言處理領(lǐng)域,大規(guī)模預(yù)訓(xùn)練范式的核心洞見是:讓理解、生成、推理在同一個表征空間中共同演化,能力的邊界會因相互增強而持續(xù)外擴(kuò)。這一洞見在文本世界已被充分驗證,并重塑了整個 AI 行業(yè)的格局。
現(xiàn)在,同樣的邏輯開始在物理世界尋找它的對應(yīng)物。
不同之處在于,物理世界的「生成」不是輸出文字,而是移動物體;物理世界的「推理」不能只停留在語言層面,必須被動作后果所檢驗;物理世界的「理解」,必須真正 grounding—— 遵循三維空間中物體之間的物理約束關(guān)系。
這使得具身智能的統(tǒng)一,比語言模型的統(tǒng)一難得多,也重要得多。
Pelican-Unify 1.0 給出的,是這個方向上的一個早期但有說服力的答案。當(dāng)推理能夠塑造想象、想象能夠約束行動、行動的結(jié)果能夠反過來校正推理,整個回路就不再是能力的疊加,而是能力的乘積。
從「功能拼湊」到「閉環(huán)智能」,這一步的距離正被跨越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.