網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

具身大一統(tǒng)不是口號:北京人形再度登頂WorldArena，拿下雙冠王

2026-05-18 11:10:53　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

最近，全球的網(wǎng)民都化身「監(jiān)工」，圍觀了 Figure AI 的人形機器人直播在物流傳送帶上連續(xù)幾十個小時，不間斷地分揀包裹。

機器人能夠在真實的生產(chǎn)環(huán)境中連續(xù)工作，完全依靠自身的視覺系統(tǒng)自主完成了識別、抓取，和分揀的全套動作，標(biāo)志著具身智能的一個里程碑。

這次技術(shù)躍進(jìn)的背后，是當(dāng)前具身智能的核心：智能體（Agent）。如今，機器人已正式邁向了「基于模型的端到端推理」。

機器人不再只是按照預(yù)設(shè)程序完成單一動作，而是要依靠自身視覺系統(tǒng)識別環(huán)境、理解目標(biāo)、規(guī)劃動作，并在持續(xù)變化的物理世界中完成任務(wù)。

誰能讓機器人更好地看懂世界、推理任務(wù)、想象后果、執(zhí)行動作，誰就更接近通用具身智能的核心。

也正是在這個關(guān)鍵節(jié)點，國內(nèi)具身智能領(lǐng)域傳來一個重要進(jìn)展。

北京人形機器人創(chuàng)新中心（以下簡稱「北京人形」）在 WorldArena 全球權(quán)威評測中取得連續(xù)突破。

具身大一統(tǒng)模型 Pelican-Unify 1.0 登頂 WorldArena 權(quán)威榜單，EWM Score（綜合得分）穩(wěn)居榜首，3D Accuracy 接近滿分。

WorldArena 最新排行榜

此前，北京人形發(fā)布的 WoW 具身世界模型就已經(jīng)登頂 WorldArena Data Engine（數(shù)據(jù)引擎）賽道，并獲得 Hugging Face 官方重點推薦，隨后被斯坦福、Physical Intelligence（PI）等頂尖團(tuán)隊引用，顯示出其在具身世界模型與數(shù)據(jù)引擎方向上的技術(shù)影響力。

這意味著，北京人形成為全球唯一同時登頂 WorldArena 兩大核心賽道的機構(gòu)，也由此拿下具身智能領(lǐng)域首個「雙冠王」，躋身具身大腦能力世界第一梯隊。

從榜單成績來看，Pelican-Unify 1.0 以得分位居榜首，在 WorldArena 覆蓋視覺質(zhì)量、運動質(zhì)量、內(nèi)容一致性、物理遵循、3D 準(zhǔn)確性、可控性等多維度的嚴(yán)苛評估中，Pelican-Unify 1.0 拿下綜合第一，展現(xiàn)出較強的均衡能力。其中在 3D Accuracy (3D 準(zhǔn)確率) 上更是達(dá)到了驚人的，接近滿分。

這說明該模型已經(jīng)具備接近真實世界的空間建模能力。因為 3D Accuracy 評估的并不是簡單的畫面質(zhì)量，而是模型對空間幾何關(guān)系的理解能力。Pelican-Unify 1.0 在這一指標(biāo)上接近滿分，說明它不只是看起來生成得像，而是能夠較準(zhǔn)確地理解和重建場景中的空間關(guān)系，這對于機器人而言非常關(guān)鍵。

讓智能體走向物理世界

2025 年以來，智能體成了整個 AI 行業(yè)最熱的詞。OpenAI、谷歌、Anthropic 接連押注，國內(nèi)大模型廠商幾乎無一缺席。智能體的核心邏輯并不復(fù)雜：讓模型不只是回答問題，而是「完成任務(wù)」—— 感知環(huán)境、制定計劃、調(diào)用工具、持續(xù)執(zhí)行。

這個邏輯放在數(shù)字世界尚且勉強成立，但一旦進(jìn)入物理世界，問題就變得根本得多。

一個機器人要完成「把桌上的藍(lán)色零件放進(jìn)右側(cè)料箱」，它需要看懂當(dāng)前場景、理解指令意圖、預(yù)判抓取后的結(jié)果、再生成精確到毫米級的動作序列。

傳統(tǒng)具身智能系統(tǒng)的邏輯更像是「堆積木」：視覺模型負(fù)責(zé)看，語言模型負(fù)責(zé)說，世界模型負(fù)責(zé)預(yù)測，動作策略負(fù)責(zé)執(zhí)行。模型之間各司其職，流水線調(diào)用。

這套方案夠用，但有一個深層缺陷：模塊之間的語義鴻溝，始終是阻礙機器人真正「理解」任務(wù)的天花板。

2025 年 3 月，北京人形發(fā)布通用具身智能平臺「慧思開物」，提出了一條不同的路徑：讓理解、推理、想象與行動在同一個模型內(nèi)部協(xié)同演化，而不是在外部拼湊。

經(jīng)過超過一年的持續(xù)迭代與實踐積累，這一思路在 2026 年 5 月迎來了最具說服力的技術(shù)驗證：昨天，北京人形發(fā)布「慧思開物」平臺的首個「大一統(tǒng)」具身基礎(chǔ)模型：Pelican-Unify 1.0

技術(shù)報告：Pelican-Unify 1.0: A Unified Embodied Intelligence Model (UEI) for Understanding, Reasoning, Imagination and Action
報告地址：https://arxiv.org/pdf/2605.15153

Pelican-Unify 1.0 一問世就給出了非常亮眼的成績：在三個國際榜單上均實現(xiàn)了近 SOTA 的性能，不僅在 World Arena 上登頂，在 8 個 VLM Benchmark 的榜單在同級別（4B 以內(nèi)）模型性能第一，也在 VLA 榜單 RoboTwin 評測中穩(wěn)居前列。成為全球首個在理解、推理、想象、行動等維度同時達(dá)到全球頂尖水平的統(tǒng)一具身智能模型

「大一統(tǒng)」的具體含義：

三大統(tǒng)一

在 Pelican-Unify 1.0 技術(shù)報告的開篇，北京人形團(tuán)隊引用了三句名言：亞里士多德的「靈魂從不離開意象而思考」；詹姆斯?威廉的「我的思考，始終服務(wù)于我的行動」；以及《禮記?中庸》中的「博學(xué)之，審問之，慎思之，明辨之，篤行之。」

它們其實反映了 Pelican-Unify 1.0 背后的一個核心判斷：要讓具身智能變強，需要一個能夠讓理解、推理、想象、行動互相約束、共同演化的統(tǒng)一回路。

也就是說，Pelican-Unify 1.0 的統(tǒng)一不是「把幾個模塊輸出拼在一起」，而是結(jié)構(gòu)上共享表征、相互約束條件、以同一個訓(xùn)練過程共同演化。

架構(gòu)上，Pelican-Unify 1.0 實現(xiàn)了三類統(tǒng)一：理解、推理和生成。這能讓理解、推理、想象、行動同生共長，同時學(xué)習(xí)「如何理解任務(wù)」、「未來會發(fā)生什么」以及「應(yīng)該執(zhí)行什么動作」。

而在具體的工程實現(xiàn)上，整個模型由兩個緊耦合的組件構(gòu)成：一個視覺-語言模型（VLM），承擔(dān)統(tǒng)一理解與統(tǒng)一推理；一個統(tǒng)一未來生成器（Unified Future Generator，UFG），承擔(dān)統(tǒng)一生成。

Pelican-Unify 1.0 與 VLA 模型和世界模型的架構(gòu)對比

統(tǒng)一建模：共享表征，三路協(xié)同

傳統(tǒng)流水線中，每個模塊都有自己的內(nèi)部狀態(tài)：視覺模塊有特征向量，語言模塊有 token 序列，動作模塊有策略分布，世界模型有潛在狀態(tài)。它們各自優(yōu)化，彼此之間只傳遞壓縮后的輸出信號 —— 這正是語義鴻溝產(chǎn)生的根源。

Pelican-Unify 1.0 的做法是：用一個共享的稠密潛變量 z 取代所有這些分散的內(nèi)部狀態(tài)，讓語言推理、視頻想象、動作預(yù)測的訓(xùn)練梯度全部作用于同一塊表征。如此一來，推理、想象、行動就不再是通過接口通信的三個系統(tǒng)，而是能在共同的表征中相互約束、協(xié)同演化。

統(tǒng)一編碼器：把歷史、指令、場景壓入同一語義空間

統(tǒng)一編碼器由基于 Qwen3-VL 4B 初始化的視覺 - 語言模型承擔(dān)。

它接收的輸入是一個多模態(tài)上下文 c_t，其中包含三類信息：過去時刻的觀測序列 o（連續(xù)幀圖像）、歷史動作序列 a 、以及當(dāng)前語言指令 l。

這三類信息被統(tǒng)一編碼進(jìn)共享語義空間，而非由三個平行分支分別處理。

在此基礎(chǔ)上，VLM 自回歸地生成一條思維鏈推理跡 τ_t。這條推理跡并非事后解釋，而是模型對任務(wù)意圖、物理約束、未來后果與動作選擇的中間表征，它能讓語言推理成為具身生成過程中可訓(xùn)練、可監(jiān)督的一個組件，而不是漂浮在決策之外的語言注釋。

推理跡生成完畢后，VLM 取最后一層隱狀態(tài) h_{τ_t}，通過一個投影層 P_? 壓縮為稠密潛變量 z：

這一步是整個架構(gòu)的關(guān)鍵耦合點。z 不只針對語言建模優(yōu)化，它還被下游的視頻和動作生成損失持續(xù)施壓，被迫同時編碼「物理世界將如何演化」和「應(yīng)當(dāng)執(zhí)行什么動作」所需的信息。

統(tǒng)一未來生成器：視頻想象與動作序列在同一個擴(kuò)散過程中聯(lián)合讀出

統(tǒng)一未來生成器由基于 Wan2.2-5B 初始化的擴(kuò)散 Transformer（DiT）承擔(dān)，以 z 為條件，在同一個去噪過程中聯(lián)合生成未來視頻幀和低層動作序列。

具體而言，未來視頻先經(jīng)過視頻自編碼器壓縮為潛變量 x^v，動作軌跡歸一化為連續(xù)表示 x^a。在擴(kuò)散的每一步，視頻 token 和動作 token 被各自的輸入嵌入層轉(zhuǎn)換后，一起送入同一個 DiT 主干網(wǎng)絡(luò)處理：

其中 s 是擴(kuò)散時間步，z 通過交叉注意力注入。自注意力負(fù)責(zé)建模生成序列內(nèi)部的時序與空間依賴，交叉注意力負(fù)責(zé)注入語言 grounding 的任務(wù)語義，擴(kuò)散時間步則通過自適應(yīng)歸一化調(diào)控整體計算。

DiT 主干是兩類 token 共享的，只有輸入嵌入和輸出頭（d_v 讀出視頻、d_a 讀出動作）是模態(tài)專屬的。這意味著：視頻 token 和動作 token 在去噪過程的每一步都在同一空間中相互感知、相互約束。

訓(xùn)練目標(biāo)由三路損失組成：語言推理損失 _text（自回歸負(fù)對數(shù)似然）、視頻流匹配損失 _video（連續(xù)時間 flow matching）、以及動作預(yù)測損失 _action（SmoothL1 魯棒回歸）：

三路損失共同作用于同一表征 z：

語言損失讓 z 與任務(wù)級語義對齊
視頻損失迫使 z 對物理世界的動態(tài)演化有預(yù)測性
動作損失將 z 錨定在可執(zhí)行的控制空間里

z 必須同時滿足三重壓力，才能在訓(xùn)練中存活。這正是統(tǒng)一范式的優(yōu)化層面含義：推理、想象、行動的一致性是通過梯度博弈自然涌現(xiàn)的。

實驗結(jié)果

第三方評測平臺驗證單項能力

技術(shù)架構(gòu)上的優(yōu)雅，最終要接受評測的檢驗。Pelican-Unify 1.0 給出了亮眼的解答：統(tǒng)一不意味著全面平庸，而是可以在專項能力上與專用模型同臺競爭。

在統(tǒng)一的理解和推理能力上達(dá)到了同級別模型第一。在 VLM 評測中，Pelican-Unify 1.0 在 8 個 General / Embodied Benchmarks 上取得64.7平均分，均達(dá)到 SOTA 水平，并在更具具身屬性的 Where2Place 和 PhyX 上相比基座模型分別提升28.220.6分，證明統(tǒng)一訓(xùn)練并沒有削弱通用多模態(tài)能力，反而增強了空間理解、物理理解和行動相關(guān)語義。

Pelican-Unify 1.0 與其它方法在一些通用和具身基準(zhǔn)上的成績比較

在統(tǒng)一的動作生成能力方面，整體性能和最佳模型性能相當(dāng)。Pelican-Unify 1.0 在 RoboTwin 50-task dual-arm benchmark 上取得93.5%平均成功率，其中 50 個任務(wù)中有 31 個任務(wù)成功率達(dá)到至少 95%，15 個任務(wù)達(dá)到 100%，覆蓋插拔、堆疊、交接等不同類型任務(wù)，跟當(dāng)前 SOTA 模型性能基本持平，證明具身大一統(tǒng)模型具備強動作執(zhí)行能力。

Pelican-Unify 1.0 與主要 VLA 和世界模型在 RoboTwin 雙臂操作 50 任務(wù)基準(zhǔn)上的成績

這些成績單放在一起，傳達(dá)了一個清晰的信息：Pelican-Unify 1.0 確實能通過結(jié)構(gòu)性共享表征讓理解、推理、行動互相增強。這在具身智能研究中，尚屬首次如此全面的驗證。

北京人形與「慧思開物」

理解 Pelican-Unify 1.0 的完整意義，需要將其放回「慧思開物」平臺的整體布局，以及北京人形的機構(gòu)定位中來看。

2025 年 3 月，慧思開物正式發(fā)布，定位為全球首個「一腦多能、一腦多機」的通用具身智能平臺。其由 AI 大模型驅(qū)動的任務(wù)規(guī)劃「大腦」與數(shù)據(jù)驅(qū)動的端到端技能執(zhí)行「小腦」構(gòu)成，能實現(xiàn)單一軟件系統(tǒng)在機械臂、輪式機器人、人形機器人等多構(gòu)型本體上的兼容部署。

Pelican-Unify 1.0 作為平臺統(tǒng)一具身基礎(chǔ)模型的首發(fā)版本，為慧思開物提供了真正意義上的「認(rèn)知內(nèi)核」，讓「一腦多機」不再只是一個調(diào)度層把多個專家模型串起來，而是同一個理解-推理-想象-行動回路在不同本體上的自然泛化

這一能力在真實硬件上得到了驗證。模型在 UR5e 工業(yè)機械臂和天工人形機器人上的工業(yè)控制面板操作任務(wù)中，在零樣本泛化和組合任務(wù)兩類評測上，均全面超越模塊化基線方法。尤其在組合泛化測試中，模型僅憑各原子任務(wù)的訓(xùn)練數(shù)據(jù)，無需任何組合示范，便能在自然語言指令下完成兩段任務(wù)的連續(xù)執(zhí)行。

組合泛化評估。在訓(xùn)練過程中，模型僅針對單個原子操作任務(wù)進(jìn)行優(yōu)化，未接觸其組合版本。測試時，會評估模型在未見過的組合任務(wù)上的表現(xiàn)，這些任務(wù)需要結(jié)合多種已習(xí)得的技能，從而展示了模型在長周期具身操作中強大的組合泛化能力。

這正是「先想象，再行動」的閉環(huán)在物理世界中最直接的體現(xiàn)：想象面在訓(xùn)練中已將每個原子動詞映射為未來幀分布，因此能夠在 A 階段結(jié)束后渲染出新初始態(tài)，并以此重新條件化 B 階段的動作。整個過程沒有人工設(shè)計的狀態(tài)機，沒有模塊間的顯式通信。

Pelican-Unify 1.0 可將動作作為條件輸入，從而實現(xiàn)動作條件視頻預(yù)測。左圖：動作條件視頻預(yù)測模型概覽。右圖：本方法生成的視頻與真實值的對比。基于歷史觀測，該動作條件視頻預(yù)測模型實現(xiàn)了輸入動作指令與生成視頻幀之間的細(xì)粒度對齊。

如今，經(jīng)過一年多的場景打磨，慧思開物已從發(fā)布時的技術(shù)演示走向可量產(chǎn)的工業(yè)落地：

2025 年 9 月，搭載慧思開物的「具身天工 2.0」進(jìn)入福田康明斯發(fā)動機工廠，在無人生產(chǎn)線上完成料箱取放與搬運任務(wù)；
同年 10 月，「慧思開物」SDK 正式開放，面向高校與產(chǎn)業(yè)伙伴構(gòu)建開源生態(tài)；
在世界人工智能大會（WAIC）上，「慧思開物」協(xié)調(diào)四個異構(gòu)機器人完成多本體、多任務(wù)異步協(xié)作，展示了分布式具身智能體系統(tǒng)的協(xié)同能力。

北京人形的身份，在國內(nèi)具身智能版圖中具有獨特性。2023 年成立，由京城機電、優(yōu)必選、亦莊機器人、首程資本等共同發(fā)起；2024 年 10 月，獲授「國家地方共建具身智能機器人創(chuàng)新中心」稱號，正式確立國家級創(chuàng)新平臺定位；2026 年 2 月，完成首輪超 7 億元市場化融資，投資方涵蓋北京市人工智能產(chǎn)業(yè)投資基金、百度、東土科技等機構(gòu)與產(chǎn)業(yè)方。

軟硬件層面，北京人形已于今年 2 月發(fā)布了新一代通用機器人平臺具身天工 3.0，這也是行業(yè)內(nèi)首個實現(xiàn)觸物交互式全身高動態(tài)運動控制的全尺寸人形機器人；而此番 Pelican-Unify 1.0 同時登頂 WorldArena 兩大核心賽道，拿下具身智能領(lǐng)域首個「雙冠王」—— 運動能力與認(rèn)知智能的雙線突破，印證了北京人形軟硬件協(xié)同迭代的系統(tǒng)性能力積累。

作為國家隊，北京人形對「大一統(tǒng)」范式的堅持是一條需要更高研發(fā)門檻、更長周期驗證的路線。Pelican-Unify 1.0 登頂 WorldArena 的成績，是這條路線第一次在全球權(quán)威評測體系上得到系統(tǒng)性驗證。

而開源 RoboMIND 數(shù)據(jù)集、開放慧思開物 SDK、聯(lián)合高校建立聯(lián)合實驗室，則說明北京人形想做的不只是一家在榜單上領(lǐng)先的機構(gòu)，而是一個讓中國具身智能整體研發(fā)效率因共同底座而加速的基礎(chǔ)設(shè)施提供者。

統(tǒng)一，不是終點

是全新的起點

2026 年，具身智能行業(yè)正處于真正的技術(shù)分層時刻。

量產(chǎn)端，頭部企業(yè)已跨過千臺乃至萬臺交付門檻，產(chǎn)業(yè)開始觸碰制造體系的真實極限；資本端，國家大基金三期首次出手具身賽道，單輪融資紀(jì)錄持續(xù)刷新；競爭端，百余家相關(guān)企業(yè)并立，行業(yè)的核心問題已經(jīng)從「能不能做出來」變成「做出來的東西，能不能在從未見過的場景里真正好用」。

這正是 Pelican-Unify 1.0 所回應(yīng)的問題。

在自然語言處理領(lǐng)域，大規(guī)模預(yù)訓(xùn)練范式的核心洞見是：讓理解、生成、推理在同一個表征空間中共同演化，能力的邊界會因相互增強而持續(xù)外擴(kuò)。這一洞見在文本世界已被充分驗證，并重塑了整個 AI 行業(yè)的格局。

現(xiàn)在，同樣的邏輯開始在物理世界尋找它的對應(yīng)物。

不同之處在于，物理世界的「生成」不是輸出文字，而是移動物體；物理世界的「推理」不能只停留在語言層面，必須被動作后果所檢驗；物理世界的「理解」，必須真正 grounding—— 遵循三維空間中物體之間的物理約束關(guān)系。

這使得具身智能的統(tǒng)一，比語言模型的統(tǒng)一難得多，也重要得多。

Pelican-Unify 1.0 給出的，是這個方向上的一個早期但有說服力的答案。當(dāng)推理能夠塑造想象、想象能夠約束行動、行動的結(jié)果能夠反過來校正推理，整個回路就不再是能力的疊加，而是能力的乘積。

從「功能拼湊」到「閉環(huán)智能」，這一步的距離正被跨越。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.