極佳視界物理AGI雙金字塔體系：數(shù)據(jù)與算法如何撐起Scaling Law？

2026-05-22 21:27:28　來源: 機器之心Pro

河北舉報

分享至

機器之心發(fā)布

過去兩年，具身智能賽道討論最多的兩個方向，一是「世界模型」，二是「VLA / 動作模型」。

前者以 NVIDIA Cosmos、Google Genie 為代表，主張通過生成式世界模型擴展數(shù)據(jù)供給；后者以 Physical Intelligence 的 π 系列、Diffusion Policy 等為代表，主張依靠大規(guī)模真機數(shù)據(jù)獲得通用動作能力。

兩條路線各自取得了顯著進展，但誰也沒有真正回答一個問題 ——當(dāng)我們把「物理 AGI」當(dāng)作目標(biāo)時，到底需要什么樣的算法體系和數(shù)據(jù)體系，才能跑通 Scaling？

5 月 20 日，武漢光谷。極佳視界（GigaAI）在「家庭場景子品牌發(fā)布會暨物理通用智能技術(shù)發(fā)布會」上，給出了一份相對完整的答案。

極佳視界 5.20 發(fā)布會現(xiàn)場

這場發(fā)布會公布了五件事：全球首個物理 AGI「雙金字塔」體系；家庭場景子品牌「拾光 SeeLight」與首款家庭通用人形機器人「拾光 S1」同步亮相；國內(nèi)首個真實家庭場景百臺部署落地武漢，Q3 起規(guī)模化運營；下一代產(chǎn)品「拾光 S2」三季度發(fā)布，真實家庭創(chuàng)始版預(yù)定通道即日起開啟；最后是一份 12 個月的路線圖 —— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發(fā)三代基礎(chǔ)模型，目標(biāo)是物理 AGI 的「GPT-3 時刻」。

信息量很大，其中我們最關(guān)注的，是物理 AGI 的「雙金字塔」體系。

從 Scaling 的瓶頸說起

具身智能為什么至今沒能跑通 Scaling Law？極佳視界合伙人、研發(fā)副總裁葉云在發(fā)布會上把問題歸結(jié)為兩條。

第一條在數(shù)據(jù)側(cè)。真機數(shù)據(jù)精度最高，卻受制于高成本與小規(guī)模；互聯(lián)網(wǎng)視頻規(guī)模龐大，卻缺乏動作監(jiān)督信號；仿真數(shù)據(jù)可無限擴展，卻難以跨越 sim-to-real gap。任何單一來源，都無法同時滿足 Scaling Law 所要求的規(guī)模、信息密度與真實性。

第二條在算法側(cè)。當(dāng)前以語言為主導(dǎo)的 VLA 范式，本質(zhì)上是把視覺、動作 token 化后送入語言模型，并不擅長編碼 3D 信息、物理因果與連續(xù)動作。換句話說，即便堆夠了數(shù)據(jù)，目前的主流模型架構(gòu)也未必能高效消化它們。

極佳視界合伙人、研發(fā)副總裁葉云

圍繞這兩條卡點，極佳視界提出的解決路徑是把數(shù)據(jù)和算法分別按層次結(jié)構(gòu)展開，一座面向數(shù)據(jù)的金字塔，一座面向算法的金字塔，二者耦合，缺一不可。這就是「雙金字塔」體系的來源。

全球首個物理 AGI 「雙金字塔」體系

從底層邏輯來看，這是物理 AGI 賽道第一次有公司把 Scaling 路徑系統(tǒng)化展開。

五層數(shù)據(jù)金字塔

數(shù)據(jù)金字塔從底到頂依次為：互聯(lián)網(wǎng)視頻數(shù)據(jù)、真人數(shù)據(jù)、世界模型模擬器、仿真合成數(shù)據(jù)、真機數(shù)據(jù)

這一劃分本身并不令人意外 —— 它基本對應(yīng)了學(xué)術(shù)界過去兩年關(guān)于具身數(shù)據(jù)來源的主要討論：真機數(shù)據(jù)在金字塔頂端，精度最高、覆蓋最窄；互聯(lián)網(wǎng)視頻在底部，規(guī)模最大、監(jiān)督最弱；中間三層（真人示范、仿真、世界模型生成數(shù)據(jù)）則是最具工程化空間、也最被低估的部分。

真正值得注意的，是極佳視界在每一層都拿出了對應(yīng)的工程化產(chǎn)品

真機數(shù)據(jù)由家庭版輪臂機器人「拾光 S1」和低成本真機數(shù)采硬件「Maker M01」協(xié)同采集；仿真合成數(shù)據(jù)與世界模型模擬器數(shù)據(jù)由自研具身世界模型平臺「GigaWorld-0」系統(tǒng)化生成；真人數(shù)據(jù)由低成本手持?jǐn)?shù)采硬件「U-01」和低成本 Ego 數(shù)采硬件「E-01」大規(guī)模采集；互聯(lián)網(wǎng)視頻數(shù)據(jù)則復(fù)用 YouTube、Panda-70M 等公開來源。

極佳視界「數(shù)據(jù)金字塔」

U-01、E-01 這種「低成本、非本體綁定」的數(shù)據(jù)采集硬件，類似 Stanford 團隊 UMI 與 EgoMimic 的研究思路，被學(xué)術(shù)界公認是突破真機數(shù)據(jù)瓶頸的可行方向之一。

區(qū)別在于，極佳視界把它和自研機器人本體（S1）、世界模型平臺（GigaWorld-0）一起做成了一套完整的全棧采集體系。單點研究并不稀奇，全棧跑通且每一層都有自研硬件做支撐，在國內(nèi)具身智能公司中目前并不多見。

三層算法金字塔

算法金字塔從底到頂分為：世界模擬、動作對齊、經(jīng)驗強化。

極佳視界把這三層分別落到具體的模型上。

世界模擬層的代表是具身世界模型GigaWorld-1。它在世界模型領(lǐng)域權(quán)威評測 WorldArena 上以綜合得分 62.34 擊敗 Wan、CogVideoX、Veo 3.1、Cosmos-Predict 等模型獲得全球第一，是榜單中首個綜合得分突破 60 分大關(guān)的具身世界模型。

動作對齊層包括GigaBrain-0 系列GigaWorld-Policy。前者是 VLA 路線的具身基礎(chǔ)模型，在全球規(guī)模最大的真機評測 RoboChallenge 中以 51.67% 任務(wù)成功率位列全球第一，領(lǐng)先 π0.5 接近 10 個百分點；后者是世界動作模型，在面向家庭場景的全球權(quán)威評測平臺 RoboCasa365 上擊敗 NVIDIA GR00T N1.5 與 π0.5 獲得全球第一，成為榜單首個登頂?shù)氖澜鐒幼髂Ｐ汀?/p>

經(jīng)驗強化層是GigaBrain-0.5M*，通過「世界模型 + 強化學(xué)習(xí)」實現(xiàn)具身基模的自我進化。

極佳視界「算法金字塔」

單一榜單第一在具身智能賽道并不罕見，但同時在「世界模型 + 模仿學(xué)習(xí) + 強化學(xué)習(xí)」三個方向上拿到全球權(quán)威評測第一，并把三層之間的數(shù)據(jù)流轉(zhuǎn)關(guān)系打通，目前國內(nèi)只有極佳視界一家做到。WorldArena、RoboChallenge、RoboCasa365 三大權(quán)威評測結(jié)果分別證明了其在感知 - 生成、真機操作、家庭場景泛化領(lǐng)域的三種核心能力。這三個「全球第一」也有力證明了「雙金字塔」體系背后深厚的技術(shù)支撐。

跑通技術(shù)體系之后，下一站家庭

技術(shù)體系跑通之后，問題變成 —— 去哪里驗證 Scaling 是否真的成立。極佳視界給出的答案是：真實家庭。

發(fā)布會上，極佳視界聯(lián)合創(chuàng)始人、首席科學(xué)家朱政博士正式發(fā)布公司面向家庭場景的全新子品牌 ——「拾光 SeeLight」，定位「國內(nèi)首個家庭通用機器人品牌」，由朱政擔(dān)任品牌 CEO。

極佳視界聯(lián)合創(chuàng)始人 & 首席科學(xué)家、拾光品牌 CEO 朱政

朱政在發(fā)布會上表示：「AGI 不該只停留在屏幕里。我們不是在講一個遙遠的未來故事，而是在把骨子里對物理 AGI 的信仰變成真實的產(chǎn)品，讓物理 AGI 服務(wù)每一個人。」

品牌發(fā)布同期推出的第一代產(chǎn)品「拾光 S1」，被定義為「全球首個進入真實家庭場景的通用人形機器人」。S1 采用家庭版輪臂構(gòu)型，搭載極佳視界自研的具身基礎(chǔ)模型，具備從感知、理解到行動的完整閉環(huán)能力。

選擇家庭、而不是工業(yè)線或物流作為物理 AGI 的首發(fā)場景，從技術(shù)角度看是一個值得討論的決策。家庭場景的開放性、長尾性、人機交互復(fù)雜度，都遠超工業(yè)場景 —— 正因為如此，它是驗證「通用性」最嚴(yán)苛的試金石。極佳視界這種「先難后易」的場景選擇，與它在算法側(cè)的技術(shù)演進路徑，應(yīng)該是同一種思路。

視頻鏈接：https://mp.weixin.qq.com/s/7UE0h6WvlWgYEHJQjOVivg

百臺部署：第一筆可被驗證的訂單

具身智能賽道過去一年最被詬病的問題之一，是「發(fā)布會演示與真實場景使用之間的鴻溝」 —— 幾乎所有公司都會展示樣機能做什么，但鮮有公司能證明它在家里怎么用，能用多久。本次發(fā)布會上極佳視界給出的回應(yīng)，是一筆已經(jīng)落地的訂單。

極佳視界宣布拾光 S1 已獲得真實家庭場景百臺訂單，將率先部署于武漢光谷之寓社區(qū)（位于武漢光谷的真實居住社區(qū)），Q3 起開啟規(guī)模化運營。這是公開信息中規(guī)模化家庭通用機器人部署的首例 —— 此前 Figure、1X 等海外廠商雖然披露過家庭試用，但都停留在個位數(shù)訂單或員工家庭體驗。

100 臺 + 真實居住社區(qū) + Q3 規(guī)模化運營這一組合，意味著一筆重要資產(chǎn)將開始積累：真實家庭的長期使用數(shù)據(jù)。

機器人進入武漢光谷之寓真實場景

這是 Scaling Law 在物理智能領(lǐng)域真正成立的關(guān)鍵。極佳方面在發(fā)布會透露：拾光 S1 的家庭場景展示體驗空間將于 2026 年 5 月 31 日起開放參觀。

拾光 S2：本體側(cè)的系統(tǒng)性重構(gòu)

發(fā)布會還預(yù)告了第二代產(chǎn)品「拾光 S2」將于 2026 年三季度正式發(fā)布。從披露的本體參數(shù)看，這不是一次小迭代：

底盤體積減少 60%，更適應(yīng)家庭狹窄空間；電池續(xù)航提升 70%，并支持熱換電，直接決定真實服務(wù)中的連續(xù)工作能力；操作范圍擴大 40%，支持 2.2 米高度內(nèi)任務(wù)執(zhí)行。朱政在發(fā)布會上表示：「S2 的核心，不是某個參數(shù)變得更漂亮，而是整機開始更接近真實家庭所需要的『可用性』。」

拾光 S2 全新設(shè)計構(gòu)型，定價、發(fā)售政策將于三季度全面揭曉

從產(chǎn)業(yè)視角，機器人本體側(cè)的關(guān)鍵瓶頸其實是「能不能在真實家庭里長期穩(wěn)定工作」—— 續(xù)航、熱管理、關(guān)節(jié)壽命、安全冗余、維護成本。S2 的三項升級都直接對應(yīng)這條線，工程取向相對克制。同時，真實家庭創(chuàng)始版預(yù)定通道，自即日起正式開啟。

12 個月，三代基礎(chǔ)模型

劍指「GPT-3 時刻」

發(fā)布會的最后一個部分，是極佳視界首次公布物理 AGI 基礎(chǔ)模型的 12 個月路線圖—— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發(fā)三代。

GigaBrain-1 將于 2026 年第三季度發(fā)布，是全球首個基于「雙金字塔」體系打造的物理 AGI 基礎(chǔ)模型，目標(biāo)是在物理智能泛化性上達到新高度。其后 GigaBrain-2 與 GigaBrain-3 加速 Scaling，其中 GigaBrain-3 將基于 1000 萬小時視頻數(shù)據(jù) + 100 萬小時世界 - 動作數(shù)據(jù)進行訓(xùn)練，劍指物理 AGI 的「GPT-3 時刻」。

GigaBrain-3 劍指物理 AGI 的「GPT-3 時刻」

GPT-3 在數(shù)字 AGI 歷史上的意義，不在模型本身，而在「首次讓 Scaling Law 顯現(xiàn)涌現(xiàn)能力」的那個臨界點 —— 當(dāng)模型規(guī)模與數(shù)據(jù)規(guī)模到達某個閾值后，能力從量變躍遷為質(zhì)變。物理 AGI 的「GPT-3 時刻」在理論上應(yīng)該是同構(gòu)的：數(shù)據(jù)規(guī)模（1000W + 100W 小時）和算法范式（雙金字塔）到達某個臨界點后，物理智能體表現(xiàn)出真正意義上的通用性。

這是一個可被檢驗的假設(shè)。未來 12 個月后，行業(yè)就會看到這個臨界點是否真的存在、極佳視界給出的具體數(shù)字是否落在臨界點之上。在具身智能賽道當(dāng)前階段，這種「用明確技術(shù)節(jié)點回應(yīng)根本問題」的姿態(tài)并不常見 —— 同行的回答大多停留在「即將」、「快了」、「五年內(nèi)」這一類時間模糊化的表態(tài)。

極佳視界把「物理 AGI 何時到來」拆解為「需要什么樣的體系」 + 「什么時候到達」兩個具體的技術(shù)命題，這是這場發(fā)布會真正區(qū)別于其他同類發(fā)布的地方。

三件事值得繼續(xù)追蹤

一場發(fā)布會，把過去三年的技術(shù)積累、當(dāng)下的產(chǎn)品兌現(xiàn)、未來 12 個月的技術(shù)路線圖，一次性鋪開。

從技術(shù)圈的角度，接下來有三件事最值得追蹤：

第一，「雙金字塔」體系是否真的能跑通 Scaling Law —— 五層數(shù)據(jù) + 三層算法的耦合關(guān)系是否成立，將由 GigaBrain-1（Q3 發(fā)布）與 GigaBrain-3（GPT-3 時刻）兩次驗證。

第二，百臺家庭部署是否真的產(chǎn)生有效的數(shù)據(jù)閉環(huán) —— 真實家庭長期使用數(shù)據(jù)是物理智能領(lǐng)域目前最稀缺的資產(chǎn)，如果閉環(huán)跑通，極佳視界在數(shù)據(jù)側(cè)的護城河會隨時間快速變深。

第三，GPT-3 時刻是否真的會在 12 個月內(nèi)到來 —— 這是物理 AGI 賽道當(dāng)前最具爭議、也最有兌現(xiàn)價值的判斷。

過去半年，關(guān)于「物理 AGI 何時到來」的討論已成為行業(yè)高頻話題，英偉達、Figure、Physical Intelligence、銀河通用、智元…… 每一家都給出過自己的回答。但截至目前，沒有任何一家公司像極佳視界這樣，把這個問題拆解為「算法 + 數(shù)據(jù)體系」和時間表。

系統(tǒng)性方法論 + 可驗證時間表的組合，這是這次發(fā)布會真正區(qū)別于其他同類發(fā)布的地方。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.