機器之心發(fā)布
過去兩年,具身智能賽道討論最多的兩個方向,一是「世界模型」,二是「VLA / 動作模型」。
前者以 NVIDIA Cosmos、Google Genie 為代表,主張通過生成式世界模型擴展數(shù)據(jù)供給;后者以 Physical Intelligence 的 π 系列、Diffusion Policy 等為代表,主張依靠大規(guī)模真機數(shù)據(jù)獲得通用動作能力。
兩條路線各自取得了顯著進展,但誰也沒有真正回答一個問題 ——當(dāng)我們把「物理 AGI」當(dāng)作目標(biāo)時,到底需要什么樣的算法體系和數(shù)據(jù)體系,才能跑通 Scaling?
5 月 20 日,武漢光谷。極佳視界(GigaAI)在「家庭場景子品牌發(fā)布會暨物理通用智能技術(shù)發(fā)布會」上,給出了一份相對完整的答案。
![]()
極佳視界 5.20 發(fā)布會現(xiàn)場
這場發(fā)布會公布了五件事:全球首個物理 AGI「雙金字塔」體系;家庭場景子品牌「拾光 SeeLight」與首款家庭通用人形機器人「拾光 S1」同步亮相;國內(nèi)首個真實家庭場景百臺部署落地武漢,Q3 起規(guī)模化運營;下一代產(chǎn)品「拾光 S2」三季度發(fā)布,真實家庭創(chuàng)始版預(yù)定通道即日起開啟;最后是一份 12 個月的路線圖 —— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發(fā)三代基礎(chǔ)模型,目標(biāo)是物理 AGI 的「GPT-3 時刻」。
信息量很大,其中我們最關(guān)注的,是物理 AGI 的「雙金字塔」體系。
從 Scaling 的瓶頸說起
具身智能為什么至今沒能跑通 Scaling Law?極佳視界合伙人、研發(fā)副總裁葉云在發(fā)布會上把問題歸結(jié)為兩條。
第一條在數(shù)據(jù)側(cè)。真機數(shù)據(jù)精度最高,卻受制于高成本與小規(guī)模;互聯(lián)網(wǎng)視頻規(guī)模龐大,卻缺乏動作監(jiān)督信號;仿真數(shù)據(jù)可無限擴展,卻難以跨越 sim-to-real gap。任何單一來源,都無法同時滿足 Scaling Law 所要求的規(guī)模、信息密度與真實性。
第二條在算法側(cè)。當(dāng)前以語言為主導(dǎo)的 VLA 范式,本質(zhì)上是把視覺、動作 token 化后送入語言模型,并不擅長編碼 3D 信息、物理因果與連續(xù)動作。換句話說,即便堆夠了數(shù)據(jù),目前的主流模型架構(gòu)也未必能高效消化它們。
![]()
極佳視界合伙人、研發(fā)副總裁 葉云
圍繞這兩條卡點,極佳視界提出的解決路徑是把數(shù)據(jù)和算法分別按層次結(jié)構(gòu)展開, 一座面向數(shù)據(jù)的金字塔,一座面向算法的金字塔,二者耦合,缺一不可。這就是「雙金字塔」體系的來源。
![]()
全球首個物理 AGI 「雙金字塔」體系
從底層邏輯來看,這是物理 AGI 賽道第一次有公司把 Scaling 路徑系統(tǒng)化展開。
五層數(shù)據(jù)金字塔
數(shù)據(jù)金字塔從底到頂依次為:互聯(lián)網(wǎng)視頻數(shù)據(jù)、真人數(shù)據(jù)、世界模型模擬器、仿真合成數(shù)據(jù)、真機數(shù)據(jù)
這一劃分本身并不令人意外 —— 它基本對應(yīng)了學(xué)術(shù)界過去兩年關(guān)于具身數(shù)據(jù)來源的主要討論:真機數(shù)據(jù)在金字塔頂端,精度最高、覆蓋最窄;互聯(lián)網(wǎng)視頻在底部,規(guī)模最大、監(jiān)督最弱;中間三層(真人示范、仿真、世界模型生成數(shù)據(jù))則是最具工程化空間、也最被低估的部分。
真正值得注意的,是極佳視界在每一層都拿出了對應(yīng)的工程化產(chǎn)品
真機數(shù)據(jù)由家庭版輪臂機器人「拾光 S1」和低成本真機數(shù)采硬件「Maker M01」協(xié)同采集;仿真合成數(shù)據(jù)與世界模型模擬器數(shù)據(jù)由自研具身世界模型平臺「GigaWorld-0」系統(tǒng)化生成;真人數(shù)據(jù)由低成本手持?jǐn)?shù)采硬件「U-01」和低成本 Ego 數(shù)采硬件「E-01」大規(guī)模采集;互聯(lián)網(wǎng)視頻數(shù)據(jù)則復(fù)用 YouTube、Panda-70M 等公開來源。
![]()
極佳視界「數(shù)據(jù)金字塔」
U-01、E-01 這種「低成本、非本體綁定」的數(shù)據(jù)采集硬件,類似 Stanford 團隊 UMI 與 EgoMimic 的研究思路,被學(xué)術(shù)界公認是突破真機數(shù)據(jù)瓶頸的可行方向之一。
區(qū)別在于,極佳視界把它和自研機器人本體(S1)、世界模型平臺(GigaWorld-0)一起做成了一套完整的全棧采集體系。單點研究并不稀奇,全棧跑通且每一層都有自研硬件做支撐,在國內(nèi)具身智能公司中目前并不多見。
三層算法金字塔
算法金字塔從底到頂分為:世界模擬、動作對齊、經(jīng)驗強化。
極佳視界把這三層分別落到具體的模型上。
世界模擬層的代表是具身世界模型GigaWorld-1。它在世界模型領(lǐng)域權(quán)威評測 WorldArena 上以綜合得分 62.34 擊敗 Wan、CogVideoX、Veo 3.1、Cosmos-Predict 等模型獲得全球第一,是榜單中首個綜合得分突破 60 分大關(guān)的具身世界模型。
動作對齊層包括GigaBrain-0 系列GigaWorld-Policy。前者是 VLA 路線的具身基礎(chǔ)模型,在全球規(guī)模最大的真機評測 RoboChallenge 中以 51.67% 任務(wù)成功率位列全球第一,領(lǐng)先 π0.5 接近 10 個百分點;后者是世界動作模型,在面向家庭場景的全球權(quán)威評測平臺 RoboCasa365 上擊敗 NVIDIA GR00T N1.5 與 π0.5 獲得全球第一,成為榜單首個登頂?shù)氖澜鐒幼髂P汀?/p>
經(jīng)驗強化層是GigaBrain-0.5M*,通過「世界模型 + 強化學(xué)習(xí)」實現(xiàn)具身基模的自我進化。
![]()
極佳視界「算法金字塔」
單一榜單第一在具身智能賽道并不罕見,但同時在「世界模型 + 模仿學(xué)習(xí) + 強化學(xué)習(xí)」三個方向上拿到全球權(quán)威評測第一,并把三層之間的數(shù)據(jù)流轉(zhuǎn)關(guān)系打通,目前國內(nèi)只有極佳視界一家做到。WorldArena、RoboChallenge、RoboCasa365 三大權(quán)威評測結(jié)果分別證明了其在感知 - 生成、真機操作、家庭場景泛化領(lǐng)域的三種核心能力 。 這三個「全球第一」也有力證明了「雙金字塔」體系背后深厚的技術(shù)支撐。
跑通技術(shù)體系之后,下一站家庭
技術(shù)體系跑通之后,問題變成 —— 去哪里驗證 Scaling 是否真的成立。極佳視界給出的答案是:真實家庭。
發(fā)布會上,極佳視界聯(lián)合創(chuàng)始人、首席科學(xué)家朱政博士正式發(fā)布公司面向家庭場景的全新子品牌 ——「拾光 SeeLight」,定位「國內(nèi)首個家庭通用機器人品牌」,由朱政擔(dān)任品牌 CEO。
![]()
極佳視界聯(lián)合創(chuàng)始人 & 首席科學(xué)家、拾光品牌 CEO 朱政
朱政在發(fā)布會上表示:「AGI 不該只停留在屏幕里。我們不是在講一個遙遠的未來故事,而是在把骨子里對物理 AGI 的信仰變成真實的產(chǎn)品,讓物理 AGI 服務(wù)每一個人。」
品牌發(fā)布同期推出的第一代產(chǎn)品「拾光 S1」,被定義為「全球首個進入真實家庭場景的通用人形機器人」。S1 采用家庭版輪臂構(gòu)型,搭載極佳視界自研的具身基礎(chǔ)模型,具備從感知、理解到行動的完整閉環(huán)能力。
選擇家庭、而不是工業(yè)線或物流作為物理 AGI 的首發(fā)場景,從技術(shù)角度看是一個值得討論的決策。家庭場景的開放性、長尾性、人機交互復(fù)雜度,都遠超工業(yè)場景 —— 正因為如此,它是驗證「通用性」最嚴(yán)苛的試金石。極佳視界這種「先難后易」的場景選擇,與它在算法側(cè)的技術(shù)演進路徑,應(yīng)該是同一種思路。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/7UE0h6WvlWgYEHJQjOVivg
百臺部署:第一筆可被驗證的訂單
具身智能賽道過去一年最被詬病的問題之一,是「發(fā)布會演示與真實場景使用之間的鴻溝」 —— 幾乎所有公司都會展示樣機能做什么,但鮮有公司能證明它在家里怎么用,能用多久。本次發(fā)布會上極佳視界給出的回應(yīng),是一筆已經(jīng)落地的訂單。
極佳視界宣布拾光 S1 已獲得真實家庭場景百臺訂單,將率先部署于武漢光谷之寓社區(qū)(位于武漢光谷的真實居住社區(qū)),Q3 起開啟規(guī)模化運營。這是公開信息中規(guī)模化家庭通用機器人部署的首例 —— 此前 Figure、1X 等海外廠商雖然披露過家庭試用,但都停留在個位數(shù)訂單或員工家庭體驗。
100 臺 + 真實居住社區(qū) + Q3 規(guī)模化運營這一組合,意味著一筆重要資產(chǎn)將開始積累:真實家庭的長期使用數(shù)據(jù)。
![]()
機器人進入武漢光谷之寓真實場景
這是 Scaling Law 在物理智能領(lǐng)域真正成立的關(guān)鍵。極佳方面在發(fā)布會透露:拾光 S1 的家庭場景展示體驗空間將于 2026 年 5 月 31 日起開放參觀。
拾光 S2:本體側(cè)的系統(tǒng)性重構(gòu)
發(fā)布會還預(yù)告了第二代產(chǎn)品「拾光 S2」將于 2026 年三季度正式發(fā)布。從披露的本體參數(shù)看,這不是一次小迭代:
底盤體積減少 60%,更適應(yīng)家庭狹窄空間;電池續(xù)航提升 70%,并支持熱換電,直接決定真實服務(wù)中的連續(xù)工作能力;操作范圍擴大 40%,支持 2.2 米高度內(nèi)任務(wù)執(zhí)行。朱政在發(fā)布會上表示:「S2 的核心,不是某個參數(shù)變得更漂亮,而是整機開始更接近真實家庭所需要的『可用性』。」
![]()
拾光 S2 全新設(shè)計構(gòu)型,定價、發(fā)售政策將于三季度全面揭曉
從產(chǎn)業(yè)視角,機器人本體側(cè)的關(guān)鍵瓶頸其實是「能不能在真實家庭里長期穩(wěn)定工作」—— 續(xù)航、熱管理、關(guān)節(jié)壽命、安全冗余、維護成本。S2 的三項升級都直接對應(yīng)這條線,工程取向相對克制。同時,真實家庭創(chuàng)始版預(yù)定通道,自即日起正式開啟。
12 個月,三代基礎(chǔ)模型
劍指「GPT-3 時刻」
發(fā)布會的最后一個部分,是極佳視界首次公布物理 AGI 基礎(chǔ)模型的 12 個月路線圖—— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發(fā)三代。
GigaBrain-1 將于 2026 年第三季度發(fā)布,是全球首個基于「雙金字塔」體系打造的物理 AGI 基礎(chǔ)模型,目標(biāo)是在物理智能泛化性上達到新高度。其后 GigaBrain-2 與 GigaBrain-3 加速 Scaling,其中 GigaBrain-3 將基于 1000 萬小時視頻數(shù)據(jù) + 100 萬小時世界 - 動作數(shù)據(jù)進行訓(xùn)練,劍指物理 AGI 的「GPT-3 時刻」。
![]()
GigaBrain-3 劍指物理 AGI 的「GPT-3 時刻」
GPT-3 在數(shù)字 AGI 歷史上的意義,不在模型本身,而在「首次讓 Scaling Law 顯現(xiàn)涌現(xiàn)能力」的那個臨界點 —— 當(dāng)模型規(guī)模與數(shù)據(jù)規(guī)模到達某個閾值后,能力從量變躍遷為質(zhì)變。物理 AGI 的「GPT-3 時刻」在理論上應(yīng)該是同構(gòu)的:數(shù)據(jù)規(guī)模(1000W + 100W 小時)和算法范式(雙金字塔)到達某個臨界點后,物理智能體表現(xiàn)出真正意義上的通用性。
這是一個可被檢驗的假設(shè)。未來 12 個月后,行業(yè)就會看到這個臨界點是否真的存在、極佳視界給出的具體數(shù)字是否落在臨界點之上。在具身智能賽道當(dāng)前階段,這種「用明確技術(shù)節(jié)點回應(yīng)根本問題」的姿態(tài)并不常見 —— 同行的回答大多停留在「即將」、「快了」、「五年內(nèi)」這一類時間模糊化的表態(tài)。
極佳視界把「物理 AGI 何時到來」拆解為「需要什么樣的體系」 + 「什么時候到達」兩個具體的技術(shù)命題,這是這場發(fā)布會真正區(qū)別于其他同類發(fā)布的地方。
三件事值得繼續(xù)追蹤
一場發(fā)布會,把過去三年的技術(shù)積累、當(dāng)下的產(chǎn)品兌現(xiàn)、未來 12 個月的技術(shù)路線圖,一次性鋪開。
從技術(shù)圈的角度,接下來有三件事最值得追蹤:
第一,「雙金字塔」體系是否真的能跑通 Scaling Law —— 五層數(shù)據(jù) + 三層算法的耦合關(guān)系是否成立,將由 GigaBrain-1(Q3 發(fā)布)與 GigaBrain-3(GPT-3 時刻)兩次驗證。
第二,百臺家庭部署是否真的產(chǎn)生有效的數(shù)據(jù)閉環(huán) —— 真實家庭長期使用數(shù)據(jù)是物理智能領(lǐng)域目前最稀缺的資產(chǎn),如果閉環(huán)跑通,極佳視界在數(shù)據(jù)側(cè)的護城河會隨時間快速變深。
第三,GPT-3 時刻是否真的會在 12 個月內(nèi)到來 —— 這是物理 AGI 賽道當(dāng)前最具爭議、也最有兌現(xiàn)價值的判斷。
過去半年,關(guān)于「物理 AGI 何時到來」的討論已成為行業(yè)高頻話題,英偉達、Figure、Physical Intelligence、銀河通用、智元…… 每一家都給出過自己的回答。但截至目前,沒有任何一家公司像極佳視界這樣,把這個問題拆解為「算法 + 數(shù)據(jù)體系」和時間表。
系統(tǒng)性方法論 + 可驗證時間表的組合,這是這次發(fā)布會真正區(qū)別于其他同類發(fā)布的地方。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.