![]()
來源:獵云網(wǎng)
當雙足機器人在舞臺上完成后空翻、在馬拉松賽道上完成長距離奔跑,大眾總會驚嘆于具身智能的飛速發(fā)展。
但回到真實的家庭場景,這些看似先進的機器人,卻連收拾散落的拖鞋、整理雜亂的客廳這些最基礎的家務都無法完成。正如自變量CEO王潛所言:硬件已經(jīng)到位了——雙足、靈巧手、力控關節(jié)都很好。但大腦沒有跟上。
但這種痛點,即將迎來顛覆性變革。
4月21日,自變量機器人發(fā)布全球首個世界統(tǒng)一模型(WUM)架構(gòu)下的具身基礎模型WALL-B,宣布35天后搭載該模型的新一代機器人將正式入駐真實家庭。
這場從VLA拼接架構(gòu)到世界統(tǒng)一模型的底層革命,讓家務機器人真正走出實驗室,更標志著具身智能迎來了物理世界的ChatGPT式拐點。
硬件狂歡背后,家務機器人的三重壁壘
過去數(shù)年,中國具身智能行業(yè)迎來了爆發(fā)式的硬件迭代,雙足機器人的運動能力、靈巧手的操作精度都已達到世界領先水平。
但尷尬的現(xiàn)實是,這些在實驗室表現(xiàn)驚艷的機器人,始終無法真正走進普通家庭,其背后是三重無法突破的核心壁壘。
首先是賽道認知的錯位。行業(yè)內(nèi)普遍將馬拉松機器人、舞蹈機器人作為技術標桿,卻忽略了這兩類產(chǎn)品與家庭機器人是完全不同的賽道。
王潛直言:“馬拉松機器人和我們是兩個完全不同的領域,跟做語言模型的公司距離可能還要更近一點,跟跑馬拉松的公司可能還要更遠一點。”
![]()
馬拉松機器人的核心挑戰(zhàn)是下肢平衡與硬件工程,本質(zhì)是在恒定重力場下的固定運動模式優(yōu)化;而家庭機器人的核心是上肢精細操作與通用智能,需要應對完全隨機、不可預測的開放場景——地毯的摩擦力、物體的非線性摩擦、寵物與孩子的隨機動作,哪怕0.1毫米的操作偏差都會導致任務失敗。
這種認知錯位讓行業(yè)陷入了硬件參數(shù)的無效內(nèi)卷,卻始終沒有解決機器人大腦的核心問題。
其次是技術架構(gòu)的天花板。
目前市面上幾乎所有的具身模型都采用視覺-語言-動作(VLA)的三段式拼接架構(gòu)。視覺模塊識別物體,語言模塊理解指令,動作模塊生成軌跡。
王昊指出:“VLA架構(gòu)本質(zhì)上是三個獨立模塊的拼接,數(shù)據(jù)在這三個模塊之間逐級傳遞,每經(jīng)過一次模塊邊界就會發(fā)生信息損耗和延遲。更致命的是,它不理解杯子為什么會掉,不理解為什么盤子懸在桌邊需要推回去。它只是在重復見過的東西。”
這種知其然,不知其所以然的缺陷,讓機器人在實驗室表現(xiàn)完美,一進入真實家庭就徹底失效。
最后一重壁壘是數(shù)據(jù)訓練的陷阱。
行業(yè)內(nèi)絕大多數(shù)具身模型的訓練數(shù)據(jù),都來自實驗室環(huán)境下的標準化采集:固定的光照、固定的物體位置、無干擾的環(huán)境,自變量將這類數(shù)據(jù)形象地稱為糖水數(shù)據(jù)——干凈、可控,卻與真實世界相去甚遠。
而家庭場景中的數(shù)據(jù),是嘈雜、多變、充滿隨機性的牛奶數(shù)據(jù):不同家庭的裝修布局、物品擺放千差萬別,散落的玩具、突然跳上桌面的寵物,這些變量在實驗室中無法完全模擬。
王昊強調(diào):“用糖水數(shù)據(jù)訓練出的模型,在真實環(huán)境中會迅速失效,實驗室數(shù)據(jù)是糖水,真實家庭數(shù)據(jù)是牛奶。”
世界統(tǒng)一模型重構(gòu)底層智能
面對這些行業(yè)固有難題,自變量機器人選擇了一條完全相反的路:徹底拋棄行業(yè)通用的 VLA 拼接架構(gòu),從零開始訓練原生的世界統(tǒng)一模型(WUM),為家務機器人打造了一個真正能理解物理世界的 “大腦”。
這場從底層架構(gòu)開始的范式革命,不僅破解了行業(yè)長期無法突破的技術壁壘,更構(gòu)建了家務機器人賽道真正不可復制的核心競爭壁壘。
世界統(tǒng)一模型的核心突破,是用一體化架構(gòu)徹底解決了VLA的先天缺陷。
WUM架構(gòu)的設計邏輯與蘋果M系列芯片的統(tǒng)一內(nèi)存架構(gòu)有異曲同工之妙:將所有能力放在同一個網(wǎng)絡中,從零開始聯(lián)合訓練、融為一體,徹底消除模塊間的邊界與數(shù)據(jù)搬運損耗。
王潛說道:“模型在看到杯子的同時,就已經(jīng)在準備伸手的動作;在觸碰到物體的瞬間,就已經(jīng)通過觸覺反饋調(diào)整了握持力度。這種原生多模態(tài)的融合能力,讓機器人第一次擁有了類似人類的同步感知與決策能力。”
更重要的是,WALL-B還首次具備了原生本體感——無需外部傳感器即可內(nèi)知自身空間尺寸,王昊指出這一點甚至許多動物都不具備。
更具顛覆性的是,世界統(tǒng)一模型讓機器人真正擁有了物理世界觀。WALL-B在訓練過程中,將重力、慣性、摩擦力、速度等基本物理規(guī)律融入了模型底層。
王潛以手指摩擦為例:“輕搓的時候很聽話,緊一點的時候會一跳一跳——這是可變性物體加上非線性摩擦,出現(xiàn)高度隨機性。這在自動駕駛、馬拉松機器人里從未遇到過,但卻是上肢操作中最復雜最困難的事。”
正是這種對物理世界的內(nèi)生理解,讓WALL-B在從未見過的家庭場景中也能實現(xiàn)零樣本泛化,無需針對每個家庭重新訓練。
與此同時,世界統(tǒng)一模型構(gòu)建了數(shù)據(jù)-模型-迭代的閉環(huán)。自變量放棄了先采數(shù)據(jù)、再訓模型、最后部署的離線模式,開創(chuàng)了在線進化模式。
王昊類比:“就像人類學習用筷子——筷子掉了無數(shù)次,但每一次失敗都在調(diào)整控制,最終形成穩(wěn)定技能。WALL-B在失敗后會調(diào)整策略再次嘗試,成功后將經(jīng)驗直接更新到模型參數(shù)中。”
畢竟機器人沒法像語言大模型那樣通過蒸餾快速實現(xiàn),這是二者當下最大的不同。
而這種全鏈路工程體系,讓自變量在家庭機器人賽道擁有了三年以上的技術領先窗口期。
機器人進入家庭拐點已至
自變量世界統(tǒng)一模型的發(fā)布與家庭落地計劃的啟動,從來都不只是一款新品的上市,而是具身智能行業(yè)從實驗室炫技走向真實場景落地的關鍵拐點。
首先,世界統(tǒng)一模型的落地將推動具身智能迎來物理世界的Aha時刻。
王潛明確表示:“我們希望在兩到三年的時間里實現(xiàn)真正意義上的物理世界Aha moment,就像當年ChatGPT所做的事一樣。5月25日機器人入駐真實家庭正是這個拐點的起點。”
王昊描述了家庭場景的真實需求:“人們在家里沒有特別高頻的需求,但有很多很多小需求——擺鞋、疊衣服、鏟貓砂、遛狗——合在一起就是大的需求。過去沒有機器人能干多件事情,現(xiàn)在我們要解決這些長尾任務。”
當機器人能在普通家庭中完成這些日常家務,具身智能就將徹底擺脫花瓶式炫技的標簽。
其次,這場底層模型革命將徹底重構(gòu)家務機器人賽道的競爭邏輯。
硬件在中國從來都是沒有壁壘的,今天有圖紙,明天供應鏈全都被你整出來了。真正的壁壘是模型與數(shù)據(jù)的全鏈路閉環(huán)。
王潛舉例說:“谷歌擁有遠超OpenAI的資源,卻在兩年時間里都沒能完成追趕。在機器人領域,技術本身的壁壘能帶來三年以上的領先。”
更重要的是,自變量已經(jīng)構(gòu)建了從數(shù)據(jù)采集到模型迭代的完整閉環(huán)。王昊透露:我們2024年初就自建了數(shù)據(jù)工廠,到現(xiàn)在仍然是全國乃至全世界規(guī)模最大的工廠之一。這種全鏈路能力,讓自變量在大廠紛紛下場的競爭中保持了獨特優(yōu)勢。
而且最大的作用是,家務機器人的規(guī)模化落地,將激活一個十萬億級的隱性市場。
王潛算了一筆賬,家務勞動占GDP的比重大概在20%左右。人類每天花1-2小時做家務,8小時工作,差不多1/4到1/5的比例。
在中國,4.02億職工每天都要花費大量時間處理家務,這些隱性的勞動付出構(gòu)成了一個尚未被數(shù)字化改造的巨大市場。
自變量希望機器人真正造福大家,替代人去做自己不想做的事,而且比人做得更好。
自變量發(fā)布會主題“一個新的家庭成員的誕生”,就是希望它是一種新的生活方式:當通用家務機器人實現(xiàn)規(guī)模化普及,它將像當年的洗衣機、冰箱一樣成為家庭必備的終端產(chǎn)品,打開一個遠超家電、汽車的全新終端市場。
結(jié)語:
從舞臺上的精準表演到家庭里的柴米油鹽,具身智能的終極價值從來都不是完成高難度的炫技動作,而是融入普通人的日常生活,解決真實的生活痛點。
王潛說:“盡管進入家庭的機器人現(xiàn)在還很笨,走得很慢,經(jīng)常犯錯。人類從嬰兒時期邁出的第一步也是如此。每一個偉大的旅程,都是從踉踉蹌蹌的第一步開始的。”
自變量世界統(tǒng)一模型的出現(xiàn),不僅為家務機器人裝上了真正能理解世界的大腦,更推開了具身智能走進真實世界的大門。
回望技術發(fā)展史,每一次通用技術的拐點都始于一個看似微小的場景突破——ChatGPT用對話交互打開了數(shù)字世界通用智能的大門,而搭載世界統(tǒng)一模型的家務機器人,正在用家庭場景的落地,開啟物理世界通用智能的全新時代。
隨著機器人真正走進千家萬戶,這場始于底層模型的革命,終將改寫整個具身智能產(chǎn)業(yè)的未來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.