![]()
作者:彭堃方
編輯:呂鑫燚
出品:具身研習(xí)社
VLA正在長(zhǎng)出下一代“大腦”。
世界模型概念升溫過程中,行業(yè)開始反復(fù)提及同一個(gè)問題:VLA時(shí)代是不是已經(jīng)結(jié)束了?
這種論調(diào),不僅不懂技術(shù)演進(jìn)的基本邏輯,也沒有看透具身智能模型發(fā)展的本質(zhì)。
模型究竟該怎么走,歸根結(jié)底還是對(duì)任務(wù)的拆解。機(jī)器人進(jìn)入真實(shí)場(chǎng)景,始終繞不開三件事:看見環(huán)境、理解指令、完成動(dòng)作。只要這三件事還成立,視覺、語言、行動(dòng)這組基本結(jié)構(gòu)就不會(huì)憑空消失,真正變化的,只會(huì)是它們?nèi)绾伪唤M織、如何被增強(qiáng),以及如何從“能動(dòng)起來”繼續(xù)走向“動(dòng)得更穩(wěn)、更快、更像一個(gè)真正的智能體”。
4 月 23 日,在 2026 POWER Robot 未來大會(huì)主論壇上,智平方創(chuàng)始人兼 CEO 郭彥東給出的判斷很明確:VLA 沒有終結(jié),反而正在持續(xù)變得更強(qiáng),它仍是通往物理世界智能的最強(qiáng)主航道。在現(xiàn)場(chǎng),郭彥東第一次把智平方對(duì) VLA 演進(jìn)路徑的理解完整擺到臺(tái)前:過去是統(tǒng)一感知、理解與行動(dòng)的端到端 VLA,現(xiàn)在是融合世界模型能力的增強(qiáng)型 VLA,未來則會(huì)進(jìn)一步邁向類腦機(jī)制的全新階段。
![]()
這次表態(tài)真正重要的地方,不只是為 VLA 站隊(duì),而是把行業(yè)里那種“VLA 與世界模型二選一”的討論,重新拉回到更真實(shí)的技術(shù)演進(jìn)邏輯里:世界模型不該是宣告 VLA 失效,而是在補(bǔ)足 VLA;而類腦機(jī)制也不是另起爐灶的平行路線,它將是下一代 VLA 的結(jié)構(gòu)方向。
順著這條邏輯看,智平方這次同步對(duì)外披露的類腦架構(gòu) VLA 具身大模型 NeuroVLA,以及一站式具身智能模型開源社區(qū) AlphaBrain Platform,就不再是兩個(gè)彼此獨(dú)立的動(dòng)作,它可以看作同一個(gè)判斷的兩面:一面指向下一代“機(jī)器人大腦”會(huì)如何演進(jìn),另一面則指向這套能力將如何被開放、被復(fù)用、被快速帶進(jìn)整個(gè)行業(yè)。
![]()
雖然郭彥東認(rèn)為VLA一直站在主航道上,但過去一段時(shí)間行業(yè)內(nèi)關(guān)于世界模型的討論甚囂塵上,以至于出現(xiàn)“VLA已經(jīng)走到頭”的武斷之詞。
從技術(shù)的第一性原理出發(fā),方能感受到該論調(diào)的偏見。在智平方看來,早期VLA解決的是“聽懂并動(dòng)起來”的問題。世界模型的加入,則讓系統(tǒng)多了一步,在執(zhí)行之前,先在“腦子里跑一遍”。
更重要的是,智平方對(duì)世界模型的理解并不是把它作為VLA之外的外接模塊。早在2023年下半年,智平方便率先提出,世界模型不應(yīng)懸浮在VLA之外,而應(yīng)深度內(nèi)生于模型之中。順著這一判斷,智平方自研的大模型AlphaBrain在2025年11月吸納了新一代架構(gòu)Video2Act的最新成果,實(shí)現(xiàn)了“先預(yù)測(cè)、后執(zhí)行”。在第三方評(píng)測(cè)中,相較于硅谷同類標(biāo)桿模型,AlphaBrain取得了超過30%的性能領(lǐng)先,也證明了環(huán)境理解與動(dòng)作執(zhí)行一體化路線的優(yōu)勢(shì)。
所以換種思考,業(yè)內(nèi)這波世界模型的熱度,與其說在替代VLA,不如說是在把VLA往前推了一步。模型從一個(gè)偏執(zhí)行的系統(tǒng),慢慢長(zhǎng)出預(yù)測(cè)和規(guī)劃能力。
但當(dāng)機(jī)器人真正進(jìn)入真實(shí)環(huán)境之后,很快會(huì)遇到另一類問題:很多困難并不發(fā)生在“理解錯(cuò)了任務(wù)”,而是發(fā)生在動(dòng)作細(xì)節(jié)上。比如動(dòng)作有沒有抖、節(jié)奏穩(wěn)不穩(wěn)、碰到干擾能不能立刻調(diào)整,這些問題更偏向“身體層面”。
于是,智平方更進(jìn)一步提出了“類腦模型”。
![]()
在NeuroVLA論文中,團(tuán)隊(duì)提到一個(gè)很關(guān)鍵的觀察:現(xiàn)有VLA在動(dòng)態(tài)場(chǎng)景、節(jié)奏任務(wù)和精細(xì)操作上,和人類還有明顯差距,一個(gè)重要原因在于系統(tǒng)長(zhǎng)期依賴低頻視覺反饋,缺少高頻本體感覺、短時(shí)運(yùn)動(dòng)記憶和實(shí)時(shí)調(diào)整機(jī)制。
換個(gè)更直觀的說法,機(jī)器人一直在長(zhǎng)“大腦”,但本能式反應(yīng)的“小腦”和“脊髓”這部分長(zhǎng)期缺失。這里需要解釋一下,智平方所說的“小腦”“脊髓”業(yè)內(nèi)過去僅拿來做locomotion,但很少有融入到manipulation(操作)之中的。
NeuroVLA做的事情,就是把這部分補(bǔ)上。它采用類似“大腦—小腦—脊髓”的分層結(jié)構(gòu):上層負(fù)責(zé)語義理解和規(guī)劃,中間層處理高頻反饋和動(dòng)作修正,底層負(fù)責(zé)快速執(zhí)行和反射。而這套結(jié)構(gòu)帶來的變化,指向三個(gè)過去機(jī)器人長(zhǎng)期難以補(bǔ)齊的能力:動(dòng)態(tài)穩(wěn)定性、超快反射和極低能耗。
比如,在執(zhí)行精細(xì)操作時(shí),機(jī)器人不再只是依賴低頻視覺反饋慢慢糾偏,而是可以通過高頻本體感覺持續(xù)修正動(dòng)作;當(dāng)外部碰撞突然發(fā)生時(shí),安全反射可以在20毫秒以內(nèi)觸發(fā),而20ms什么概念?人類眨眼速度最快是100ms;更關(guān)鍵的是,底層“脊髓”層依靠事件驅(qū)動(dòng)的神經(jīng)形態(tài)計(jì)算,執(zhí)行任務(wù)時(shí)平均功耗僅0.4瓦,相當(dāng)于你未插手機(jī)的充電器保持待機(jī)的功率。
這意味著,機(jī)器人開始從靠大腦想明白再行動(dòng),走向了身體自己也會(huì)反應(yīng)的新階段。過去我們討論機(jī)器人大腦,更多關(guān)心它能不能理解指令、拆解任務(wù)、規(guī)劃步驟;但進(jìn)入真實(shí)物理世界后,很多能力其實(shí)發(fā)生在更低層:手臂穩(wěn)不穩(wěn)、碰撞能不能縮回、動(dòng)作能不能省電、能不能長(zhǎng)時(shí)間部署。NeuroVLA的意義就在這里,它讓VLA開始長(zhǎng)出類似生物的本能反應(yīng)。
從這個(gè)角度看,NeuroVLA更像是VLA的一次結(jié)構(gòu)升級(jí)。它把系統(tǒng)從“理解+執(zhí)行”,推進(jìn)到“理解+預(yù)測(cè)+控制+糾偏+反射”的完整鏈條。
![]()
如果說NeuroVLA代表了智平方對(duì)下一代機(jī)器人大腦的判斷,那么AlphaBrain Platform則代表了另一層更現(xiàn)實(shí)的產(chǎn)業(yè)意圖:這套能力不能只停留在少數(shù)頭部團(tuán)隊(duì)手里,而要變成整個(gè)行業(yè)可調(diào)用、可驗(yàn)證、可迭代的基礎(chǔ)能力。
這次智平方?jīng)]有把最前沿的類腦模型藏起來,而是把NeuroVLA同步納入AlphaBrain Platform。按照郭彥東在大會(huì)上的介紹,AlphaBrain Platform不是傳統(tǒng)意義上只開源一個(gè)模型或一段代碼,而是打通“數(shù)據(jù)—訓(xùn)練—模型—評(píng)測(cè)”的完整鏈路,試圖提供一個(gè)一站式、開箱即用的具身智能模型開源社區(qū)。
![]()
它真正有辨識(shí)度的地方,主要體現(xiàn)在三條線上。
第一條,是NeuroVLA,對(duì)應(yīng)類腦路線。它把高頻本體感覺、短時(shí)運(yùn)動(dòng)記憶、實(shí)時(shí)運(yùn)動(dòng)調(diào)整和安全反射納入VLA體系,在機(jī)器人“想”之外,把“做”進(jìn)化為某種生物本能。
第二條,是RL Token,對(duì)應(yīng)“強(qiáng)化學(xué)習(xí)+VLA”的低門檻落地。它解決的是一個(gè)長(zhǎng)期懸而未決的問題:大模型能理解,但很難真正把動(dòng)作做到位。過去強(qiáng)化學(xué)習(xí)能提升動(dòng)作表現(xiàn),但成本高、門檻高,還容易把原有能力“練沒了”,很難成為規(guī)模化路徑。
RL Token的意義在于,把強(qiáng)化學(xué)習(xí)嵌入到VLA體系中,變成一種可以持續(xù)調(diào)用的能力。模型先具備通用理解,再圍繞具體場(chǎng)景做后訓(xùn)練微調(diào),讓動(dòng)作在真實(shí)環(huán)境里一點(diǎn)點(diǎn)變得更穩(wěn)、更準(zhǔn)。這種路徑更接近工程現(xiàn)實(shí):不推倒重來,而是在已有能力上持續(xù)打磨。更關(guān)鍵的是,它把成本和復(fù)雜度壓了下來。通過凍結(jié)VLA主體,只訓(xùn)練輕量模塊,強(qiáng)化學(xué)習(xí)從“重資產(chǎn)實(shí)驗(yàn)”變成“可復(fù)用工具”。這一步讓大模型開始真正接近落地,而不是停留在演示效果。
第三條,是可插拔世界模型架構(gòu),對(duì)應(yīng)世界模型的工程化。行業(yè)對(duì)世界模型的討論已經(jīng)很多,但真正難的部分是如何用起來。不同路線之間難以對(duì)比、難以集成,也很難放進(jìn)同一套任務(wù)系統(tǒng)里驗(yàn)證。可插拔架構(gòu)把這個(gè)問題拆開處理。不同世界模型可以在同一任務(wù)中直接切換、測(cè)試和復(fù)現(xiàn),開發(fā)者可以清楚看到每一條路線的差異,而不需要反復(fù)搭環(huán)境、改系統(tǒng)。
![]()
這一步的意義,在于把世界模型從研究能力,變成基礎(chǔ)設(shè)施。機(jī)器人在行動(dòng)前的“預(yù)演能力”開始進(jìn)入工程系統(tǒng),同時(shí)也讓模型路線的競(jìng)爭(zhēng)第一次有了統(tǒng)一的比較坐標(biāo)。
所以,AlphaBrain Platform開源的不是一個(gè)單點(diǎn)模型,而是一整套“機(jī)器人大腦”的生產(chǎn)方式。它把數(shù)據(jù)、訓(xùn)練、模型、評(píng)測(cè)這些原本分散在不同團(tuán)隊(duì)、不同系統(tǒng)里的能力重新組織起來,讓行業(yè)可以在同一套框架下比較模型、復(fù)現(xiàn)實(shí)驗(yàn)、迭代能力。
![]()
為什么這件事由智平方來做,其實(shí)并不算意外。
行業(yè)里常說它是“最像特斯拉的中國(guó)機(jī)器人公司”,這不是標(biāo)簽,而是對(duì)路線契合的精準(zhǔn)提煉。
一方面是他們的開源精神,AlphaBrain Platform社區(qū)是鮮明的例證。特斯拉開源Optimus 硬件,尤其是前段時(shí)間開源了新一代靈巧手專利,助力硬件端的最難卡點(diǎn)釋放。而智平方則是開源了軟件端最難的具身大模型。二者遙相呼應(yīng),在這一意義上“中國(guó)特斯拉”無可厚非。
但如果往深一點(diǎn)看,這個(gè)類比更多是在指一種結(jié)構(gòu):模型、硬件、場(chǎng)景三位一體。
特斯拉在自動(dòng)駕駛和機(jī)器人上的路徑,很少把模型、硬件或場(chǎng)景單獨(dú)看,而是放在一個(gè)系統(tǒng)里不斷循環(huán)。機(jī)器人行業(yè)也正在往這個(gè)方向走。這個(gè)行業(yè)最終比拼的也不會(huì)只是模型參數(shù)、單機(jī)性能或某一個(gè)場(chǎng)景的訂單,那些能讓模型在硬件上跑起來,在場(chǎng)景里用起來,再通過真實(shí)數(shù)據(jù)持續(xù)長(zhǎng)出來的智能才有可能得到延承。
智平方這幾年的路徑,也比較一致。
在模型上,從早期VLA,到快慢系統(tǒng),再到世界模型融合,直到這次NeuroVLA,智平方的技術(shù)路線始終具有連續(xù)性。它沒有追逐概念,而是在VLA這條主航道上不斷補(bǔ)能力、補(bǔ)結(jié)構(gòu)、補(bǔ)閉環(huán)。
在硬件上,智平方也并沒有把機(jī)器人本體看成模型的附屬品,而是堅(jiān)持用大模型正向定義機(jī)器人本體。據(jù)了解,其核心零部件無故障運(yùn)行時(shí)間超過5萬小時(shí),并通過自建產(chǎn)線保障量產(chǎn)交付。
在場(chǎng)景上,智平方已經(jīng)落地汽車、半導(dǎo)體顯示、生物科技、公共服務(wù)、新零售等十余個(gè)高價(jià)值場(chǎng)景,尤其是智慧店員艙體“智魔方”推出不到半年,已經(jīng)在中國(guó)十余個(gè)省市實(shí)現(xiàn)常態(tài)化運(yùn)營(yíng)。
![]()
這也是AlphaBrain Platform值得關(guān)注的原因。一個(gè)只有模型的團(tuán)隊(duì)開源模型,更多是技術(shù)交流;一個(gè)同時(shí)擁有模型、硬件和場(chǎng)景驗(yàn)證的團(tuán)隊(duì)開源“機(jī)器人大腦工具箱”,則更像是在開放一套經(jīng)過真實(shí)世界檢驗(yàn)的生產(chǎn)方法。
具身智能產(chǎn)業(yè)已經(jīng)走到一個(gè)新階段。過去,大家需要證明機(jī)器人能動(dòng)起來;現(xiàn)在,大家要證明機(jī)器人能在真實(shí)場(chǎng)景里穩(wěn)定工作;再往后,機(jī)器人還要在工作中持續(xù)學(xué)習(xí)、持續(xù)糾偏、持續(xù)進(jìn)化。
VLA沒有終結(jié),它正在融合世界模型,“長(zhǎng)出”小腦和脊髓,長(zhǎng)出更接近身體智能的下一代結(jié)構(gòu)。
而機(jī)器人大腦的競(jìng)爭(zhēng),也將從單純的模型能力之爭(zhēng),走向體系能力、開源生態(tài)和真實(shí)場(chǎng)景閉環(huán)之爭(zhēng)。真正的智能,終究不是停留在屏幕里的推理能力,而是進(jìn)入世界之后,仍然能夠穩(wěn)定、敏捷、安全地改變世界。
最終能留下來的,不會(huì)只是“最聰明”的模型,那些在真實(shí)世界里,既能理解、又能行動(dòng),還能長(zhǎng)期穩(wěn)定運(yùn)行的系統(tǒng)會(huì)更有生命力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.