網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從世界模型到類腦架構(gòu)，“中國(guó)特斯拉”為何在VLA 主航道領(lǐng)航？

2026-04-29 18:52:21　來源: 具身研習(xí)社

北京舉報(bào)

分享至

作者：彭堃方

編輯：呂鑫燚

出品：具身研習(xí)社

VLA正在長(zhǎng)出下一代“大腦”。

世界模型概念升溫過程中，行業(yè)開始反復(fù)提及同一個(gè)問題：VLA時(shí)代是不是已經(jīng)結(jié)束了？

這種論調(diào)，不僅不懂技術(shù)演進(jìn)的基本邏輯，也沒有看透具身智能模型發(fā)展的本質(zhì)。

模型究竟該怎么走，歸根結(jié)底還是對(duì)任務(wù)的拆解。機(jī)器人進(jìn)入真實(shí)場(chǎng)景，始終繞不開三件事：看見環(huán)境、理解指令、完成動(dòng)作。只要這三件事還成立，視覺、語言、行動(dòng)這組基本結(jié)構(gòu)就不會(huì)憑空消失，真正變化的，只會(huì)是它們?nèi)绾伪唤M織、如何被增強(qiáng)，以及如何從“能動(dòng)起來”繼續(xù)走向“動(dòng)得更穩(wěn)、更快、更像一個(gè)真正的智能體”。

4 月 23 日，在 2026 POWER Robot 未來大會(huì)主論壇上，智平方創(chuàng)始人兼 CEO 郭彥東給出的判斷很明確：VLA 沒有終結(jié)，反而正在持續(xù)變得更強(qiáng)，它仍是通往物理世界智能的最強(qiáng)主航道。在現(xiàn)場(chǎng)，郭彥東第一次把智平方對(duì) VLA 演進(jìn)路徑的理解完整擺到臺(tái)前：過去是統(tǒng)一感知、理解與行動(dòng)的端到端 VLA，現(xiàn)在是融合世界模型能力的增強(qiáng)型 VLA，未來則會(huì)進(jìn)一步邁向類腦機(jī)制的全新階段。

這次表態(tài)真正重要的地方，不只是為 VLA 站隊(duì)，而是把行業(yè)里那種“VLA 與世界模型二選一”的討論，重新拉回到更真實(shí)的技術(shù)演進(jìn)邏輯里：世界模型不該是宣告 VLA 失效，而是在補(bǔ)足 VLA；而類腦機(jī)制也不是另起爐灶的平行路線，它將是下一代 VLA 的結(jié)構(gòu)方向。

順著這條邏輯看，智平方這次同步對(duì)外披露的類腦架構(gòu) VLA 具身大模型 NeuroVLA，以及一站式具身智能模型開源社區(qū) AlphaBrain Platform，就不再是兩個(gè)彼此獨(dú)立的動(dòng)作，它可以看作同一個(gè)判斷的兩面：一面指向下一代“機(jī)器人大腦”會(huì)如何演進(jìn)，另一面則指向這套能力將如何被開放、被復(fù)用、被快速帶進(jìn)整個(gè)行業(yè)。

雖然郭彥東認(rèn)為VLA一直站在主航道上，但過去一段時(shí)間行業(yè)內(nèi)關(guān)于世界模型的討論甚囂塵上，以至于出現(xiàn)“VLA已經(jīng)走到頭”的武斷之詞。

從技術(shù)的第一性原理出發(fā)，方能感受到該論調(diào)的偏見。在智平方看來，早期VLA解決的是“聽懂并動(dòng)起來”的問題。世界模型的加入，則讓系統(tǒng)多了一步，在執(zhí)行之前，先在“腦子里跑一遍”。

更重要的是，智平方對(duì)世界模型的理解并不是把它作為VLA之外的外接模塊。早在2023年下半年，智平方便率先提出，世界模型不應(yīng)懸浮在VLA之外，而應(yīng)深度內(nèi)生于模型之中。順著這一判斷，智平方自研的大模型AlphaBrain在2025年11月吸納了新一代架構(gòu)Video2Act的最新成果，實(shí)現(xiàn)了“先預(yù)測(cè)、后執(zhí)行”。在第三方評(píng)測(cè)中，相較于硅谷同類標(biāo)桿模型，AlphaBrain取得了超過30%的性能領(lǐng)先，也證明了環(huán)境理解與動(dòng)作執(zhí)行一體化路線的優(yōu)勢(shì)。

所以換種思考，業(yè)內(nèi)這波世界模型的熱度，與其說在替代VLA，不如說是在把VLA往前推了一步。模型從一個(gè)偏執(zhí)行的系統(tǒng)，慢慢長(zhǎng)出預(yù)測(cè)和規(guī)劃能力。

但當(dāng)機(jī)器人真正進(jìn)入真實(shí)環(huán)境之后，很快會(huì)遇到另一類問題：很多困難并不發(fā)生在“理解錯(cuò)了任務(wù)”，而是發(fā)生在動(dòng)作細(xì)節(jié)上。比如動(dòng)作有沒有抖、節(jié)奏穩(wěn)不穩(wěn)、碰到干擾能不能立刻調(diào)整，這些問題更偏向“身體層面”。

于是，智平方更進(jìn)一步提出了“類腦模型”。

在NeuroVLA論文中，團(tuán)隊(duì)提到一個(gè)很關(guān)鍵的觀察：現(xiàn)有VLA在動(dòng)態(tài)場(chǎng)景、節(jié)奏任務(wù)和精細(xì)操作上，和人類還有明顯差距，一個(gè)重要原因在于系統(tǒng)長(zhǎng)期依賴低頻視覺反饋，缺少高頻本體感覺、短時(shí)運(yùn)動(dòng)記憶和實(shí)時(shí)調(diào)整機(jī)制。

換個(gè)更直觀的說法，機(jī)器人一直在長(zhǎng)“大腦”，但本能式反應(yīng)的“小腦”和“脊髓”這部分長(zhǎng)期缺失。這里需要解釋一下，智平方所說的“小腦”“脊髓”業(yè)內(nèi)過去僅拿來做locomotion，但很少有融入到manipulation（操作）之中的。

NeuroVLA做的事情，就是把這部分補(bǔ)上。它采用類似“大腦—小腦—脊髓”的分層結(jié)構(gòu)：上層負(fù)責(zé)語義理解和規(guī)劃，中間層處理高頻反饋和動(dòng)作修正，底層負(fù)責(zé)快速執(zhí)行和反射。而這套結(jié)構(gòu)帶來的變化，指向三個(gè)過去機(jī)器人長(zhǎng)期難以補(bǔ)齊的能力：動(dòng)態(tài)穩(wěn)定性、超快反射和極低能耗。

比如，在執(zhí)行精細(xì)操作時(shí)，機(jī)器人不再只是依賴低頻視覺反饋慢慢糾偏，而是可以通過高頻本體感覺持續(xù)修正動(dòng)作；當(dāng)外部碰撞突然發(fā)生時(shí)，安全反射可以在20毫秒以內(nèi)觸發(fā)，而20ms什么概念？人類眨眼速度最快是100ms；更關(guān)鍵的是，底層“脊髓”層依靠事件驅(qū)動(dòng)的神經(jīng)形態(tài)計(jì)算，執(zhí)行任務(wù)時(shí)平均功耗僅0.4瓦，相當(dāng)于你未插手機(jī)的充電器保持待機(jī)的功率。

這意味著，機(jī)器人開始從靠大腦想明白再行動(dòng)，走向了身體自己也會(huì)反應(yīng)的新階段。過去我們討論機(jī)器人大腦，更多關(guān)心它能不能理解指令、拆解任務(wù)、規(guī)劃步驟；但進(jìn)入真實(shí)物理世界后，很多能力其實(shí)發(fā)生在更低層：手臂穩(wěn)不穩(wěn)、碰撞能不能縮回、動(dòng)作能不能省電、能不能長(zhǎng)時(shí)間部署。NeuroVLA的意義就在這里，它讓VLA開始長(zhǎng)出類似生物的本能反應(yīng)。

從這個(gè)角度看，NeuroVLA更像是VLA的一次結(jié)構(gòu)升級(jí)。它把系統(tǒng)從“理解+執(zhí)行”，推進(jìn)到“理解+預(yù)測(cè)+控制+糾偏+反射”的完整鏈條。

如果說NeuroVLA代表了智平方對(duì)下一代機(jī)器人大腦的判斷，那么AlphaBrain Platform則代表了另一層更現(xiàn)實(shí)的產(chǎn)業(yè)意圖：這套能力不能只停留在少數(shù)頭部團(tuán)隊(duì)手里，而要變成整個(gè)行業(yè)可調(diào)用、可驗(yàn)證、可迭代的基礎(chǔ)能力。

這次智平方?jīng)]有把最前沿的類腦模型藏起來，而是把NeuroVLA同步納入AlphaBrain Platform。按照郭彥東在大會(huì)上的介紹，AlphaBrain Platform不是傳統(tǒng)意義上只開源一個(gè)模型或一段代碼，而是打通“數(shù)據(jù)—訓(xùn)練—模型—評(píng)測(cè)”的完整鏈路，試圖提供一個(gè)一站式、開箱即用的具身智能模型開源社區(qū)。

它真正有辨識(shí)度的地方，主要體現(xiàn)在三條線上。

第一條，是NeuroVLA，對(duì)應(yīng)類腦路線。它把高頻本體感覺、短時(shí)運(yùn)動(dòng)記憶、實(shí)時(shí)運(yùn)動(dòng)調(diào)整和安全反射納入VLA體系，在機(jī)器人“想”之外，把“做”進(jìn)化為某種生物本能。

第二條，是RL Token，對(duì)應(yīng)“強(qiáng)化學(xué)習(xí)+VLA”的低門檻落地。它解決的是一個(gè)長(zhǎng)期懸而未決的問題：大模型能理解，但很難真正把動(dòng)作做到位。過去強(qiáng)化學(xué)習(xí)能提升動(dòng)作表現(xiàn)，但成本高、門檻高，還容易把原有能力“練沒了”，很難成為規(guī)模化路徑。

RL Token的意義在于，把強(qiáng)化學(xué)習(xí)嵌入到VLA體系中，變成一種可以持續(xù)調(diào)用的能力。模型先具備通用理解，再圍繞具體場(chǎng)景做后訓(xùn)練微調(diào)，讓動(dòng)作在真實(shí)環(huán)境里一點(diǎn)點(diǎn)變得更穩(wěn)、更準(zhǔn)。這種路徑更接近工程現(xiàn)實(shí)：不推倒重來，而是在已有能力上持續(xù)打磨。更關(guān)鍵的是，它把成本和復(fù)雜度壓了下來。通過凍結(jié)VLA主體，只訓(xùn)練輕量模塊，強(qiáng)化學(xué)習(xí)從“重資產(chǎn)實(shí)驗(yàn)”變成“可復(fù)用工具”。這一步讓大模型開始真正接近落地，而不是停留在演示效果。

第三條，是可插拔世界模型架構(gòu)，對(duì)應(yīng)世界模型的工程化。行業(yè)對(duì)世界模型的討論已經(jīng)很多，但真正難的部分是如何用起來。不同路線之間難以對(duì)比、難以集成，也很難放進(jìn)同一套任務(wù)系統(tǒng)里驗(yàn)證。可插拔架構(gòu)把這個(gè)問題拆開處理。不同世界模型可以在同一任務(wù)中直接切換、測(cè)試和復(fù)現(xiàn)，開發(fā)者可以清楚看到每一條路線的差異，而不需要反復(fù)搭環(huán)境、改系統(tǒng)。

這一步的意義，在于把世界模型從研究能力，變成基礎(chǔ)設(shè)施。機(jī)器人在行動(dòng)前的“預(yù)演能力”開始進(jìn)入工程系統(tǒng)，同時(shí)也讓模型路線的競(jìng)爭(zhēng)第一次有了統(tǒng)一的比較坐標(biāo)。

所以，AlphaBrain Platform開源的不是一個(gè)單點(diǎn)模型，而是一整套“機(jī)器人大腦”的生產(chǎn)方式。它把數(shù)據(jù)、訓(xùn)練、模型、評(píng)測(cè)這些原本分散在不同團(tuán)隊(duì)、不同系統(tǒng)里的能力重新組織起來，讓行業(yè)可以在同一套框架下比較模型、復(fù)現(xiàn)實(shí)驗(yàn)、迭代能力。

為什么這件事由智平方來做，其實(shí)并不算意外。

行業(yè)里常說它是“最像特斯拉的中國(guó)機(jī)器人公司”，這不是標(biāo)簽，而是對(duì)路線契合的精準(zhǔn)提煉。

一方面是他們的開源精神，AlphaBrain Platform社區(qū)是鮮明的例證。特斯拉開源Optimus 硬件，尤其是前段時(shí)間開源了新一代靈巧手專利，助力硬件端的最難卡點(diǎn)釋放。而智平方則是開源了軟件端最難的具身大模型。二者遙相呼應(yīng)，在這一意義上“中國(guó)特斯拉”無可厚非。

但如果往深一點(diǎn)看，這個(gè)類比更多是在指一種結(jié)構(gòu)：模型、硬件、場(chǎng)景三位一體。

特斯拉在自動(dòng)駕駛和機(jī)器人上的路徑，很少把模型、硬件或場(chǎng)景單獨(dú)看，而是放在一個(gè)系統(tǒng)里不斷循環(huán)。機(jī)器人行業(yè)也正在往這個(gè)方向走。這個(gè)行業(yè)最終比拼的也不會(huì)只是模型參數(shù)、單機(jī)性能或某一個(gè)場(chǎng)景的訂單，那些能讓模型在硬件上跑起來，在場(chǎng)景里用起來，再通過真實(shí)數(shù)據(jù)持續(xù)長(zhǎng)出來的智能才有可能得到延承。

智平方這幾年的路徑，也比較一致。

在模型上，從早期VLA，到快慢系統(tǒng)，再到世界模型融合，直到這次NeuroVLA，智平方的技術(shù)路線始終具有連續(xù)性。它沒有追逐概念，而是在VLA這條主航道上不斷補(bǔ)能力、補(bǔ)結(jié)構(gòu)、補(bǔ)閉環(huán)。

在硬件上，智平方也并沒有把機(jī)器人本體看成模型的附屬品，而是堅(jiān)持用大模型正向定義機(jī)器人本體。據(jù)了解，其核心零部件無故障運(yùn)行時(shí)間超過5萬小時(shí)，并通過自建產(chǎn)線保障量產(chǎn)交付。

在場(chǎng)景上，智平方已經(jīng)落地汽車、半導(dǎo)體顯示、生物科技、公共服務(wù)、新零售等十余個(gè)高價(jià)值場(chǎng)景，尤其是智慧店員艙體“智魔方”推出不到半年，已經(jīng)在中國(guó)十余個(gè)省市實(shí)現(xiàn)常態(tài)化運(yùn)營(yíng)。

這也是AlphaBrain Platform值得關(guān)注的原因。一個(gè)只有模型的團(tuán)隊(duì)開源模型，更多是技術(shù)交流；一個(gè)同時(shí)擁有模型、硬件和場(chǎng)景驗(yàn)證的團(tuán)隊(duì)開源“機(jī)器人大腦工具箱”，則更像是在開放一套經(jīng)過真實(shí)世界檢驗(yàn)的生產(chǎn)方法。

具身智能產(chǎn)業(yè)已經(jīng)走到一個(gè)新階段。過去，大家需要證明機(jī)器人能動(dòng)起來；現(xiàn)在，大家要證明機(jī)器人能在真實(shí)場(chǎng)景里穩(wěn)定工作；再往后，機(jī)器人還要在工作中持續(xù)學(xué)習(xí)、持續(xù)糾偏、持續(xù)進(jìn)化。

VLA沒有終結(jié)，它正在融合世界模型，“長(zhǎng)出”小腦和脊髓，長(zhǎng)出更接近身體智能的下一代結(jié)構(gòu)。

而機(jī)器人大腦的競(jìng)爭(zhēng)，也將從單純的模型能力之爭(zhēng)，走向體系能力、開源生態(tài)和真實(shí)場(chǎng)景閉環(huán)之爭(zhēng)。真正的智能，終究不是停留在屏幕里的推理能力，而是進(jìn)入世界之后，仍然能夠穩(wěn)定、敏捷、安全地改變世界。

最終能留下來的，不會(huì)只是“最聰明”的模型，那些在真實(shí)世界里，既能理解、又能行動(dòng)，還能長(zhǎng)期穩(wěn)定運(yùn)行的系統(tǒng)會(huì)更有生命力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.