![]()
過去一年,隨著世界模型、物理模型等概念持續升溫,行業中出現了一種頗具爭議的聲音——VLA(視覺-語言-行動)時代正在走向終結。甚至有人斷言:世界模型將取代VLA。
4月23日,在2026 POWER Robot未來大會主論壇的開場演講上,智平方創始人兼CEO郭彥東博士用一場題為《AGI邁進物理世界:通用智能機器人開啟第四代智能終端時代》的演講,正面回應了這一說法。
這位橫跨微軟、OPPO、小鵬汽車,如今又投身具身智能創業的“AI+智能終端”代表人物,以其一貫的技術前瞻與產業視野,給出了一個清晰定調:VLA時代沒有結束,它正在持續變得更強!并且依然是通往物理世界智能的最強主航道。
郭彥東博士的這個定調,直接為這場階段性的爭議畫上了句號。
01.
VLA時代沒有終結,而是正在持續變得更強!世界模型不是顛覆者,而是加持者
針對“VLA是否過時”的行業爭論,郭彥東博士從第一性原理出發重新定義了這一問題。他指出,任何能夠在真實世界中執行任務的智能系統,都必須具備三項核心能力:對世界的感知、對邏輯的推理以及對行為的控制——這三個要素(視覺、語言、行動)是永遠存在的,變化的只是它們的組織方式。
因此,所謂范式之爭,本質上并非替代關系,而是組織方式的持續演進。世界模型、類腦模型等新技術,并不是對VLA的顛覆,而是對其能力的增強與補全。“VLA不會消失,它會被不斷加持,變得越來越聰明,它是通往物理世界智能的最強主航道。”郭彥東博士在現場強調。
基于這一底層認知,智平方將VLA的發展劃分為清晰的三階段路徑:從過去最初實現感知、理解與行動統一建模的端到端VLA,到現在融合世界模型實現“行動前預測”的增強型VLA,再到未來邁向類腦機制的全新階段。
![]()
尤其是在最新階段中,VLA不再只是一個單一模型,而是演進為具備分層結構的智能系統——類似人類大腦、小腦與脊髓的協同機制,從而實現更高效的推理、更快速的響應以及更穩定的控制。這一方向,也被郭彥東博士認定為未來具身智能最關鍵的技術演進路徑。
在具體實踐層面,郭彥東博士首次系統披露了智平方在具身大模型領域的連續突破,其自主研發的 AlphaBrain,致力于為通用智能機器人提供“最強大腦”。
早在2024年6月,智平方就推出了AlphaBrain的初期版本,這也是全球創業公司中首個VLA大模型,在模型規模僅為谷歌同類模型1/20的情況下,性能提升超過80%。2025年6月,智平方推出了快慢系統深度融合的新一代VLA架構,成為業內首個“異構輸入+異步頻率”的雙系統VLA模型,性能直接超越國際標桿Pi0達30%。
2025年11月,智平方發表融合世界模型的VLA具身大模型,實現“先預測、后執行”。本次大會,智平方正式對外披露了全球首個類腦架構VLA具身大模型(NeuroVLA),再次引領突破。
在最新的類腦VLA中,智平方通過引入生物啟發的分層計算結構,首次提出將小腦和脊髓的部分融入操作當中,實現模型毫秒級自適應控制與接近生物反射速度的響應能力,使機器人首次具備類似“肌肉記憶”的持續進化能力。這一突破,標志著機器人從“執行指令的工具”,向“在任務中不斷優化自身的智能體”邁出關鍵一步。
![]()
持續領先、代際碾壓,智平方在短短三年內完成了從范式驗證到體系化創新的躍遷,成為其模型能力的真實寫照。
![]()
02.
AlphaBrain Platform:全球首個一站式、開箱即用的具身模型開源社區
如果說類腦VLA代表了未來方向,那么與之同步發布的AlphaBrain Platform,則體現了智平方推動行業整體躍遷的另一重戰略布局。
郭彥東博士在演講中宣布,AlphaBrain Platform作為全球首個一站式、開箱即用的具身智能模型開源社區,已正式向全行業開放。與傳統僅開放單一模型或代碼的開源方式不同,AlphaBrain Platform直接打通了“數據—訓練—模型—評測”的完整鏈路,“以全家桶式的貼心服務”,將原本只有少數團隊具備的復雜系統能力,轉化為整個行業可共享的公共能力。
![]()
開源地址:https://www.alphabrain-platform.com/
AlphaBrain Platform一次性開源了當前具身智能領域最前沿的三條技術路線:全球首個開源類腦VLA模型、全球首個基于RL Token的開源VLA訓練架構、全球首個可插拔世界模型工具鏈。
![]()
以前,這些技術只存在于頂尖實驗室和頂會論文里。現在,全部開放,任你取用。
03.
類腦模型:讓機器人擁有"肌肉記憶"
類腦模型被公認為VLA(Vision-Language-Action)的未來方向,傳統VLA模型"訓練完成即固定",無法在部署后繼續學習。智平方開源的NeuroVLA,首次在類腦控制任務上達到前沿水平。它引入脈沖神經網絡動作頭與R-STDP訓練算法,支持部署階段的在線自適應,使用前向傳遞方式,讓機器人具有肌肉記憶能力。
這意味著機器人第一次從"執行指令的工具"轉向"在任務中不斷進化的主體"。它不只是完成任務,而是在過程中變得更熟練、更穩定。一個工人在流水線上重復同一個動作,第一天可能需要5秒,一個月后可能只需要3秒——這就是肌肉記憶。現在,機器人也有了。
04.
RL Token:用一張4090就能做強化學習
RL Token是"強化學習+VLA"的黃金組合,也是讓大模型真正可落地的場景化利器。它將大模型的通用認知與強化學習的特定場景優化能力深度融合,讓大模型從"紙上談兵"的對話工具,真正轉變為能在工廠、家庭、倉庫等具體場景中完成實際物理任務的自主系統。
但長期以來,對VLA做強化學習面臨著算力門檻高、容易災難性遺忘等難題。所謂災難性遺忘,就是模型學了新技能,把老技能忘了。
智平方率先在LIBERO環境上完成驗證,提出信息瓶頸編碼器與兩階段訓練策略,使VLA主體在RL微調過程中完全凍結。所需訓練參數從39億降至約1.37億,其中RL梯度更新僅涉及130萬參數,僅需單張4090顯卡即可進行強化學習后訓練。
這個門檻的降低,對于高校實驗室和小型團隊而言,意義是革命性的。以前做強化學習需要數張A100,現在一張消費級顯卡就夠了。
05.
世界模型:讓機器人學會"預演未來"
世界模型是當前最火的"想象力引擎",讓機器人在行動前預演未來,做出更優決策。人類在做復雜決策時,會在腦海中模擬不同的可能性,這就是世界模型的本質。
然而,世界模型的研究長期停留在論文階段,不同模型之間難以對比、難以集成。智平方首次實現世界模型的可插拔化。平臺原生集成NVIDIA Cosmos Policy原始權重,同時支持Cosmos、Wan、V-JEPA三大世界模型Backbone一鍵切換,共享統一動作解碼器。
這意味著機器人可以在行動前"預演"多種可能路徑,選擇最優解。開發者可以自由對比不同世界模型的表現,極大降低研究門檻。這一長期停留在論文中的能力,終于成為人人可用的工具。
06.
開源不是終點,好用才是
過去幾年,具身智能領域不缺模型,也不缺論文。但一個尷尬的現實是:開源模型很多,真正"好用"的很少。
很多開源項目停留在"能跑通"的階段。開發者想做真正的創新,往往要從數據處理開始,一路搭建訓練流程、對接不同模型、手動完成評測驗證。不同項目之間數據格式不統一、接口不兼容,大量時間消耗在重復的工程工作中。
AlphaBrain Platform改變的正是這一點。它不是簡單開源一個模型,而是把"數據—訓練—模型—評測"整條鏈路全部打通,從而在五個維度上構建起完整的技術壁壘。
![]()
在技術深度上,平臺集成了世界模型、類腦模型等最前沿的技術路線,開發者無需從零復現論文;在覆蓋廣度上,它同時支持RL、世界模型、傳統VLA、類腦模型,是業內唯一覆蓋所有主流技術方向的平臺。更重要的是,不同架構與訓練范式可以自由組合,跨領域的"化學反應"只需修改幾行配置即可觸發。評測層面同樣如此,統一的數據格式、評估環境與測試標準,覆蓋LIBERO、RoboCasa、CALVIN、BEHAVIOR-1K等8大主流Benchmark,一鍵完成評測,好模型不再靠"嘴強"。而在生態建設上,平臺匯聚了全球頂尖機構的開源力量,橫跨學術界與產業界,共同構建具身智能的開放生態。
如果說以前開源一個模型是給你一個工具,那AlphaBrain Platform直接給你的是一套"頂配全家桶"——最前沿的模型、最趁手的工具、最標準的評測,一次配齊,開箱即用。
Physical Intelligence(Pi)公司的Pi0模型開源,是業內單模型開源的標桿。但Pi做的是"單模型開源",智平方做的是"生態平臺"。
AlphaBrain Platform不僅開源自己達到世界前沿水平的三個"全球首個"(類腦、RL+VLA、世界模型),更開放地集成了其他頭部模型,讓開發者可以在同一平臺上自由選擇、組合、對比。
平臺統一了數據格式和評測基準,覆蓋8大主流標準。這意味著,在這個平臺上發布的模型,都需要在同一套評測體系下接受檢驗,模型之間的對比終于有了公平的基礎。
與Pi等公司的單模型開源相比,AlphaBrain Platform更像一套完整的"全棧工具鏈"。前者給你一個可以用的模型,后者給你一整套可以創新的環境。對于整個產業而言,后者的價值更大,它讓資源有限的團隊不必再重復搭建底座,可以直接把精力投入到真正有價值的算法創新上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.