網易首頁 > 網易號 > 正文申請入駐

看完智平方創始人郭彥東的這場演講，我對 VLA 又有信心了

2026-05-07 18:27:21　來源: AI科技評論

廣東舉報

分享至

VLA沒有終結，反而在持續變強。

作者丨高景輝

編輯丨馬曉寧

2026 年的具身智能賽道，正陷入一場關于技術路線的激烈爭論。

先是宇樹科技創始人王興興公開表示，世界模型是更有希望的技術路線；再是英偉達在 GTC 大會上發布 GR00T N1，將世界模型作為通用人形機器人基礎模型的核心架構。一時間，世界模型成為行業最熱的關鍵詞。

與之相對的，是 “VLA 時代已經終結” 的論調在行業內快速擴散。大量從業者開始質疑，曾經被視為具身智能核心范式的 VLA模型，是否已經被新的技術浪潮拋下。

VLA 的時代真的過去了嗎？在 2026 年 4 月的 FAIR plus 大會主論壇上，智平方創始人郭彥東用一場演講直接回應了這場爭論，他的判斷很明確：VLA的時代遠未終結，世界模型正在匯入 VLA 的河流，其中下一個關鍵變量則是類腦架構。

隨著逐漸理解這一判斷背后的內在邏輯，我對 VLA 路線的信心又一點一點地重建了起來。

世界模型，終結不了 VLA

要判斷一個技術范式是否過時，首先需要回到第一性原理：它解決的核心問題是什么？這些問題的解決方式是否已被根本性地顛覆？

VLA 即 Vision-Language-Action，視覺、語言、動作三個詞定義了一個完整的閉環：機器人通過視覺感知環境，通過語言理解指令并進行推理，通過動作輸出完成物理交互。從感知到理解到執行，這是一條不可拆解的鏈條。

郭彥東也在演講中強調：“不管是Vision、Language、Action怎么組織，它的組織方式會有變化，但是需要三個核心的要素，這個范式是永遠不會有變化的。”

這個判斷有充分的技術邏輯支撐。具身智能完成一項任務，必須先知道環境里有什么（視覺感知），理解任務是什么（語言推理），再調動身體去執行（動作控制），這三個環節缺一不可。

你可以優化感知模塊的分辨率，可以提升語言模型的推理能力，可以改進動作控制的精度——這些都屬于“怎么組織”的問題。但你不能去掉感知模塊，讓機器人在黑暗中摸索；不能去掉推理模塊，讓機器人機械地重復固定程序；更不能去掉動作模塊，因為不與物理世界交互，就不存在具身智能。

當前所謂“VLA時代終結”的論調，混淆了兩個層面的問題：一是 VLA 作為一個技術范式的存續，二是具體架構形式的迭代。前者關乎具身智能的本質需求，后者只是實現路徑的選擇問題。

Gartner技術成熟度曲線告訴我們，一項技術從過高期望的峰值滑落后，往往被輿論判定為“失敗”，但這個階段恰恰是技術與實際場景深度磨合的關鍵期，真正的生產力突破往往在此發生。

VLA 便處于這一階段，其當前面臨的爭議，更像是在從實驗室原型邁向工業級落地的過程中，技術邊界被清晰認知后的必要調整。

實際上，VLA 從來不是一個固化的技術方案。它從誕生之初就在不斷吸納新的方法論。從最早的對齊式VLA，到快慢學習VLA，再到當前將世界模型融入 VLA 的探索，技術架構一直在演進。把 VLA 等同于某一個歷史版本的實現方式，是對這個范式的誤讀。

那么，世界模型在這場演進中扮演什么角色？

郭彥東在演講中做了一個關鍵區分：“把世界模型用來增強 VLA，和把世界模型融入 VLA，是不同的兩個范式。我們認為把世界模型融入到VLA里面，讓 VLA 具備更強的泛化能力，是VLA變得更強的必由之路。”

這個區分的實質在于：世界模型是作為一種外部工具來輔助 VLA，還是成為 VLA 架構內部的一個有機組成部分？前者是松耦合，可以隨時替換；后者是緊耦合，改變了 VLA 的感知與推理方式。

世界模型的核心價值在于讓機器人生成對物理世界的預測能力。傳統 VLA 的瓶頸之一是：模型雖然能理解“把杯子放到桌子上”這條指令，但對“杯子被碰倒后會滾動”“松手后物體會下落”這類物理常識缺乏內在判斷。當環境出現預期之外的變化時，模型容易做出錯誤動作。

融入世界模型后，VLA 可以內生地形成對物理規律的理解。它不再被動地映射“感知→動作”的對應關系，而是能夠預測動作的后果，在行動之前進行模擬推演。這補齊了傳統 VLA 在物理預測和泛化適配上的短板。

這塊短板恰恰是制約VLA從實驗室走向真實場景的關鍵障礙。真實物理世界充滿不確定性——光照變化、物體位置偏移、外力干擾——模型如果只靠大量標注數據來覆蓋所有情況，泛化天花板很快就會觸達。世界模型提供了另一種路徑：讓模型理解底層物理規律，從而在未見過的場景中也能做出合理動作。

從這個角度看，世界模型是VLA架構的重要升級模塊，而非獨立于 VLA 之外的新賽道。所謂“世界模型取代VLA”的說法，在技術邏輯上說不通——世界模型解決的是預測和泛化問題，它本身并不直接輸出動作，也不直接處理視覺輸入，它需要嵌入到端到端的感知-推理-執行閉環中才能發揮作用。

總而言之，每一代迭代，VLA都在解決上一代在真實物理世界中暴露的核心痛點：泛化能力不足、動作穩定性差、時空感知魯棒性弱。它從來不是一個固化的技術方案，而是一個持續吸收新技術、不斷進化的開放范式。

能為 VLA 代言的，為什么是智平方？

捋清 VLA 與世界模型的關系是一回事，拿出有說服力的技術成果又是另一回事。智平方之所以能在爭論中為 VLA 發聲，離不開長期的技術積累和獨特的架構創新。

時間線拉回到2023年。彼時具身智能的概念剛剛升溫，多數團隊還處于觀望或單點技術探索階段，而智平方剛成立就明確了方向：物理世界大模型。同年，他們發布了中國創業公司中的首個端到端 VLA 具身大模型。

一步卡位，決定了此后的技術慣性。與那些從計算機視覺或自然語言處理轉投具身智能的團隊不同，智平方從第一天就將機器人動作控制作為模型輸出的核心環節來設計，而非事后嫁接。這種底層的差異，使得他們在后續技術迭代中更容易突破感知與控制之間的隔閡。

不過，先發優勢本身不足以構成護城河，智平方真正的技術壁壘來自對 VLA 架構底層邏輯的重新理解，典型的例子就是2025年6月推出的快慢學習VLA架構（FiS-VLA）。

雖然此前也有人將“雙系統”設計引入VLA大模型，但由于兩個系統相互獨立，使得快系統無法充分利用慢系統的豐富預訓練知識，導致執行能力大打折扣。

而智平方首創的快慢學習 VLA 架構，將動作模型從語言模型中分離出來，形成“慢系統”和“快系統”的雙軌制，其中慢系統負責情境理解與任務規劃，快系統負責運動執行與實時反饋。這套架構為后續的技術迭代奠定了底層邏輯。

有了架構基礎，下一個問題是：快系統能快到什么程度？放在實戰中效果究竟怎么樣？

智平方攜手港科大最新發布的NeuroVLA給出了答案。這套全球首個類腦架構的VLA大模型，將仿生分層設計推到了新的技術高度。

傳統 VLA 的設計思路，是讓一個統一的大模型同時處理感知、推理和控制。這種集中式架構的問題在于：高層級的語義理解和低層級的運動控制被混在一起處理。結果是兩頭不討好，運動控制延遲高、抖動大，而推理過程又被高頻控制任務搶占計算資源。

在此背景下，智平方創造性地提出將“小腦”和“脊柱”模塊融入機器人操作環節。這個思路的獨到之處在于，它改變了具身智能領域長期以來的一個默認設定：小腦和軀干只負責運動，而操作任務由大腦統一指揮。

正如郭彥東在演講中所言：“我們也在行業當中最早提出了要把小腦和脊柱的部分也融入操作當中，這樣對于整個操作來講，它可以有毫秒級安全的自適應，這個是機器人進入到真實環境最核心的要素。”

做出這一判斷的背后，是對生物智能的深入理解。人類在執行精細操作時，大腦皮層只負責發出高層指令——“擰開那個瓶蓋”，而手指如何協調、力度如何調整、遇到意外阻力如何應對，這些都由小腦和脊髓層面的神經回路自動完成。這套分層架構是億萬年進化的產物，它的核心優勢在于：將高頻、低延遲的反饋控制下沉到低層級處理，解放高層級進行復雜的語義推理。

具體來說，NeuroVLA 將機器人的計算架構明確分為三層。最上層是運行在GPU上的“大腦”層（皮質模塊），專注于理解視覺和語言指令，生成抽象的任務目標。中間是“小腦”層（小腦模塊），作為一個自適應濾波器，以每秒數百次的頻率讀取機器人本體的關節、力度等傳感器數據，實時平滑大腦發出的指令，消除抖動，并根據外力干擾即時調整運動軌跡。最底層是“脊髓”層（脈沖脊髓模塊），部署在專用的神經形態芯片上，以脈沖神經網絡的方式驅動電機。

這套架構的技術突破集中在底層。脈沖神經網絡的核心特點是事件驅動，即只有需要動作時神經元才“放電”，靜止時幾乎不耗能。這與傳統人工神經網絡需要持續進行矩陣運算的模式形成了根本性差異。根據智平方公布的數據，NeuroVLA 在實體機器人執行任務時，“脊髓”層平均功耗僅為0.4W。

0.4W是什么概念？一部手機進行視頻播放時功耗都要達到1-3W，NeuroVLA 能耗之低可見一斑。對于依賴電池供電的移動機器人而言，這種能效比是決定能否實現全天候自主作業的關鍵指標。

此外，NeuroVLA 在“脊髓”層內置了快速安全反射通路，一旦檢測到突然的碰撞力，可在20毫秒內直接觸發撤退動作，完全繞過較慢的大腦回路。傳統 VLA 系統的反應延遲通常在200毫秒以上，這10倍的差距，在真實人機協作場景中意義重大，畢竟20毫秒足夠讓機器人在碰觸到人手的瞬間收回機械臂，避免造成傷害。

實驗數據證明了這套架構的實戰效果。在碰撞干擾測試中，NeuroVLA 的傳統對照模型在遭遇外力碰撞后全部任務失敗，成功率為0%。而 NeuroVLA 不僅能在20毫秒內觸發保護性撤回，還能在之后自主調整路徑繞開障礙，任務恢復成功率達到54.8%。機械臂的動作抖動被抑制了75%以上。這些數據指向一個實質性的突破：機器人首次表現出了類似生物“本能反應”的生存能力。

無論是從快慢學習 VLA 到 NeuroVLA 的技術迭代脈絡，還是可以量化驗證的性能指標，都給了智平方敢于在爭議聲中為 VLA 代言的技術底氣。

比起路線之爭，

更重要的是讓模型被用起來

路線爭論天然具有傳播屬性，畢竟“制造對立”本就是傳播學上的流量密碼；技術路線的標簽，也是各大公司在資本市場上博弈的重要籌碼。

但回到具身智能落地的現實，一個更緊迫的問題被忽視了：當前行業內能夠真正將VLA模型部署到真實機器人上、完成實用任務的團隊，依然集中在少數幾家公司手中。

這無關路線選擇，本質上是一個工程化門檻問題。

高端VLA模型的訓練需要大規模、高質量的具身數據，需要從感知到控制的完整工具鏈，需要在真實環境中反復調試的工程能力。對于多數希望引入具身智能技術的企業和開發者而言，從零搭建這套能力體系的成本高到不切實際。模型的開源與復用、場景適配的便捷性、評測標準的統一性……這些決定著技術能否走出實驗室的關鍵環節，長期處于缺位狀態。

恰好郭彥東在演講中介紹了一個一站式、開箱即用的具身智能模型開源社區「AlphaBrain Platform」。從其定位來看，這個開源平臺試圖解決的核心問題是，讓VLA模型不再是少數團隊的專屬能力。

進入開源社區主頁可以看到，AlphaBrain Platform 整合了三類能力。第一是模型匯聚。平臺收錄了智平方自2023年以來研發的系列大模型，包括最新發布的類腦VLA大模型，同時也在MIT許可證允許的前提下，將行業內表現優異的模型通過數據適配納入平臺。目標是將多方模型聚合到一個統一的生態中。

第二是標準化測評。不同模型在不同環境、不同任務上的表現，缺乏公開透明的對比基準，這導致開發者選型困難。AlphaBrain Platform 提供了測試平臺和測試環境，可以一鍵式調用模型，查看其在特定測評體系下的真實表現。

第三是場景化訓練工具。通用模型要適配具體場景，需要專業知識和反復調試。平臺提供了一套面向場景的RL TOKEN訓練框架，讓開發者能夠以較低門檻讓通用模型學習特定任務的專業技能。

從商業邏輯來看，這是一次降低行業準入門檻的嘗試。模型、測評、訓練的三合一平臺，如果運轉順暢，確實可以將原本需要頂尖團隊才能駕馭的復雜系統能力，轉化為更廣泛的開發者群體可以獲取的公共技術資源。

這也回到了郭彥東在演講末尾的一句話：“通過這樣一個全家桶式的貼心服務，希望能夠把本來可能是屬于少數團隊的一個復雜系統能力，轉化為整個行業都能夠共享的公共能力。”

從 VLA 路線之爭到開源平臺建設，智平方在做的事實際上是同一件事：證明 VLA 不僅是一個有生命力的技術范式，更是一個可以被工程化、可以被廣泛獲取的基礎能力。

與之相比，孰優孰劣的路線之爭顯得無足輕重。

結語

回到行業最初的那個問題，VLA 的時代過去了嗎？答案顯然是否定的。

VLA 始終是通往物理世界智能的最強主航道。它的核心生命力，在于它是一個持續吸納前沿技術、不斷迭代升級的開放范式，而非一套固步自封的固定架構。從世界模型的融入，到類腦智能的加持，VLA 正在不斷吸收行業內的前沿技術成果，持續突破自身的能力邊界。

智平方的技術路徑，恰恰印證了這一點。從國內首個端到端 VLA 模型的發布，到世界模型的深度融合，再到類腦 VLA 架構的創新，智平方始終沿著 VLA 的技術主線持續深耕，同時不斷將前沿技術融入其中，實現了模型能力的持續躍升。而開源生態的搭建，更是讓 VLA 技術走出了少數團隊的實驗室，成為全行業可以共享、可以落地的公共技術能力。

隨著 VLA 架構的持續創新，以及開源生態的不斷完善，具身智能技術將逐步突破實驗室的邊界，進入更多真實的生產生活場景。通用智能機器人，也將逐步完成從演示 demo 到規模化實用產品的跨越，成為繼 PC、手機、智能汽車之后，改變人類生產生活方式的第四代智能終端。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。F

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.