網易首頁 > 網易號 > 正文申請入駐

參數驟降97%，單卡4090輕松訓練具身大模型

2026-04-27 00:45:04　來源: 世界軍事格局

四川舉報

分享至

特斯拉開源硬件專利后，所有人都在等：中國公司怎么回應？

現在答案來了——跟風硬件沒意思，要開源就找比硬件更值錢的東西。

4月22日，智平方發布AlphaBrain Platform開源社區。這是全球首個一站式、開箱即用的具身智能模型開源社區。

注意，這次不是單模型開源，智平方聯合港科大（廣州）熊輝團隊直接拿出了一套“頂配全家桶”：

這些原本只存在于頂尖實驗室的前沿技術，現在全部開放！任你取用！

有開發者評價：

2023年成立的智平方，專注AGI原生的通用智能機器人，目前公司規模近300人。

因一年12次融資，該公司被外界稱為全球具身智能領域融資節奏最快的獨角獸。摩根士丹利也把它列為具身基礎模型的代表企業。

此時拿出這樣一套“工具箱”，智平方有什么考量？

過去兩年，具身智能涌現了大量開源模型。但一個尷尬的現實是：開源模型很多，真正“好用”的很少。

開發者還是要面對各種問題：這個模型怎么跑起來？那個模型跟它比誰更強？我想做的創新能不能落地到真實場景？

現在，AlphaBrain Platform選擇開源“讓模型跑起來、比得清、落得地”的全鏈路能力，方便復現、方便對比、方便場景化落地。

信號已經很明確了：中國具身智能的開源戰，正式進入頭部玩家卡位階段。

前面說過了，這套“頂配全家桶”集齊了業內五大核心技術。

其中最受關注的，當屬世界模型、類腦模型、RL Token和持續學習算法。

它們是當前具身智能領域最火的技術路線，各有各的狠活兒。別急，咱們一個個來看。

AlphaBrain Platform最硬核的地方，是把世界模型的能力給拉滿了，帶來了全球首個可插拔世界模型架構（WA）。

亮點有主要有2個：

1、原生集成NVIDIA Cosmos Policy原始權重。

這可不是掛個名頭。

開發者可以直接加載NVIDIA Cosmos Predict2那個2B參數的DiT原始預訓練權重，在latent space里通過視頻擴散模型預測機器人動作。

說白了，就是把NVIDIA最核心的那套“動作預測”能力，原封不動地搬了過來，可訓參數約1,956M，這底子打得夠厚。

2、預設三大主流世界模型Backbone，自由切換。

這陣容拿出來，基本就是把全球頂尖的世界模型一網打盡了。

這三個Backbone可以在Flow-Matching解碼器中進行自由切換。

啥意思？就是一個動作解碼器（約1.1億參數），喂給這三個世界模型都能用。

開發者想對比不同世界模型在同一個任務上的表現，一鍵切換就行了。

訓練模式切換也做到了極致簡化。

智平方自創立起，便確定了構建物理世界大模型的核心技術方向，在行業尚未形成共識前，率先布局VLA架構。這些年對VLA的研究一直沒有停下。

在面對VLA結合強化學習的研究方向時，開發者往往要面對兩座大山：動輒數十億參數帶來的極低的推理效率的門檻，以及微調時極易引發的“災難性遺忘”難題。

RL Token則是打破這一僵局的“黃金組合”，也是讓大模型真正可落地的場景化利器。

智平方率先在LIBERO環境上完成了該路線的驗證，并提出了一套對開發者極其友好的開源優化方案。

這套方案的核心突破在于：

1、信息瓶頸編碼與VLA主體凍結

為了解決算力開銷和遺忘問題，方案引入了信息瓶頸編碼器與兩階段訓練策略。

在RL微調階段，龐大的VLA主體參數被完全凍結。這不僅守住了模型原有的通用能力底線（避免災難性遺忘），更讓訓練的計算成本實現了斷崖式下降。

2、降低RL的訓練門檻

通過架構優化，系統所需訓練的參數量從原本龐大的3.9B驟降至約137M（僅占VLA總參數的3.5%）。

更硬核的是，在實際的強化學習梯度更新環節，僅涉及極輕量的1.3M參數。

這意味著，開發者不需要龐大的算力集群，僅需單張普通消費級RTX 4090顯卡，就能跑通VLA的強化學習后訓練（Post-training）。

3、告別推翻重來，實現“穩定進化”

換句話說，廣大開發者可以在不破壞模型原有能力的前提下，對特定任務進行低成本優化。

大模型終于可以像人類一樣，在已有的豐富經驗基礎上不斷精進，而不是每次遇到新場景都反復推翻重來。

這套方案證明了強化學習+VLA這對黃金組合，可以讓每個行業、每個場景都用它來定制自己的“能干活的AI”。

機器人一旦真實部署，每天都在產生新場景、新任務、新技能。

傳統訓練模式有個老大難問題——學新的忘舊的，也就是業內公認的“災難性遺忘”。

要做通用智能機器人，持續學習（Continual Learning，CL）是繞不開的底層能力。

AlphaBrain Platform在這一塊做了比較系統的工程化工作：把CL從“單模型上的研究玩具”推向多架構可復現的對比平臺。

技術亮點主要有3個：

1、多架構橫向對比

當前前沿的VLA架構——QwenGR00T、NeuroVLA、LlamaOFT、PaliGemmaOFT——都被納入了同一套CL驗證流程。

每個架構上都跑了全參與LoRA兩種訓練變體，形成統一基準下的橫向對比，而不是只在某一個backbone上秀單點效果。

2、跨架構解耦：算法和模型互不侵入

CL算法接口和業務模型完全解耦——換backbone成本極低。

想把Experience Replay換成別的CL方法？實現一個統一的抽象類，所有架構即可自動適配。

LoRA的注入、保存、加載合并也抽成獨立模塊，對外只暴露少量清晰API。

也就是說，算法研究者不用啃每個VLA的實現細節，模型開發者也不用操心CL算法內部怎么跑，雙方各司其職，協作成本降一檔。

3、開箱即用的訓練-評估鏈路

LoRA路線下的checkpoint體積也顯著小于全參版本，對顯存和存儲更友好，更多研究者能在自己機器上復現和二次改造。

以前做“一個模型連續學多個任務還不忘”這類實驗，光搭環境就夠折騰一陣。

現在這套工具鏈把門檻降了一檔：實現了一鍵切換架構、可復現、可對比、可擴展。

前面講了“想得遠”和“學得快”，但真正讓機器人像人類一樣“邊干邊學、越干越聰明”的，還得是類腦計算。

智平方這次拿出來的NeuroVLA，是全球首個支持在公開基準上驗證的類腦具身開源模型。

它不是簡單貼個“類腦”標簽，而是從底層架構上，向生物腦的學習機制邁了一大步。關鍵的設計有4個：

1、脈沖神經網絡（SNN）動作頭

傳統AI輸出的是連續數值，像開關一樣，要么0，要么1。NeuroVLA引入了LIF（Leaky Integrate-and-Fire）神經元，用脈沖編碼來輸出。

它在模擬生物神經元的“放電”機制。有刺激才發脈沖，沒刺激就歇著，更像人腦的工作方式。

2、R-STDP訓練算法

這名字聽著復雜，核心就一件事：讓機器人能從“成敗”中學習。

它支持反向傳播+STDP的混合模式，以及純STDP模式。

獎勵信號會調制神經元的連接強度，做對了就強化，做錯了就弱化。這就是生物大腦里的“用進廢退”。

3、在線STDP測試時自適應

大多數模型部署后就定型了，遇到新環境只能認栽。

但NeuroVLA不一樣，它在運行階段不需要反向傳播，只靠環境交互產生的自監督獎勵信號（比如狀態預測準不準、動作順不順滑），就能實時更新SNN權重。

關鍵是，零額外計算開銷。也就是說，機器人一邊干活一邊學習，還不費算力。

4、GRU-FiLM動作精修模塊

SNN輸出之后，還有一個“精修師”在把關。

GRU-FiLM模塊會基于機器人當前的本體狀態（比如關節角度、速度），對動作進行條件性修正。粗調之后再來個精調，動作精度直接拉滿。

簡言之，以前的機器人，出廠啥樣就啥樣，遇到新場景只能傻眼。

NeuroVLA這套方案，讓機器人擁有了“終身學習”的能力，不僅邊干邊學、越干越順手，學習成本還幾乎為零。

這不就是生物大腦最核心的優勢嗎？

聊完技術，咱來說一個更實際的問題：這個“頂配全家桶”到底能拿來干啥？

四個字：拿來就用。

全球范圍內，只有兩家創業公司能把VLA模型做到開源，一家是智平方，另一家是Pi。

但和Pi開源單個模型不同，智平方這次玩了把大的，把自己家的模型和其他頭部模型開放集成。

最牛的模型，馬上能用。它開源了自己最先進的三個“全球首個”模型、不用調依賴，直接上手。

哪個模型好，開發者一測便知。統一Benchmark，一鍵評測。世界模型A和世界模型B誰更強？跑一下就知道了，不用自己搭擂臺。

而且，它把路直接給開發者們鋪好了：從數據到訓練，從架構到測試，場景落地，有一整套工具鏈。

更狠的是，消費級顯卡就能跑，需訓練參數降低到原本的3.5%。

想適配自己的機器人？低成本強化學習后訓練微調，快速搞定。

類腦計算、世界模型、RL+VLA黃金組合——這些原本只存在于頂尖實驗室的前沿技術，現在開源社區里就能拿到。

最未來的黑科技，直接擁有。

和Pi一對比，格局大小立見。

前者讓你“有一個模型可以用”，但智平方讓你“有多個模型可以選，而且能復現、能對比、能落地”。

當技術門檻被降下來，更多人能參與，行業共識也會更快形成。

開源這件事，智平方不是第一次干了。

作為全球具身智能大模型的領跑者，智平方自主研發的AlphaBrain，致力于為通用智能機器人提供“最強大腦”。

早在2024年6月，智平方就扔出了AlphaBrain的初期版本，這也是該公司首個開源的VLA模型。

當時有個數據挺有意思：模型規模只有谷歌同類的1/20，但性能反超了80%。

這波操作直接入選了NeurIPS 2024，連圖靈獎得主Yann LeCun都公開關注并引用了。

到了2025年7月，智平方推出了快慢系統深度融合的新一代VLA架構，這是業內首個“異構輸入+異步頻率”的雙系統VLA模型，性能直接超越國際標桿Pi0達30%。

它更以117.7 Hz的超高控制頻率，重新定義了機器人“又快又聰明”的可能性。

當行業近期開始熱議“世界模型”時，智平方早在2023年下半年便率先提出：世界模型不應是VLA的外接模塊，而應深度內生于模型之中。

基于這一前瞻認知，AlphaBrain在2025年11月吸納了新一代架構Video2Act的最新成果——實現“先預測、后執行”。

如今，智平方再次引領突破——開源了全球首個類腦VLA模型（NeuroVLA），并將其融入AlphaBrain。

從AlphaBrain再到今天的AlphaBrain Platform，智平方走了一條“先自己跑通，再開源給所有人”的路。

說實話，智平方這次把這么多好東西直接攤在桌上，我屬實沒想到。

它為啥敢這么干？到底什么來頭？

資本和產業界給智平方貼過同一個標簽：“最像特斯拉”的中國機器人公司。

因為端到端的思考最早由自動駕駛行業提出，特斯拉是最早走端到端大模型技術路線的企業。

智平方則是人形機器人賽道，首家引入該理念的公司。

創業之初，智平方就是奔著“物理世界大模型”去的，明確堅持VLA技術路線，是行業中最早推動具身大模型從概念走向落地的團隊。

該公司創始人兼CEO郭彥東，本碩就讀于北京郵電大學，后赴美就讀普渡大學電氣與計算機工程博士，師從AI領域的美國工程院院士Jan P. Allebach和Charles A. Bouman。

他還曾在微軟美國研究院參與過深度學習技術研發。

回國后，郭彥東擔任過小鵬汽車和OPPO的首席科學家與研發高管，曾主導數億臺智能終端的AI研發工作。

2025年，他被任命為香港科技大學（廣州）兼職教授，還入選當年福布斯中國科創人物。

智平方不只有郭彥東坐鎮，還擁有最高密度的科學家團隊，其中有5位斯坦福全球前2%科學家。

來自微軟、谷歌、OPPO、小鵬、Momenta，以及清華、北大、中科院、CMU、伯克利的成員也不少。

智平方最不一樣的地方在于，它是行業稀缺的生產力型通用智能機器人玩家。不搞表演、不堆demo，專攻真正能干活、能交付的機器人。

AI公司容易犯一個毛病：模型很牛，但落不了地。

智平方的創始團隊脫胎于手機和汽車產業，對“端側智能”和“規模化量產”的理解幾乎是刻在骨子里的。

他們太清楚什么叫“要在真實產線上扛住壓力”。

他們打造的輪式通用智能機器人AlphaBot（愛寶），由AlphaBrain大模型驅動，2025年開始在工業場景規模化應用。

所以你會看到這樣的數據：

直接把“演示型機器人”和“生產力型機器人”劃清了界限。

作為工業場景之外的第二增量曲線，2025年底，其推出的全球首個模塊化具身智能服務空間“智魔方”，已在北京、深圳、上海、貴州、福建等多地常態化運營。

最后說兩句，智平方之所以敢和以前所有開源都不一樣，是因為它不想只秀肌肉，更想做標準的制定者。

中國具身智能的開源競賽，已經進入頭部玩家的卡位階段。

智平方這一拳，打得很重。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

5月1日起，抽煙，買煙全變天！違規直接重罰，煙民、商家必看

王二哥老搞笑

2026-05-05 21:10:10

剛剛，全體默哀！已致26死61傷！自5月4日19時起，長沙市所有煙花爆竹生產企業，全面停產整頓

浙江之聲

2026-05-05 15:50:01

研究表明：性生活次數不達標，不管男女容易早衰且癌癥風險增高！

黯泉

2026-05-03 20:25:37

墨菲對英國斯諾克前景憂心忡忡：中國現在有二三十個年輕天才球手

楊華評論

2026-05-05 20:44:18

溫州一網紅景區！排隊！排隊！

大永強

2026-05-05 11:18:20

高市早苗在澳大利亞這一跪，跪出了日本最丑陋的一面！

朋筆生輝

2026-05-05 15:10:25

一女游客體驗景區懸崖秋千項目高空墜落，景區公告臨時閉園，當地回應

極目新聞

2026-05-05 18:58:13

直線拉升！套現約455億，李嘉誠又賣了

中國基金報

2026-05-05 17:19:50

游客墜落前喊了兩遍“沒綁緊”，視頻中有人笑，整個過程不到20秒

魔都姐姐雜談

2026-05-05 22:13:52

強詞奪理！“中國不應獲得最先進芯片，美國才應領先”

觀察者網

2026-05-05 18:52:05

為什么不能取消公務員周末休息？這樣老百姓辦事就不用請假了！你怎么看？

碧翰烽

2026-05-05 07:50:33

突發！日本航空拿下宇樹科技

互聯網品牌官

2026-05-05 17:32:49

央視不播世界杯？國際足聯正式回應

果媽聊娛樂

2026-05-05 21:02:05

97年我對女老師說我喜歡她，她紅著臉說：考上重點大學我就嫁給你

千秋文化

2026-05-02 19:36:54

伊朗總統辦公室官員否認總統辭職傳聞

新華社

2026-05-05 23:07:08

女鄰居讓我幫她接電線，黑暗中我們抱到了一起，但她沒有松手

千秋文化

2026-05-04 18:34:54

國際乒聯親宣！64歲蔡振華再破天花板，讓劉國梁和乒壇“沉默”了

以茶帶書

2026-05-05 17:10:10

出任主教練，王楠正式回歸，體育局官宣，級別年薪曝光

乒乓網國球匯

2026-05-06 00:04:29

壓力來了！21死61傷！瀏陽一煙花廠爆炸上熱搜，禁煙花的呼聲再起

火山詩話

2026-05-05 11:09:50

歐洲情報聲稱：普京已在地下掩體度過數周，并禁止工作人員用手機

激情與榮耀并存

2026-05-05 15:34:41

世界軍事格局

聚焦戰事，洞悉世界軍事格局！

201文章數 129關注度

往期回顧全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設備處理器

頭條要聞

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

頭條要聞

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

體育要聞

全世界都等著看他笑話，他帶國米拿下冠軍

娛樂要聞

內娛真情誼！楊紫為謝娜演唱會送花籃

財經要聞

瀏陽煙花往事

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

數碼

家居

健康

軍事航空

教育要聞

告別焦慮！南師附中官方：11位特長生上岸者首度分享：試題難在哪？如何準備？

數碼要聞

亞馬遜押注“諾獎材料”除濕技術可大幅削減建筑能耗

家居要聞

手機 / 數碼

房產 / 家居

參數驟降97%，單卡4090輕松訓練具身大模型

傳蘋果考慮讓英特爾、三星代工設備處理器

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

全世界都等著看他笑話，他帶國米拿下冠軍

內娛真情誼！楊紫為謝娜演唱會送花籃

瀏陽煙花往事

態度原創

告別焦慮！南師附中官方：11位特長生上岸者首度分享：試題難在哪？如何準備？

亞馬遜押注“諾獎材料”除濕技術 可大幅削減建筑能耗

靈動實用 生活藝術場

干細胞治燒燙傷面臨這些“瓶頸”

特朗普威脅伊朗不要向美國船開火

亞馬遜押注“諾獎材料”除濕技術可大幅削減建筑能耗

靈動實用生活藝術場