金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
沒有新的GPU,沒有新的智算卡。
但一家國產(chǎn)GPU廠商,卻在一整場發(fā)布會的時間里,做了一件非常物理的事兒——
發(fā)布首個全棧國產(chǎn)化的具身智能仿真平臺。
先來看效果。
![]()
這只名叫小飛的機器狗,緩緩走上了舞臺。
在走到舞臺中央后,只見屏幕里仿真世界的小飛側(cè)空翻了一下,隨即,物理世界的小飛便做出了一模一樣的動作。
![]()
轉(zhuǎn)個身,再來一次,動作依舊是像粘貼復(fù)制的似的。
![]()
小飛的運動策略是這樣的:
100%是在仿真世界中訓(xùn)練出來,并無損遷移到真實物理世界的。
那么它背后這家國產(chǎn)GPU玩家是誰?這個具身智能仿真平臺又叫什么?
不賣關(guān)子。
正是由摩爾線程新鮮發(fā)布的MT Lambda。
![]()
剛才小飛的一套操作,可以理解為:
這是首次在全國產(chǎn)的硬件平臺上訓(xùn)練出的運控策略,完整部署到全國產(chǎn)的端側(cè)芯片上,第一次實現(xiàn)了Sim-to-Real(仿真到現(xiàn)實)的真機驗證。
至此,摩爾線程也就成為了國內(nèi)唯一打通“大模型訓(xùn)練 — 仿真模擬 — 端側(cè)部署”全鏈路的GPU企業(yè)。
如果說大模型的爆發(fā)是依靠海量互聯(lián)網(wǎng)數(shù)據(jù)“喂”出來的,那么具身智能的爆發(fā),則迫切需要一個極度真實的虛擬世界。
而現(xiàn)在,國產(chǎn)GPU,開始自己動手造世界了。
更像是一套物理AI訓(xùn)練的流水線
若我們把MT Lambda拆開來看,其實,它更像一條圍繞機器人訓(xùn)練展開的流水線。
最上層,是兩個平臺:MT Lambda-Lab和MT Lambda-Sim。
MT Lambda-Lab更偏具身策略開發(fā)與訓(xùn)練,面向強化學習、模仿學習、VLA模型等任務(wù)。
對于開發(fā)者來說,這一層要解決的是“怎么讓智能體學會做事”的問題,即動作策略怎么訓(xùn)練、行為怎么迭代、模型怎么在復(fù)雜任務(wù)中逐步變得更穩(wěn)定等等。
MT Lambda-Sim則更偏高保真物理仿真與渲染,負責場景構(gòu)建、傳感器模擬、數(shù)據(jù)生成和仿真驗證。
它關(guān)心的是另一個問題:機器人看到的世界、碰到的物體、執(zhí)行動作后的反饋,能不能盡可能接近真實世界。
這兩者合在一起,就構(gòu)成一條具身智能開發(fā)的主鏈路:數(shù)據(jù)合成—策略訓(xùn)練—仿真驗證—端側(cè)部署。
![]()
為什么這條鏈路重要?因為現(xiàn)實世界太貴了。
張建中在發(fā)布會上,便提到了訓(xùn)練一個好的智能體的三大痛點:
- 首先缺少大量高質(zhì)量數(shù)據(jù),靠人采集、靠遙操作采集,成本都很高;
- 其次,真機訓(xùn)練風險和代價很高,不可能讓機器人或機器狗每天反復(fù)摔倒、損壞;
- 第三,真實場景往往不可控,也不容易泛化,實驗室里能跑,換個環(huán)境就可能失效。
這幾句話其實點出了具身智能行業(yè)當下最現(xiàn)實的矛盾,即模型進化很快,物理場景積累很慢。
大模型可以吃互聯(lián)網(wǎng)數(shù)據(jù),但機器人吃的是現(xiàn)實世界的數(shù)據(jù)。一個杯子從桌邊滑落,一塊布料被夾爪抓起,一輛車在雨夜里遇到突發(fā)障礙,這些任務(wù)很難用簡單文本描述完整。它們涉及光照、材質(zhì)、摩擦、碰撞、運動軌跡和傳感器反饋。要讓機器人真正學會行動,就必須把這些復(fù)雜場景低成本、大規(guī)模、可復(fù)現(xiàn)地生產(chǎn)出來。
MT Lambda的底層能力,就圍繞三類引擎展開:物理、渲染、AI。
先看物理引擎。
MT Lambda集成了MuJoCo-Warp-MUSA、Newton-MUSA等開源后端,也包括摩爾線程自研的AlphaCore物理引擎。
它們基于MUSA架構(gòu)進行并行求解,支持高精度、可微分的物理計算。在典型仿真負載下,整體仿真吞吐效率可實現(xiàn)約30倍提升。
這意味著什么?
對于機器人來說,物理引擎的價值遠遠不止讓畫面里的東西動起來。機械臂抓起一個柔性物體,指尖接觸時有力的反饋;四足機器人落地時,不同地面材質(zhì)會改變受力和姿態(tài);自動駕駛仿真里,車輛、行人、障礙物之間的運動關(guān)系要符合真實物理規(guī)律。仿真如果不準,訓(xùn)練出來的策略就容易在現(xiàn)實中翻車。
再看渲染引擎。
MT Lambda搭載MT Photon光子引擎,融合光線追蹤與混合渲染能力,同時引入3DGS和自研AI生成式渲染能力,用來提升仿真畫面的真實感、細膩度和渲染效率。
這部分尤其關(guān)鍵。具身智能既要算動作,也要看世界。攝像頭、深度相機、激光雷達、觸覺傳感器等多模態(tài)輸入,都會影響機器人如何判斷環(huán)境。渲染越真實,合成數(shù)據(jù)越接近真實數(shù)據(jù),Sim to Real的鴻溝就越有機會縮小。
現(xiàn)場講到與光輪智能合作時,張建中提到,MTT S5000具備RT Core光線追蹤核心,可以帶來接近3倍的圖形渲染能力提升;在相關(guān)測試中,使用MTT S5000 RT Core硬件光線追蹤加速渲染,可獲得2.7倍性能提升。
![]()
最后是AI引擎。
MT Lambda集成深度適配PyTorch的Torch-MUSA框架,配合muSolver、muFFT等加速庫,支持VLA模型開發(fā)部署,并融合強化學習和模仿學習訓(xùn)練范式。
放到具身智能里,AI引擎對應(yīng)的是機器人大腦的訓(xùn)練:它要把視覺、語言、動作連接起來,把環(huán)境反饋變成下一步?jīng)Q策。
為什么摩爾線程能把“算、仿、渲”裝進一個Lambda?
其實,這也是全功能GPU價值被放大的地方。畢竟,全功能GPU在國內(nèi)本身便是稀缺的。
因為具身智能對芯片的要求,遠不止AI矩陣計算。
機器人訓(xùn)練要跑VLA模型、強化學習和模仿學習,這是AI智算;要模擬碰撞、摩擦、動力學和復(fù)雜接觸,這是科學計算和物理AI;要生成足夠真實的訓(xùn)練畫面和傳感器數(shù)據(jù),這是3D渲染;未來還會涉及大量視頻數(shù)據(jù)的采集、傳輸、生成和回放,這又離不開超高清視頻編解碼。
TPU、NPU或者一些GPGPU路線,往往更聚焦AI計算或通用計算的某一類任務(wù)。它們在特定場景里可以把效率做到很高,但具身智能的問題更雜,既要訓(xùn)練數(shù)字大腦,也要構(gòu)建物理世界,還要把真實畫面和傳感器反饋一起納入訓(xùn)練閉環(huán)。
摩爾線程之所以能把MT Lambda做成物理、渲染、AI三大引擎一體的平臺,底層原因正在于它從成立以來堅持的全功能GPU路線。
按照摩爾線程給出的定義,全功能GPU依托自研MUSA架構(gòu),在單顆芯片中同時支持AI計算、圖形渲染、物理仿真、科學計算和超高清視頻編解碼。
換句話說,MT Lambda并非是在一堆割裂工具之上硬拼出來的套件,而是長在全功能GPU和MUSA統(tǒng)一架構(gòu)上的平臺能力。
對于具身智能來說,這種“算、仿、渲”一體化,恰好對應(yīng)了機器人訓(xùn)練的真實需求,即一邊跑AI模型、一邊算物理碰撞、一邊渲染真實畫面。
過去,開發(fā)者可能需要在不同硬件、不同軟件棧之間切換:AI訓(xùn)練用一套平臺,圖形渲染用另一套平臺,物理仿真又要接第三套工具。數(shù)據(jù)在不同系統(tǒng)之間搬來搬去,效率低,調(diào)試難,誤差也會累積。
MT Lambda想做的,是把這些原本割裂的環(huán)節(jié)盡可能放回同一套底座上。對于開發(fā)者而言,更理想的狀態(tài)是少花時間和底層適配搏斗,把更多精力放在算法、任務(wù)和場景本身。
云端、端側(cè)、生態(tài),也開始閉環(huán)了
如果說MT Lambda解決的是怎么訓(xùn)練和仿真,那么摩爾線程另一條線索,是把云端、端側(cè)和生態(tài)一起補上。
云端,是夸娥(KUAE)智算集群。
在大模型時代,集群首先被理解為訓(xùn)練底座;但到了具身智能時代,它還像一個巨大的機器人訓(xùn)練場。因為仿真數(shù)據(jù)一旦規(guī)模化,需求會迅速膨脹:
一條機械臂軌跡可能要生成多個機位、多種光照、多種材質(zhì)、多種擾動下的畫面;自動駕駛世界模型每周可能生成海量測試里程;人形機器人訓(xùn)練也需要大量并行環(huán)境反復(fù)試錯……
當數(shù)據(jù)進入百萬幀、千萬幀規(guī)模,底層算力的角色也會從加速器變成一條生產(chǎn)線。
摩爾線程的夸娥智算集群,核心加速單元包括MTT S5000。其中,MTT S5000基于第四代MUSA架構(gòu)平湖,單卡AI稠密算力最高1000 TFLOPS,配備80GB顯存、1.6TB/s顯存帶寬,支持FP8到FP64全精度計算,同時也是國內(nèi)極少數(shù)同時支持硬件級光線追蹤和AI訓(xùn)推的國產(chǎn)GPU。
![]()
這類指標放到具身智能語境下,含義會更清楚:FP8、BF16、FP16等能力服務(wù)AI訓(xùn)推,光線追蹤服務(wù)高保真渲染,物理仿真和科學計算能力服務(wù)復(fù)雜動力學求解。也就是說,具身智能需要多種能力在同一套架構(gòu)中協(xié)同起來。
端側(cè),則是長江SoC和E300 AI模組。
云端負責大規(guī)模訓(xùn)練,仿真平臺負責試錯和驗證,但最終,策略還是要跑到機器人本體上。機器人在真實世界行動,很多時候不能完全依賴云端響應(yīng)。它需要本地完成感知、決策和控制,尤其在低延遲、高可靠要求的任務(wù)中,端側(cè)算力是必須補齊的一環(huán)。
基于長江SoC的MTT E300 AI模組提供50 TOPS級本地算力,可直接部署于機器人終端,支持低延遲、高可靠的實時響應(yīng)。換句話說,云端訓(xùn)練出來的經(jīng)驗,需要通過端側(cè)模組變成機器人身上的即時反應(yīng)。
這就形成了一個更完整的閉環(huán):云端做大規(guī)模訓(xùn)練和并行仿真,MT Lambda完成策略開發(fā)、數(shù)據(jù)合成和仿真驗證,E300 AI模組負責把訓(xùn)練結(jié)果帶到機器人終端執(zhí)行。
更重要的是,摩爾線程這套布局已經(jīng)開始進入真實生態(tài)驗證。
比如,與智源的合作中,RoboBrain 2.5基于MTT S5000千卡集群完成端到端訓(xùn)練。相關(guān)驗證結(jié)果顯示,其訓(xùn)練Loss走勢與H100集群結(jié)果高度重合,差異僅0.62%,并在部分任務(wù)表現(xiàn)更優(yōu);集群從64卡擴展至1024卡,實現(xiàn)90%以上線性擴展效率。
這類結(jié)果的意義在于,它驗證了國產(chǎn)算力集群作為具身模型訓(xùn)練底座的可用性。
再比如,與光輪智能的合作,更多指向仿真數(shù)據(jù)量產(chǎn)。雙方依托摩爾線程全功能GPU與夸娥智算集群,結(jié)合光輪智能“求解—測量—生成”三位一體的仿真平臺,聯(lián)合打造高置信度仿真數(shù)據(jù)合成方案。光輪智能的高精度GPU物理求解器已適配MUSA架構(gòu),支持剛體、柔體、流體、顆粒等復(fù)雜物理過程的高精度實時仿真,相關(guān)案例中,核心物理參數(shù)仿真準確度達到99%以上。
與小馬智行的合作,則把場景擴展到自動駕駛。雙方基于MTT S5000和夸娥智算集群,推進世界模型及車端模型訓(xùn)練的適配與驗證。小馬智行世界模型每周可生成超過100億公里測試數(shù)據(jù),并衍生出大量極端場景。對于自動駕駛來說,長尾場景、極端險境和安全驗證,本來就是仿真最能發(fā)揮價值的地方。
此外,摩爾線程還與五一視界、光線云等伙伴推進物理AI仿真體系和具身仿真平臺建設(shè)。無論是4DGS模型訓(xùn)練推理、合成數(shù)據(jù)生成,還是任務(wù)庫、仿真計算、虛實驗證閉環(huán),本質(zhì)上都在回答同一個問題:具身智能很難靠單家公司閉門造車,它需要算力、仿真、算法、場景方一起把生態(tài)跑通。
這也是摩爾線程這次發(fā)布比較值得關(guān)注的地方。
它把故事從“我有一顆芯片”,推進到“我能搭一套基礎(chǔ)設(shè)施”。
從底層MUSA架構(gòu)和全功能GPU往上搭平臺,往下接端側(cè),橫向拉生態(tài)。這個打法未必一夜之間改變產(chǎn)業(yè)格局,但它已經(jīng)把國產(chǎn)GPU的戰(zhàn)場,從大模型訓(xùn)推進一步推向了物理AI基礎(chǔ)設(shè)施。
要做的是國產(chǎn)具身智能基礎(chǔ)設(shè)施
具身智能現(xiàn)在很大的矛盾點在于,模型很快,但場景很慢。
在數(shù)字世界里,大模型可以靠海量文本、圖片、視頻數(shù)據(jù)持續(xù)進化;但在物理世界里,機器人要學會開門、搬箱子、抓柔性物體、穿過復(fù)雜路口,每一個動作背后都是真實成本。
真機采集貴,遙操作慢,設(shè)備損壞風險高,危險場景不能隨便試,長尾情況又難以窮盡。于是,仿真合成數(shù)據(jù)和Sim to Real閉環(huán),就成了具身智能從實驗室走向產(chǎn)業(yè)的關(guān)鍵基礎(chǔ)設(shè)施。
這也是為什么“造世界”會成為具身智能競爭的核心命題。
這里的世界,核心價值不在于游戲意義上的好看,而在于能訓(xùn)練機器人、驗證機器人、糾正機器人行為。它既要足夠真實,能反映光照、材質(zhì)、碰撞、摩擦、傳感器噪聲;也要足夠高效,能大規(guī)模并行生成數(shù)據(jù);還要足夠開放,讓不同模型、不同機器人、不同場景都能接入。
從這個角度看,摩爾線程的優(yōu)勢很難只用某個單點參數(shù)概括,其“全功能GPU+MUSA生態(tài)”的技術(shù)路線,天然更貼近具身智能的復(fù)合需求。
全功能GPU提供AI計算、圖形渲染、物理仿真、科學計算和視頻編解碼等多類能力;MUSA提供統(tǒng)一軟件生態(tài);MT Lambda把物理、渲染、AI三大引擎整合起來;夸娥智算集群負責大規(guī)模訓(xùn)練和仿真;長江SoC與E300 AI模組把能力帶向端側(cè);外部生態(tài)伙伴則補足數(shù)據(jù)、場景、仿真平臺和行業(yè)應(yīng)用。
這條鏈路的價值在于,具身智能本質(zhì)上是一項系統(tǒng)工程。
大模型公司可以先拼數(shù)字大腦,但機器人公司最終要面對的,是大腦如何控制身體、身體如何理解環(huán)境、環(huán)境如何被低成本復(fù)現(xiàn)。誰能用更低成本、更高效率,給機器人造出足夠真實、足夠可控、足夠大規(guī)模的訓(xùn)練世界,誰就更有機會把具身智能從Demo帶到真實生產(chǎn)線、道路、家庭和城市空間。
當然,國產(chǎn)具身智能基礎(chǔ)設(shè)施的建設(shè)不會一蹴而就。
無論是仿真真實性、Sim to Real遷移效果、開發(fā)者生態(tài)成熟度,還是產(chǎn)業(yè)客戶的大規(guī)模采用,都需要持續(xù)驗證。摩爾線程這套方案能走多遠,也要看后續(xù)更多真實項目、更多開發(fā)者和更多機器人本體的反饋。
但至少從這次發(fā)布會看,國產(chǎn)GPU正在進入一個新階段。
它開始跳出能不能替代某塊卡的被動敘事,主動定義新的算力場景:發(fā)布會上升級的“小麥”是數(shù)字智能體;翻跟頭的機器狗“小飛”是物理智能體。當AI從屏幕走向現(xiàn)實,當智能體從會說話走向會行動,底層算力就必須同時理解模型、圖形和物理。
張建中在活動中有提到,希望摩爾線程的產(chǎn)品從夸娥到長江,能夠賦能所有智能體。
放在具身智能這條線上,這句話可以翻譯得更具體一點:云端有大訓(xùn)練場,仿真里有虛擬世界,端側(cè)有小腦執(zhí)行,生態(tài)里有真實場景。
大模型競爭拼的是誰能訓(xùn)練出更強的數(shù)字大腦,具身智能競爭還要拼另一件事:誰能先造出一個足夠真實的訓(xùn)練世界。
這一次,國產(chǎn)GPU已經(jīng)開始下場造世界了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.