4月17日,群核科技登陸港股,成為“杭州六小龍”首家完成IPO的企業。在我們硅谷101的專訪中,創始人黃曉煌說,將押注空間智能的未來。
![]()
2026年,AI的新風向似乎已經越來越清晰了,那就是——世界模型。而在當前世界模型的所有技術分支中,很多的研究者都把空間智能(Spatial Intelligence)視為了那個真正的“關鍵拼圖”。
什么是空間智能?它跟世界模型、具身智能之間究竟是什么樣的關系?它的應用前景在哪里,現在還存在著什么樣的問題?這篇文章,我們就和黃曉煌一起來聊聊這個話題。
群核科技的定位是做空間智能服務的提供商,他們目前已經建立起從“空間編輯工具”到“空間數據”再到“空間大模型”的一套完整的業務。所以這一次,除了關于空間智能的基礎研究之外,黃曉煌也從空間智能的商業應用,以及他從英偉達辭職之后的回國創業歷程和幾次帶領公司轉型的經歷,為我們提供了更多的技術和行業視角。
(本文為視頻改寫,歡迎大家收看以下視頻)
01
概念解析
空間智能、世界模型與具身智能
跟世界模型一樣,空間智能這個概念也是起源于認知科學。
1983年,教育心理學家霍華德·加德納在著作《心智框架》中提出了多元智能理論,將空間智能列為人類七種核心智能之一。在他的理論框架里,空間智能并非簡單的“方向感”,而是人類理解物理世界、建立空間認知、進行抽象視覺思維的底層能力。
![]()
而在計算機科學領域,空間智能的技術起點則是源于計算機視覺對三維空間的感知與理解研究。2009年,ImageNet的出現為AI視覺識別奠定了基礎,但這一階段的能力本質上仍停留在二維層面,機器并不真正理解物體所處的空間關系。
隨后研究進入了“從二維到三維”的階段。以SLAM(Simultaneous Localization and Mapping,同步定位與地圖構建)為代表的一系列技術,讓機器在移動過程中同時完成定位與建圖,逐漸具備對空間結構的理解能力。AI不僅知道“看到了什么”,還開始知道“它在哪里”,從而可以構建出一個可被導航和操作的三維世界。
![]()
而最近幾年,隨著NeRF等3D表示方法,以及生成式模型和世界模型的發展,研究重點開始從“重建世界”,走向“理解和預測世界”。研究者不僅希望AI能夠還原空間,還想讓AI能像人一樣去理解物體相對位置、重建空間結構,預測甚至自主規劃路徑。
也正是在這一階段,來自計算機視覺、機器人和生成模型的多條技術路徑開始匯合,形成了今天我們所說的“空間智能”。從模塊上來說,它主要包含了空間的感知、表征、推理、預測和行動五大部分。
![]()
黃曉煌 群核科技聯合創始人兼董事長 人類的智能有好幾方面,大語言模型代表了語言,還有我們的視覺、觸覺以及我們跟物理世界的交互,其中很重要一點就是空間智能。 你在這個空間里你看一圈,你大腦會對這個空間有個快速的概念,你可以理解成是一個空間重建的過程。然后你就可以判斷某個物體距離你多遠、你能不能穿得過、這個空間的每一塊物體的相對位置、這是什么東西,在你腦海里會快速的形成一個印象,你接下來不管是做各種決策,比如說你要往哪里走,以及你要不要去喝水、水杯在哪里?你看一眼,腦海里馬上就能夠反應出來,所以這就是我們定義的空間智能。
不過,這個概念聽起來好像跟世界模型、具身智能都有很多的聯系和相似之處,它們三者之間的關系究竟是什么樣的呢?在采訪中,黃曉煌也給我們舉了一個比較通俗易懂的例子。
黃曉煌 群核科技聯合創始人兼董事長 拿開門這個事情舉例:家里小孩他第一次開門不知道怎么開,他得去知道這門把手是往上移還是往下移?要用多大力氣?還有肢體怎么去支配,怎么去開這個門,所以需要訓練,光這個過程他就要有好多次的練習,才能夠學會開門這個動作。 空間智能是你在這個環境里看一眼,知道這里是門、一定有一個門把手,要開門的話,就要去打開這個門把手。 具身智能用的就是算法,計算運行到門前面一定的距離,然后把門把手打開、把門推開、再進去。 世界模型做的是,在這空間里走的運動時,有人或者有其他物體在運動,世界模型要做預測,不要撞上它,然后避開它再去開這個門。
總結一下,世界模型就像是“大腦”,它能在“腦中”構建一個關于世界運行的“內部地圖”,去理解事件之間的因果關系,去預測接下來會發生什么,甚至在沒有真實發生的情況下,先在內部去“跑一遍”。
之后,空間智能就負責把世界模型的抽象理解落到三維物理空間里。讓AI知道物體在哪里、如何分布、彼此之間如何作用。它連接了視覺感知、物理規律和動作決策,是AI從“認知”走向“行動”的關鍵一環。
![]()
當這兩種能力進一步落到現實世界中,就形成了具身智能。當AI真正擁有“身體”,比如機器人、自動駕駛汽車,它需要把感知、推理、規劃、控制整合成一個完整的閉環。這時AI面對的不再是數據,而是一個充滿不確定性的真實世界。在這個過程中,世界模型負責訓練階段的內部模擬與決策推理,空間智能則在現實部署時承擔感知與場景理解。
所以說,這三者之間,其實是一條非常清晰的路徑:從在“腦海中”理解和預測世界(世界模型),到在空間中對世界進行三維建模(空間智能),再到讓AI真正進入并作用于這個世界(具身智能)。
02
技術路線拆解
空間生成 VS 潛空間預測
要真正實現具身智能,是無法跳過空間智能的。現在關于空間智能,業界主要有“空間生成”和“潛空間預測”兩種路線。
首先,很多研究者認為,要實現空間智能,還是得先去“生成空間”。AI必須先擁有一個足夠真實、可交互的3D世界,才能在其中反復試錯、學習物理規律,并最終遷移到現實。這種路線最具代表性的就是李飛飛的World Labs,也包括群核科技、Meshy AI等等。
但空間究竟如何被生成呢?從生成方式上來看,目前主要有重建式、推斷式、生成式三種路徑。
![]()
重建式就是要通過激光掃描儀、深度相機、無人機攝影測量等從現實世界采集數據,再還原出三維結構。它的上限是輸入數據的質量,現實采集得越完整,重建結果就越準確。
推斷式是指當輸入信息不足以完整還原場景時,比如只有一張照片,或者只有稀疏的幾個視角,AI需要根據已有線索,去推理補全那些“看不見”的部分。隨著大模型能力的提升這種路線獲得了更大空間,是當前最活躍的方向之一。
生成式則是比推斷式更進一步,它通過借助擴散模型、大型重建模型(LRM)等技術,讓AI直接從海量數據中學習三維世界的規律,用戶能夠通過輸入文字、圖片、草圖等就可以生成3D資產和場景。
但在實際的發展中,越來越多的前沿嘗試正在把“重建、推斷、生成”融合在一起使用。
以World Labs為例,雖然外界常把它歸類為生成式路線,但它的目標并不只是生成3D內容,而是構建具備空間理解能力的世界模型。在這個過程中,它既借鑒重建式從真實數據中學習結構,也依賴推斷能力補全不可見部分,再結合生成模型去構建新的空間。因此模型不僅要具備生成能力,還要同時處理深度估計、視角一致性以及幾何約束等問題,從而讓生成結果不僅“看起來像”,而且在空間結構上是成立的。
但無論是哪種生成的方式,空間都需要最終被表示出來。
![]()
傳統的路徑,是用點云、Mesh這樣的方式來描述三維世界。點云是離散的點集,Mesh則在此基礎上加入了面與邊的連接,兩者雖然形式不同,但核心思路是一致的,那就是通過在三維空間里打滿坐標,把世界固定和搭建出來。這條路線直觀、成熟,Mesh的編輯和修改尤其方便,因此在游戲、建模、數字孿生等領域被廣泛使用。但現實世界的細節近乎無限,高精度往往意味著數據量的指數級增長,從采集、存儲到實時渲染都面臨巨大壓力。
另一條路徑,是近年來興起的神經表示方法。以NeRF為代表,它不再把世界顯式地“搭建”出來,而是訓練一個針對特定場景的神經網絡,讓它隱式地記住這個場景的幾何與外觀信息。訓練完成后,只要給定一個視角,它就能直接渲染出對應的畫面。但NeRF的代價是速度慢,且每個場景都需要單獨訓練,不具備跨場景的泛化能力。
![]()
后來出現的高斯潑濺(3D Gaussian Splatting)則走了一條折中的路,用顯式的高斯橢球體來表示場景,同時結合神經渲染的思路,在保留畫面質量的前提下大幅提升了速度,讓這一方向開始變得更加實用。不過,這兩種方法目前對動態場景和大規模環境的處理能力仍在持續探索之中。
黃曉煌告訴我們,現在在實際的落地應用中,很多時候也是會把兩種表征方式結合起來使用。
黃曉煌 群核科技聯合創始人兼董事長 首先點云我們試過,但點云實際上能夠表征的信息太少了,NeRF性能太慢了。至于Mesh,我們最早用過,但后面發現Mesh用來表示物理世界還是欠缺了太多的信息,因為Mesh是我們三維世界的一個抽象,它并不是真實的。而后來出現的3D高斯,雖然能夠完美的表示我們物理世界的視覺效果,但是它在交互方面是有缺陷的。所以我們現在是用Mesh加3D高斯混合的方式來表達我們的物理世界。
除了空間生成之外,也有一些研究者認為,很多需要空間智能的場景其實并不一定需要去做精致的3D重建,直接在潛空間里壓縮感知、輸出動作就夠了。這種思路在學界通常被稱為潛空間預測模型(Latent Predictive Models)。
![]()
這些研究者們認為,空間本質上是一組復雜的數學關系,AI并不需要還原視覺上的每一個像素,而應將復雜的環境信息壓縮進高維的潛空間中。在這個空間里,AI學習的,是環境動態的統計規律——物體之間的距離、方位與因果聯系。它有點像人類的“直覺”感知,即便沒有精致的三維模型,依然能做出準確判斷,從而實現更低延遲、更強泛化性的實時交互。這一路線代表包括Yann LeCun的JEPA架構、以及DeepMind的Dreamer系列等等。
但由于它不生成人類可見的圖像或三維結構,相較于顯式重建方法,它缺乏幾何層面的可解釋性,比如預測出錯時,很難從空間角度定位問題所在,也難以進行人工干預和調試。此外,在處理跨越長時空、需要精細空間記憶的任務時,潛空間表示也容易丟失關鍵細節。
03
中美商業路徑分野
“物理世界” VS “虛擬世界”
所以從商業落地的層面來說,空間生成路線成為了當下更為穩健的選擇。它能夠讓空間智能在自動化設計、高精度機器人仿真、智能家居、游戲、電商等領域,都能夠以最直觀的方式完成從虛擬到現實的商業閉環。
比如World Labs最近的商業化速度非常快,通過其核心模型Marble和全新的World API,已經跟波士頓動力、Figure等頂尖機器人廠商達成合作,為它們提供海量的具備物理一致性的訓練環境,也通過跟Autodesk合作將空間生成能力植入建筑與工業設計工作流,并且還將World API深度接入了NVIDIA的Isaac Sim機器人仿真平臺,成為具身智能產業鏈中不可或缺的數據工廠。此外在影視、游戲等領域也在不斷探索落地。
![]()
圖片來源:NVIDIA
從商業化的路線上來說,World Labs更多的是“學術+前沿”驅動,更偏向于從基礎模型建立空間智的基座,最終去打造一個通用的3D世界。而目前很多企業也瞄準了一些更為垂直的應用場景去做切入。比如黃曉煌告訴我們,群核在做空間智能戰略的時候,更多的就是以“工程+產業”驅動,瞄準不同的應用場景去做產品創新。
黃曉煌 群核科技聯合創始人兼董事長 我們跟World Labs一個很大區別是,我們所有訓練的模型以及工具都緊貼著物理世界在做,我們要求出來的場景內容都是跟物理世界盡可能地接近,甚至我們希望它只做真實的照片或者視頻去生成內容。游戲那種漫畫效果之類的,我們不打算做,雖然它可能也能生成,但是肯定不是我們關注的點。李飛飛她們的模型就啥都能做,特別在游戲行業的效果是特別好的,但那一塊我們就完全不去介入。
我們開源了一個叫SpatialGen的算法,它跟World Labs是比較像的。但我們創業初期,實際上是想用云端的GPU集群去顛覆,類似于Autodesk這類產品的。但是現在因為進入AI時代后,好像感覺這類傳統的軟件也不升級,我們也不可能照它們的操作模式去開發產品。所以我們還是希望用全新的理念來做這些東西,我們現在也在探索類似于vibe design(氛圍設計)的方式來取代原來類似于Autodesk的操作方式。現在各種影視制作、電商制作、建筑設計等行業也都在探索。
![]()
陳茜 硅谷101聯合創始人 你覺得中國跟美國在空間智能上面的發展有什么樣的不一樣的路線區別嗎?
黃曉煌 群核科技聯合創始人兼董事長 我覺得美國更貼近于虛擬世界,中國更貼近于物理世界。可能中國的制造力比較強,所以中國的機器人本體公司多,比如機器人采集物理信息的設備公司多,所以我們戰略也是圍繞著貼近物理世界在做。美國比較強的是大模型公司,所以做了很多虛擬世界的、跟真實世界比較不一樣的東西,這類公司和純大模型的公司會比較多一些。
因為群核科技是以空間設計軟件酷家樂起家,所以他們的特點和相對優勢就在于他們積累了海量的CAD/BIM數據,也就是那些真實的戶型和房屋結構信息等,這些數據也讓他們能夠訓練出更加貼近真實和“物理正確”的空間模型。
![]()
比如目前群核已經開放了兩款空間大模型,包括用于空間理解的空間語言模型SpatialLM和空間生成模型SpatialGen。其中SpatialLM作為市面少有的空間語言模型,補充了大語言模型對3維空間的理解空白,2025年3月推出便登上了全球AI開源社區HuggingFace模型榜單前三。
而基于這套數據與技術底座,他們在酷家樂的智能化改造基礎上先后推出了服務于不同行業的空間智能產品。比如面向具身智能與數字孿生的SpatialVerse空間智能訓練平臺,能夠提供高保真空間仿真與合成數據,用來支持機器人訓練、AR/VR內容與工業數字孿生;面向視頻創作的LuxReal,依托群核自研的空間生成模型與物理真實渲染,可以產出時空一致的AI視頻與數字內容,服務于影視短劇、廣告、電商等場景;面向所有人的Aholo開放平臺,具有開放空間重建、生成、編輯、理解四大能力,用以降低行業接入3D空間智能的門檻。整體上形成了從設計工具到產業底座、再到開放生態的完整空間智能產品矩陣。
![]()
如果去看群核科技的發展歷程,就會發現他們似乎很會做“預判”。
2012年,當英偉達GPU還只是“小眾硬件”的時候,他們就開始基于GPU來創業,接著踩中了房地產的上行周期,迅速占領了空間渲染和設計領域的市場,幾年內就將營收做到數億規模。
2018年左右,當時空間智能幾乎處于無人問津狀態的時候,他們便基于空間數據開始轉向研究空間智能,接著快速推出了一系列服務于世界模型、具身智能的空間智能模型、工具和平臺。
黃曉煌告訴我們,這背后是因為他們一直都是拿著“錘子”在找“釘子”。而在采訪中,他也跟我們聊了群核是如何一步步找到商業落地切入點并且轉向空間智能的經歷。
![]()
黃曉煌博士畢業后就在英偉達從事CUDA的研究,那時候的GPU只能用來做一些基礎的數學計算,很少有人會把它和“未來的計算平臺”聯系在一起。但他當時就覺察到,相比CPU,GPU這種Manycore多核架構才是下一代計算的方向,這也是后來群核科技名字的由來。
不過在當時,英偉達的經歷并沒有給他的創業加分,反而還一度成為了他融資的阻礙。而群核是如何從第一筆融資就幾乎失敗,到“杭州六小龍”的聲名鵲起,再到如今成為六小龍中第一家沖擊上市的公司呢?以下就是我和黃曉煌的采訪片段。
04
對話黃曉煌
幾經周期起伏的AI天平
陳茜:你當時在英偉達的時候看到了什么樣的事情?你回國的時候想要去押注一個什么樣的賽道呢?
黃曉煌:我當時在英偉達工作的時候,正好是英偉達最艱難的時候,當時游戲產業差不多在萎縮,所以臺式機的顯卡肯定也在萎縮。但是老黃提了一個理念,摩爾定律在CPU上已經走到了盡頭,GPU因為它的Manycore的架構能夠讓算力持續地、更快地提升,所以以后它的速度和CPU比會越來越快。順便一提,Manycore也是我們公司的名字。
我不知道別人相信不相信,我當時是非常堅信這一點的,因為我本來讀PhD的時候就在研究這個。但是當時沒多少人用,我費盡心思去推銷給各個科研機構讓他們去用CUDA,但是很費勁。后面我想那還不如我自己用,因為我有時候都得把demo寫出來,證明給他們看效果很好。
后面我想太費勁了,還不如自己創業,因為我覺得這東西的底層邏輯、第一性原理是絕對靠譜的,所以我當時就自己實現了一個物理正確的渲染。因為當時非常慢,要大概一個小時出一張圖,然后我就用GPU集群給它加速到10秒鐘。當demo做出來之后,我就拿著這個技術2011年底回國,2012年就正式開做了。
![]()
陳茜:你那時候為什么不在美國創業?要回國創業。
黃曉煌:我的原型和第一個產品就在美國做的,也在美國融過資。但是當時美國正好遇到金融危機,再加上我們發現這個技術第一波最適合用的場景可能是建筑和裝修設計,當時國內如日中天。
陳茜:所以雖然你走的是非常技術的路線,但是你把落地從一開始就想好了的。
黃曉煌:對,因為我們的創業其實不是那么的一帆風順的,第一筆融資非常困難。我記得有一個很著名的基金跟我說,我跟我合伙人工作履歷不太好。
陳茜:你跟你的合伙人工作履歷不太好?
黃曉煌:你回到10多年前看,確實工作履歷不太好。
陳茜:是因為他們不認可英偉達,覺得英偉達不是一個很了不起的公司?
![]()
黃曉煌:(覺得英偉達)馬上要倒閉了。當然我們畢業學校不錯,當時最流行的實際上不是技術公司,是O2O公司。你做任何東西之前,都需要在行業里混過、有行業經驗的人。因為我們第一筆錢融的很困難。所以從第一天開始,我們做的任何產品都希望它能夠想好落地應用,以及把行業的應用場景想清楚之后再去做。
因為我2012年一年基本沒融到資,后面就把整個團隊打造成落地跟技術兩手抓,而不只是抓技術。所以我其實挺羨慕這幾年硅谷這些公司的,可以融了資以科研為主。
陳茜:你最開始給投資人講的一個愿景或者故事是什么樣子的?因為那個時候你跟他們講空間智能,他們可能還get不到。
黃曉煌:我們當時最開始還不是講空間智能,我們講的是把GPU做到云端去,做快速的、物理正確的渲染,但一分錢都融不到。后來有投資人朋友教我,反正技術你想做啥還是做啥,但你包裝成家裝O2O的故事,然后很快就融到錢了。
陳茜:所以你們第一輪融了多少?
黃曉煌:第一輪最早是我原來有個浙大校友王淮給了50萬人民幣,然后后面IDG投了200萬美金。再之后我們第一個產品酷家樂出來,很快就爆了。原來你做一套圖要花一星期,我們通過GPU集群實現了早期的這種自動設計,把整個過程盡可能的自動化,基本上幾個小時就可以做完。一開始講的故事是先吸引業主自己來設計,然后賣貨,后面留下來的其實都是設計師用戶。
![]()
圖片來源:酷家樂
陳茜:所以最開始就是一個非常ToC的商業。
黃曉煌:最早是做ToC,一開始用戶漲得很快,很驚喜,之后內部就開始很糾結,到底是你要做一個技術公司,還是去賣家具。糾結了很長時間,內部有兩波意見,有些做運營的同事確實想直接去賣貨。但因為我們三個聯合創始人都做技術的,覺得這行非常不擅長,后面還是專注在提供技術為主,雖然收費收不了太多,但是反正我們覺得這是我們能夠把握住的機會。
陳茜:后來你們第二波是什么時候?那個時候你們開始盈利了嗎?
黃曉煌:第二波是2018年。我們其實2017年現金流就正的,是躺著賺錢的感覺。到2018年,我們就在想下一步的拓展方向,當時AI比較火,我們就開始投入做一些空間智能的前身。
陳茜:但是那個時候的AI跟現在我們說的AI還不是一回事吧?
黃曉煌:還不是一回事,那時候是小模型,只能做視覺識別,還談不上智能。我們當時就開始用這些數據來做模型訓練,但一開始訓練了半天也不知道干什么用,就只能識別出來墻、地板等等。
我們后面還開源了一套數據集叫InteriorNet,有點模仿李飛飛的ImageNet,后來也開源了出來,找了很多教授來實驗、探索,之后還確實發了不少CVPR這類頂級的論文,把空間智能的前身研究出來了。可以快速地通過一系列的圖像把空間結構化抽取出來,有結構化信息之后,你就能理解它。所以那時候我們就開始往就空間智能的方向去轉,當然中間有一些插曲,比如轉了一半發現2020年房地產又大爆發了。
![]()
陳茜:當時怎么辦呢?要回去做嗎?還是繼續往前走?
黃曉煌:我當時往AI這方面轉了大概一兩年,但收入起來沒那么快,總的收入還不如房地產行業一單。因為我印象中很深刻是,當時有客戶過來,啥也不說,先往你賬上打了1000萬,然后咱們再來談合作。我說沒談成,我可以退給你的。他說沒談成,我不要了。我當時基本上眼珠都快掉出來了。
陳茜:哇塞,什么樣的金主爸爸這么豪橫?
黃曉煌:那個年代的房地產公司。回來之后我們CFO把我噴了一頓,說你這公司戰略不能看今日頭條來設計,這明顯如日中天的行業,你苦哈哈地搞什么AI,你干了兩三年還不如人家見面禮呢。
陳茜:所以你們當時AI的一些客戶是誰?他們主要是用你們的服務做啥呢?
黃曉煌:當時找的都是硅谷的這些大廠,他們也是用來科研,當時還落不了地,應該都是大模型的前身,在做各種嘗試,給他們的實驗室用。像transformer等等各種的來實驗,看看能訓練出啥。2020年、2021年,原來老的賽道回光返照了一下,2022年就開始大調整。后面大模型出來了之后,我們2023年就把整個戰略的重心調整到空間智能。因為它也能夠服務我們老的業務,也能夠讓我們產品線更豐富。
陳茜:所以AI這條線你其實一直沒有放,就一直抓著。
黃曉煌:它底層的引擎是借著AI這一波在升級,所以這肯定是要做的,只不過你投入多少資源做,比如說要采購多少GPU?花多少錢訓練模型?預算怎么分配?
陳茜:怎么分配呢?你們在內部有一個非常明晰的分配邏輯嗎?
黃曉煌:就吵架唄,我們幾個創始人,還有一些高管、CFO之類的,主要看你對未來的預期。
陳茜:怎么樣才算吵贏了呢?
黃曉煌:最終判斷還是在我這邊,但是我不是那種很會吵架的人。我會比較開放,聽大家的意見。確實有的時候,在那個時代里面你其實挺難判斷的。你是選擇多投入一些在基礎研究上,還是多投入一些在業務開發上?這是個很難的問題,沒有絕對的對錯。有的時候客戶需求追得很緊,那你就得招很多人去做他的行業很細的需求,這時候你的資源就會在基礎研究上減少。基礎研究你覺得這個愿景很牛,但是什么時候能做出來還真不知道,做出來之后能不能變現也不知道,所以對于業務口子或者財務口子就覺得壓力很大,你不能創業不考慮大家死活。所以得在兩者之間找一個平衡。
陳茜:不光是創業公司,在大企業里面也是大家都是要去搶卡、搶錢、搶人才、搶資源。你有沒有一個自己的哲學,怎么去平衡這兩邊呢?
黃曉煌:我實際上是非常站在這個搶人才、搶卡這一邊,積極地創新、探索。
陳茜:所以你還是非常工程師、非常科研思維導向的這樣的一個模式。
黃曉煌:是的。當然我也知道,按照我這思路做下去,可能錢沒賺到就掛了,所以我們公司有一波主管是管業務的,他們就會以客戶導向。但是客戶肯定只關心眼前的需求,純客戶導向也就不會去想得出變革式的東西。
我們定位還是一家商業化公司,也不是一個科研機構。我們在做模型的同時,雖然目標設得比較遠大,希望空間智能最終還是能夠跟人類一樣去理解我們的空間,去做推理,但是這個過程是很漫長的。你看自動駕駛做了十多年才完成了一個事情,所以在這段過程中,我們也不太希望像自動駕駛公司一樣長期靠資本養著,我們還是希望能夠養活自己,所以我們很快就轉向空間智能,去年也盈利了。
我們會把它過程的能力想辦法用在各行各業,除了我們老的行業,我們希望能夠用空間智能技術去生成場景。比如說我這邊拍張照片,把整個場景生成出來,我就可以做重新地改造跟設計。雖然它不是直接用在機器人里面,但是底層的算法是一模一樣的,我們也把同樣的方式用在類似于短劇的制作、電商的制作。
我們內部天天也在頭腦風暴,以我們目前的能力,能應用在哪些地方?而不是只有達到100分了,才去商業化落地。最終肯定是瞄準了機器人普及之后,我們給機器人去使用,它在我們環境里面工作,它得快速地把空間重建出來,在里面行動。但在這個過程中沒達到這程度的時候,我們拿可以拿它干什么?我們花了很多心思在研究。所以我覺得公司經營久了,就得在兩者之間取一個平衡。
陳茜:你剛剛說到2022年你們開始大調整,發生了什么?
黃曉煌:2022年我覺得是讓人非常難忘的一年,包括國家政策調整,年底大模型出來,像印象很深的ChatGPT、Midjourney,每天都是信息爆炸的感覺。
![]()
圖片來源:OpenAI
陳茜:ChatGPT剛剛上線那段時間對你來說震撼嗎?
黃曉煌:對我來說還是非常震撼的,相關的技術我2020年就有在看了,但是當時看到這論文就瞄一眼,也沒認真看,覺得這好像沒什么。但是出來之后,這種類似人類的智慧,能夠通過更多的數據、更長時間、更大規模的訓練而產生,這還是有點顛覆我當時認知的。那段時間,因為疫情也還沒結束,所以我天天也在看論文,自己在做實驗,感覺我們原來老的那一套發展路徑得徹底轉方向了。原來的理念是做一個簡單的工具,提高人的效率,但現在就變成直接把人給替代掉了。所以肯定整個工具鏈的做法、體系的做法已經完全不一樣了。當然也很焦慮,它會變成什么樣子,你完全不知道。所以當時就一直關在家里面,一邊看文章,一邊自己寫代碼、做實驗,也在想未來怎么辦。那段時間我覺得一是有點恐懼、有點焦慮,二是也很興奮。
陳茜:所以是大語言模型、ChatGPT出來對你的震撼更大,還是diffusion(擴散模型)那一波對你出來的影響更大?
黃曉煌:我覺得對我影響更大的是,我們過去信仰的都是通過更聰明的人寫算法、做實驗,這算法寫得很精妙,就非常聰明、能力很強。但不管是ChatGPT還是Midjourney,給我的感受都是,數據量越多,它就越智能、越聰明,這完全改變了我原來對于算法的認知,所以對我的沖擊是非常大的。
陳茜:那之后你在公司里邊做了什么樣的調整呢?
黃曉煌:公司里基本上2023年開始,我們方向就調整成這種智能的方式,現在叫空間智能。原來很多靠人工在做的、在開發的東西,我們都希望通過模型跟算法來實現。原來的產品形態從輔助性的工具,我們也逐步希望它能夠代替人來完成任務。
陳茜:那就是產品方向的調整,你們整個的路線也會發生變化,以及服務的客戶其實也會發生變化,對嗎?
黃曉煌:對,這里面一個巨大的變化。過去2022年之前,我們認為公司的增長核心是產品。2022年之后,2023年左右,我們突然意識到公司的增長核心是算法、是模型,就是它躲在產品下面的底層能力,實際上才是公司的真正的壁壘跟驅動力。所以資源就開始要快速地調整,我們在這種模型訓練的實驗室就加了很多人。
陳茜:OpenClaw給你帶來什么樣的啟示嗎?
黃曉煌:我一直在思考,我們內部也在推出一些針對OpenClaw的skill。但我主觀的感覺是以后用工具的人、用軟件的人會變少,他會硬件接著模型直接用。所以你的收費模式肯定不能是按SaaS的收費模式,而是按token、按量付費的收費模式。還有就是硬件很重要,因為你會發現這一波隨著AI自動能夠寫代碼,我們操作硬件會越來越簡單。
未來是一個多硬件終端的世界,你的眼鏡、你的機械臂、你的各種攝像頭等等的都擁有智能,都能夠干一些活。可能未來你報警只要對著監控攝像頭打一個手勢,就可以報警了,你不需要鍵盤,不需要電話。所以所有的物理設備都是輸入,就不再像過去只有手機跟電腦,那這時候你得把能連接的物理硬件全部銜接了。
因為我們也經歷過激烈的競爭,我們當時做家居產品的時候,做工業4.0,我們連接了所有的硬件設備。當遇到激烈競爭以及大模型的沖擊之后,我們發現:如何連接所有的硬件設備,如何去準確地操作硬件設備,這一塊是大模型幾乎涉及不到的。它沒有辦法離開物理世界,自己在一個電腦上跑,這波AI我覺得反而是受益方。但是你如果能夠鎖定在一個電腦里自我完成閉環的東西,我覺得就很危險。所以我們戰略也在調整,我們把連接所有的物理設備,連接物理世界作為我們核心戰略,然后把工具這塊就弱化了。
陳茜:整個3D生成還有渲染還是需要非常多算力去支持的,你覺得在卡或者是整個的數據中心之上,有沒有什么樣的技術手段去優化整個的算力需求量?
黃曉煌:目前空間智能或者說具身智能這個板塊,它所用到的算力實際上遠不如大語言模型。因為它的數據量并沒有那么豐富,困擾大家的還處于數據這個階段。目前卡是夠的,是數據不夠。未來當你解決了數據量的問題之后,那卡肯定是不夠的。當然對于任何公司來說,比如我們,卡永遠都不夠。我來出差前還在協調同事訓練排隊的問題,是你先訓練還是我先訓練?為什么你先?
![]()
陳茜:公司內部會搶卡?
黃曉煌:那必然的,我也不可能無限給卡。比如說你卡多的話,你可以同時做好幾個實驗,那其他人就有意見了。你做了四五個實驗,我還要等你訓練完我才能訓練,那就讓你停掉一個,就會各種吵來吵去的。所以我覺得卡是永遠不夠的,這就看你要怎么算這個經濟賬。比如說競爭很激烈,你不比別人快一點,你就要死了。那就沒有什么經濟賬可言,你能買到就拼命買卡。但是如果你算好ROI,你是要做一個健康的商業模型,那你訓練成本占營收多少?你得有一定的尺度。
陳茜:你的尺度是什么樣子的?你怎么去算這個事情?因為你們上市了之后也要跟股東交代,你也不可能把所有的現金全都拿去買卡跟做研發,你自己是怎么去看這個事情?
黃曉煌:我目前希望買卡或者租卡的算力投入控制在10%左右。如果一定要用的就買,波動的就租,目前我們這么定的。但這也看競爭情況,比如說一個競爭對手跟你死磕,他的卡很多,你就比他慢,我不投入會死的,那我肯定是大投入了。
陳茜:你們現在覺得最強大的競爭對手是誰?
黃曉煌:我覺得空間智能這塊我們還沒有,大家還都在探索落地案例的情況下,還沒到你死我活的競爭。因為我們是經歷過各種你死我活的競爭的,我覺得那種階段成長反而是快的。像現在這種階段你就沒有辦法,沒有那種可以放棄一切all-in在一個點上的感覺。天天在精打細算,算力能省點錢,代碼優化一下、速度快一些等等。
陳茜:你覺得在這個產業里面,你們的護城河最重要的能力是什么?
黃曉煌:早期我們覺得護城河是工具、數據跟算法模型是循環發展的,但實際上最近一年隨著Claude Code,還有最近OpenClaw火了之后,我們內部也在升級。我覺得光有工具、數據、模型還不夠,得連接硬件,不是說你自己要有硬件,是你得連接硬件,得緊貼著物理世界。硬件連接的模型、算法、工具可能不一定是壁壘了,但是你的模型、硬件、數據肯定是還是壁壘,所以這個是時代在發生的一個巨大的變化。我覺得貼著物理世界能活,純虛擬世界,我感覺就幾個巨頭在卷來卷去。
05
越核心瓶頸
缺乏高精度的真實世界數據
就像黃曉煌所提到,雖然現在無論是World Labs,還是群核科技,都在積極地去探索空間智能的應用,但從整個行業發展的角度來說,空間智能仍然還停留在比較早期的階段。制約它發展的原因有很多,但如果要找一個最直觀、最現實的瓶頸,那就是數據。
和語言模型只需要“文字”不同,空間智能對數據的要求是多模態、多維度的。最基礎的一層是視覺數據,比如來自攝像頭的圖像或視頻。但這還遠遠不夠,模型還需要深度信息,也就是場景中每一個點距離傳感器有多遠;需要語義信息,即畫面里每一塊區域對應的是什么物體。在很多應用場景下還需要點云數據,用激光雷達掃描出的、由數百萬個三維坐標點構成的空間結構。
![]()
更重要的是,這些數據必須是對齊的。單獨一張圖片,或者單獨一幀點云,對空間智能的意義都很有限。模型需要的是圖像、深度、語義標注在時間和空間上精確同步的數據。也就是說同一個場景,從多個角度、在不同時刻、用不同傳感器同時記錄下來,再經過精確的標定和對齊,才能成為真正可用的訓練素材。
這還只是靜態場景的要求。如果涉及機器人操作或動態環境理解,數據里還需要包含物體的運動軌跡、交互過程、乃至力反饋信息。所以說,空間智能所需要的數據是對真實世界的全方位、高精度“切片”。
在采訪中黃曉煌就談到,這樣的數據非常難獲取,一是缺乏獲取的渠道,二是數據標注的成本也非常的高,仍然需要大量的人工參與。
陳茜:在空間智能上,現在在技術方向上面臨的最大挑戰是什么?
![]()
黃曉煌:我覺得目前這個領域最大問題是,缺少像大語言模型那樣大量的、免費的開源數據。因為像圖片、文字什么的直接到互聯網上扒就好了,這種空間的數據第一是網上沒有,第二是還有很多隱私版權問題。
比如說我們把這空間拍攝下來,放到互聯網上,我估計還要征得這房東的同意,那有這么多房主,就沒有辦法規模化了。空間數據可以理解成點云,它每一個點都有三維坐標信息、有色彩信息,當然附上更多的信息,就更重要了。
陳茜:所以這個東西是在互聯網上面沒有的。
黃曉煌:有,但很少,我們也開源了一些,但非常少。
陳茜:是不是AR眼鏡這些穿戴設備普及之后會有一些幫助呢?
黃曉煌:關鍵是它這些數據能不能免費發到網上?這就比較難。而且它還有一個難點是要做信息的標注,不是說我有三維數據就夠了,還要有很準確的標注信息。比如說這是一個椅子,如果沒有標注信息就沒法訓練。
陳茜:比如說在智能空間里面生成的數據直接可以給機器人用嗎?
黃曉煌:這取決于這機器人公司用的技術棧是什么,有些機器人它根本不跟物理世界做碰撞的,只是做純視覺的,那我們的數據就sim-ready(仿真就緒)了,它就直接可以用。比如說巡邏機器人,它只要看見一個什么東西報警就可以了,它不會去做真實的交互。
當你要做真實交互的時候,它就要有物理信息了。我們自己內部也訓練了模型,去猜它的物理參數。比如說猜是金屬,那它的參數是什么?猜是布料,那它的參數是什么?就會去猜。但是猜完之后你要高質量的數據,還是需要很多的人工去校驗。所以對于高質量的數據的話,全自動生成我覺得目前看起來還不夠,還是需要有很大的人工參與在里面。
陳茜:人工參與是什么樣子?比如說有些網絡視頻,或者視頻模型生成的東西也沒有辦法直接用嗎?
黃曉煌:網絡視頻用來訓練的話,它只能訓練一些基模或者低質量的能力,最終它如果想拿起杯子,肯定是要在三維數據上做訓練的。你想它握起一個杯子的話,就得有無數的杯子去訓練它,你得見過無數的杯子,下次你看到杯子的時候才知道哪里是把手去拿它,包括杯子的質量、材質、摩擦力等等都有相關。人一看到杯子,大概都能知道是玻璃的還是金屬的,能猜得出它的質量,但是我們在訓練模型來給它做標注的時候,還是要人工檢測。有的公司要求數據非常精確,還得去做實驗,比如說這款玻璃我一定要測出它的摩擦力,或者某一個杯子我一定要測出它的準確質量,精確到克,那就只能去真的去采集了,就很費勁,成本就高了。
所以不同的客戶實際上他的需求是不一樣的,但我們基本的能力就是去重建跟生成這個三維世界,重建完之后,我們的空間理解模型可以去做標注。但這標注能不能達到甲方的需求?這里面還有一個扯皮的過程,還需要溝通的。
![]()
陳茜:你覺得這是能解決的問題嗎?
黃曉煌:肯定能解決,只不過代價多大。現在通過人工也能解決,我們想做一個機器設備來采集,我覺得也能實現。但比較遺憾的是,物理世界的信息是無窮無盡的,采集的質量、摩擦力這種信息都是最低要求,還有手感、捏上去之后會不會變形、變形的地方是不是均勻的等等各種參數,這些參數怎么取就很復雜了,要采的數據就太多了。
所以物理世界真的是挺復雜的,隨著大模型空間智能的不斷深入,能探索的東西我覺得只會越來越多。但是可見的將來估計是沒法窮盡的,所以簡單的先處理,復雜的就只能慢慢來。我們覺得我們也只能解決一部分,也沒有辦法解決全部的問題。
空間智能的數據問題,還不只是“不夠多”這么簡單。現有的三維數據集在分布上存在嚴重偏差,比如自動駕駛的數據高度集中在晴天、白天、一線城市的標準路況;室內數據大多來自整潔的實驗室或標準家居等。但一旦遇到暴風雪中的山區公路、地板上散落玩具的真實房間,模型的表現往往急劇下降。也就是說,真實世界的“長尾”太長,靠堆數據很難覆蓋完。
![]()
但如果追問下去,數據困境本身還有一個更深的根源,那就是我們至今沒有找到一種好的方式,讓機器像人類一樣去理解空間。人類對空間的認知是通過身體與世界的持續互動,在大腦中逐漸涌現出來的。今天的空間智能模型,本質上缺少的,正是這種與生俱來的物理先驗,數據是表層的瓶頸,而如何賦予機器空間認知的底層直覺,才是這個領域真正懸而未決的核心難題。
雖然要真正實現空間智能還有非常多的難點需要去攻破,但在黃曉煌看來,就像當年英偉達的GPU一樣,在我們走向空間智能的過程中,也一定會不斷解鎖出很多意想不到的、有意思的應用。
黃曉煌:黃仁勛在今年GTC上也講了CUDA 20周年,我就是第一批去開發CUDA的人。我當時開始研究這一塊,最早只能用來算算數學、做個數字的排序、解解方程、算算矩陣,到現在看到人工智能這么普及,但是它底層還是這些算法。所以感覺人類的智慧是一層一層搭積木一樣搭上去的,而且越搭越高,再往上會出現什么?值得我們去想象。雖然我們現在做空間智能,也是感覺真正普及需要3到5年的時間,但是是會有各種各樣超乎想象的東西會出現。
![]()
圖片來源:NVIDIA
陳茜:感覺現在只是一個起點而已。
黃曉煌:是一個新的起點,我覺得這個賽道上每3到5年都相當于一個全新的起點。你回過頭來看,從我剛回國的時候,當時只能做簡單的數學運算,所以出現了挖礦,然后5年后第一波,當時做視頻監控的那批AI起來,然后又過了5年就到現在大模型出來了,再過5年就不知道會出現什么,我覺得挺期待的。
陳茜:你每年都來看GTC,你覺得英偉達的整個的成長路線,包括黃仁勛怎么去帶領英偉達,對你來說有什么啟發嗎?
黃曉煌:我創業的過程很受英偉達這種模式的影響,因為我工作過的也就這一家公司,所以它這個模式我覺得還是值得我們學習的。
首先是第一性原理,比如GPU的架構能夠突破摩爾定律,當年我們在做這個的時候,雖然我們知道肯定會算得很快,但是我也不知道干什么用,所以會在不斷地找應用,現在就叫“拿著錘子找釘子”。所以我們在自己創業的時候,我們的方法論也是先找到一個你相信一定能夠改變世界的東西,這東西會比較通用,然后你再去找應用,比如說英偉達最早用在游戲行業,聽起來都覺得不太正經的,但現在每家公司都需要他們,它就是有這么一個過程。
我覺得公司得先活下來才有未來。比如英偉達做的是高性能計算,用在游戲行業只是先活下來,之后救了它的是挖礦,后面才有大模型。所以像空間智能一開始能用在哪些領域?我覺得房地產領域是一個非常好的賽道,最終只要我們物理世界還存在,空間智能就一定會發揮它巨大的價值的。
所以反正你只要相信這一點,相信有一天你的電腦也能夠跟我們人類一樣,在物理世界里面自由地活動、自由地干活,那空間智能是一定需要的。你只要相信這一點,你就慢慢做,反正啥機會來了你就湊上去,把業務擴大。如果機會沒了,就慢慢等。反正現在公司做到這階段,我覺得至少對得起自己,但能不能再往上幾個臺階就看命了。
所以就像黃曉煌談到的,如果把時間拉長來看,空間智能更像是一次必然發生的躍遷。
就像GPU最初只是用來做圖形計算,后來一路走到AI基礎設施的位置一樣。今天我們還很難完全看清空間智能最終會長成什么樣,但可以確定的是,它一定會在某些意想不到的地方,先找到自己的“第一個爆發點”。這個“爆發點”也許是房地產,也許是游戲,也許是機器人,甚至是我們今天還無法想象的應用場景。
但只要AI有一天真的要走出屏幕,進入到真實世界,那空間智能就不再是一個“可選項”,而是一個繞不過去的基礎能力。關于接下空間智能的研究的進展,以及更多的落地應用我們也會持續追蹤。
注:部分圖片來源于網絡
【本期節目不構成任何投資建議】
【視頻播放渠道】
國內:B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅
海外:Youtube
聯系我們:video@sv101.net
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.