![]()
500萬年,這是人類語言在進化史上的年齡。5.4億年,這是視覺和空間感知催生寒武紀生命大爆發的起點。
在硅谷幾乎所有頂級實驗室都在卷語言模型的2025和2026年,斯坦福大學教授、World Labs創始人李飛飛反復拋出一個讓行業不得不抬頭的問題:如果AI只會說話和看圖片,它永遠不會真正“理解”這個世界。
她在三次關鍵訪談中,包括2025年6月的a16z Podcast、2026年2月的思科AI峰會(Cisco AI Summit),以及2026年5月22日發布、長達1小時19分鐘的Lenny's Podcast深度對話,系統闡述了一個正在被加速驗證的判斷:空間智能(Spatial Intelligence),才是AI的下一個前沿。
其中a16z對話中“創造無限的宇宙”“生活在多元宇宙中”的表述,以及Lenny's Podcast中“世界模型才是下一個前沿”“AGI更像營銷術語”等觀點,最近在X平臺上再度被大量轉發。
“我們缺一個世界模型”
據a16z合伙人Martin Casado回憶,在硅谷的一次午餐會上,滿桌AI從業者在興奮地談論大語言模型。李飛飛坐在餐桌另一頭,突然轉頭問他:
“你知道我們缺什么嗎?我們缺一個世界模型。”
Casado是World Labs的早期投資人,也是李飛飛在斯坦福時期就結識的老友。他回憶那一刻時說,“一切都對上了”。他當時剛從大量圖像領域的投資中獨立得出類似結論:語言不是故事的終點。
但李飛飛對這個問題的思考遠比大多數人更久遠。
2024年4月,她在TED大會上發表了一場15分鐘的演講,用進化論做了破題:5.4億年前三葉蟲的出現,第一次讓生命“看見”了世界。視覺的誕生引爆了智能的演化競賽,神經系統開始發育,動物變得活躍,智能由此萌芽。而語言,不過是這場漫長競賽中非常晚近的產物。
這個判斷在三次訪談中被反復強化。在思科AI峰會上,她的表述更加直接:
“語言的歷史大概只有50萬年。但在15億年前,動物就開始感知光線并觸摸環境。在真實的3D、4D物理世界中進行理解、推理、交互和導航的能力是基礎性的,與語言智能同樣重要。”
李飛飛并非否定語言智能的價值。她的核心論點是:語言在本質上是一種“有信息損失的”對世界的編碼方式。
在a16z訪談中,Casado做了一個思維實驗:蒙上你的眼睛,用語言描述一個房間,然后讓你完成一項任務,你成功的概率極低。因為語言對現實的描述永遠是粗糙的。拿掉眼罩,你的大腦瞬間重建3D空間,你就能操作、觸摸、移動。
李飛飛補充了一個更極端的例子,即科學史上最著名的一次空間推理:羅莎琳德·富蘭克林拍攝的DNA X射線衍射照片是一張平面的二維影像,上面的結構看起來像一個帶有衍射的十字。但沃森和克里克通過那張二維照片,在三維空間中推理出了DNA的雙螺旋結構。“那個結構不可能是二維的。你不能用二維的思維來推導出那個結構。”
“如果你觀察人類智能,很多都超出了語言的范疇。語言是一種有信息損失的捕捉世界的方式。純粹的生成式‘語言’在自然界中并不存在;我們環顧四周,沒有現成的句子或單詞,而整個物理、感知、視覺世界卻真實存在。”
這是一個容易被忽視的視角:當前大模型的大部分能力,建立在一種天然有損的信息壓縮格式之上。而在Lenny's Podcast中,她用一個更日常的測試戳穿了這個幻象:
“今天,你拿一個模型,讓它運行一段包含幾個辦公室房間的視頻,然后要求模型數一下椅子的數量。這是幼兒就能做到的事情,而人工智能卻做不到。”
更不用說從天體運動中推導出物理定律:“讓我們把所有的數據都給人工智能,包括牛頓沒有的現代儀器數據,讓它創建一套17世紀關于物體運動規律的方程。今天的人工智能做不到。”
Marble:比GPT-5小幾個數量級
將這個判斷推向產品的是World Labs的第一代模型Marble,2024年底發布。
李飛飛在思科AI峰會上詳細拆解了Marble的技術定位:接收文本、圖片、視頻或簡單3D輸入,生成一個“完全可導航、可交互且具有永久一致性的3D世界”。她特別強調,這與Sora等視頻生成模型有本質區別,Marble生成的環境擁有幾何結構,不是一段“看起來像”視頻的像素動畫。
在Lenny's Podcast中,她用柏拉圖的洞穴寓言做了更深的闡釋:囚犯被綁在椅子上,只能看到墻上投射的二維影子,但真正的戲劇在背后三維空間中上演。視頻模型就是那些影子,而空間智能要做的,是創造和推理那個影子背后的真實世界。
一組對比:GPT-5的訓練算力大約在10的26次方FLOPS量級,而Marble在規模上小幾個數量級。原因有兩層:數據獲取難度完全不同(高質量3D物理數據極其稀缺),且這個領域還處于“Scaling Law的上升曲線”的早期階段。
在Lenny's Podcast中,她進一步解釋了為什么機器人學習無法簡單復制語言模型的“苦澀的教訓”。AI領域有一個著名的論斷:擁有海量數據的簡單模型最終總能勝過復雜模型。但“語言模型擁有一個完美的設置:訓練數據是單詞,輸出也是文字。”而機器人技術中,“你希望獲得行動,訓練數據卻缺乏在3D世界中的行動。”這種訓練目標與數據形態之間的根本錯位,才是機器人學習的核心難題。
World Labs采取混合數據策略:互聯網規模的文本、圖像和視頻,加上仿真模擬數據,再加上真實世界采集數據。李飛飛坦承,“我們仍在探索模型架構的相對早期階段”,但她預計“接下來的幾年將會非常令人興奮”。
話音剛落,World Labs就在2026年2月完成10億美元融資,英偉達、AMD、a16z參投,估值從一年前的10億美元飆升至約50億美元。4月,團隊開源了3D高斯濺射渲染引擎Spark 2.0,可在網頁端實現億級3D場景實時渲染,從閉源產品轉向“產品+開源生態”的雙軌策略,空間智能的技術門檻正在被快速拉低。
在Lenny's Podcast中,李飛飛也罕見地坦露了創業的艱辛:“如果我能對18個月前的自己耳語一句話:“這個領域的競爭強度,無論是技術還是人才,遠超你的想象。”
無限宇宙與多元宇宙
真正讓a16z那次訪談在X上反復出圈的,是李飛飛關于“無限宇宙”的表述:
“在整個人類文明歷史中,我們所有人都共同生活在一個3D世界里。只有少數人去過月球,但人數非常少。而這項技術讓數字虛擬世界變得無比精彩。突然間,我們實際上可以創造無限的宇宙,有些是為機器人創造的,有些是為創造力創造的,有些是為社交創造的,有些是為旅行創造的,有些是為講故事創造的。突然之間,我們能夠生活在一個多元宇宙中,想象的空間是無限的。”
Casado則從技術層面做了更具體的闡釋:通過一張二維照片,模型就能生成包括桌子背面在內的完整360度3D表示。你可以操作、測量、堆疊,空間中能做的任何事都可以實現。
這不是科幻。在兩次訪談中,李飛飛列舉了Marble已經落地的應用:
? 游戲開發者用早期版本開發游戲 ? 與索尼合作的虛擬制作團隊將電影制作周期縮短了40倍 ? 英偉達及多家學術實驗室利用Marble訓練機器人 ? 建筑師和設計師用它做室內設計 ? 臨床研究人員為強迫癥、恐高癥患者定制個性化的沉浸式觸發環境 ? 有人用它生成個性化的瑜伽訓練空間
最后一個應用尤其出人意料。李飛飛在峰會上提到,OCD患者會被非常具體的場景觸發,“比如我個人會被堆積的臟衣服困擾,但每個人的觸發點各不相同”。在Lenny's Podcast中她補充道,發布后一位朋友連夜打電話問她是否可以用Marble治療恐高癥。實體環境的搭建成本極高,而Marble只需輸入提示詞,幾分鐘就能生成各種環境。
柏拉圖的洞穴寓言,恰好也是理解2D與3D分歧的最佳入口。
李飛飛用這個寓言解釋:被綁在椅子上的囚犯,只能看到墻上投射的二維影子。當前的語言模型和視頻模型,本質上都是那些影子,從二維中猜測三維。空間智能的野心,是創造、推理和交互那個影子背后的真實世界。
在技術路線上,她用一個簡潔的對比劃清了邊界:
“汽車可以被視作一個在二維平面上移動的方塊機器人,它的目標是不要碰到任何東西。而機器人是一個三維實體,在三維世界中運行,通用機器人的目標是必須接觸物體而不破壞它們。這是一個更高維度的問題。”
她還給出了一個來自親身經歷的時間刻度:2006年,她參與創造了第一輛在沙漠行駛138英里的自動駕駛汽車,當時預言20年后會有自動駕駛汽車。直到2025年,Waymo才開始在城市街道大規模運行。
“看清北極星并不意味著旅程會很短。”
Casado在a16z對話中補充了更具商業直覺的觀察:僅自動駕駛一個賽道,行業就投入了大約1000億美元,20年才走到今天。“我們原本的路線是先解決世界導航問題,但結果極其困難。”
李飛飛甚至在a16z訪談中分享了一段個人經歷來強化論點:大約五年前,她因眼角膜受傷失去了幾個月的立體視覺。“即使我非常清楚我的車有多大,也大概知道鄰居家停的車有多大,而且我在這條路上開了很多年,但我無法很好地判斷車和路邊停著的車之間的距離。我只能開到時速十英里,以免刮到其他車。”
一個終身研究視覺智能的科學家,用自己失去深度感知后的切身困境,回答了“為什么3D不可替代”這個問題。
技術雙刃劍與文明標尺
在技術樂觀主義和末日論之間,李飛飛選擇了一個更克制也更具操作性的站位。她在思科AI峰會上明確表達了對兩極化言論的擔憂:
“網絡上的討論往往是非黑即白的:要么是完全的技術烏托邦主義,忽略了技術是一把雙刃劍;要么就是末日論調,仿佛人類時刻面臨生存危機。對于一項對人類文明如此深遠的技術,這種討論方式是不負責任的。”
她沒有停留在批評層面,而是給出了一個可量化的價值錨點:電力。
“如果回撥一百多年,想象當時人們如何定義電力的成功。我希望那時的愿景是:學校燈火通明,家園溫暖如春,機器被賦予力量實現工業化,進而延長人類壽命,讓更多孩子接受教育。”
然后將這個錨點平移到AI:“成功的定義應該是文明變得更加美好,而文明是由每一個追求幸福、繁榮且擁有尊嚴的個體組成的。這就是AI以及每一項技術成功的定義。”
在Lenny's Podcast的結尾,她把這份關切落到了具體的人身上。她說自己每到一處都會被問到同一個問題:如果我是農民、護士、音樂家,AI會取代我嗎?她的回答是:“歸根結底,AI是關于人的。任何技術都不應該剝奪人的尊嚴。人類的尊嚴和自主性應該成為每項技術的開發、部署以及治理的核心。”
回顧三次訪談,一條清晰的脈絡浮出水面。
李飛飛對空間智能的思考,不是對大模型浪潮的反叛,而是在其基礎上的延伸。她比大多數人更早地看到了語言模型的極限,一種有損的信息壓縮格式能做的終究有限。而空間智能要解決的問題是:讓AI從“談論世界”進化到“理解世界”,最終到“在世界中行動”。
World Labs團隊約30人,已融資超10億美元。Marble是第一代產品,規模遠不及頂級語言模型。3D數據的稀缺和模型架構的早期狀態,決定了這不會是一條一蹴而就的路線。但李飛飛在Lenny's Podcast中說了另一句話,或許是對這份耐心最好的注解:
“我們的大腦只消耗約20瓦,比房間里任何燈泡都暗,卻能做這么多事。我在AI領域工作得越多,越尊重人類。”
5.4億年的進化,才讓碳基生命獲得了這份20瓦的空間智能。AI的這場進化,正在被壓縮到幾年內完成。
李飛飛在三次訪談中都沒有給出時間表。她只是反復回到那個從進化論中提取的判斷:感知先于語言,空間先于符號。這場正在硅谷、斯坦福實驗室和World Labs辦公室里發生的,不是一次技術迭代,而是一次進化論的加速重演。(本文首發鈦媒體APP,作者 | 硅谷tech news,編輯 | 趙虹宇)
附:上述三場訪談文字實錄收錄地址【ima知識庫】李飛飛訪談 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.