網易首頁 > 網易號 > 正文申請入駐

從一張午餐桌到無限宇宙，李飛飛押注AI的下一個維度

2026-05-27 08:20:40　來源: 鈦媒體APP

北京舉報

分享至

500萬年，這是人類語言在進化史上的年齡。5.4億年，這是視覺和空間感知催生寒武紀生命大爆發的起點。

在硅谷幾乎所有頂級實驗室都在卷語言模型的2025和2026年，斯坦福大學教授、World Labs創始人李飛飛反復拋出一個讓行業不得不抬頭的問題：如果AI只會說話和看圖片，它永遠不會真正“理解”這個世界。

她在三次關鍵訪談中，包括2025年6月的a16z Podcast、2026年2月的思科AI峰會（Cisco AI Summit），以及2026年5月22日發布、長達1小時19分鐘的Lenny's Podcast深度對話，系統闡述了一個正在被加速驗證的判斷：空間智能（Spatial Intelligence），才是AI的下一個前沿。

其中a16z對話中“創造無限的宇宙”“生活在多元宇宙中”的表述，以及Lenny's Podcast中“世界模型才是下一個前沿”“AGI更像營銷術語”等觀點，最近在X平臺上再度被大量轉發。

“我們缺一個世界模型”

據a16z合伙人Martin Casado回憶，在硅谷的一次午餐會上，滿桌AI從業者在興奮地談論大語言模型。李飛飛坐在餐桌另一頭，突然轉頭問他：

“你知道我們缺什么嗎？我們缺一個世界模型。”

Casado是World Labs的早期投資人，也是李飛飛在斯坦福時期就結識的老友。他回憶那一刻時說，“一切都對上了”。他當時剛從大量圖像領域的投資中獨立得出類似結論：語言不是故事的終點。

但李飛飛對這個問題的思考遠比大多數人更久遠。

2024年4月，她在TED大會上發表了一場15分鐘的演講，用進化論做了破題：5.4億年前三葉蟲的出現，第一次讓生命“看見”了世界。視覺的誕生引爆了智能的演化競賽，神經系統開始發育，動物變得活躍，智能由此萌芽。而語言，不過是這場漫長競賽中非常晚近的產物。

這個判斷在三次訪談中被反復強化。在思科AI峰會上，她的表述更加直接：

“語言的歷史大概只有50萬年。但在15億年前，動物就開始感知光線并觸摸環境。在真實的3D、4D物理世界中進行理解、推理、交互和導航的能力是基礎性的，與語言智能同樣重要。”

李飛飛并非否定語言智能的價值。她的核心論點是：語言在本質上是一種“有信息損失的”對世界的編碼方式。

在a16z訪談中，Casado做了一個思維實驗：蒙上你的眼睛，用語言描述一個房間，然后讓你完成一項任務，你成功的概率極低。因為語言對現實的描述永遠是粗糙的。拿掉眼罩，你的大腦瞬間重建3D空間，你就能操作、觸摸、移動。

李飛飛補充了一個更極端的例子，即科學史上最著名的一次空間推理：羅莎琳德·富蘭克林拍攝的DNA X射線衍射照片是一張平面的二維影像，上面的結構看起來像一個帶有衍射的十字。但沃森和克里克通過那張二維照片，在三維空間中推理出了DNA的雙螺旋結構。“那個結構不可能是二維的。你不能用二維的思維來推導出那個結構。”

“如果你觀察人類智能，很多都超出了語言的范疇。語言是一種有信息損失的捕捉世界的方式。純粹的生成式‘語言’在自然界中并不存在；我們環顧四周，沒有現成的句子或單詞，而整個物理、感知、視覺世界卻真實存在。”

這是一個容易被忽視的視角：當前大模型的大部分能力，建立在一種天然有損的信息壓縮格式之上。而在Lenny's Podcast中，她用一個更日常的測試戳穿了這個幻象：

“今天，你拿一個模型，讓它運行一段包含幾個辦公室房間的視頻，然后要求模型數一下椅子的數量。這是幼兒就能做到的事情，而人工智能卻做不到。”

更不用說從天體運動中推導出物理定律：“讓我們把所有的數據都給人工智能，包括牛頓沒有的現代儀器數據，讓它創建一套17世紀關于物體運動規律的方程。今天的人工智能做不到。”

Marble：比GPT-5小幾個數量級

將這個判斷推向產品的是World Labs的第一代模型Marble，2024年底發布。

李飛飛在思科AI峰會上詳細拆解了Marble的技術定位：接收文本、圖片、視頻或簡單3D輸入，生成一個“完全可導航、可交互且具有永久一致性的3D世界”。她特別強調，這與Sora等視頻生成模型有本質區別，Marble生成的環境擁有幾何結構，不是一段“看起來像”視頻的像素動畫。

在Lenny's Podcast中，她用柏拉圖的洞穴寓言做了更深的闡釋：囚犯被綁在椅子上，只能看到墻上投射的二維影子，但真正的戲劇在背后三維空間中上演。視頻模型就是那些影子，而空間智能要做的，是創造和推理那個影子背后的真實世界。

一組對比：GPT-5的訓練算力大約在10的26次方FLOPS量級，而Marble在規模上小幾個數量級。原因有兩層：數據獲取難度完全不同（高質量3D物理數據極其稀缺），且這個領域還處于“Scaling Law的上升曲線”的早期階段。

在Lenny's Podcast中，她進一步解釋了為什么機器人學習無法簡單復制語言模型的“苦澀的教訓”。AI領域有一個著名的論斷：擁有海量數據的簡單模型最終總能勝過復雜模型。但“語言模型擁有一個完美的設置：訓練數據是單詞，輸出也是文字。”而機器人技術中，“你希望獲得行動，訓練數據卻缺乏在3D世界中的行動。”這種訓練目標與數據形態之間的根本錯位，才是機器人學習的核心難題。

World Labs采取混合數據策略：互聯網規模的文本、圖像和視頻，加上仿真模擬數據，再加上真實世界采集數據。李飛飛坦承，“我們仍在探索模型架構的相對早期階段”，但她預計“接下來的幾年將會非常令人興奮”。

話音剛落，World Labs就在2026年2月完成10億美元融資，英偉達、AMD、a16z參投，估值從一年前的10億美元飆升至約50億美元。4月，團隊開源了3D高斯濺射渲染引擎Spark 2.0，可在網頁端實現億級3D場景實時渲染，從閉源產品轉向“產品+開源生態”的雙軌策略，空間智能的技術門檻正在被快速拉低。

在Lenny's Podcast中，李飛飛也罕見地坦露了創業的艱辛：“如果我能對18個月前的自己耳語一句話：“這個領域的競爭強度，無論是技術還是人才，遠超你的想象。”

無限宇宙與多元宇宙

真正讓a16z那次訪談在X上反復出圈的，是李飛飛關于“無限宇宙”的表述：

“在整個人類文明歷史中，我們所有人都共同生活在一個3D世界里。只有少數人去過月球，但人數非常少。而這項技術讓數字虛擬世界變得無比精彩。突然間，我們實際上可以創造無限的宇宙，有些是為機器人創造的，有些是為創造力創造的，有些是為社交創造的，有些是為旅行創造的，有些是為講故事創造的。突然之間，我們能夠生活在一個多元宇宙中，想象的空間是無限的。”

Casado則從技術層面做了更具體的闡釋：通過一張二維照片，模型就能生成包括桌子背面在內的完整360度3D表示。你可以操作、測量、堆疊，空間中能做的任何事都可以實現。

這不是科幻。在兩次訪談中，李飛飛列舉了Marble已經落地的應用：

? 游戲開發者用早期版本開發游戲 ? 與索尼合作的虛擬制作團隊將電影制作周期縮短了40倍 ? 英偉達及多家學術實驗室利用Marble訓練機器人 ? 建筑師和設計師用它做室內設計 ? 臨床研究人員為強迫癥、恐高癥患者定制個性化的沉浸式觸發環境 ? 有人用它生成個性化的瑜伽訓練空間

最后一個應用尤其出人意料。李飛飛在峰會上提到，OCD患者會被非常具體的場景觸發，“比如我個人會被堆積的臟衣服困擾，但每個人的觸發點各不相同”。在Lenny's Podcast中她補充道，發布后一位朋友連夜打電話問她是否可以用Marble治療恐高癥。實體環境的搭建成本極高，而Marble只需輸入提示詞，幾分鐘就能生成各種環境。

柏拉圖的洞穴寓言，恰好也是理解2D與3D分歧的最佳入口。

李飛飛用這個寓言解釋：被綁在椅子上的囚犯，只能看到墻上投射的二維影子。當前的語言模型和視頻模型，本質上都是那些影子，從二維中猜測三維。空間智能的野心，是創造、推理和交互那個影子背后的真實世界。

在技術路線上，她用一個簡潔的對比劃清了邊界：

“汽車可以被視作一個在二維平面上移動的方塊機器人，它的目標是不要碰到任何東西。而機器人是一個三維實體，在三維世界中運行，通用機器人的目標是必須接觸物體而不破壞它們。這是一個更高維度的問題。”

她還給出了一個來自親身經歷的時間刻度：2006年，她參與創造了第一輛在沙漠行駛138英里的自動駕駛汽車，當時預言20年后會有自動駕駛汽車。直到2025年，Waymo才開始在城市街道大規模運行。

“看清北極星并不意味著旅程會很短。”

Casado在a16z對話中補充了更具商業直覺的觀察：僅自動駕駛一個賽道，行業就投入了大約1000億美元，20年才走到今天。“我們原本的路線是先解決世界導航問題，但結果極其困難。”

李飛飛甚至在a16z訪談中分享了一段個人經歷來強化論點：大約五年前，她因眼角膜受傷失去了幾個月的立體視覺。“即使我非常清楚我的車有多大，也大概知道鄰居家停的車有多大，而且我在這條路上開了很多年，但我無法很好地判斷車和路邊停著的車之間的距離。我只能開到時速十英里，以免刮到其他車。”

一個終身研究視覺智能的科學家，用自己失去深度感知后的切身困境，回答了“為什么3D不可替代”這個問題。

技術雙刃劍與文明標尺

在技術樂觀主義和末日論之間，李飛飛選擇了一個更克制也更具操作性的站位。她在思科AI峰會上明確表達了對兩極化言論的擔憂：

“網絡上的討論往往是非黑即白的：要么是完全的技術烏托邦主義，忽略了技術是一把雙刃劍；要么就是末日論調，仿佛人類時刻面臨生存危機。對于一項對人類文明如此深遠的技術，這種討論方式是不負責任的。”

她沒有停留在批評層面，而是給出了一個可量化的價值錨點：電力。

“如果回撥一百多年，想象當時人們如何定義電力的成功。我希望那時的愿景是：學校燈火通明，家園溫暖如春，機器被賦予力量實現工業化，進而延長人類壽命，讓更多孩子接受教育。”

然后將這個錨點平移到AI：“成功的定義應該是文明變得更加美好，而文明是由每一個追求幸福、繁榮且擁有尊嚴的個體組成的。這就是AI以及每一項技術成功的定義。”

在Lenny's Podcast的結尾，她把這份關切落到了具體的人身上。她說自己每到一處都會被問到同一個問題：如果我是農民、護士、音樂家，AI會取代我嗎？她的回答是：“歸根結底，AI是關于人的。任何技術都不應該剝奪人的尊嚴。人類的尊嚴和自主性應該成為每項技術的開發、部署以及治理的核心。”

回顧三次訪談，一條清晰的脈絡浮出水面。

李飛飛對空間智能的思考，不是對大模型浪潮的反叛，而是在其基礎上的延伸。她比大多數人更早地看到了語言模型的極限，一種有損的信息壓縮格式能做的終究有限。而空間智能要解決的問題是：讓AI從“談論世界”進化到“理解世界”，最終到“在世界中行動”。

World Labs團隊約30人，已融資超10億美元。Marble是第一代產品，規模遠不及頂級語言模型。3D數據的稀缺和模型架構的早期狀態，決定了這不會是一條一蹴而就的路線。但李飛飛在Lenny's Podcast中說了另一句話，或許是對這份耐心最好的注解：

“我們的大腦只消耗約20瓦，比房間里任何燈泡都暗，卻能做這么多事。我在AI領域工作得越多，越尊重人類。”

5.4億年的進化，才讓碳基生命獲得了這份20瓦的空間智能。AI的這場進化，正在被壓縮到幾年內完成。

李飛飛在三次訪談中都沒有給出時間表。她只是反復回到那個從進化論中提取的判斷：感知先于語言，空間先于符號。這場正在硅谷、斯坦福實驗室和World Labs辦公室里發生的，不是一次技術迭代，而是一次進化論的加速重演。(本文首發鈦媒體APP，作者 | 硅谷tech news，編輯 | 趙虹宇)

附：上述三場訪談文字實錄收錄地址【ima知識庫】李飛飛訪談 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.