<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      李飛飛終于把空間智能講明白了:AI 的極限不是語言,世界遠(yuǎn)比文字更廣闊!

      0
      分享至

      出品丨AI 科技大本營(ID:rgznai100)

      前不久,一場匯集了黃仁勛、Hinton、LeCun 等人工智能領(lǐng)域頂尖人物的圓桌討論,引發(fā)了不小的關(guān)注。當(dāng)李飛飛與這些行業(yè)巨擘同臺時,也確實(shí)在社區(qū)里激起了一些討論——準(zhǔn)確地說,是爭議。


      各種社交媒體上,匯成了一個巨大的聲音:“她憑什么?”

      它不是一句簡單的冒犯,更像是一種確認(rèn)。在今天這個由參數(shù)、算力、模型規(guī)模定義的 AI 世界里,人們急于弄清楚,誰才是牌桌上真正的玩家。

      而許多人眼里,王牌掌握在兩種人手中:一種是造出了像 GPT 這樣的大模型的人,另一種是造出了能讓這些模型飛速運(yùn)轉(zhuǎn)的 GPU 的人。

      在這個劇本里,李飛飛的角色就顯得有些模糊。

      很多人對她的印象或許還停留在 ImageNet 時代。但 ImageNet 的意義,可能比我們想象的要深遠(yuǎn)得多。它不僅僅是提供了一個龐大的數(shù)據(jù)集,更重要的是,它幾乎是以一己之力,為當(dāng)時的計算機(jī)視覺領(lǐng)域建立了一套“標(biāo)準(zhǔn)賽道”,一種通過大規(guī)?;鶞?zhǔn)測試來驅(qū)動整個領(lǐng)域向前滾動的方法論??梢哉f,今天大模型研究中“數(shù)據(jù)+算力+模型”并以 Benchmark 來衡量進(jìn)展的范式,依然能看到當(dāng)年 ImageNet 留下的深刻烙印。它不是某一個具體的算法,而是改變了游戲規(guī)則的基礎(chǔ)設(shè)施。

      那么,在那個里程碑式的工作之后,當(dāng)下的 AI 世界,幾乎所有人都擠在語言模型的賽道里狂奔時,李飛飛卻把目光投向了一個更廣闊、也更根本的領(lǐng)域:空間智能。

      她敏銳地指出了當(dāng)前 AI 范式的一個核心局限:語言終究是人類為了交流而創(chuàng)造出來的一種抽象信號。自然界中本沒有文字,物理世界遵循的是它自身的規(guī)律。AI 如果想要真正地理解世界、與世界互動,就不能只停留在文本的符號游戲里,做一個“黑暗中的文字大師”。它需要學(xué)會看、學(xué)會聽、學(xué)會理解三維空間中的物體、距離、物理關(guān)系和動態(tài)交互。

      這解釋了很多人心中的第一層疑問:ImageNet 之后,李飛飛究竟在做什么?

      她和她的團(tuán)隊,以及新創(chuàng)辦的公司,正是試圖為 AI 補(bǔ)上“物理世界”這一課,讓智能走出屏幕,擁有對空間的感知、理解和交互能力。他們想做的,是構(gòu)建所謂的“世界模型”,一個遠(yuǎn)比語言模型宏大、復(fù)雜得多的目標(biāo)。

      這并非一個輕松的議題,甚至比單純擴(kuò)大語言模型的規(guī)模要困難得多。它關(guān)乎人工智能的下一站將去往何方,是從一個勝利走向另一個勝利,還是需要一次根本性的范式轉(zhuǎn)換。

      近日,李飛飛親自撰寫了一篇長文,第一次如此系統(tǒng)、完整地闡述了她對“空間智能”的全部構(gòu)想,描繪了她眼中人工智能的新疆界。這篇文章,或許就是對外界所有好奇與疑問的最好回應(yīng),也終于解答了那個最大的問題:空間智能,到底是什么?

      以下,是這篇文章的全文。

      跨越語言,構(gòu)筑世界:空間智能,人工智能的新疆界

      1950 年,當(dāng)計算還不過是自動化算術(shù)和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍引人深思的問題:機(jī)器能思考嗎?

      能洞見他所預(yù)見的一切,需要非凡的想象力:智能或許某天可以被創(chuàng)造,而非與生俱來。這一洞見后來開啟了一場名為“人工智能”(AI)的不懈科學(xué)探索。在我投身人工智能領(lǐng)域的 25 年里,圖靈的遠(yuǎn)見卓識至今仍讓我備受鼓舞。但我們距離這個目標(biāo)還有多遠(yuǎn)?答案并非一言以蔽之。

      如今,以大語言模型(LLMs)為代表的頂尖人工智能技術(shù),已經(jīng)開始改變我們獲取和處理抽象知識的方式。然而,它們?nèi)韵袷呛诎抵械奈淖执髱煟?strong>能言善辯卻缺乏經(jīng)驗(yàn),知識淵博卻脫離現(xiàn)實(shí)。空間智能將改變我們創(chuàng)造真實(shí)世界和虛擬世界以及與之互動的方式——為敘事、創(chuàng)造、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域帶來革命性變化。這,就是人工智能的新疆界。

      自進(jìn)入這一領(lǐng)域以來,對視覺和空間智能的追求,一直是指引我的“北極星”。為此,我曾花費(fèi)數(shù)年時間構(gòu)建 ImageNet,它是首個大規(guī)模視覺學(xué)習(xí)和基準(zhǔn)測試數(shù)據(jù)集;它與神經(jīng)網(wǎng)絡(luò)算法以及圖形處理器(GPU)等現(xiàn)代計算技術(shù)一道,成為催生現(xiàn)代人工智能的三大關(guān)鍵要素之一。

      也正因如此,我在斯坦福的學(xué)術(shù)實(shí)驗(yàn)室在過去十年間,一直致力于將計算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。同樣為此,我和我的聯(lián)合創(chuàng)始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創(chuàng)立了 World Labs:為了首次將這一可能性完全實(shí)現(xiàn)。

      在本文中,我將解釋什么是空間智能、它為何重要,以及我們正在如何構(gòu)建能夠解鎖它的“世界模型”——其影響將重塑創(chuàng)造力、具身智能和人類的進(jìn)步。


      空間智能:人類認(rèn)知的腳手架

      人工智能的發(fā)展從未像今天這樣激動人心。以大語言模型為代表的生成式AI模型已經(jīng)從實(shí)驗(yàn)室走向日常生活,成為數(shù)十億人進(jìn)行創(chuàng)造、提升生產(chǎn)力和溝通的工具。它們展現(xiàn)了曾被認(rèn)為不可能實(shí)現(xiàn)的能力,能夠輕松生成連貫的文本、海量的代碼、逼真的圖像,甚至是簡短的視頻片段。人工智能是否會改變世界,這已不再是個問題。無論以何種標(biāo)準(zhǔn)衡量,它都已然做到了這一點(diǎn)。

      然而,仍有許多目標(biāo)遙不可及。自主機(jī)器人的愿景雖然引人入勝,但仍停留在構(gòu)想階段,遠(yuǎn)未成為未來學(xué)家長期承諾的那樣,在日常生活中普及開來。在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域極大加速研究的夢想,在很大程度上仍未實(shí)現(xiàn)。而讓人工智能真正理解并賦能人類創(chuàng)造者的承諾——無論是幫助學(xué)生理解分子化學(xué)中復(fù)雜的概念,協(xié)助建筑師構(gòu)想空間,支持電影制作人構(gòu)建世界,還是為任何尋求完全沉浸式虛擬體驗(yàn)的人提供服務(wù)——也依然未能兌現(xiàn)。

      要理解為何這些能力依然遙不可及,我們需要探究空間智能是如何進(jìn)化的,以及它如何塑造我們對世界的理解。

      長期以來,視覺一直是人類智能的基石,但其力量源于一種更為根本的能力。遠(yuǎn)在動物學(xué)會筑巢、照顧幼崽、用語言交流或建立文明之前,感知這一簡單的行為,悄然開啟了通往智能的進(jìn)化之旅。

      這種看似孤立的、從外部世界獲取信息(無論是一縷光線還是一絲觸感)的能力,在感知與生存之間架起了一座橋梁,并且隨著世代繁衍,這座橋梁變得愈發(fā)堅固和精巧。一層層的神經(jīng)元在這座橋梁上生長,形成了能夠解釋世界、并協(xié)調(diào)生物體與其環(huán)境互動的神經(jīng)系統(tǒng)。

      因此,許多科學(xué)家推測,感知與行動構(gòu)成了驅(qū)動智能進(jìn)化的核心循環(huán),也是大自然創(chuàng)造出我們這個集感知、學(xué)習(xí)、思考和行動于一體的終極物種的根基。

      空間智能在定義我們?nèi)绾闻c物理世界互動方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動作:通過想象保險杠與路邊之間的間隙逐漸縮小來停放汽車;接住別人從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而避免碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無需直視。

      在更極端的情況下,消防員在煙霧彌漫、不斷坍塌的建筑物中穿行,對結(jié)構(gòu)的穩(wěn)定性和生存機(jī)會做出瞬時判斷,并通過手勢、身體語言和一種無法用語言替代的共同職業(yè)本能進(jìn)行交流。而孩子們則在學(xué)會說話前的數(shù)月乃至數(shù)年里,通過與環(huán)境充滿趣味的互動來學(xué)習(xí)這個世界。所有這一切都發(fā)生得如此直觀、自然——這是機(jī)器尚未達(dá)到的流暢程度。

      空間智能也是我們想象力和創(chuàng)造力的基礎(chǔ)。講故事的人在腦海中創(chuàng)造出獨(dú)特而豐富的世界,并利用從古代洞穴壁畫到現(xiàn)代電影再到沉浸式視頻游戲等多種視覺媒介,將這些世界呈現(xiàn)給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基于空間的想象力,構(gòu)成了真實(shí)或虛擬世界中互動體驗(yàn)的基礎(chǔ)。在許多行業(yè)應(yīng)用中,對物體、場景和動態(tài)交互環(huán)境的模擬,為從工業(yè)設(shè)計到數(shù)字孿生再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵的商業(yè)應(yīng)用提供了動力。

      歷史上,空間智能在許多定義文明進(jìn)程的時刻都扮演了核心角色。在古希臘,埃拉托斯特尼將影子轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城(Syene)的同一時刻,他在亞歷山大港測得太陽光線有 7 度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機(jī)”通過一個空間上的洞察徹底改變了紡織業(yè):將多個紡錘并排布置在同一個框架中,使得一個工人能同時紡多根紗線,生產(chǎn)效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發(fā)現(xiàn)了 DNA 的結(jié)構(gòu),他們不斷擺弄金屬板和金屬絲,直到最終找到了堿基對的空間排列方式。

      在每一個案例中,當(dāng)科學(xué)家和發(fā)明家需要操控物體、構(gòu)想結(jié)構(gòu)和對物理空間進(jìn)行推理時,空間智能都推動了文明的進(jìn)步——這些都無法僅靠文字來捕捉。

      空間智能是我們構(gòu)建認(rèn)知所依賴的腳手架。無論我們是被動觀察還是主動創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動著我們的推理和規(guī)劃,即便是在最抽象的議題上。它對于我們互動的方式——無論是口頭還是身體上的,無論是與同伴還是與環(huán)境本身——都至關(guān)重要。雖然我們大多數(shù)人并非每天都在做出埃拉托斯特尼級別的發(fā)現(xiàn),但我們每天也都在以同樣的方式思考——通過感官來感知復(fù)雜的世界,然后利用對世界如何在物理和空間層面運(yùn)作的直觀理解來認(rèn)識它。

      遺憾的是,今天的人工智能還無法像這樣思考。

      過去幾年里,人工智能確實(shí)取得了巨大進(jìn)步。多模態(tài)大語言模型(MLLMs)除了文本數(shù)據(jù)外,還利用海量的多媒體數(shù)據(jù)進(jìn)行訓(xùn)練,從而引入了一些基礎(chǔ)的空間感知能力,如今的人工智能已經(jīng)可以分析圖片、回答相關(guān)問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人也開始能夠在高度受限的環(huán)境中操控物體和工具。

      然而,坦率地說,人工智能的空間能力距離人類水平還相差甚遠(yuǎn)。其局限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成圖像來“在腦中”旋轉(zhuǎn)物體時,當(dāng)前最先進(jìn)的多模態(tài)大語言模型的表現(xiàn)往往不比隨機(jī)猜測好多少。它們無法走出迷宮、識別捷徑或預(yù)測基本的物理現(xiàn)象。人工智能生成的視頻——盡管尚處起步階段,并且確實(shí)非常酷——往往在幾秒鐘后就失去連貫性。

      盡管當(dāng)前最先進(jìn)的人工智能擅長閱讀、寫作、研究和數(shù)據(jù)中的模式識別,但這些模型在表現(xiàn)或與物理世界互動時,卻存在根本性的局限。我們看待世界的方式是整體性的——不僅關(guān)乎我們正在看什么,更關(guān)乎萬物在空間上如何關(guān)聯(lián)、其意義為何、其重要性何在。通過想象、推理、創(chuàng)造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,人工智能就與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它無法有效地駕駛我們的汽車,無法引導(dǎo)機(jī)器人在我們的家庭和醫(yī)院中服務(wù),無法為學(xué)習(xí)和娛樂創(chuàng)造全新的沉浸式互動體驗(yàn),也無法加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的探索發(fā)現(xiàn)。

      哲學(xué)家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限?!蔽也皇钦軐W(xué)家。但我知道,至少對人工智能而言,世界遠(yuǎn)不止于語言。空間智能代表了超越語言的新疆界——它連接想象、感知與行動,為機(jī)器真正改善人類生活開辟了可能,從醫(yī)療健康到創(chuàng)意表達(dá),從科學(xué)發(fā)現(xiàn)到日常輔助。


      人工智能的下一個十年:構(gòu)建真正具備空間智能的機(jī)器

      那么,我們該如何構(gòu)建具備空間智能的人工智能?要打造出能夠像埃拉托斯特尼那樣推理、像工業(yè)設(shè)計師那樣精密設(shè)計、像故事講述者那樣富有想象力地創(chuàng)造,并像急救人員那樣流暢地與環(huán)境互動的模型,其路徑何在?

      構(gòu)建具備空間智能的人工智能,需要比大語言模型更為宏大的目標(biāo):世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態(tài)上都極為復(fù)雜的虛擬或真實(shí)世界進(jìn)行互動的能力,遠(yuǎn)非當(dāng)今的大語言模型所能及。該領(lǐng)域尚處萌芽階段,現(xiàn)有方法從抽象推理模型到視頻生成系統(tǒng)不一而足。World Labs 于 2024 年初正是基于這樣的信念而創(chuàng)立:基礎(chǔ)方法仍在建立之中,這使其成為未來十年最具決定性的挑戰(zhàn)。

      在這個新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的原則。對于空間智能,我通過三個基本能力來定義世界模型:

      1. 生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界

        能夠解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠根據(jù)語義或感知指令,生成無窮無盡、多種多樣的模擬世界——無論是代表真實(shí)空間還是虛擬空間——同時保持幾何、物理和動態(tài)上的一致性。研究界正在積極探索,這些世界在內(nèi)在的幾何結(jié)構(gòu)上,究竟應(yīng)該被隱式表達(dá)還是顯式表達(dá)。此外,我相信,除了強(qiáng)大的潛在表示之外,一個通用的世界模型還必須能為許多不同的用例生成一個明確、可觀察的世界狀態(tài)。特別是,它對當(dāng)下的理解必須與它的過去——即導(dǎo)致當(dāng)前狀態(tài)的先前世界狀態(tài)——連貫地聯(lián)系在一起。

      2. 多模態(tài):世界模型在設(shè)計上就是多模態(tài)的

        正如動物和人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式 AI 領(lǐng)域中稱為“提示詞”。在獲得部分信息的情況下——無論是圖像、視頻、深度圖、文本指令、手勢還是動作——世界模型都應(yīng)能預(yù)測或生成盡可能完整的世界狀態(tài)。這要求它既能以真實(shí)視覺的保真度處理視覺輸入,又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進(jìn)行溝通,并反過來接收多樣的輸出。

      3. 交互性:世界模型能夠根據(jù)輸入的動作輸出下一個狀態(tài)

        最后,如果動作和/或目標(biāo)是給到世界模型的提示詞的一部分,那么它的輸出必須包含世界的下一個狀態(tài),無論是隱式還是顯式表示。當(dāng)僅給定一個動作(無論有無目標(biāo)狀態(tài))作為輸入時,世界模型應(yīng)該產(chǎn)生一個與世界先前狀態(tài)、預(yù)期的目標(biāo)狀態(tài)(如果有的話),以及其語義含義、物理定律和動態(tài)行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強(qiáng)大和穩(wěn)健,可以想見,在給定一個目標(biāo)的情況下,世界模型本身將不僅能夠預(yù)測世界的下一個狀態(tài),還能基于新狀態(tài)預(yù)測下一步的動作。

      這一挑戰(zhàn)的范圍超過了人工智能以往面臨的任何挑戰(zhàn)。

      語言純粹是人類認(rèn)知的一種生成現(xiàn)象,而世界則遵循著遠(yuǎn)為復(fù)雜的規(guī)則。例如,在地球上,引力支配著運(yùn)動,原子結(jié)構(gòu)決定了光如何產(chǎn)生顏色和亮度,無數(shù)的物理定律制約著每一次互動。即使是最奇幻、最具創(chuàng)意的世界,也是由遵守其自身物理定律和動態(tài)行為的空間物體和智能體構(gòu)成的。

      要將所有這些——語義、幾何、動態(tài)和物理——一致地協(xié)調(diào)起來,需要全新的方法。表示一個世界的維度,遠(yuǎn)比表示像語言這樣的一維序列信號要復(fù)雜得多。要實(shí)現(xiàn)能夠提供我們?nèi)祟愃碛械哪欠N通用能力的世界模型,將需要克服幾個巨大的技術(shù)障礙。在 World Labs,我們的研究團(tuán)隊正致力于朝著這個目標(biāo)取得根本性的進(jìn)展。

      以下是我們當(dāng)前研究課題的一些例子:

      • 一種新的、通用的訓(xùn)練任務(wù)函數(shù): 定義一個像大語言模型中的“下一詞元預(yù)測”那樣簡潔優(yōu)雅的通用任務(wù)函數(shù),一直是世界模型研究的核心目標(biāo)。其輸入和輸出空間的復(fù)雜性,使得這樣一個函數(shù)的構(gòu)建本身就更具難度。但盡管仍有許多未知尚待探索,這個目標(biāo)函數(shù)及相應(yīng)的表示方法必須能反映幾何與物理定律,尊重世界模型作為想象與現(xiàn)實(shí)的具身化表示這一根本性質(zhì)。

      • 大規(guī)模訓(xùn)練數(shù)據(jù):訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量的數(shù)據(jù)源已經(jīng)存在?;ヂ?lián)網(wǎng)規(guī)模的圖像和視頻集合代表了豐富且易于獲取的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維的、基于圖像或視頻幀的信號(即 RGB)中提取更深層空間信息的算法。過去十年的研究已經(jīng)顯示了在語言模型中,數(shù)據(jù)量和模型大小之間的“規(guī)模法則”的力量;解鎖世界模型的關(guān)鍵,在于構(gòu)建能夠以同等規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。此外,我不會低估高質(zhì)量合成數(shù)據(jù)以及深度和觸覺信息等額外模態(tài)的力量。它們在訓(xùn)練過程的關(guān)鍵步驟中,對互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)起到了補(bǔ)充作用。但前進(jìn)的道路依賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號提取算法,以及遠(yuǎn)為強(qiáng)大的神經(jīng)模擬方法。

      • 新的模型架構(gòu)和表示學(xué)習(xí):世界模型的研究將不可避免地推動模型架構(gòu)和學(xué)習(xí)算法的進(jìn)步,特別是超越當(dāng)前的多模態(tài)大語言模型和視頻擴(kuò)散范式。這兩種范式通常將數(shù)據(jù)標(biāo)記化為一維或二維序列,這使得一些簡單的空間任務(wù)變得異常困難——比如,在一段短視頻中數(shù)出不重復(fù)的椅子數(shù)量,或者記住一個小時前房間的樣子。替代性架構(gòu)可能會有所幫助,例如用于標(biāo)記化、上下文和記憶的具備三維或四維感知能力的方法。例如,在 World Labs,我們最近在一款名為 RTFM(Real-Time Frame-based Model)的實(shí)時生成式幀基模型上的工作就展示了這種轉(zhuǎn)變,它使用基于空間的幀作為一種空間記憶形式,以實(shí)現(xiàn)高效的實(shí)時生成,同時保持生成世界中的持久性。

      顯然,在我們能通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰(zhàn)。這項(xiàng)研究不僅僅是一項(xiàng)理論探索,它是一個新型創(chuàng)意和生產(chǎn)力工具的核心引擎。而 World Labs 內(nèi)部的進(jìn)展令人鼓舞。我們最近向少數(shù)用戶展示了 Marble 的一瞥,這是有史以來第一個可以通過多模態(tài)輸入提示,來生成并維持一致三維環(huán)境的世界模型,供用戶和故事講述者在他們的創(chuàng)意工作流中進(jìn)行探索、互動和進(jìn)一步構(gòu)建。我們正在努力,希望很快能將其向公眾開放!

      Marble 只是我們創(chuàng)造一個真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商界領(lǐng)袖們都開始認(rèn)識到其非凡的潛力。下一代世界模型將使機(jī)器能夠在全新層面上實(shí)現(xiàn)空間智能——這一成就將解鎖當(dāng)今人工智能系統(tǒng)中仍然普遍缺失的關(guān)鍵能力。


      用世界模型為人類構(gòu)建一個更美好的世界

      發(fā)展人工智能的動機(jī)至關(guān)重要。作為幫助開啟現(xiàn)代人工智能時代的科學(xué)家之一,我的動機(jī)一直很明確:人工智能必須增強(qiáng)人類的能力,而非取而代之。

      多年來,我一直致力于使人工智能的開發(fā)、部署和治理與人類的需求保持一致。如今,關(guān)于技術(shù)烏托邦和末日論的極端敘事比比皆是,但我繼續(xù)持有一種更為務(wù)實(shí)的觀點(diǎn):人工智能由人開發(fā),為人所用,并由人治理。它必須始終尊重人的能動性和尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力,讓我們更有創(chuàng)造力、更能互聯(lián)、更有效率、更有成就感。

      空間智能代表了這一愿景——人工智能賦能人類的創(chuàng)造者、照護(hù)者、科學(xué)家和夢想家,去實(shí)現(xiàn)曾經(jīng)的不可能。正是這一信念,驅(qū)動著我將空間智能作為人工智能下一個偉大疆界的承諾。

      空間智能的應(yīng)用橫跨不同的時間線。創(chuàng)意工具正于此刻涌現(xiàn)——World Labs 的 Marble 已經(jīng)將這些能力交到了創(chuàng)造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環(huán),機(jī)器人技術(shù)代表了一個雄心勃勃的中期目標(biāo)。而最具變革性的科學(xué)應(yīng)用將需要更長的時間,但它們有望對人類的繁榮產(chǎn)生深遠(yuǎn)影響。

      在所有這些時間線中,有幾個領(lǐng)域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠(yuǎn)非一個團(tuán)隊或一家公司所能實(shí)現(xiàn)。它需要整個 AI 生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,甚至政策制定者——共同為一個共同的愿景而努力。但這個愿景值得我們?nèi)プ非蟆?/p>

      以下是這個未來所包含的內(nèi)容:

      創(chuàng)造力:為敘事和沉浸式體驗(yàn)注入超能力

      “創(chuàng)造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的一句話。遠(yuǎn)在書面語言出現(xiàn)之前,人類就在講述故事——將它們畫在洞穴墻壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯(lián)系、探索人性意義的方式,最重要的是,是我們尋找生命意義和內(nèi)心之愛的方式。今天,空間智能有潛力改變我們創(chuàng)造和體驗(yàn)敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴(kuò)展到教育,從設(shè)計延伸到建筑。

      World Labs 的 Marble 平臺將為電影制作人、游戲設(shè)計師、建筑師和各類故事講述者提供前所未有的空間能力和編輯可控性,讓他們能夠快速創(chuàng)建和迭代可完全探索的三維世界,而無需傳統(tǒng)三維設(shè)計軟件的繁重負(fù)擔(dān)。創(chuàng)造行為本身依然如故,充滿活力且富有人性;人工智能工具只是放大并加速了創(chuàng)造者所能達(dá)成的成就。這包括:

      • 新維度的敘事體驗(yàn): 電影制作人和游戲設(shè)計師正在使用Marble來構(gòu)想完整的世界,而不受預(yù)算或地理位置的限制,探索在傳統(tǒng)制作流程中難以實(shí)現(xiàn)的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種融合了藝術(shù)、模擬和游戲的全新互動體驗(yàn)——個性化的世界,其中任何人,而不僅僅是工作室,都可以創(chuàng)造并棲居于自己的故事之中。隨著將概念和故事板提升為完整體驗(yàn)的更新、更快捷的方式的出現(xiàn),敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在無數(shù)的界面和平臺上,構(gòu)建擁有共同主線貫穿的世界。

      • 通過設(shè)計實(shí)現(xiàn)空間敘事:基本上,每一個制造出來的物體或建造出的空間,在其實(shí)體化之前都必須在虛擬三維環(huán)境中進(jìn)行設(shè)計。這個過程迭代性強(qiáng),且在時間和金錢上都成本高昂。有了具備空間智能的模型,建筑師可以在投入數(shù)月進(jìn)行設(shè)計之前快速構(gòu)想結(jié)構(gòu),漫步于尚不存在的空間之中——這本質(zhì)上是在講述我們未來可能如何生活、工作和聚集的故事。工業(yè)設(shè)計師和時尚設(shè)計師可以瞬間將想象轉(zhuǎn)化為形態(tài),探索物體如何與人體和空間互動。

      • 全新的沉浸式和互動體驗(yàn):體驗(yàn)本身,是我們這個物種創(chuàng)造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同生活的這個物理世界。直到近幾十年,通過游戲和早期的虛擬現(xiàn)實(shí)(VR),我們才開始瞥見共享我們自己創(chuàng)造的替代世界意味著什么?,F(xiàn)在,空間智能與VR和擴(kuò)展現(xiàn)實(shí)(XR)頭顯、沉浸式顯示器等新形態(tài)設(shè)備相結(jié)合,以前所未有的方式提升了這些體驗(yàn)。我們正邁向一個未來,在那里,步入一個完全實(shí)現(xiàn)的多維世界,將變得像打開一本書一樣自然??臻g智能讓世界構(gòu)建不再僅僅是擁有專業(yè)制作團(tuán)隊的工作室的專利,而是面向個人創(chuàng)作者、教育者以及任何有愿景希望分享的人。

      機(jī)器人技術(shù):行動中的具身智能

      從昆蟲到人類,動物都依賴空間智能來理解、導(dǎo)航并與它們的世界互動。機(jī)器人也不例外。自該領(lǐng)域誕生之初,擁有空間感知能力的機(jī)器就一直是人們的夢想,這也包括我和我的學(xué)生及合作者在斯坦福研究實(shí)驗(yàn)室的工作。這也是為什么我對利用World Labs正在構(gòu)建的這類模型來實(shí)現(xiàn)這一可能性感到如此興奮。

      • 通過世界模型規(guī)模化機(jī)器人學(xué)習(xí): 機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個可行的、可規(guī)?;挠?xùn)練數(shù)據(jù)解決方案??紤]到機(jī)器人需要學(xué)習(xí)理解、推理、規(guī)劃和互動的可能性狀態(tài)空間極其巨大,許多人推測,需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及對人類演示的真實(shí)世界捕捉,才能真正創(chuàng)造出具有泛化能力的機(jī)器人。但與語言模型不同,當(dāng)今的機(jī)器人研究缺乏訓(xùn)練數(shù)據(jù)。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現(xiàn)實(shí)之間的差距。這反過來將有助于在無數(shù)的狀態(tài)、互動和環(huán)境模擬中訓(xùn)練機(jī)器人。

      • 伙伴與協(xié)作者:機(jī)器人作為人類的協(xié)作者,無論是在實(shí)驗(yàn)室工作臺旁協(xié)助科學(xué)家,還是幫助獨(dú)居老人,都可以補(bǔ)充那些急需更多勞動力和生產(chǎn)力的領(lǐng)域。但要做到這一點(diǎn),需要機(jī)器人具備能夠感知、推理、規(guī)劃和行動的空間智能,同時——這是最重要的——與人類的目標(biāo)和行為保持共情的一致。例如,一個實(shí)驗(yàn)室機(jī)器人可以處理儀器,讓科學(xué)家專注于需要靈巧性或推理的任務(wù);而一個家庭助理可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預(yù)測下一個狀態(tài)甚至可能是與這種期望相符的動作,這樣真正具備空間智能的世界模型,對于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。

      • 擴(kuò)展具身形態(tài):人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一定角色。但創(chuàng)新的全部益處將來自更多樣化的設(shè)計:遞送藥物的納米機(jī)器人、穿越狹窄空間的軟體機(jī)器人,以及為深?;蛲馓战ㄔ斓臋C(jī)器。無論其形態(tài)如何,未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知和運(yùn)動。但開發(fā)這些機(jī)器人的一個關(guān)鍵挑戰(zhàn)是,缺乏適用于這些多種多樣的具身形態(tài)的訓(xùn)練數(shù)據(jù)。世界模型將在為這些努力提供模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測試任務(wù)方面發(fā)揮關(guān)鍵作用。

      更長遠(yuǎn)的未來:科學(xué)、醫(yī)療和教育

      除了創(chuàng)意和機(jī)器人應(yīng)用,空間智能的深遠(yuǎn)影響還將延伸到那些人工智能可以增強(qiáng)人類能力、從而拯救生命和加速發(fā)現(xiàn)的領(lǐng)域。我將在下面重點(diǎn)介紹三個具有深度變革潛力的應(yīng)用領(lǐng)域,但毋庸置疑,空間智能的用例在更多行業(yè)中都極為廣闊。

      科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn),并行測試假設(shè),并探索人類無法進(jìn)入的環(huán)境——從深海到遙遠(yuǎn)的行星。這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計算建模。通過將多維模擬與真實(shí)世界數(shù)據(jù)收集相結(jié)合,這些工具可以降低計算門檻,并擴(kuò)展每個實(shí)驗(yàn)室能夠觀察和理解的范圍。

      醫(yī)療健康領(lǐng)域,空間智能將重塑從實(shí)驗(yàn)室到病床邊的每一個環(huán)節(jié)。在斯坦福,我和我的學(xué)生及合作者多年來與醫(yī)院、養(yǎng)老機(jī)構(gòu)以及居家患者共事。這段經(jīng)歷讓我確信空間智能在此處的變革潛力。人工智能可以通過多維度建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中發(fā)現(xiàn)模式來增強(qiáng)診斷,并實(shí)現(xiàn)環(huán)境監(jiān)測系統(tǒng),在不取代治愈所必需的人文關(guān)懷的前提下,為患者和護(hù)理人員提供支持,更不用說機(jī)器人在各種不同場景下幫助我們的醫(yī)護(hù)人員和患者的潛力。

      教育領(lǐng)域,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得具體可感,并創(chuàng)造出對我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代式體驗(yàn)。在人工智能時代,更快、更有效的學(xué)習(xí)和技能重塑的需求,對于學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維度中探索細(xì)胞的運(yùn)作機(jī)制或漫步于歷史事件之中。教師可以獲得通過互動環(huán)境進(jìn)行個性化教學(xué)的工具。從外科醫(yī)生到工程師的專業(yè)人士,都可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。

      在所有這些領(lǐng)域,可能性是無限的,但目標(biāo)始終如一:人工智能應(yīng)增強(qiáng)人類的專業(yè)知識、加速人類的發(fā)現(xiàn)、并放大人類的關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。


      結(jié)語

      過去十年見證了人工智能成為一種全球現(xiàn)象,以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的一個轉(zhuǎn)折點(diǎn)。但作為一名研究者、教育者,以及現(xiàn)在的創(chuàng)業(yè)者,最能激勵我的,仍然是圖靈 75 年前那個問題背后的精神。我依然懷有他那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰(zhàn)而充滿活力。

      歷史上第一次,我們有望制造出與物理世界如此協(xié)調(diào)的機(jī)器,以至于我們可以依賴它們作為我們應(yīng)對最大挑戰(zhàn)的真正伙伴。無論是在實(shí)驗(yàn)室里加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支持,我們正處在一項(xiàng)能夠提升我們最珍視的生活方面的技術(shù)的前沿。這是一個關(guān)于更深刻、更豐富、更強(qiáng)大的人生的愿景。

      在自然界于近五億年前在遠(yuǎn)古動物身上釋放出空間智能的第一縷微光之后,我們有幸成為這一代技術(shù)專家中的一員,或許很快就能賦予機(jī)器同樣的能力——并有幸利用這些能力為世界各地的人們謀福祉。我們對真正智能機(jī)器的夢想,若沒有空間智能,將是不完整的。

      李飛飛原文鏈接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      49 歲馬伊琍爆炸頭官宣新狀態(tài)!文章攜新歡亮相,兩人各自安好

      49 歲馬伊琍爆炸頭官宣新狀態(tài)!文章攜新歡亮相,兩人各自安好

      橙星文娛
      2026-05-14 10:09:49
      阿森納迷惑操作!19 歲天才剛坐穩(wěn)主力,就要被 7000萬先生擠走?

      阿森納迷惑操作!19 歲天才剛坐穩(wěn)主力,就要被 7000萬先生擠走?

      奶蓋熊本熊
      2026-05-15 01:10:37
      多地村鎮(zhèn)理發(fā)店被起訴商標(biāo)侵權(quán) “標(biāo)榜”“東尼”商標(biāo)使用權(quán)為何到了一家英國公司之手|紅星調(diào)查

      多地村鎮(zhèn)理發(fā)店被起訴商標(biāo)侵權(quán) “標(biāo)榜”“東尼”商標(biāo)使用權(quán)為何到了一家英國公司之手|紅星調(diào)查

      紅星新聞
      2026-05-14 18:01:16
      國家發(fā)改委、國家糧食和物資儲備局、財政部、交通運(yùn)輸部、農(nóng)業(yè)農(nóng)村部、中國人民銀行、國家市場監(jiān)督管理總局等聯(lián)合印發(fā)重要通知

      國家發(fā)改委、國家糧食和物資儲備局、財政部、交通運(yùn)輸部、農(nóng)業(yè)農(nóng)村部、中國人民銀行、國家市場監(jiān)督管理總局等聯(lián)合印發(fā)重要通知

      農(nóng)民日報
      2026-05-14 16:45:33
      特朗普來了,成都也火了

      特朗普來了,成都也火了

      城市財經(jīng)
      2026-05-14 11:36:41
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀(jì)經(jīng)濟(jì)報道
      2026-05-13 23:28:25
      他帶了一個轟動全球的豪華天團(tuán)訪華,卻唯獨(dú)把老婆留在了美國?

      他帶了一個轟動全球的豪華天團(tuán)訪華,卻唯獨(dú)把老婆留在了美國?

      菁菁子衿
      2026-05-13 22:15:32
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產(chǎn)車降維打擊!

      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產(chǎn)車降維打擊!

      阿芒娛樂說
      2026-05-14 11:16:01
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      顧蔡衛(wèi)
      2026-05-15 02:35:49
      5月13日向太終于發(fā)聲!向佐郭碧婷分居真相,根本不是婚變

      5月13日向太終于發(fā)聲!向佐郭碧婷分居真相,根本不是婚變

      小椰的奶奶
      2026-05-14 00:14:20
      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現(xiàn)場仍顯緊張

      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現(xiàn)場仍顯緊張

      懂球帝
      2026-05-15 04:13:11
      中美會晤結(jié)束,特朗普松開中方的手,鄰國總統(tǒng):中美穩(wěn)定利好全球

      中美會晤結(jié)束,特朗普松開中方的手,鄰國總統(tǒng):中美穩(wěn)定利好全球

      鐵甲觀
      2026-05-14 17:10:40
      特朗普:美國最高法院門楣上刻著孔子雕像!

      特朗普:美國最高法院門楣上刻著孔子雕像!

      看看新聞Knews
      2026-05-14 21:28:04
      當(dāng)你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態(tài)度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      當(dāng)你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態(tài)度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      心理觀察局
      2026-05-14 09:29:14
      教你一個玄學(xué)法則:當(dāng)你的孩子主動給你買衣服、買吃的,或者主動給你發(fā)紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      教你一個玄學(xué)法則:當(dāng)你的孩子主動給你買衣服、買吃的,或者主動給你發(fā)紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      心理觀察局
      2026-05-13 09:18:07
      徹底涼透!偷稅網(wǎng)紅白冰復(fù)出賣慘翻車,哭訴被陷害,結(jié)局大快人心

      徹底涼透!偷稅網(wǎng)紅白冰復(fù)出賣慘翻車,哭訴被陷害,結(jié)局大快人心

      喜歡歷史的阿繁
      2026-05-15 02:54:49
      馬斯克攜幼子現(xiàn)身北京人民大會堂 外國網(wǎng)友:孩子那身新中式簡直太棒

      馬斯克攜幼子現(xiàn)身北京人民大會堂 外國網(wǎng)友:孩子那身新中式簡直太棒

      快科技
      2026-05-14 19:00:09
      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經(jīng)成了一種常態(tài)

      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經(jīng)成了一種常態(tài)

      上海云河
      2026-05-13 19:55:38
      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      談芯說科技
      2026-05-14 23:23:31
      2026-05-15 05:08:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術(shù)的創(chuàng)造者和使用者
      2691文章數(shù) 7683關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點(diǎn)贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子媽

      財經(jīng)要聞

      李強(qiáng)會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      教育
      公開課
      軍事航空

      藝術(shù)要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現(xiàn)

      家居要聞

      精神奢享 對話塔尖需求

      教育要聞

      老師的績效也隨工資發(fā)了,領(lǐng)導(dǎo)好像不太能拿捏老師們了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美以伊戰(zhàn)爭期間以總理密訪阿聯(lián)酋

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品久久人人做人人爽| 日本视频一两二两三区| 天天摸夜夜添狠狠添高潮出免费| 日本怡春院一区二区三区| www.亚洲精品| A成片人| 欧美一级高清片欧美国产欧美| 日韩亚洲欧美中文高清| 欧洲中文字幕一区二区| 国产亚洲av手机在线观看| 亚洲AV无码专区青青草原| 色噜噜亚洲精品中文字幕| 国产做无码视频在线观看| 精品无码国模私拍视频| 亚洲精品九九| 欧美成人h亚洲综合在线观看| 国产福利在线观看免费第一福利| 欧美Va视频在线播放| 在线a视频网站| 国产一区二区三区高清视频| 亚洲网在线| 虞城县| 国产超高清麻豆精品传媒麻豆精品| 家庭乱码伦区中文字幕在线| 国产成人午夜福利院| 一本久道中文无码字幕AV| 亚洲日韩图片专区第1页| 精品日韩人妻| 国产午夜福利精品片久久| 熟女av在线| 一区二区三区在线观看视频| 欧美亚洲另类一区二区三区| 手机看片福利一区二区三区| 亚洲色综合| 国产白丝一区二区三区| 久青青在线观看视频国产| 亚洲国产精品一区二区第一页| 欧美日韩xxx| 亚洲AV在线观看| 国产真人做爰毛片视频直播| 丰满少妇高潮惨叫久久久|