網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

專訪智源理事長黃鐵軍：通往AGI的路已經(jīng)找到

2026-03-11 11:46:17　來源: 知識(shí)分子

北京舉報(bào)

分享至

智源研究院理事長黃鐵軍

導(dǎo)讀
今年2月，由北京智源研究院的論文"Multimodal learning with next-token prediction for large multimodal models（通過預(yù)測(cè)下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型）"在Nature上發(fā)表。這是繼DeepSeek登上封面后，第二個(gè)中國大模型團(tuán)隊(duì)研究成果在Nature正刊發(fā)表，同時(shí)這也是國內(nèi)科研機(jī)構(gòu)的首次上刊。

撰文｜張?zhí)炱?/strong>

當(dāng)下的多模態(tài)模型主要依賴專門化路徑，文本、視頻與圖像的處理范式各不相同。是否存在可以統(tǒng)一多模態(tài)的通用路線，此前一直缺乏定論。智源研究院在Nature發(fā)表的這項(xiàng)研究，基于其多模態(tài)模型 Emu3表明：只需采用自回歸路線，也就是像大模型處理文本一樣，通過預(yù)測(cè)序列中的下一個(gè)詞元（Next-token Prediction）來理解和生成數(shù)據(jù)，就可以實(shí)現(xiàn)多模態(tài)學(xué)習(xí)的邏輯統(tǒng)一。

Emu3 在感知和生成任務(wù)上均達(dá)到了成熟特定任務(wù)模型的性能，匹配旗艦系統(tǒng)的表現(xiàn)。更重要的是，在同一套統(tǒng)一架構(gòu)下，該模型展現(xiàn)了極強(qiáng)的通用性，能自然地?cái)U(kuò)展到機(jī)器人操作以及多模態(tài)交互內(nèi)容生成等任務(wù)。

本文通訊作者之一，智源研究院理事長、北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍接受了《知識(shí)分子》的訪談。他詳細(xì)介紹了Emu3 如何通過自回歸路線實(shí)現(xiàn)多模態(tài)的統(tǒng)一，并對(duì)當(dāng)前通用人工智能（AGI）發(fā)展的技術(shù)路線發(fā)表了見解。

01 通往 AGI 的路已經(jīng)找到，接下來就是把它走透

《知識(shí)分子》：近年的AI能力進(jìn)步很快。智源一直關(guān)注著AI領(lǐng)域的變化，如果回頭看近年以來的突破，您認(rèn)為真正關(guān)鍵的轉(zhuǎn)折什么？

黃鐵軍：從 2018 年到現(xiàn)在，人們找到了一條能走通的技術(shù)路線，就是自回歸路線：基于Transformer的結(jié)構(gòu)，用預(yù)測(cè)下一個(gè)詞元（Token）的方式去訓(xùn)練模型。這是最重要的從0到1的突破，這條路通向了通用人工智能（AGI）。

智源一直在堅(jiān)持一個(gè)信念，既然Transformer 加上預(yù)測(cè)下一個(gè)詞元的路線，在語言模型上徹底走通了，那它能不能拓展到所有模態(tài)的數(shù)據(jù)，無論是語言、圖像、視頻，還是視覺—語言—?jiǎng)幼鳎╒LA）等多模態(tài)數(shù)據(jù)？這件事在方法論上，我認(rèn)為是完全可行的。

大家現(xiàn)在談?wù)Z言、圖像、視頻，其實(shí)只是我們最常見、最容易理解的數(shù)據(jù)形態(tài)，實(shí)際上這個(gè)方法可以裝得下任意的數(shù)據(jù)形態(tài)，包括這個(gè)世界不同層次的各種數(shù)據(jù)。

但這還只是我們的信念，如果要真正實(shí)現(xiàn)，就得繼續(xù)用這些數(shù)據(jù)去實(shí)踐。技術(shù)創(chuàng)新只能靠時(shí)間去淘洗，靠結(jié)果來證明。

《知識(shí)分子》：您把2018年視作一個(gè)轉(zhuǎn)折點(diǎn)，2018年前后發(fā)生了什么變化？

黃鐵軍：2018 年之前，人工智能主要還是由人主導(dǎo)的，也就是由人來設(shè)計(jì)智能。無論知識(shí)庫還是專家系統(tǒng)，設(shè)計(jì)師像上帝一樣掌控著系統(tǒng)背后的每一個(gè)邏輯，這是一種偏向傳統(tǒng)科學(xué)思維的模式，認(rèn)為先要把具體的原理搞清楚，再去基于原理人工設(shè)計(jì)一個(gè)系統(tǒng)。

但 2018 年之后，隨著第一代GPT的誕生，出現(xiàn)了所謂的生成式人工智能，它的方法論發(fā)生了根本變化。很多人把“生成”理解為系統(tǒng)能生成文本、圖像或視頻，但我更傾向于把生成理解為類似地球生命生成的過程，也就是一種演化生成（evolutionary generation）。

地球上從沒有生命到有生命，從簡單到復(fù)雜，背后有沒有激勵(lì)機(jī)制？當(dāng)然有。但背后的激勵(lì)機(jī)制，我們到現(xiàn)在為止還很不清楚。生命科學(xué)、腦科學(xué)搞了這么多年，總體上還是一個(gè)“黑暗森林”，我們只是在一點(diǎn)點(diǎn)地試圖發(fā)現(xiàn)背后的原理。

2018年后發(fā)生的變化也是這樣。人們找到了走向通用人工智能的一條可行技術(shù)路線，通過數(shù)據(jù)驅(qū)動(dòng)的方法訓(xùn)練模型，讓智能涌現(xiàn)，但是這個(gè)技術(shù)路線下發(fā)生相互作用的過程，我們不清楚。

《知識(shí)分子》：您說自回歸路線是通向AGI的唯一路徑。但對(duì)于AGI的定義爭論很多，您對(duì)它的看法是？

黃鐵軍：我的觀點(diǎn)是，通用人工智能已經(jīng)在一定程度上實(shí)現(xiàn)了。

按照傳統(tǒng)思維方式，大家會(huì)覺得沒實(shí)現(xiàn)，因?yàn)檫€沒搞清楚它的原理，怎么就算實(shí)現(xiàn)了呢？但現(xiàn)在的大模型已經(jīng)表現(xiàn)出很強(qiáng)的通用能力。你可以測(cè)試它，如果從能力上講，它比很多人還強(qiáng)。在這種情況下，我們還要堅(jiān)持說它不是一個(gè)具有通用的智能系統(tǒng)，這就有點(diǎn)不講道理。

大家對(duì) AGI 的認(rèn)知變化，也和人工智能歷史上概念的變化有關(guān)系。最早的通用人工智能定義，是從行為、功能、表現(xiàn)上看的，也就是圖靈測(cè)試。如果用一個(gè)第三方測(cè)試，在互動(dòng)中判斷不出哪個(gè)是人、哪個(gè)是機(jī)器，那就說明這臺(tái)機(jī)器通過了測(cè)試。現(xiàn)在大模型已經(jīng)達(dá)到了這個(gè)要求。

AGI這個(gè)詞差不多是在 90 年代末出現(xiàn)的，至今也就二十幾年的時(shí)間。大家認(rèn)為 AGI 就是通用人工智能。但按照嚴(yán)格的定義，90 年代提出的 AGI 概念其實(shí)是更難實(shí)現(xiàn)的，它認(rèn)為AI需要有自我意識(shí)。

如果AGI是指有自我意識(shí)的人工智能，我認(rèn)為今天還沒實(shí)現(xiàn)，或者這至少是一個(gè)開放性問題。但如果我們不采取這種過于嚴(yán)格的概念，說 AGI 指的一定是有自我意識(shí)，而只是說它能像人一樣完成各種不同的任務(wù)，具備這種通用性，那我認(rèn)為現(xiàn)在是已經(jīng)有了。

《知識(shí)分子》：自回歸這條路線為什么能夠帶來變革。

黃鐵軍：這種方法抓到了智能演化的關(guān)鍵。“預(yù)測(cè)下一個(gè)詞元”看起來簡單，但實(shí)際是智能的核心問題。因?yàn)樗兄悄芟到y(tǒng)本質(zhì)上都在做一件事：用歷史推測(cè)未來。

動(dòng)物要根據(jù)過去的經(jīng)驗(yàn)判斷是否逃跑；人類根據(jù)歷史推斷經(jīng)濟(jì)走勢(shì)；讀書是為了提升對(duì)未來判斷的能力。智能的最基本功能，就是在不確定環(huán)境中，提高做出合理預(yù)期的概率。生物智能進(jìn)化過程，也就是合理選擇的概率不斷提升的過程。

這條路包含兩個(gè)缺一不可的部分。第一個(gè)是 Transformer。如果用生命科學(xué)類比，它就是“結(jié)構(gòu)基礎(chǔ)”。生命科學(xué)里講“結(jié)構(gòu)決定功能”，有什么樣的 DNA，就決定了什么樣的生理形態(tài)。在 AGI 領(lǐng)域，Transformer 就是那個(gè)基本結(jié)構(gòu)。

但僅有基礎(chǔ)還不夠。智能是在與周圍世界互動(dòng)中慢慢演化的。人類大腦也一樣，它的智能不是一次性形成的，而是在環(huán)境變化中逐漸演化。這是所謂功能塑造結(jié)構(gòu)，環(huán)境的壓力在推動(dòng)結(jié)構(gòu)的改變。

在人工智能中，這種演化依賴數(shù)據(jù)驅(qū)動(dòng)。大模型通過自回歸訓(xùn)練，也就是不斷預(yù)測(cè)下一個(gè)詞元來學(xué)習(xí)規(guī)律。每一次預(yù)測(cè)都是一次嘗試：如果預(yù)測(cè)錯(cuò)了，模型就根據(jù)數(shù)據(jù)調(diào)整內(nèi)部參數(shù)。預(yù)測(cè)對(duì)了，就強(qiáng)化這些連接。這樣，模型在海量數(shù)據(jù)作用下逐漸掌握語言、邏輯，甚至多模態(tài)信息的規(guī)律。 Transformer加上自回歸訓(xùn)練，滿足了智能演化的基本條件。

《知識(shí)分子》：預(yù)測(cè)下一個(gè)詞元是如何發(fā)揮作用的？

黃鐵軍：詞元是自然語言處理的基本單元，可以是單詞、詞組或詞根，也可以是標(biāo)點(diǎn)符號(hào)或人工定義的標(biāo)記，本質(zhì)上只是符號(hào)。理解符號(hào)的意義有兩種方式，一種是直接感受，但AI 沒有身體，它只能通過符號(hào)與符號(hào)之間的關(guān)系來學(xué)習(xí)意義。

2018年之前，早期的詞向量方法通過統(tǒng)計(jì)詞與詞之間的共現(xiàn)關(guān)系，把每個(gè)詞映射到一個(gè)高維向量空間。誰經(jīng)常和誰一起出現(xiàn)，它們?cè)诳臻g中的距離就更近。

但這一階段的表示是“固定”的。一個(gè)詞無論出現(xiàn)在什么語境中，其向量基本不變。模型學(xué)到的是詞的平均意義，而不是語境中的動(dòng)態(tài)角色。也就是說，它解決了“詞是什么意思”的問題，卻沒有解決“詞在這句話里是什么意思”的問題。

Transformer 的出現(xiàn)改變了這一點(diǎn)。舉個(gè)例子，《紅樓夢(mèng)》書中前后幾十回的伏筆是相互關(guān)聯(lián)的，理解人物不能只看名字，而是要看他與誰互動(dòng)、經(jīng)歷過什么。Transformer 能夠做的，是在給定的詞元序列中，發(fā)現(xiàn)任意兩個(gè)詞元之間的關(guān)系。放到《紅樓夢(mèng)》里，就是能夠計(jì)算出書中任意兩個(gè)字的相關(guān)性。

人的智能要理解一部小說或長文章，其實(shí)也是在上下文中建立關(guān)系、反復(fù)推敲邏輯。模型本質(zhì)上就在做這件事，只不過它是在更大規(guī)模、更高維度上完成的。不僅理解了內(nèi)容，甚至比我們絕大多數(shù)人讀書理解得都要透徹。

所以，當(dāng)模型預(yù)測(cè)下一個(gè)詞元時(shí)，它并不是簡單地做詞頻統(tǒng)計(jì)。它是在調(diào)用一個(gè)高度復(fù)雜的結(jié)構(gòu)，對(duì)當(dāng)前上下文的全部關(guān)系進(jìn)行壓縮表達(dá)。預(yù)測(cè)只是它的表現(xiàn)，真正發(fā)生的是結(jié)構(gòu)對(duì)規(guī)律的內(nèi)化，并通過這種關(guān)系推演出后續(xù)的發(fā)展。

02 讓AI像預(yù)測(cè)語言一樣預(yù)測(cè)物理世界

《知識(shí)分子》：人工智能現(xiàn)在表現(xiàn)出的能力已經(jīng)相當(dāng)強(qiáng)。但很多研究者認(rèn)為，如果不能把模型內(nèi)部機(jī)理完全解釋清楚，它就不能算真正的通用人工智能。

黃鐵軍：說實(shí)話，這是一種典型的書呆子思維。DeepSeek引發(fā)全球震動(dòng)后，DeepMind CEO哈薩比斯評(píng)論道，“DeepSeek可能是中國最好的人工智能模型，但沒展示任何新的科學(xué)進(jìn)展”。這種批評(píng)就是戴著科學(xué)的眼鏡來看技術(shù)創(chuàng)新問題。

如果一定要類比，人類歷史上很多偉大的技術(shù)突破都是“先有技術(shù)路徑，后有科學(xué)原理”。比如飛機(jī)的發(fā)明，萊特兄弟造出飛機(jī)時(shí)，空氣動(dòng)力學(xué)還遠(yuǎn)未完善，飛機(jī)的飛行原理在當(dāng)時(shí)也未能完全被理論界解釋清楚，但這并不妨礙飛機(jī)已經(jīng)成功飛上了天，并改變了世界。

人工智能的發(fā)展目前也處于這個(gè)階段。大模型現(xiàn)在更接近一項(xiàng)工程創(chuàng)新，而非傳統(tǒng)意義上純粹的科學(xué)探索。通過“預(yù)測(cè)下一個(gè)token”這個(gè)方法論，人類已經(jīng)制造出了具備通用能力的智能系統(tǒng)，這種實(shí)踐上的成功是無可辯駁的。

另外，我們必須明確一點(diǎn)：智能本身是極其復(fù)雜的，它不能被簡化成一套幾條規(guī)則或者公式。僅僅因?yàn)樗环咸囟ǖ脑砘蛞?guī)則，就否定當(dāng)下大模型的智能水平，這像拒絕承認(rèn)飛機(jī)會(huì)飛那樣可笑。

《知識(shí)分子》：但如果一直搞不清楚大模型背后的原理，這種技術(shù)創(chuàng)新能算是一門嚴(yán)謹(jǐn)?shù)目茖W(xué)嗎？

黃鐵軍：原理并不是必要的。我之所以強(qiáng)調(diào)“不必要”，并不是說原理沒有用、不好，而是說不要以它為前提。現(xiàn)在的問題是，一旦講“必要”，很多人就會(huì)認(rèn)為要發(fā)明一套原理才能往下走。我覺得這種認(rèn)知真的限制了一些人做出更大貢獻(xiàn)的機(jī)會(huì)，因?yàn)樗麄兊乃季S太固化了。其實(shí)我以前也是這樣的，但我后來終于解放了自己。

我們發(fā)現(xiàn)了一套有效的方法論，能把海量數(shù)據(jù)轉(zhuǎn)化為智能，這套方法已經(jīng)跑通了。至于其中的機(jī)制，那是后續(xù)科學(xué)研究的任務(wù)，不能作為我們放棄技術(shù)創(chuàng)新的前提。我們不應(yīng)因?yàn)槊孕乓阎目茖W(xué)思維方式，就去否認(rèn)技術(shù)創(chuàng)新的客觀結(jié)果。

當(dāng)下的重點(diǎn)是工程化、規(guī)模化，把這條路走深、走透徹。至于人工智能的科學(xué)原理，自然會(huì)有后來的研究者完成。

《知識(shí)分子》：如果不能總結(jié)成一些規(guī)則或者公式，可以有一些標(biāo)準(zhǔn)判斷智能發(fā)展到什么程度了嗎？

黃鐵軍：可以設(shè)定一些測(cè)量指標(biāo)，但隨著智能的復(fù)雜化，測(cè)量它的尺子也要有變化。真正的智能的復(fù)雜性是無窮無盡的，我們不能削足適履，只拿著靜態(tài)的標(biāo)準(zhǔn)去丈量智能。有限的測(cè)量只能是一個(gè)了解它的一個(gè)窗口，遠(yuǎn)遠(yuǎn)不是全部。

《知識(shí)分子》：您此前多次提到，大模型首先是一種技術(shù)創(chuàng)新。但像Nature這樣的頂級(jí)期刊，往往更看重基礎(chǔ)科學(xué)和理論上的原創(chuàng)貢獻(xiàn)。智源這次選擇把 Emu3 這種相關(guān)的成果投給它，是出于什么考慮？

黃鐵軍：我希望能糾正傳統(tǒng)自然科學(xué)的偏見。很多自然科學(xué)背景的人，被自己的思維方式固化了。他們習(xí)慣于先有一個(gè)客觀存在的對(duì)象，然后去尋找它背后的規(guī)律。

但人工智能不是這樣。人工智能這個(gè)系統(tǒng)本身并不存在于自然界，它是需要被創(chuàng)造出來的，是一個(gè)技術(shù)創(chuàng)新。和傳統(tǒng)自然科學(xué)研究的內(nèi)容，可以說是完全相反的兩個(gè)方向，用一個(gè)方向的思維方式去套到另外一個(gè)方向，是南轅北轍的。

很多人總在問：“人工智能背后的規(guī)律是什么？”可問題是，首先得有一個(gè)已經(jīng)存在的事物，才談得上研究它的規(guī)律。生命存在，所以可以研究生命規(guī)律。但人工智能這個(gè)系統(tǒng)本身還在被建造之中，還沒做出來就追問它的終極原理，那等于把技術(shù)創(chuàng)新的過程卡死了。

如果我們等到完全搞清楚原理才開始動(dòng)手，那可能 300 年都做不出來。技術(shù)史從來不是這樣走的。歷史的常態(tài)，是先有技術(shù)突破，后有科學(xué)解釋。先有飛機(jī)，后有空氣動(dòng)力學(xué)的發(fā)展。先去開發(fā)人工智能，再去研究人工智能科學(xué)。所謂“事有終始，知所先后，則近道矣”，順序都沒有弄清楚，就用自然科學(xué)的尺度去判斷完全不同的方向，有什么可驕傲的呢？

03 用自回歸路線，統(tǒng)一多模態(tài)

《知識(shí)分子》：這篇發(fā)表在Nature的論文，核心發(fā)現(xiàn)是僅通過自回歸路徑即可實(shí)現(xiàn)多模態(tài)學(xué)習(xí)的統(tǒng)一。在您看來，目前主流多模態(tài)模型的技術(shù)局限在哪里？

黃鐵軍：現(xiàn)在說到多模態(tài)，大家容易想到的是“多個(gè)模態(tài)”。也就是把視覺、聽覺、文字這些模態(tài)簡單拼在一起，就成了所謂多模態(tài)。

例如，Transformer在文字任務(wù)上表現(xiàn)優(yōu)秀，但沒有覆蓋多模態(tài)。現(xiàn)在圖像和視頻生成領(lǐng)域主要使用的是Diffusion模型，它的原理是通過迭代去噪實(shí)現(xiàn)高分辨率合成。視覺-語言感知方面，主要依賴組合式方法，利用 CLIP 編碼器與大模型。

如果只是為了解決某個(gè)特定模態(tài)的問題，針對(duì)它的特點(diǎn)去找一些專用的架構(gòu)或算法，效果確實(shí)能做得比較好。但是，如果每一個(gè)模態(tài)都要靠特殊的補(bǔ)丁去縫合，那就不能叫做通用智能。我們關(guān)心的是，有沒有一條通用路線，可以解決各種模態(tài)、各種數(shù)據(jù)的智能問題。

這就是自回歸路線的價(jià)值所在，也是我們認(rèn)定未來構(gòu)建通用人工智能的核心思路。Emu3 就是在這一思路下誕生的。通過對(duì) Emu3 的實(shí)驗(yàn)驗(yàn)證，我們發(fā)現(xiàn)即使不依賴擴(kuò)散模型或組合式架構(gòu)，純粹的自回歸模型在感知和生成上也能達(dá)到旗艦?zāi)Ｐ退健?/p>

《知識(shí)分子》：論文提到Emu3 采用純自回歸路徑生成視頻，且性能表現(xiàn)足以對(duì)標(biāo)目前主流的擴(kuò)散模型（Diffusion Model）。純自回歸與擴(kuò)散模型在本質(zhì)區(qū)別上是什么？

黃鐵軍：Diffusion的生成，是生成內(nèi)容本身，并不是我前面提到的演化生成，這兩者有根本區(qū)別。

自回歸路線適合所有類型的數(shù)據(jù)，是個(gè)通用的方法。通過預(yù)測(cè)下一個(gè)詞元，它能夠?qū)λ蓄愋偷臄?shù)據(jù)進(jìn)行建模。圖像、視頻，甚至是機(jī)器人的動(dòng)作，這種方法都能處理。這也是我們堅(jiān)持自回歸路線的理由，它有很大希望能夠統(tǒng)一所有的模態(tài)。

Diffusion 模型在生成圖像和視頻時(shí)表現(xiàn)很出色，它的核心是模擬物理擴(kuò)散過程：比如墨水滴在水中擴(kuò)散，從初始狀態(tài)到混合狀態(tài)，然后通過逆向過程生成圖像或視頻。這類方法擅長生成視覺效果，畫面看起來逼真，但它并不關(guān)注畫面背后事物之間的真實(shí)規(guī)律。這種方法適合圖像生成這個(gè)相對(duì)較窄的領(lǐng)域，是一個(gè)專用的方法。

當(dāng)面對(duì)語言或其他抽象數(shù)據(jù)時(shí)，情況就不同了。語言中，詞語之間存在復(fù)雜的語義和結(jié)構(gòu)關(guān)系，小說中的角色、事件和概念相互聯(lián)系，形成龐大而復(fù)雜的網(wǎng)絡(luò)。這種復(fù)雜性遠(yuǎn)超過物理世界中分子或像素的相互作用，Diffusion 方法在這種情況下無法有效建模。它無法捕捉詞語之間深層的邏輯關(guān)系，也不能推演未來的發(fā)展。

《知識(shí)分子》：后續(xù)的研究，還會(huì)進(jìn)一步擴(kuò)展到其他模態(tài)嗎？

黃鐵軍：這篇論文已經(jīng)給出了答案。我們把Emu3 轉(zhuǎn)化成視覺-語言-動(dòng)作（VLA）模型，直接去跑機(jī)器人操作任務(wù)。在 CALVIN 這個(gè)長程操作的基準(zhǔn)測(cè)試?yán)铮@種通用路線做出來的效果，完全不輸給那些專門針對(duì)機(jī)器人開發(fā)的模型。

有一點(diǎn)很重要：我們是直接做視覺、語言和動(dòng)作的離散編碼，不像有些路徑還需要專門搞視頻后訓(xùn)練。這再次證明了，自回歸就是一個(gè)普適邏輯。它不需要針對(duì)特定任務(wù)打補(bǔ)丁，只要邏輯通了，就能從感知和生成自然地延伸到具身領(lǐng)域。

Nature發(fā)表的這項(xiàng)工作，其實(shí)是我們?cè)?2024 年基于 Emu3 的初始版本完成的。到了 2025 年，我們又推出了 Emu3.5。

圍繞這個(gè)新版本，我們有了更深層的發(fā)現(xiàn)：隨著模型參數(shù)、數(shù)據(jù)和算力的規(guī)模增長，模型對(duì)物理世界的動(dòng)態(tài)、時(shí)空關(guān)系以及因果邏輯，表現(xiàn)出了明顯的理解和預(yù)測(cè)能力的涌現(xiàn)。這說明大模型的Scaling Law 不僅僅在語言上靈驗(yàn)，把它擴(kuò)展到比語言更復(fù)雜、充滿物理規(guī)律的真實(shí)世界，這條路同樣是走得通的。

《知識(shí)分子》：雖然Emu3 證明了自回歸路線在多模態(tài)上的潛力，但目前這仍然是一種路徑嘗試。要真正實(shí)現(xiàn)“世界模型”，我們還缺什么？

黃鐵軍：最近很多人在討論Scaling Law 是不是到頭了，我認(rèn)為這個(gè)說法是不對(duì)的，不是這條規(guī)律到頭了，而是語言相關(guān)的數(shù)據(jù)挖掘到頭了。

大家現(xiàn)在談“世界模型”，但什么才叫“世界”？對(duì)機(jī)器人來說，進(jìn)房間不碰桌子、抓杯子知道力道，這就算認(rèn)識(shí)世界了嗎？遠(yuǎn)遠(yuǎn)不夠。真實(shí)的客觀世界有復(fù)雜的物理相互作用：你撞墻時(shí)，墻是水泥的還是木頭的？如果是玻璃，你能不能直接沖過去？這些關(guān)于力學(xué)、關(guān)于物質(zhì)屬性的邏輯，在今天的模型訓(xùn)練里其實(shí)是缺失的。

往深了說，原子與分子之間的相互作用、混凝土凝固后的硬度，難道不是世界的一部分嗎？如果是，那科學(xué)實(shí)驗(yàn)的數(shù)據(jù)、對(duì)分子測(cè)量的各種數(shù)據(jù)，都該拿來訓(xùn)練。只靠今天互聯(lián)網(wǎng)上的這點(diǎn)語言和圖像數(shù)據(jù)，是撐不起真正的通用人工智能的。

哪怕建模了人類已知的所有細(xì)節(jié)，我們也遠(yuǎn)沒有窮盡這個(gè)世界。客觀世界的復(fù)雜性是無限的，我們只能不斷去逼近它。只要這種無限性還在，只要我們能引入更深層的科學(xué)數(shù)據(jù)，Scaling Law 就沒有頭。

《知識(shí)分子》：智源一直在支持來自高校和企業(yè)界的學(xué)者。那作為一個(gè)獨(dú)立研究機(jī)構(gòu)，智源做的研究和大學(xué)以及企業(yè)做的研究有什么不同。

黃鐵軍：智源不做大學(xué)和企業(yè)正在做的事情。

有些事情大學(xué)做不了，不是因?yàn)闆]有能力，而是條件不夠。想做一個(gè)有系統(tǒng)的、實(shí)際可操作的項(xiàng)目，需要團(tuán)隊(duì)、經(jīng)費(fèi)、時(shí)間去搭建。學(xué)校里，老師可以自己琢磨理論問題，但要做一個(gè)完整的系統(tǒng)，就必須先找經(jīng)費(fèi)、組團(tuán)隊(duì)，這個(gè)周期很長。而AI 的迭代速度根本不等你慢慢跑經(jīng)費(fèi)。等你花一年時(shí)間把錢拿到手，技術(shù)風(fēng)向可能早就變了。

再說企業(yè)。企業(yè)是務(wù)實(shí)的，當(dāng)一條技術(shù)路線還沒有徹底跑通、還只是一種信念的時(shí)候，企業(yè)是不敢砸重金去試錯(cuò)的。企業(yè)愿意做的是別人已經(jīng)試過了、行之有效的東西，然后迅速把它變成可預(yù)期的產(chǎn)品。

智源處在大學(xué)和企業(yè)之間的中間地帶。我們有相對(duì)穩(wěn)定的經(jīng)費(fèi)和團(tuán)隊(duì)，我們只要達(dá)成共識(shí)，自回歸路線是解決所有模態(tài)的唯一通用路線，那我們就直接動(dòng)手干。工程技術(shù)的東西，對(duì)不對(duì)不是靠說服，而是要拿實(shí)際的結(jié)果來證明。

我們要做的就是花時(shí)間把東西做出來。一旦證明這條路通了，企業(yè)自然會(huì)跟進(jìn)，花更多的錢去產(chǎn)業(yè)化

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

「機(jī)器學(xué)習(xí)之父」Jordan：Hinton等思想領(lǐng)袖們正在傷害年輕一代

機(jī)器之心Pro 2026-06-22 09:46:00
1 跟貼 1

人工智能與人腦

虎嗅APP 2026-06-25 19:41:24
3 跟貼 3

世界引擎：Post-Training開啟Physical AGI新紀(jì)元

機(jī)器之心Pro 2026-04-19 20:00:03
0 跟貼 0

90 后正在掌管中國 AI，憑實(shí)力活成了「爽文」主角

愛范兒 2026-01-19 18:14:14
0 跟貼 0

三個(gè)月融兩輪，清華00后團(tuán)隊(duì)要給機(jī)器人“裝上”觸覺

鈦媒體APP 2026-06-25 21:14:24
0 跟貼 0

AI軟遞歸自我提升，Hassabis夜不能寐：人類已至奇點(diǎn)山腳

新智元 2026-06-25 09:44:44
13 跟貼 13

主題圓桌：當(dāng)所有人都看到泡沫，機(jī)器人何時(shí)走入真實(shí)場(chǎng)景 | 36氪WAVES2026新浪潮

36氪 2026-06-25 11:43:17
10 跟貼 10

RoboScience機(jī)器科學(xué)發(fā)布Visics通用具身大模型，實(shí)現(xiàn)跨本體、跨物體、跨任務(wù)｜最前線

36氪 2026-06-25 15:47:30
0 跟貼 0

他們從四家頂尖AI實(shí)驗(yàn)室辭職，要打造能自己跑實(shí)驗(yàn)的AI系統(tǒng)

DeepTech深科技 2026-06-25 18:37:34
0 跟貼 0

安心養(yǎng)蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0

讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0

持續(xù)領(lǐng)跑世界模型驅(qū)動(dòng)物理AGI，極佳視界再獲10億元B2輪融資

36氪 2026-06-19 17:24:18
0 跟貼 0

“AI領(lǐng)域最被濫用的術(shù)語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

大神程序員蒸餾自己，用16個(gè)skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0

百度沈抖自曝：老忘吃藥，用AI做了個(gè)小程序

量子位 2026-03-27 11:25:23
0 跟貼 0

這個(gè)時(shí)代必須以Agent為中心：三個(gè)趨勢(shì)回顧

量子位 2026-04-05 02:14:15
0 跟貼 0

AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0

Agent輸出到底該用誰？卡帕西轉(zhuǎn)發(fā)：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0

邱錫鵬：未來我們一定會(huì)進(jìn)入泛情境智能時(shí)代

量子位 2026-05-21 08:04:26
0 跟貼 0

LLM數(shù)據(jù)量大管飽，機(jī)器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0

Anthropic的AI讀心術(shù)，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0

對(duì)談樓天城：Harness會(huì)成為AI時(shí)代最關(guān)鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0

亦莊機(jī)器人馬拉松現(xiàn)場(chǎng)名場(chǎng)面合集

量子位 2026-04-20 00:34:54
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

王曉野：Working Agent將是下一個(gè)爆發(fā)點(diǎn)

量子位 2026-05-21 08:05:51
0 跟貼 0

具身智能的數(shù)據(jù)困境，不只在數(shù)量

智東西 2026-06-24 22:11:53
0 跟貼 0

誰知道這是什么原理嗎

棱鏡視聽 2026-06-23 10:28:19
3 跟貼 3

孩子總問“量子是什么”？這本書或許能講清楚

蝌蚪五線譜 2026-06-22 18:00:09
0 跟貼 0

如果世界是電腦模擬的，人類能否像黑客一樣“越獄”逃離?

DeepTech深科技 2026-02-16 10:08:29
32 跟貼 32

機(jī)器學(xué)習(xí)之父新訪談：別再用「超級(jí)智能」嚇唬年輕人

量子位 2026-06-23 20:25:27
0 跟貼 0

新增38個(gè)本科專業(yè)！盤點(diǎn)有趣新興又小眾的“寶藏專業(yè)”

閃電新聞 2026-06-26 07:19:13
0 跟貼 0

一圖搞懂！基因編輯的基本原理

生物學(xué)霸 2026-06-03 14:05:47
0 跟貼 0

宗熙先生：把“丟輪保命”當(dāng)營銷賣點(diǎn)，在結(jié)構(gòu)上不成立

宗熙先生 2026-06-25 11:30:50
0 跟貼 0

投資600萬元的加油站，建成即被“責(zé)令限期拆除”？河南淮濱縣發(fā)布情況通報(bào)

環(huán)球網(wǎng)資訊 2026-06-25 14:21:30
7863 跟貼 7863

這就是早期投影儀的原理了

科學(xué)大搜索 2026-06-22 18:41:07
1 跟貼 1

這是什么原理？

努力生活66 2026-06-22 21:24:15
2 跟貼 2

“千斤把”鍛煉原理及方法

張玉全內(nèi)練養(yǎng)生 2026-06-21 15:34:42
4 跟貼 4

首搭超級(jí)智能體迪迪蝦，騰勢(shì)N8L閃充版正式上市31.98萬元起

毛啟盈Ai圈 2026-06-23 22:36:59
0 跟貼 0

科技商學(xué)院要培養(yǎng)“把論文變成產(chǎn)品”的年輕人

中國青年報(bào) 2026-06-26 06:24:16
0 跟貼 0

一圖搞懂！流式檢測(cè)細(xì)胞周期的原理及避坑

生物學(xué)霸 2026-06-05 11:22:05
0 跟貼 0

中國男排1-3不敵比利時(shí)，世界男排聯(lián)賽目前1勝5負(fù)
懂球帝
2026-06-26 00:46:20

世界杯戰(zhàn)報(bào)：再爆大冷預(yù)警世界第6扳平了2-2第87，日本很難很難了
求球不落諦
2026-06-25 07:35:47

5-2領(lǐng)先！梅西18球登頂射手王，但C羅這座山，怕是連梅西都翻不過
生活新鮮市
2026-06-25 17:47:46

對(duì)話綿陽歷史類分?jǐn)?shù)屏蔽考生谷子沐：學(xué)文科見多識(shí)廣很重要訣竅是愛和老師交流，問各種問題
紅星新聞
2026-06-25 23:24:12

癌癥是基因注定的，躲也躲不掉？父母得了5種癌，或遺傳給下一代
39健康網(wǎng)
2026-06-25 08:30:42

沾沾喜氣！2026河南高分考生誕生，高考718分，來自一所縣級(jí)高中
凱旋學(xué)長
2026-06-25 21:25:11

全球能源告急！中國瞞了世界 30 年，如今用兩桶油讓世界刮目相看
蜉蝣說
2026-06-22 11:42:34

“穿男朋友花一分錢買的鞋上班后……”哈哈哈哈哈能出趟門也算回本了！
脆皮先生
2026-06-24 22:59:29

正式回應(yīng)，他倆沒復(fù)婚！
黎兜兜
2026-06-25 01:03:13

臺(tái)灣回歸新方案浮出水面：國民黨如果同意，解放軍或無需動(dòng)武
雅兒姐愛追劇
2026-06-25 06:56:59

賈淺淺的事最新回應(yīng)來了
大張的自留地
2026-06-24 18:47:36

絕處逢生！從0-1到2-1，他們終結(jié)20年等待，世界杯出線，德國首敗
等等talk
2026-06-26 06:39:10

廣州市一棟3層大別墅拍賣，被人撿漏152萬元就競得
老覃講歷史
2026-06-25 17:16:50

8000件絕密證據(jù)堆成山！菲律賓連夜清算副總統(tǒng)，不睡也要審
超喜歡我
2026-06-25 10:05:18

朱莉皮特6娃全數(shù)疏遠(yuǎn)，唯獨(dú)23歲長子留父姓：他是唯一還聯(lián)系父親家族的人
赴一場(chǎng)山海啊
2026-06-25 00:20:01

四川2026高考成績分段統(tǒng)計(jì)表出爐！
新浪財(cái)經(jīng)
2026-06-25 19:46:42

就是這張圖，劉亦菲讓內(nèi)娛從水光變“啞光”，全身涂粉時(shí)代開啟
書咚咚
2026-06-25 18:46:30

我被調(diào)到水庫無人問津，三年后，貶我的女書記以領(lǐng)導(dǎo)身份來視察
千秋文化
2026-06-24 19:37:39

為什么紅軍到了陜北，就安全了？原因很現(xiàn)實(shí)，6個(gè)原因
老呶侃史
2026-06-11 21:36:40

央企巨頭逃稅被審計(jì)署點(diǎn)名通報(bào)，背后的信號(hào)比罰款更耐尋味！
識(shí)局Insight
2026-06-26 01:41:53

2026-06-26 07:27:00

知識(shí)分子

關(guān)注科學(xué)、人文、思想

688文章數(shù) 1118關(guān)注度

往期回顧全部

科技要聞

存儲(chǔ)成本壓力山大！蘋果罕見全球提價(jià)

宇樹機(jī)器人大降價(jià)

從580億到萬億市值，智譜的半年狂奔

豆包專業(yè)版上線：定價(jià)68-500元每月

傳智譜考慮在港配售募資數(shù)十億美元

頭條要聞

超巴西獨(dú)享第1 德國1-2厄瓜多爾時(shí)隔12年重返淘汰賽

霍爾木茲海峽再現(xiàn)風(fēng)險(xiǎn)：一艘貨船遇襲數(shù)艘油輪折返

女孩在網(wǎng)紅景點(diǎn)拍照時(shí)墜湖身亡前一天剛參加中考

佛得角足協(xié)給中國男足支招

男子徒手抓蛇被咬還淡定合影結(jié)果歷經(jīng)4次搶救兩進(jìn)ICU

頭條要聞

超巴西獨(dú)享第1 德國1-2厄瓜多爾時(shí)隔12年重返淘汰賽

霍爾木茲海峽再現(xiàn)風(fēng)險(xiǎn)：一艘貨船遇襲數(shù)艘油輪折返

女孩在網(wǎng)紅景點(diǎn)拍照時(shí)墜湖身亡前一天剛參加中考

佛得角足協(xié)給中國男足支招

男子徒手抓蛇被咬還淡定合影結(jié)果歷經(jīng)4次搶救兩進(jìn)ICU

體育要聞

世界杯最動(dòng)人一吻：我若離世你就改嫁吧

Shams：科比-懷特3年7400萬重回黃蜂

8換2大交易！森林狼獲三球搭檔華子沖冠黃蜂獲里德+多個(gè)選秀權(quán)

Here we go！羅馬諾：森林中場(chǎng)埃利奧特-安德森1.3億鎊加盟曼城

Here we go！羅馬諾：納撒尼爾-布朗5500萬歐元加盟拜仁

娛樂要聞

這國產(chǎn)劇太裝了，居然還熱播第一？

向家的豪門職場(chǎng)學(xué)：向佐翻身，向佑被拉黑？

E句話| 韓國新戀綜為Rapper選女嘉賓？

謝霆鋒王菲低調(diào)現(xiàn)身西安，共同籌備演唱會(huì)

丈夫和女兒都在美國，她65歲仍在國內(nèi)奔波掙錢

財(cái)經(jīng)要聞

又有紙尿褲送檢后被檢測(cè)出甲酰胺！

7月進(jìn)成都，超盒算NB逆勢(shì)擴(kuò)張，阿里“不放棄”生鮮

戶籍改革來臨，北上廣戶口還值錢嗎？

沃爾沃「親兒子」解散，汽車金融怎么了？

股價(jià)一年膝斬，老鋪黃金從“明星”變“老登”

汽車要聞

老板們的新座駕！65萬元起，尊界V800/V680開啟預(yù)訂

一汽-大眾邁騰PHEV、探岳L PHEV雙車上市 16.99萬起

純電/增程雙動(dòng)力零跑D99上市售24.98萬元起

138.8萬元！東方頂奢尊界S800 Grand Design典藏大觀上市

東風(fēng)奕派納米06智趣版上市指導(dǎo)價(jià)9.99萬元起

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產(chǎn)

健康

游戲

軍事航空

教育要聞

山東高考生注意！近800個(gè)高考志愿填報(bào)咨詢服務(wù)站，分兩時(shí)段開放，免費(fèi)服務(wù)考生

2026年山東高考分?jǐn)?shù)線發(fā)布：一段線442分

6月25日，2026年山東高考分?jǐn)?shù)線發(fā)布：體育類一段線574分

6月25日，“低分高錄”“內(nèi)部渠道”都別信

為什么我高考時(shí)候沒人告訴我有心得我真說

房產(chǎn)要聞

城市精英集體出手！科學(xué)城這一現(xiàn)象級(jí)熱銷紅盤，憑何成為共識(shí)之選？

萬萬沒想到這家國企造的住宅竟成了區(qū)域頂流！

海南高中，擴(kuò)招1.2萬，沖上歷史新高！

白鵝潭新增優(yōu)質(zhì)宅地！沙涌地塊對(duì)望太古里，容積率僅 2.14

醫(yī)生如何快速診斷腦梗和腦出血？

外出踏青、郊游，千萬警惕這種蟲子！

千滾水、隔夜水到底能喝嗎？真相來了！

外賣這樣吃，便利又健康！很多人不知道

中疾控發(fā)布春夏呼吸道疾病防護(hù)指南

R星官宣《GTA6》開啟預(yù)購！官網(wǎng)現(xiàn)已開放購買入口

《GTA6》終極版確認(rèn)無實(shí)體！僅有100美元數(shù)字版

R星官方確認(rèn)《GTA6》沒光盤！且實(shí)體版數(shù)量有限

《輪回之獸》游先看試玩報(bào)告：各種意義上都出人意料"/> 主站商城論壇自運(yùn)營登錄注冊(cè) 《輪回之獸》游先看試玩報(bào)告：各種意義上都出人意料 Marv...

軍事要聞

特朗普：現(xiàn)在到了關(guān)注朝鮮問題的時(shí)候了

就涉伊朗問題特朗普與共和黨籍議員發(fā)生激烈爭吵

美伊談判月底繼續(xù) 圍繞對(duì)伊核查各執(zhí)一詞

中國航母編隊(duì)靠什么"甩掉偷窺者"

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

專訪智源理事長黃鐵軍：通往AGI的路已經(jīng)找到

01 通往 AGI 的路已經(jīng)找到，接下來就是把它走透

02 讓AI像預(yù)測(cè)語言一樣預(yù)測(cè)物理世界

03 用自回歸路線，統(tǒng)一多模態(tài)

存儲(chǔ)成本壓力山大！蘋果罕見全球提價(jià)

超巴西獨(dú)享第1 德國1-2厄瓜多爾時(shí)隔12年重返淘汰賽

超巴西獨(dú)享第1 德國1-2厄瓜多爾時(shí)隔12年重返淘汰賽

世界杯最動(dòng)人一吻：我若離世 你就改嫁吧

這國產(chǎn)劇太裝了，居然還熱播第一？

又有紙尿褲送檢后被檢測(cè)出甲酰胺！

老板們的新座駕！65萬元起，尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

山東高考生注意！近800個(gè)高考志愿填報(bào)咨詢服務(wù)站，分兩時(shí)段開放 ，免費(fèi)服務(wù)考生

城市精英集體出手！科學(xué)城這一現(xiàn)象級(jí)熱銷紅盤，憑何成為共識(shí)之選？

醫(yī)生如何快速診斷腦梗和腦出血？

R星官宣《GTA6》開啟預(yù)購！官網(wǎng)現(xiàn)已開放購買入口

特朗普：現(xiàn)在到了關(guān)注朝鮮問題的時(shí)候了

世界杯最動(dòng)人一吻：我若離世你就改嫁吧

山東高考生注意！近800個(gè)高考志愿填報(bào)咨詢服務(wù)站，分兩時(shí)段開放，免費(fèi)服務(wù)考生