![]()
來源:量子位 | 公眾號 QbitAI
Jay 發自 凹非寺
Lecun這次是真跟Hinton爆了……
Hinton之前從來沒特別關注過LLM。結果2023年GPT-4出來,他突然跟頓悟了一樣: “天哪,這些模型已經非常接近人類智能了,它們可能有主觀體驗……”
對于這種轉變,Lecun表示——
完全不認同,難以理解。
![]()
我感覺他就是想擺爛:“好了,這就是我們需要的,我可以宣布勝利了。” “嗯嗯,我可以退休了。然后到處去做關于AI危險的演講。”
緊接著,話鋒一轉,又把矛頭指向了另一位圖靈獎得主。
其實很多事情我早在幾年前就說過,Hinton最近才意識到。 Bengio的情況類似。
這也是為什么Lecun在被主持人問到為何如此「另類」時,回答:
從來沒有什么我和Hinton和Bengio分道揚鑣,是他們變了。
既然要可汗大點兵,當然避免不了聊到老東家。
到了2024年初、尤其是2025年,FAIR已經不符合我認為保持創新、研究和突破所需要的條件了。 很多優秀的人都走了。
至于原因,Lecun說其實扎克伯格很好,領導層也都很支持他。只不過,Meta也卷入LLM競賽后,實在沒辦法只顧著埋頭做研究了。
對此,Lecun表示很遺憾。
因為在他看來,要獲得突破性研究「其實很簡單」。
就雇最好的人,這些人有嗅覺,知道該做什么。你給他們成功所需的資源,然后…… 滾開,別擋路。
但主持人還是不太滿意,一路刨根問底:為什么?為什么?為什么??
重點懷疑對象——亞歷山大王。
主持人:
Scale AI的收購是不是這個純LLM聚焦的催化劑之一?
LeCun的回答也很實在了,真是問啥說啥。
肯定是的。但我不確定我是否有足夠的內部信息來評論。 扎克伯格可能在亞歷山大王身上看到了某種接班人的影子,一個更年輕版本的自己。
除了這些,當然也保留了經典節目。
Lecun用帶著點調侃的語氣,再次向LLM陣營發起了挑釁。
JEPA類世界模型,五年內統治AI圈。(笑)
這是Lecun的最新一期播客專訪,他跟主持人聊了快一個半小時,關于世界模型、JEPA、為什么離開Meta、為什么LLM走不到AGI……
![]()
好久沒有這么逐字逐句地聽訪談了,真有點力竭。
全程不敢跳過,全程無尿點,Lecun全程都在瘋狂輸出暴論:
Anthropic在試圖用恐懼來推動AI監管,我完全不認同這種做法。
LLM永遠不可能可靠,不是所有事情都是Coding。
模仿學習就是不行,連自動駕駛這一個任務都搞不定。
世界模型希望解決的,是zero-shot解決新任務
如果你在讀PhD,別做LLM。沒意義,你做不了貢獻。
還有少數地方是真的在做研究,比如DeepMind。但整個行業越來越封閉了。
以下附上訪談全文。
為保證可讀性,量子位在不改變原意的基礎上,對內容做了部分調整。
Enjoy。
為什么LLM不是通往智能的路
主持人:你當年押注神經網絡,所有人都在質疑你,結果證明你是對的。
現在你又在做一個類似的事情,押注against LLM和主流的生成式架構。
你最近還圍繞這個方向創辦了新公司AMI。AMI在做什么?
LeCun:首先我要說清楚,LLM沒有什么問題。
LLM是很多非常有用的AI產品的基礎,我自己也在用,它們很好,做它們該做的事情。
但LLM不是通往人類水平智能的路徑,甚至不是通往動物水平智能的路徑。
主持人:你自己還幫著做了最早一批主要的開源LLM。
LeCun:沒錯。所以AMI是什么?AMI代表Advanced Machine Intelligence,我們的定位是AI for the real world。
今天大家熟知的AI技術,擅長的是語言操作。
語言是很特殊的一種東西,它特別適合目前這些成功的架構。
但現實世界呢?是高維的、連續的、有噪聲的、混亂的。難度完全不在一個量級。
這也是我大半個職業生涯在做的事情,過去五六年加速推進,最近兩年取得了實質性進展。
到去年年底,很明顯Meta已經不是推進這個項目的合適場所了,所以我離開并創辦了AMI。
主持人:這似乎是一個行業趨勢,越來越多的人從大公司或研究實驗室出來,帶著自己興奮的研究方向創業。
LeCun:這確實是一個很奇怪的trade off。
有兩種模式。一種是大量探索性研究,很多方向并行。然后某個東西好像work了,你需要繼續推進,但它已經不是研究了。
做這些事的人是研究員——至少媒體這么叫他們——但實際上已經變成了工程和產品化。
這種事在Meta發生過好幾次。
2023年初,FAIR開發的Llama 1非常有前景,Meta專門創建了Gen AI組織來把它變成真正的產品,后來出了Llama 2、Llama 3、Llama 4。
Llama 4有點令人失望,扎克伯格對此不滿意,把整個組織重組了,換了新人。
但過去一年真正發生的事情是,Meta意識到自己落后了,于是把戰略重新聚焦到追趕行業上。
副作用就是,大量的探索性研究被降低了優先級。
我做的JEPA和世界模型的工作倒沒有受影響,但公司其他部分完全聚焦在LLM上了。
這讓我很清楚,Meta不再是推進這個項目的合適地方。
我們有了初步成果,需要從研究轉向真正的技術開發、規模化和產品化。
同時我們也意識到,大部分應用場景Meta其實不太感興趣,比如制造業。
世界模型
主持人:你在追求世界模型這個大方向。但也有其他人從更偏生成式的角度切入世界模型,比如Google的Genie、各種視頻模型,VLA,還有李飛飛做的3D空間模型……你怎么看JEPA模型和這些方法的比較?
LeCun:世界模型正在快速變成一個buzzword,在研究領域已經是了,在工業界也開始了。
VLA我就不多說了。這條路現在普遍被認為走不通了,不夠可靠,需要的訓練數據太多。
那什么是世界模型?從根本上說,世界模型就是讓一個智能體能預測自己行為的后果。
我無法想象你怎么能構建一個agent系統,而這個系統沒有預測自己行為后果的能力。如果人類不考慮后果就行動,別人會覺得我們是傻子。
所以世界模型就是這么回事,能夠預測你自己行為的后果,你就可以規劃一系列行動來完成一個任務、達成一個目標。
通過規劃、推理、搜索和優化來做這件事,而不是像LLM那樣一個token接一個token地自回歸預測。你是在搜索一個能完成任務的最優行動序列。
LLM沒有預測自己行為后果的能力,也沒有真正的規劃能力,因為推理就是預測下一個token,不是搜索。
所以,智能行為需要三個特征。
第一,預測行為后果的能力。
第二,通過優化和搜索來規劃的能力,找到能產生正確結果的行動序列。
第三,就是你怎么預測行為的后果。
比如我面前有一個沒有蓋的水瓶。如果我推瓶子底部,它會在桌上滑動。如果我推瓶子頂部,它可能會翻倒。
但我們無法精確預測瓶子會往哪個方向倒。我們不可能在像素級別預測這些。
我們大腦中的世界模型,預測的是一個抽象層面的表征。
JEPA
主持人:這個架構的設計,很大程度上是受人腦啟發的?
LeCun:至少是受認知科學的啟發。能不能直接翻譯成一個具體的神經網絡架構,這中間有很大的gap。
認知科學確實是一個動機。心理學中的系統二就是這個意思,你在做深思熟慮的、反思性的行為時,會想象、預測自己行為的后果,然后據此規劃。跟系統一那種本能的、反應性的行為不同。
所以有靈感來源,但也有大量的實證證據表明,你不應該去生成像素。
我對通過預測來建立世界模型這件事感興趣很久了。
大約五年前有一個頓悟的時刻,我意識到所有成功學到了好的圖像和視頻表征的架構,都是非生成式的。
VAE,變分自編碼器,或者更廣義的自編碼器,直覺上似乎是學習輸入的抽象表征的自然方式。你把圖像輸入一個神經網絡,訓練它在輸出端重建輸入。
但如果你用一個大的神經網絡直接這么做,什么有趣的事情都不會發生,它只是學到了恒等函數,完全沒意義。
用VAE來學圖像表征,能得到一些東西,但效果真的不好。稀疏自編碼器也一樣。
還有一類技術,叫denoising auto encoder,MAE是它的一個變體,BERT在NLP里也是類似的思路。你把圖像損壞一部分,然后訓練神經網絡恢復原始圖像。
FAIR曾經有一個大項目做這件事,投入了大量計算資源,結果非常令人失望。
但同時,一些相同的人和巴黎、紐約的其他人,在做另一套技術,用的是非生成式架構。
你拿一張圖像,損壞它,把兩個版本分別送入編碼器,然后用一個預測器,從損壞版本的表征去預測原始版本的表征。
這就是JEPA。一個編碼器對一個觀察編碼,另一個編碼器對另一個觀察編碼,然后用一個預測器從第二個的表征預測第一個的表征。
當下具身模型的問題
主持人:現在很多機器人公司發布的demo越來越impressive,似乎展示了某種規劃和推理能力,即使面對沒見過的房間或任務版本也能執行。你怎么看?
LeCun:確實有真實的進展,有些demo確實令人印象深刻。但這些系統需要海量的數據來訓練,要么通過遙操作采集,要么通過人手握著夾持器操作來收集……
主要靠模仿學習訓練,加上一點在仿真中做的強化學習。
問題在于,模仿學習需要大量數據,而且對每個你想讓機器人完成的任務都要單獨收集數據,成本高、也比較脆弱。
而如果系統有一個世界模型,能預測動作的結果,它就可以直接規劃行動去完成一個新任務,不需要專門為這個任務訓練。
世界模型帶來的泛化能力要大得多,用更少的訓練數據就能覆蓋更寬的任務譜。
任務之間確實有協同效應,你訓練系統完成的任務越多,它學新任務需要的數據就越少。
但世界模型的希望是,能zero-shot解決新任務。目標是用很少甚至零訓練數據就能解決大量問題,也許加一點RL風格的微調就夠了。
人類完全有這個能力,很多動物也有。
一個17歲的孩子學開車只需要十幾二十個小時。我們有幾百萬小時的駕駛數據,到現在還沒有L5的自動駕駛。
模仿學習連自動駕駛這一個任務都搞不定。
主持人:有一種思路是用視頻模型生成大量合成數據來做仿真,即使物理上不完美,也能改善機器人在真實世界的表現。你怎么看?
LeCun:還是那個問題,為什么17歲的孩子20個小時就能學會開車?
你不需要幾百萬小時的示范數據,也不需要合成數據。
如果我們破解了這個問題,就不需要生成數據了。
可能仍然需要在仿真中訓練,但不需要現有系統所需的那種數據量和試錯次數。
硅谷的羊群效應
主持人:一個有意思的點是,如果你是OpenAI,你知道某個東西繼續scale就會繼續變好,那從商業角度看,你并沒有太大的動力去做數據效率更高的事情。
LeCun:其他公司也沒有動力做不一樣的事,誰都承受不起落后于對手的代價。這是一種硅谷的羊群效應,所有人都在挖同一條戰壕。
這也是為什么我把AMI的總部設在了巴黎,美國辦公室在紐約,不在硅谷。
主持人:你最興奮的AMI技術的應用方向是什么?
LeCun:AI for the real world。家用機器人、L5自動駕駛。
主持人:我什么時候能有一個家用機器人?
LeCun:這還要好幾年。盡管有大量公司在造機器人,但沒有一家真正知道怎么讓它們足夠聰明。
主持人:也不能信任它們在有嬰兒的家里工作。
LeCun:那肯定不行。即使是相對窄的制造業任務,靠模仿學習也只能處理少數幾個任務,沒有人真正知道怎么讓它們可靠地工作。
短期來看,工業領域有海量的應用場景。
你需要一個智能系統能預測如果我改變這個復雜系統上的某個控制變量會發生什么。噴氣發動機、化工廠、發電廠、生產線、人體、人體細胞……
這些系統復雜到無法用少數方程來建模,傳統的建模方式行不通。
你需要做的是用深度學習從數據中訓練出一個模型來捕捉這個系統的動態行為。得到的就是一個現象學模型。
如果它是action-conditioned的,那你就得到了一個這個系統的世界模型,可以用來做最優控制。
這類應用的數量是驚人的。
主持人:你覺得JEPA模型在接下來幾年會發展到什么程度?
LeCun:五年吧。
五年內,完全統治世界。
主持人:好的,五年統治世界。(笑)
LeCun:開玩笑的。
這話是引用Linus Torvalds。當年有人問他Linux的目標是什么,他說total world domination。他確實做到了。
但我確實認為JEPA類世界模型就是未來智能系統的藍圖。
LLM還會有一小塊位置,作為語言接口。
但我們在設計的是能思考的系統。它們一開始可能不會說話或聽,但它們會思考,然后你可以在上面再加說話和聽的能力。
主持人:你之前就有過這樣的經歷,在神經網絡上做了一個極其逆共識的押注,最終被歷史證明正確。
你覺得這次,在什么時間內,大家會意識到你又對了?
LeCun:我覺得會比預期來得更快。
很多人意識到VLA不行,LLM處理不了真實世界的數據。范式轉換的認知正在發生。到2027年初,這會變得對所有人都完全顯而易見。
Tapestry
主持人:換個話題,聊聊你在做的Tapestry。
LeCun:這個跟AMI Labs有點正交。
主持人:好像光AMI還不夠你忙的。
LeCun:這是我過去三年左右慢慢形成的一個想法。
人們越來越多地使用AI助手來做各種事情,傳統搜索引擎的使用量在下降,大家都直接問自己的AI助手。
如果Meta和其他公司開發的智能設備計劃實現了,比如智能眼鏡之類的,你基本上就是通過語音跟你的AI助手對話。你所有的信息獲取都將由AI助手來中介。
那么問題來了。
如果你是中美以外國家的人,你用的AI助手是硅谷或者北京公司做的。其實不太好。
你說的語言,根本沒有被認真對待。
你的文化,這些做AI的公司不理解。
你的價值觀,在互聯網上公開可用的訓練數據里幾乎沒有體現。
怎么解決這個問題?
你需要一個平臺,基于一個開放的、免費的基礎模型,Llama那種風格的,任何人都可以微調,去適配特定語言、特定文化。
這就是Tapestry的核心。全球的貢獻者參與訓練一個全球模型,這個模型本質上是全世界知識和文化的存儲庫。
貢獻者貢獻的是數據和算力,同時保留對數據的控制權。他們不需要把數據分享給其他貢獻者。他們貢獻的是參數向量。
這是一種聯邦學習的思路。
一堆數據中心,每個拿到一個全局共識模型的參數向量,可以把它理解為所有貢獻者參數向量的平均。所有貢獻者定期通過一個中心服務器交換參數向量。
本地worker在更新自己的參數時,同時盡量讓它接近全局共識向量。隨著訓練推進,所有參數都收斂到一個共識模型,它就相當于在所有數據上訓練出來的效果。
現在你有了一個開放模型,效果跟在全世界數據上訓練過一樣好。然后你可以針對自己的目的去微調。
我認為有一種自然的力量會推動這件事發生。
AI正在快速變成一個平臺,平臺有自然走向開放的趨勢。
Linux就是這樣,互聯網的軟件基礎設施也是這樣,無線網絡也是這樣。一開始都是私有的,后來全被開源替代了。
OpenAI就是下一個Sun Microsystems
主持人:這確實是一個很聰明的方式來對抗開源萎縮的趨勢。很多人擔心閉源模型越來越強,會被用來訓練下一代,形成一種閉源的逃逸效應。
LeCun:還記得1996年互聯網基礎設施的大玩家是誰嗎?
Sun Microsystems、HP、Dell。Sun給你搭配Solaris和他們的私有硬件,HP搭配HP-UX。
Unix比Windows可靠多了,你不會在Windows上跑web server。
但現在誰還在用Windows NT跑web server?全部被Linux干掉了。整個互聯網跑在Linux上,連Azure都是,微軟自己都是Linux。
所以今天的OpenAI、Anthropic,就是昨天的Sun Microsystems和HP-UX。
主持人:這背后隱含的是你對這些模型能力上限的判斷,開源遲早能追上來。
LeCun:它們已經用完數據了。
公開可用的、有價值的文本數據已經全部用完了,沒有更多了。這些公司在做的就是購買商業版權數據的授權,或者用合成數據訓練。
主持人:但過去幾年確實有一些impressive的結果,是在大規模預訓練之后取得的。IMO金牌、各種benchmark持續提升。
LeCun:這個很有意思。
想想這兩個領域,數學和代碼。這兩個領域的共同點是什么?
語言本身就是推理的載體。不是唯一的載體,但當你在紙上做形式化的數學推演時,你操作的就是語言,LLM在這上面確實很強。證明定理之類的,LLM很擅長。
但LLM不太擅長提出好的概念、好的定義。創造性的行為,LLM做不到。數學不只是解題,大部分其實是創造性行為。
代碼也一樣。
LLM是好的程序員,但不是軟件架構師,不是計算機科學家。它們能幫我們寫代碼,但還替代不了人類。
它改變的是人類的角色。
人類現在往抽象層級上走一層,我們的工作是決定造什么,而造的過程可以讓LLM幫忙。
主持人:LLM需要做到什么才能說服你改變看法?
LeCun:zero-shot的agenting。
給它一個全新的問題,它沒有被訓練過解決這個問題,沒有針對它的腳本。它能不能完成這個從未訓練過的任務?
除非這個系統有預測行為后果的能力,并且能用這個能力來做規劃。
也許一個被大幅增強的LLM可以,加上了搜索和規劃能力的那種。
目前做數學的LLM其實已經在做這件事了,它們搜索能完成特定任務的token序列,可以跑代碼或驗證證明是否正確,所以有一種方式來檢查輸出是否正確。
但這不是一種高效的規劃方式,而且只在token空間里能做搜索的領域有效。
我說的JEPA,不是在token空間做這件事,是在抽象思維空間做。
主持人:可能有些聽眾會想,就算效率低,在token空間能work的事情已經覆蓋了經濟中很大一部分了。
LeCun:對。
LLM擅長什么就用它做什么,這完全沒問題。
我只是說,它不是通往AGI的路。而通用AGI能覆蓋的領域會相當巨大。
主持人:聽起來你覺得LLM在成為軟件架構師之前就會到達天花板。
LeCun:它不會到天花板。但它在越來越多的應用場景中部署起來會變得越來越困難,因為每個場景都要收集大量訓練數據。
而且你沒法讓這些系統完全可靠,沒有幻覺,沒有危險行為。
為什么與Hinton和Bengio分道揚鑣
主持人:你和另外兩位圖靈獎得主共享這份榮譽。但他們似乎對LLM的潛力,或者說潛在威脅和安全風險,看法完全不同。你們是什么時候開始分歧的?
LeCun:2023年。
主持人:什么驅動了這個分歧?
LeCun:不是我改了主意,是他們改了主意。
Hinton之前根本不這樣,他從來沒有特別關注過LLM。
結果2023年GPT-4出來的時候,他突然頓悟了:
天哪,這些系統已經非常接近人類水平的智能了,它們可能有主觀體驗。
我知道他的想法大概是這樣的——
人類皮層大約有160億個神經元。
如果你想做某種類似反向傳播的事情,大腦不是直接做反向傳播的,但如果它做某種梯度估計來優化某種目標函數,你大概需要一個幾個神經元組成的電路來復現一個虛擬神經元的功能。
所以假設你需要10個真實神經元來復現一個反向傳播神經元的功能,那你的皮層就只相當于16億個神經元。
然后他推理得出:
天哪,GPT-4已經很接近這個數了!也許它會變得跟人一樣聰明。
我完全不認同這個說法。
我感覺他就是想擺爛了,然后到處去做關于AI的希望和危險的演講。
好了,我可以退休了,我可以宣布勝利了。 我一輩子都在尋找皮層的學習算法,也許我沒有發現它到底是什么,但反向傳播似乎是一個不錯的替代品,它work得很好。 嗯嗯,這就是我們需要的,我可以退休了。
(笑)
不過他現在關于AI危險的聲音比一兩年前小多了。
我覺得他意識到了幾件事。
第一,現在的LLM沒那么聰明。
第二,在達到人類水平的智能之前,還需要一些概念性的突破。
第三,這些系統的藍圖會跟LLM很不一樣,而且我們很可能有辦法讓它們可控。
我早在幾年前就說過這些事,Hinton最近才意識到。
Bengio的情況類似。
我覺得他們兩個真正擔心的,是社會體系能不能確保AI的好處被最大化,確保AI不會只是加劇不平等。
這不是那種AI統治世界的末日場景,更多是壞的使用者的問題。
LLM本質上是不安全的
主持人:但這個風險光靠今天的LLM就已經存在了。
LeCun:確實。但我不認為它像一些人聲稱的那么末日。肯定不像Anthropic聲稱的那么末日。
Anthropic在試圖用恐懼來推動AI監管。我完全不認同這種做法。
主持人:他們看起來是真的相信。
LeCun:我覺得他們確實真的相信。但我也覺得,他們有一些很好的商業理由去相信這些。
主持人:說到這些新架構,你對LLM不是終局這件事很確定,但你自己對新架構的時間線也相當激進。你怎么看這些新架構如果真的帶來突破,安全方面的問題?
LeCun:我要說一個可能有爭議的話。我在Meta的同事肯定不會喜歡我說這個。
LLM不能被做到可靠,因為你沒法阻止它們產生幻覺。
主持人:按你這么說,它們能完成那些15個小時的編程測試不讓你意外嗎?
LeCun:代碼是一個你能驗證的領域。你生成的代碼是否滿足specification,這是可以檢查的。
但不是所有事情都是代碼。已經有編程agent把你的硬盤給清了的例子,或者做了蠢事讓你損失了大量數據或金錢。
你給一個prompt,它完成對應的任務,但僅限于訓練讓它學會了對這個prompt做正確的事。沒有任何硬性約束強制它完成這個任務,也沒有機制讓它預測任務是否被正確完成。
而且它們沒有常識。一個月前流傳的那個洗車笑話,我兩周前又試了一遍,所有模型都說你應該走路去。除了Gemini。
主持人:那Gemini大概是訓練的時候用了你之前講這個例子的視頻。
LeCun:不是我的視頻。不是我發明的這個例子。但確實有這種情況,我說LLM做不到某件事,六個月后它就能做了。
原因很簡單,我在播客上說了LLM做不到這件事以后,所有人當然會去ChatGPT上打這個問題。于是它就變成了訓練集的一部分。下一個版本當然就能回答了。
但這不是因為它突然變聰明了,只是因為它被這個問題訓練過了。
我不認為在當前范式下有辦法修復這個問題。
我提出的架構是objective-driven AI。你給一個AI系統一個目標,就是完成這個任務。
系統怎么知道它會完成這個任務?
它有一個世界模型,它預測一系列想象中的行動的結果。
如果這個結果滿足一個cost function,描述任務完成到什么程度。那么這個系統通過優化來工作,找到一個能完成任務、最小化cost的行動序列。
當然還有很多可能出錯的地方。
cost function可能不準確,你以為它在衡量任務完成度,但也許不準。
世界模型可能不準確,系統對行動后果的預測可能是錯的。
這個系統仍然會犯錯,但它至少能在某種程度上預測行為的后果,我認為這對任何agentic系統都是不可或缺的。
你還可以在這個系統上不只加一個保證任務完成的cost function,還可以加一堆其他的目標函數、cost function,甚至是約束條件。
你可以在抽象層面指定這些,也可以有底層的目標函數,組合起來保證系統不會危險。系統從構造上就不能違反這些條件。
LLM做不到這一點。
LLM總是能逃逸。訓練誤差和測試誤差之間總有gap,總會存在某個prompt讓系統做出非常愚蠢的事情。
主持人:能不能聊一個具體領域。現在也有很多人在醫療領域用LLM。LLM在醫療里做不到什么,需要一個真正理解世界的模型?
LeCun:比如為慢性病患者設計治療方案,甚至非慢性病也一樣,特別是當這個患者的情況不完全符合你之前見過的模板時,如果你有一個好的關于患者生理動態的心智模型,你可能能設計出一個真正能把患者帶到好狀態的治療方案。
患者也可以是一個細胞。
怎么讓一個干細胞變成能產生胰島素的胰腺beta細胞?
一個1型糖尿病患者,免疫系統攻擊了自己的beta細胞。怎么持續制造beta細胞?
你有沒有一個人類細胞的模型,能讓你搞清楚需要給干細胞發什么序列的信號,讓它變成beta細胞?
LLM能做的是復述你能在書上讀到的知識。
但你不能只靠讀書當醫生。你得做住院醫培訓,得會聽心臟,按肚子,才能做診斷。
為什么離開Meta?
主持人:你在Meta待了十多年,建了一個世界上最受尊敬的研究實驗室。最近離開了。回顧那段時間,你覺得做對了什么,做錯了什么?
LeCun:做對的事情是,建了一個頂級研究實驗室,真正做出了創新,產出了大量基礎方法、科學成果和工具,比如PyTorch。
還有一種開放的、尊重科學過程的文化,我認為這對突破性創新是必要的。
創新有一整條鏈條。最前端是藍天研究,全新的概念,大部分發生在大學里,少部分發生在工業界的高級研究實驗室里,這樣的實驗室一只手數得過來。
Google有一個好的,FAIR曾經是一個好的。希望它還會繼續是。
然后下一步是,這是個好想法,讓我們推進看看它能不能變得有用。
但仍然是研究層面的意思,我們不會自欺欺人只找一個對這個問題work的方案,我們要看這個技術能不能被推進到practical,不一定是產品級別的,但至少能證明它在某個任務或benchmark上打破了記錄。
再下一步是公司說,好了,我們要投入大量工程力量把這個推向前。
這一步是大量項目失敗的地方,也是很多公司掉鏈子的地方。
Meta在這方面其實還不錯,但遠非完美。
部分是組織問題。
你需要一個離研究很近、但又不完全是產品組織的團隊來接力。不是那種三個月deadline出產品的組織,而是能繼續往前推技術的。
我們曾經有過這樣的組織,后來丟了。FAIR在公司里變得孤立,有很多想法沒人接。
2023年Gen AI組織成立,從FAIR抽了60到70個科學家和工程師,后來規模擴大了。
但它面臨太大的短期壓力,沒時間跟FAIR交流。結果本來應該在LLM上保持前沿和創新的Gen AI,只能聚焦短期目標,變得非常保守。研究和產品之間出現了gap。
主持人:Llama 4就是這樣的情況嗎?
LeCun:甚至從Llama 3開始就是了。Llama 1是2022年到2023年初FAIR內部的一個小項目。
然后Gen AI組織成立,Llama的人被調了過去,開始做Llama 2。
接著一批人意識到,我可以出去創業。
這就是Mistral的起源,Llama 1的兩位作者和一個來自Google的人一起創辦了Mistral。
那段時間,不少人離開了Meta。
接手了Llama后續工作的Gen AI組織面臨巨大的短期壓力,變得非常保守。
有來自領導層的壓力,也有團隊自身的問題。事情出問題的方式有很多種,你沒法歸咎于某一個人。
主持人:現在很多組織都面臨這種短期壓力。你覺得像當年FAIR那樣的純研究環境,在今天的行業里還有可能存在嗎?還是說唯一的出路就是離開、自己開公司?
LeCun:我覺得Google Research和DeepMind內部還有少數地方是真的在做研究。但整個行業越來越封閉了。
Google在收緊,Meta和FAIR也在往同一個方向走。現在對發表論文有了更多限制,如果你做的東西中期來看跟公司業務相關,他們會告訴你不要公開討論。
這種氛圍對突破性研究是不利的。
很遺憾,因為要獲得突破性研究其實很簡單。就雇最好的人,這些人有嗅覺,知道該做什么項目。
你給他們成功所需的資源,然后……
滾開,別擋路。
回望FAIR
主持人:這對更廣泛的研究社區意味著什么?FAIR的遺產之一是培養了大量研究者,他們現在遍布整個生態系統。但現在進入這個領域的年輕人,可能一上來就被扔進短期導向的環境。
LeCun:愿意跟我一起工作的人,通常有兩個特點。
一是足夠瘋。
二是認同一個理念,就是在學術界讀PhD期間,你應該做下一代AI系統,不應該做當前這一代。
如果你現在在學術界做LLM,說實話非常無聊。基本上就是研究LLM為什么work、怎么work、局限性是什么。這是描述性科學,沒什么創造性。沒意思。
而且如果你真想用LLM做新東西,你在學校根本拿不到需要的GPU。
所以算了。
如果你在讀PhD,別做LLM。沒有意義,你做不了貢獻。
主持人:你怎么知道是時候離開Meta了?
LeCun:是多種因素的組合。
很多人對我在Facebook和Meta的角色有完全錯誤的認知。我2013年底加入,真正開始是2014年初。頭四年半我是FAIR的director,我建立了FAIR的組織架構,確立了文化,雇了核心的人,管理整個團隊。
四年半后我從這個角色退下來了,變成了Chief AI Scientist。
一方面,快六十了,我就是不想做管理了。我愿意做一陣子來把組織建起來,但我不擅長這個。
我更像是一個科學或技術上的visionary,一個engineering scientist。
成為Chief AI Scientist之后,我向CTO匯報。開始推進一個我認為必要的研究項目,因為FAIR的野心一直是構建智能系統。我管FAIR的時候把自己的研究擱置了,沒時間做。
當時我已經形成了一個概念,這個架構會基于自監督學習,基于從感知信號比如視頻中做預測。這些就是世界模型的想法。
2016年我在NeurIPS做了一個keynote,說AI研究應該走這個方向,世界模型,預測行為的后果,然后規劃。
我說RL不會帶我們到那里,因為太低效了。監督學習已經顯示了它的局限。未來是自監督學習和世界模型。
那怎么做自監督學習和世界模型?
我啟動了幾個項目,有些方向沒走通。做了一些視頻預測的工作,然后形成了這個概念:
你可以在視頻上做自監督訓練,但必須讓系統在表征空間做預測,而不是在像素空間。
這就是JEPA的核心想法。
這個想法大概在2020年成形。2022年我寫了一篇很長的vision paper,把我的整個愿景都寫出來了。把所有秘密都攤開,我不在乎。我希望這能把一批人拉到這個方向上來。
確實work了。
不僅吸引來了一批學生,在NYU和巴黎的,因為他們想做這個方向。
FAIR內部也有一整個團隊說,這就是我們想做的。然后Joelle Pineau說,這應該成為FAIR的一個重大使命,我們管它叫Advanced Machine Intelligence。
主持人:然后他們讓你帶著這個名字出去創業了。
LeCun:對。扎克伯格讀了那篇論文,知道它在說什么,認同這個項目。CTO Andrew Bosworth也是,前CTO也是,CPO也是。領導層對這個項目有很多支持。
但后來公司把所有精力重新聚焦到LLM上了。
盡管有領導層的支持,下面的層級不太買賬。
而且JEPA世界模型的應用,雖然在可穿戴智能體和機器人方面有場景,但Meta機器人研究組被砍掉了。
所以這個環境不對了。
JEPA的大部分應用場景在Meta不感興趣的工業領域。FAIR越來越被要求去幫LLM的忙。
主持人:Scale AI的收購是不是這個純LLM聚焦的催化劑之一?
LeCun:肯定是的。可能還有其他原因。我不確定我有足夠的內部信息來評論,但有可能扎克伯格在亞歷山大王身上看到了某種接班人的影子,一個更年輕版本的自己。
主持人:很多媒體敘事是說亞歷山大王來了以后,純研究組織就更難運轉了。
LeCun:這里有一個很大的誤解,關于我的角色、我跟亞歷山大王的關系,以及AI在Meta是怎么運作的。
我對Llama的技術貢獻是零,完全沒有。我對Llama的唯一貢獻是力主開源Llama 2。
當時內部有很大的爭論。這是一個非常高層級的討論,每周兩小時,從扎克伯格往下大概40個人,持續了好幾個月。
我和Boz都非常明確地主張,安全風險被夸大了,創造一個產業的機會非常大,開源Llama 2會啟動整個AI產業。事實證明確實如此。
但Llama本身,我的技術貢獻是零。我既沒有推動它,也沒有阻礙或拖慢它。
FAIR內部有很多人在做LLM,這很好。我從來沒有反對過,只是說這不是通往人類水平智能的路。但它有用,跟語音識別或翻譯一樣有用。
特別是2018年我從FAIR director退下來以后,我對別人在做什么沒有直接影響。我只是發表我的愿景,然后把人拉到我的項目上來。
他們跟我合作是因為他們愿意,不是因為我是他們的老板。
到了2024年初、尤其是2025年,FAIR的走向和管理方式已經不符合我認為保持創新、研究和突破所需要的條件了。
很多優秀的人都走了。
播客鏈接:
https://unsupervised-learning.simplecast.com/episodes/ep-86-yann-lecun-on-leaving-meta-breaking-the-llm-paradigm-why-hinton-is-wrong-rZ6fpa_8
參考鏈接:
[1]https://x.com/jacobeffron/status/2055279354821607551
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.