網易首頁 > 網易號 > 正文申請入駐

谷歌AI的14年、Gemini翻身之戰，與視覺理解模型：專訪DeepMind前核心科學家Andrew Dai｜Neolabs特輯

2026-05-20 15:27:17　來源: 硅谷101

上海舉報

分享至

他的論文，啟發了OpenAI GPT的誕生。

在谷歌研究AI 14年，Andrew Dai推動數項重要論文、輾轉數個產品，最后成為帶領Gemini打下翻身之戰的核心人物之一。

Andrew長期處在谷歌AI研發的中樞：從早期sequence learning（序列學習）、文本生成、對抗訓練，到 PaLM、FLAN、Gemini、多模態和長上下文等等。與他合作論文的，都是谷歌的眾多傳奇大佬人物，包括Quoc Le、Ian Goodfellow、Liam Fedus、Jeff Dean等人。Andrew的職業軌跡可以說就是一部谷歌AI大模型的編年史。

然而在將Gemini 3順利上線之后，Andrew Dai決定離開待了近14年的谷歌。原因是他看到了一條大公司“不敢走”、或者是“走得太慢”的路——不是純語言模型，也不是世界模型，而是語言與視覺推理的結合。

今年4月，Andrew創立的Elorian AI宣布融資5500萬美元，估值3億美元，正式從保密階段走向公眾視野。投資方包括Menlo Ventures，Altimeter Capital等主流硅谷基金，還包括英偉達和以個人身份參與的Jeff Dean。

2026年的Google I/O正在召開，我們此次與Andrew一起回顧了谷歌過去14年的AI發展史：如何錯過，如何落后，如何追趕，又如何重回巔峰的。這背后究竟有一些什么樣的故事？Andrew Dai現在要做的多模態視覺推理模型又是什么？

硅谷沒有秘密，但有一群信仰不一樣未來的科學家們。在巨頭們押注SOTA LLM之際，眾多科技領軍人物都開始紛紛創建自己的AI前沿新實驗室（Neolabs），他們不拼算力和參數，而是希望找到一條真正達到智能的路徑。此次，硅谷101也開啟了Neolabs特輯，想和這群科學家們深度聊聊，他們眼中的AGI之路。今天這期，是此次特輯的第一期視頻播客。

（本文為視頻改寫，歡迎大家收看以下視頻）

從倫敦到硅谷

一位谷歌AI核心科學家的14年

陳茜：非常感謝Andrew，歡迎你來做客硅谷101。我覺得你們的新辦公室這邊采光很好，這個房間你們以后準備用來做什么？

Andrew Dai：這個房間以后會讓研究員和工程師坐在這里。我們租辦公室至少要租兩年，所以已經預估好兩年后會有多少人了。

陳茜：兩年后你會有多少人？

Andrew Dai：可能是50到70人。

陳茜：現在多少人？

Andrew Dai：現在是14個人，還有兩個人在辦簽證，很快就16個人了。

陳茜：我在來之前聽了你的一個英文播客，發現你有一點British accent（英式口音），是因為你之前在英國念書嗎？

Andrew Dai：對，我在中國出生，但五歲就去了英國，因為我父親去英國讀博士，帶著我一起過去。本科我在劍橋讀，然后去愛丁堡讀博士。

陳茜：你的中文其實還是講得挺好的。

Andrew Dai：我的家人一直督促我練中文，我也認識一些來自中國的朋友，所以一直在堅持學。

陳茜：你是什么時候來到硅谷的？

Andrew Dai：14年前，就是2012年，為了在谷歌工作。

陳茜：當時為什么想來谷歌？

Andrew Dai：我讀博士研究的是人工智能，從中學起就一直想做AI。那時候Google Brain（谷歌大腦）團隊比較有名，所以我就想加入谷歌大腦。而DeepMind那時候還是一家很小的初創公司，我甚至不知道有DeepMind這家公司，所以就直接想來人工智能的中心，就是硅谷。

陳茜：如果你留在倫敦的話，是不是也有可能加入DeepMind，然后最后也來到谷歌？

Andrew Dai：很可能。后來我才知道，我們實驗室的很多同學都去了DeepMind，就我一個人來到了Google Brain。當然來這里還有另一個原因，因為硅谷很容易創業，很多新公司都從這里誕生。所以我當初打算來這里待幾年，然后就創業。

陳茜：沒想到一待就是14年。

Andrew Dai：對，沒想到待那么久。

陳茜：我們來講講你進入谷歌后的工作。你的第一份工作是去到了Google Now，那個團隊是當時Larry Page希望Android和Search團隊搭建一個能結合用戶數據，來主動給用戶推送提醒信息的功能。那時候背后已經有一定的AI研究，你在Google Now里在做什么？

Andrew Dai：那個經歷比較有意思。他們招我去Google Now是為了做AI，但我到了團隊才發現，工程上有很多基礎設施的工作要做，比如有新聞出來，他們想個性化地推送給用戶，我就編寫了一套系統，能在15分鐘內把新聞推送到所有人的手機上。有一次我們發現推送新聞很慢，要100毫秒，大家在想為什么這么慢？我發現數據在東海岸，而我要把數據送到西海岸，按照光速就需要這么多時間，沒有辦法更快，我從中學到了很多end-to-end（端到端）的東西。后來快離開的時候，我也開始做更多AI、更多個性化的工作。再之后就去Google Brain了。

兩次收購、兩種哲學

Hinton與DeepMind如何改變谷歌

陳茜：谷歌在2013、2014年有幾個重要節點。第一個是2013年收購了Geoffrey Hinton的公司DNNresearch，Hinton之后加入谷歌工作。你覺得Hinton來到谷歌之后產生了什么樣的影響？

Andrew Dai：Hinton來了之后，谷歌就更加重視AI。那幾年我記得CEO也說了，Google是一家AI公司。Larry Page和Sergey Brin當初創造算法，目標本就是讓機器運用AI幫助人們理解網絡上的內容，所以他們一直非常重視AI。但2012年之后開始了Deep Learning（深度學習）新階段，谷歌覺得如果不投這個方向就會落后，所以收購了Geoffrey Hinton的公司。從那以后，深度學習對谷歌就非常重要，它們的模型也越來越多地轉向Neural Network（神經網絡）。

陳茜：2014年谷歌又收購了DeepMind，你覺得DeepMind團隊的加入，包括Demis Hassabis的加入，在多大程度上改變了谷歌？

Andrew Dai：DeepMind和DNNresearch的收購方式很不一樣。DeepMind在收購時簽了一份協議，要求保持獨立、團隊可以繼續留在倫敦，不用來美國，附帶很多這樣的條件，所以基本上是一個獨立的研究實驗室。這跟Google Brain的定位不同，Google Brain的目標是做研究，然后和產品合作、將模型推向產品，DeepMind更像是你想做什么就做什么，只要你覺得重要，像AlphaGo這樣的項目都可以做，兩邊的理念有一定差異。

陳茜：所以DeepMind是非常獨立的，Hassabis說了算，谷歌也不太會管他們。

Andrew Dai：對，他們的招聘也有自己的方式，內部包括代碼等很多東西都跟谷歌是分開的。

陳茜：那當時Google Brain的AI研究員，比如你，會跟DeepMind的人有合作嗎？

Andrew Dai：會，但比較少。合作時會有credit assignment（功勞分配）的問題，這個項目到底是DeepMind主導還是Google Brain主導。在大公司里，ownership（所有權）很重要，所以這類項目就更復雜了。

半監督序列學習

谷歌錯過的“GPT時刻”

陳茜：我看到你在2015年開始研究語言模型的預訓練與微調，當時就應該是在Google Brain部門了。這一輪GenAI（生成式AI）的奠基石Transformer論文是2017年發布的，但在此之前，你和Google Brain聯合創始人之一Quoc Le共同主導了一篇文章《Semi-supervised Sequence Learning》（半監督序列學習），可以幫我們解釋一下，這篇論文主要解決了什么問題么？

Andrew Dai：那篇文章其實不是我們一開始就計劃好的。我們本來是在做一種叫paragraph vectors（段落向量）的技術。那時候有Word2Vec，也就是Word Embedding（詞嵌入），大家可能聽說過，LLM出現之前大家都在用這些東西。我們想做一個更好的版本，做了很多很多實驗，但都失敗了。

有一天我跑了一個實驗，發現結果非常好，比其他論文的分數都高。但當我想復現它重跑一次，卻跑不出之前的結果，我就覺得肯定哪里有bug。于是我繼續挖，發現是因為訓練這個模型的時候，我是從另一個目錄，也就是另一個checkpoint（檢查點）開始的，而那個checkpoint屬于一個別的做語言模型的項目。這時候我就發現了：如果先做語言模型，再用監督數據進行微調，就可以得到一個很好的模型。這就是我們發現的東西，然后就把它寫成了論文。

之前大家是把這兩部分分開的，沒有想過用語言模型來做語言理解。我們的核心想法是：把語言模型和fine-tuning（微調）結合到一起，就可以做出一個很好的模型。所以我們是第一個把這兩部分放在一起的團隊。

陳茜：這篇論文現在回看，很像是“大規模預訓練+下游微調”的范式。當然那時候Transformer還沒出來，你們用的還是LSTM（長短期記憶網絡），但你當時有沒有意識到，它可能會引領出一個更大的東西？

Andrew Dai：那時候我們的卡很少，大家都沒有用很多顯卡做訓練，所以模型規模也比較小。我記得那年我們在NeurIPS（神經信息處理系統大會）上發表了這篇文章，LSTM的主要作者Sepp Hochreiter來看了我們的海報，說他已經試過我們這個方法，結果很好。從那時候我們就知道，以后應該會有很多人用這個方法，但我們沒想到過了十年還在用，而且模型規模擴大了這么多倍。

陳茜：那Transformer出來的時候，你有意識到這兩個東西可以融合起來，變成一個更大的突破嗎？

Andrew Dai：Transformer出來的時候，我就覺得它很適合和我們做的預訓練結合。所以Transformer論文發布第二天，我就找了我的朋友，Transformer論文的一作Ashish Vaswani，對他說：“我們兩年前有這篇預訓練的文章，結果很好，你要不要在Transformer上也試試預訓練？”但那時候他很忙，在做一些圖像處理的東西，所以沒有時間，后來就是OpenAI做了。

陳茜：那OpenAI是誰主導這件事，發現了Transformer可以和你們這篇文章結合？

Andrew Dai：是Alec Radford。他寫了GPT-1、GPT-2、GPT-3的論文，引用了我們那篇文章，看出了scaling的潛力：模型越來越大，產出的語言就越來越好。

陳茜：谷歌是什么時候意識到這兩個東西都是從自己這里出來的，結果被OpenAI結合在一起用了？

Andrew Dai：我覺得是GPT-3出來的時候才意識到。GPT-3是整個世界的轉折點，不只是谷歌，Meta等很多公司都發現GPT-3的語言能力相當驚人，可能scaling才是正確方向。之前大家都不愿意把那么多顯卡都押在一個實驗上，但GPT-3之后，谷歌就開始愿意這樣投入了。

陳茜：在GPT-3出來之前，Google Brain的聯合創始人Jeff Dean、Andrew Ng（吳恩達）、Quoc Le，還有DeepMind的Hassabis，他們那時候分別在做什么？

Andrew Dai：Hassabis那段時間我記得好像是在做AlphaGo，他們相信把游戲做好就可以產生intelligence（智能），比如Atari（雅達利）游戲和圍棋。

Google Brain是另一個方向，包括Geoffrey Hinton也是這個想法：如果做一個什么都能做的AI，那才是真正的intelligence（智能），不要只專注一個小領域。那時候Google Brain的文化以自由著稱，你想做什么都可以做。Jeff Dean在領導Brain團隊，但下面的研究員什么都在做，有的在做音樂生成，做語言的人其實很少，基本上就是Quoc和我還有幾個人，大部分人都在做視覺或視頻處理。

陳茜：就是沒有一個人強有力地站出來說：我們要集合所有資源押注在同一個賽道上，直到他們看到GPT-3出來。

Andrew Dai：對，后來就變了。

陳茜：所以你覺得OpenAI為什么能看到Semi-supervised Sequence Learning（半監督序列學習）的能力，而谷歌看不到呢？你當時跟Transformer作者說了這個想法，他沒理你，之后你就沒有再推進了嗎？

Andrew Dai：那是2017年，時間節點很特別。那時候Google Brain開始成立谷歌健康部門，覺得health（醫療健康）是一個很熱門的領域，大家都想進入這個方向，包括蘋果和微軟。谷歌也覺得應該把AI放進健康里，所以讓我選擇：是要進入這個新的谷歌健康部門，讓AI可以治病，還是留在Brain。我選擇去了Health，因此就沒有機會去做GPT這類模型了。

陳茜：那有沒有其他人繼續往這個方向深推呢？

Andrew Dai：后來沒有繼續往上scale（擴展），但有人把它用到了產品上，像Smart Compose、Smart Reply就是用了預訓練的方法。

谷歌落地為何總是慢半拍

PaLM 2、FLAN、RL與MoE

陳茜：了解了。我們接著說說你在Health部門在研究什么？是去做產品了是嗎？

Andrew Dai：對，在Health部門，我做的是幫助產品落地的研究，主要負責用醫療記錄來預測一個人以后可能患什么病，或者需要服什么藥，從而幫助醫院節省成本或輔助醫生決策。因為預訓練很成功，所以我們也在醫療領域用了預訓練，但那時候模型還很小，最后沒有做出預訓練的成果，不過發表了其他論文。那時候有Google Brain Residency Program（谷歌大腦住院醫項目），是一個比較好的時代，招了很多類似實習生的人待一年，后來創業的Liam Fedus、Demi Guo和David Ha，都是我當時的實習生。

陳茜：在2018年，也就是你去Health部門一年后，我看到你和Ian Goodfellow等人合作了一篇有分量的論文叫MaskGAN，用于改善文本生成的質量。這篇論文的底層技術進步給你帶來了哪些收獲？因為我看到其中一些技術探索，比如in-filling（填空任務）等，在后來的BERT和Gemini多模態預訓練中都有一定程度的啟發和影響。這篇論文對你意味著什么？

Andrew Dai：這篇文章是我和Liam Fedus、Ian Goodfellow一起寫的。我們覺得“填空”是一個很好的任務，可以讓模型學到很復雜的東西。我認為這篇論文有一個比較突出的地方，就是在RL（強化學習）方面，那時候基本上沒有其他人在做預訓練之后再做RL，我們可能是最早幾篇把RL用在預訓練之后的論文，而現在這已經是業界通用的方法了。

陳茜：相當于你們是最早一批把RL用在語言模型上的團隊。

Andrew Dai：對。我們那時候就覺得光做預訓練還不夠，因為預訓練的模型不會學到它自己寫出來的內容哪里好、哪里不好，也不會學到該怎么改。有了RL，模型可以看到自己寫的這一段不像自然語言，RL就可以把它改好。

陳茜：在很多大家都認為有共識的技術范式上，你們也都是第一批團隊去做的，包括MoE（混合專家模型）。你研究MoE是在2021年左右，聯合主導了GLaM（Generalist Language Model） MoE LLM（大語言模型）的開發。現在MoE架構我們都很熟悉了，不過真正把MoE帶到大眾視野的，可能還是去年DeepSeek V3發布的時候，但我沒想到谷歌內部在2021年就已經在研發這條路線了。

Andrew Dai：GPT-3出來之后，Google Brain團隊有些人感到有點著急，覺得一定要做出一個比它更好、功能更多的模型。那時候我們意識到，這些模型越來越大，通過API提供服務會非常貴，因為參數太多，耗電量很大。如果每次只用模型的一部分，耗電就少很多。幾年前Noam Shazeer發表過一篇關于MoE的文章，但那時候沒有做預訓練。所以我們就把MoE加上預訓練、再加上fine-tuning（微調），最終做出了一個比GPT-3更好的模型，這就是我們的成就。

陳茜：2021年GPT-3出來后，你說谷歌內部開始感到壓力了？當時是什么情況？

Andrew Dai：當時我在Google Health的經理Claire回到了Google Brain，我就和她談，想離開Google Health。她說他們在做一個模型，但達不到GPT-3的水平，就問我能不能幫他們解決這個問題。我覺得是數據的問題，所以我就過去了，處理了一段時間數據，最終做出了一個比GPT-3更好的模型，并發表了論文。那時候DeepMind也發表了一篇文章，競爭從那時候就開始了，那時候因為兩邊都看到了GPT-3，DeepMind覺得要競爭，Brain也覺得要競爭，否則大家都會認為谷歌做不出這樣的模型。

陳茜：你當時為什么想離開Health？

Andrew Dai：我覺得對一家大型科技公司來說，做醫療健康非常難，而且難度不在于技術，而在于文化。

因為醫生有自己傳承了數百代的文化和做事方式。這個行業本身對資源和認知的要求就更高，很多醫生按照自己的直覺做決定，如果我們要推AI，他們就會問：為什么AI要我做這個？我做了幾十年，肯定比這個AI懂。所以那時候讓醫生接受AI就非常難。

陳茜：是不是說，在實際產品落地上，大型科技公司比不上那些跟醫院、醫生或藥企關系緊密的公司？

Andrew Dai：對。而且大公司可能還會讓醫生覺得“他們是來搶我們工作、搶醫院的錢的”。如果是初創公司，他們就不會那么感受到威脅，這也是一個因素。

陳茜：是不是當時技術也沒有好到讓大家覺得非用不可？

Andrew Dai：對，那時候的時機還不對。就像現在，因為ChatGPT，很多醫生覺得“我也可以用AI了，大家都在用”。但那時候不是這樣，那時候醫生對AI是相對陌生的用戶群體?，F在他們已經不陌生了，所以顧慮也就沒那么多了。

陳茜：時機不對，技術可能也比較粗糙，產品也沒有那么完善，而且美國醫療產業本就是一個很難打入的市場。

Andrew Dai：It's a big lesson.（這是一個很大的教訓。）

陳茜：所以你的take-away（收獲）就是：要在正確的時間做正確的事，研究正確的技術。

Andrew Dai：對，這對創業來說尤其重要。

陳茜：你從Health出來之后，在2022年主導了谷歌PaLM 2模型的預訓練。這個模型對谷歌非常重要，因為那時候谷歌和OpenAI已經存在模型層面的競爭壓力了。PaLM 2出來的時候，你們滿意嗎？

Andrew Dai：PaLM 2大約在2023年初就訓練完成了，我那時候覺得這是一個很好的模型。我們那時候從來沒有見過跑得那么順暢的預訓練：從頭到底，一次都沒有停，一次都不需要rewind（回退）。不像Meta那段時間發布的OPT模型，可以看到他們的日志，重啟了很多次，做了很久。PaLM 2就非常順，從立項到訓練完成不到一年，特別順暢。

陳茜：為什么能這么順？你們做了什么事情？

Andrew Dai：我們那時候有訓練GLaM和PaLM 1積累下來的經驗，在架構上做了很多測試和實驗，知道這個方案穩定、不會出問題。正式開始大規模訓練之前，我們也做了一些pilot runs（試運行），所以就有high confidence（高置信度）這個會成功。

陳茜：在2022年你還寫了一篇重要論文——FLAN（Scaling Instruction-Finetuned Language Models），探索了任務數量、模型大小以及加入了Chain-of-Thought（思維鏈/CoT）的數據，能給我們講一下FLAN的重要性在哪里嗎？

Andrew Dai：FLAN之前，大家都是用few-shot prompting（少樣本提示）來使用模型，如果你要讓它做某件事，你要先給它舉幾個例子，比如數學題，你先給它一道題和答案，再問它新的問題。FLAN的核心思想是：其實你不需要在每次對話里給例子，只要在微調數據里放入這些示例就夠了，模型就會學會“你給我什么問題，我就必須給出答案”。好處是你不再需要每次都提供few-shot（少樣本）例子，但壞處就是，如果你問它不知道的問題，它也會假裝知道。正是有了這種方式，ChatGPT這樣的聊天機器人才成為可能，因為你可以直接問它問題。

陳茜：PaLM 2你們還是比較滿意的，但你們的風頭還是被GPT-4給搶了，是嗎？

Andrew Dai：對，我們做完得比較早，2023年初就完成了。但谷歌內部的官僚體制和龐大的組織系統，讓他們決定要等到Google I/O統一發布。OpenAI當然知道Google I/O是什么，知道我們要發布模型，谷歌那么大，內部沒有什么秘密。所以他們恰好在Google I/O之前發布了GPT-4，GPT-4的結果比PaLM 2更好。我們發布PaLM 2的時候，我就覺得晚了一步，如果早點發布，我們就可以說我們是世界上最好的模型。

陳茜：你覺得可惜嗎？

Andrew Dai：有點可惜。

陳茜：但PaLM 2還是很重要，雖然GPT-4在benchmark（基準測試）上可能比你們好，但至少谷歌向大家證明了：我們站穩了，我們沒有落后太多。

Andrew Dai：對，而且沒有PaLM 2的話，當時那個叫Bard、后來叫Gemini的產品也會比較危險，因為Bard就是用PaLM 2做出來的聊天機器人，如果沒有PaLM 2，谷歌就沒有聊天機器人了。

拉響紅色警報

DeepMind與Google Brain的整合與碰撞

陳茜：2022年底OpenAI上線了ChatGPT，把整個AI市場引爆了，谷歌內部拉響了Code Red（紅色警戒）。之后Sergey Brin也回歸了谷歌，當時做出的一個決定，就是把DeepMind和Google Brain合并起來。跟我們講講這次整合順利嗎？還是有很多摩擦？

Andrew Dai：這個整合大家有個preview（預期），其中Gemini就是一個整合后的預期產品代表。因為在官方合并的幾個月之前，DeepMind和Brain的人就已經開始一起做Gemini了，但是不是 official（官方的），那段時間就已經感受到一些摩擦。后來領導層認為時間線要更快，不能繼續落后于ChatGPT，就決定加快把兩個團隊整合在一起，摩擦也隨之更加明顯。

因為兩邊有對等的團隊：DeepMind有基礎設施團隊，Brain也有；DeepMind有多模態團隊，Brain也有；數據方面，DeepMind有數據團隊，我就代表Brain的數據團隊。所以一開始確實關系比較緊張，他們決定每個部門由DeepMind出一個負責人、Brain出一個負責人來聯合領導，這就比較復雜了。

陳茜：所以比如數據部門，你是一個co-lead（聯合負責人），DeepMind那邊也出一個co-lead，其他的每個部門也是同樣的設置，是嗎？

Andrew Dai：對，而且還需要進一步劃分。比如在數據部門里，哪部分由倫敦做，哪部分由Mountain View（山景城）的Brain團隊來做？這非常復雜，浪費了很多時間。

陳茜：為什么一定要設置這樣的機制呢？

Andrew Dai：這樣更公平一些。

陳茜：也就是Google Brain跟DeepMind誰都不服誰，這是一個兩邊都同時給糖的安排。

Andrew Dai：對，是一個對等的設置。

陳茜：你覺得這樣的設置會拖累模型的研發速度嗎？

Andrew Dai：我覺得一開始可能出模型的節奏會慢一些。兩個之前從未合作、甚至有一定緊張關系的團隊突然被放在一起，肯定有些事情會變慢、會有人換組，這些都發生了。

陳茜：整個磨合過程你覺得經歷了多長時間？還是說到現在還在磨合？

Andrew Dai：可能現在還在磨合。不同部門的速度不一樣，比如基礎設施方向磨合得較快，多模態也是。

陳茜：兩邊整合的結果，就是很多人離職，對吧？

Andrew Dai：是的，有不少人離職，兩邊都有，Brain這邊有，DeepMind那邊也有。

陳茜：這兩個誰都看不上誰的部門整合在一起，同心協力做Gemini。2023年底，Gemini 1.0出來了，這個模型你們滿意嗎？

Andrew Dai：那個模型有點倉促。我們剛剛開始合作，很多事情都是拼命趕deadline（截止日期）。那時候有一個圣誕節的截止日期，5月份Google I/O剛發布了PaLM 2，我們想要每6個月出一個新模型，所以大家都在趕。這些人之前都沒有合作過，模型又基本上是從頭開始做，所以有些地方沒有做好，比如一些小眾的語言的就沒有做好。那時候媒體報道了Gemini 1.0在某些語言上表現欠佳，所以我們隨即就開始趕做Gemini 1.5了。

陳茜：我看到Gemini 1.5才用到了MoE（混合專家模型）架構，但這是你在2021年就已經在研發的東西，為什么這么晚呢？

Andrew Dai：這也是一個速度的問題。1.0要趕快推出來，所以就沒有時間做MoE的模型，只能做dense（稠密）模型，因為MoE還需要額外的調優和優化時間。ChatGPT出來之后，整件事變成了一場競賽，我們在跟OpenAI比賽，如果MoE會拖慢我們的進度，就不能做，所以……

陳茜：所以優先級變成了先追上進度，而不是創新，谷歌這時候變成了追趕者。是不是也因為GPT-4用了MoE，所以Gemini 1.5才決定一定要用MoE了？

Andrew Dai：其實我們本來就打算用MoE，只是時間問題。我們從那篇2021年的論文就已經知道MoE效果更好。但我們不知道OpenAI會那么快用MoE，不知道GPT-4會是一個MoE的模型，當時有些人認為還會是dense模型。我的實習生Liam Fedus去了OpenAI之后，他們就開始做MoE了。

陳茜：所以他和你一起研究了這件事，然后把它帶去了OpenAI。硅谷其實沒有什么秘密可言，因為沒有競業協議。

Andrew Dai：對，特別是大模型領域。大公司里肯定會有人去OpenAI、Anthropic，所以大公司很難保持秘密。

Gemini翻身仗

“大模型最大的差異點是數據”

陳茜：Gemini 2.0對你們來說是比較大的翻身仗嗎？

Andrew Dai：Gemini 2.0像是一種進化，各種方法都更成熟了，包括MoE、長上下文等?？傮w來說，是一個更好的模型。

陳茜：我聽說在數據方面，你在Gemini 2.0上也有一些創新。能跟我們解釋一下，你做了什么讓Gemini 2.0變得更好？

Andrew Dai：在數據上有一個很大的變化，我們用了新的方法來處理數據質量，檢測質量的標準也更嚴格了。有些公司可能認為架構和卡夠了就能做出好模型，但數據其實非常重要。你看那些論文，一般都不會說數據是什么、來自哪里，這是一個秘方，所以我們發表了新的方法。

陳茜：所以你覺得數據是大模型之間很大的差異點嗎？看起來模型架構大家都在用類似的東西，算力大公司都不缺，基礎設施也都差不多，差異點是否就在數據上？

Andrew Dai：對，我覺得最大的差異就是數據。

陳茜：但數據不只是來源的問題，因為大家基本上把互聯網數據都窮盡了，而是如何優化和篩選更高質量的數據用于訓練，是嗎？

Andrew Dai：對，你選用什么數據很重要。網絡上有大量數據，但也有很多垃圾信息和對模型沒有幫助的內容，所以需要找到那些好的數據，讓模型能學到新東西。就像人一樣，每天只讓他讀廣告，他什么都學不到，要給他有信息、有知識的數據才行。來源也有一些區別，因為谷歌有搜索的經驗，知道怎么爬取網絡，其他公司也有自己的優勢。

陳茜：所以你在Gemini 2.0數據上的主要提升，就是把垃圾信息的數據剔除掉？

Andrew Dai：對，垃圾信息以及其他一些低質量的數據，還有更多不方便透露的內容。

陳茜：在合成數據方面，你也參與了對嗎？

Andrew Dai：對，我也聯合主導了合成數據這塊。合成數據用不好會導致一個很差的模型，但用得好，就像GPT-5，可以把模型做得非常好。

陳茜：“用得好”和“用得不好”有什么區別？

Andrew Dai：用得不好就是指，如果處理得不好，模型就會頻繁輸出合成數據里的特定詞匯。比如合成數據里有很多“delve”這個詞，訓練完的模型也會更多地說“delve”這個詞。所以合成數據同樣需要高質量，否則模型會學到錯誤的東西。比如合成數據里有錯誤的數學，那模型的數學能力也會變差。

陳茜：Gemini 2.5大約在去年年中發布，年底發布了Gemini 3.0，那時候真的是短暫地超過了GPT，驚艷了整個市場，大家都在歡呼谷歌回來了，谷歌股價也漲得非常快。但你在Gemini 3.0之后就離開了，能跟我們講講為什么嗎？

Andrew Dai：我先講一下Gemini 2.5。2.5是因為Noam Shazeer從Character.AI回到谷歌，他幫助了2.5，讓2.5成為了一個比較好的模型。

陳茜：Shazeer帶來了什么讓2.5變得更好？

Andrew Dai：他帶來了他的能力。舉個例子：有一次我跟Noam討論Transformer的架構，我說在這里加一個connection（連接）會不會更好？他說不會好，因為gradient（梯度）就會從這里移到那里，他連模型都不用跑，就知道訓練之后會是什么結果。他真的是一個天才，一看代碼就知道這是不是一個好的模型，憑直覺就能理解模型是如何工作的。

陳茜：所以acqui-hire（收購式招聘）是合理的，一個人的能力就能幫公司省很多錢和時間。

Andrew Dai：這確實是一筆劃算的交易，他非常厲害。

陳茜：那在3.0上你們做了哪些優化？

Andrew Dai：3.0我們繼續在數據方法上做了新的創新。但我離開的原因是：我能感覺到我們用的方法和取得的進展都比較保守，因為有幾千個人在這個項目上，用那么多GPU做預訓練，就不能用太激進、太有風險的新想法。所以我覺得那是一個比較好的離開時機，去創業。

陳茜：所以你覺得在數據上還可以更快地提升優化，用更大膽、更激進的方式去做事情。但在谷歌，你覺得這方面的速度被拖慢了。

Andrew Dai：對，對谷歌來說可能有點危險，因為這種方法會大量改變數據。

陳茜：那你的新方法是什么？

Andrew Dai：這個我不能說。（笑）

Neolab爆發

創立Elorian AI，探索視覺推理路線

陳茜：你的新方法就是你自己創業。你想做的是視覺推理模型，在你能說的范圍內，能解釋一下你想用什么技術路徑實現什么目標嗎？

Andrew Dai：我們的團隊是一個full-stack（全棧）團隊，有非常了解數據、預訓練、多模態、RL（強化學習）、post-training（后訓練）、infer（推理）的人。所以我們不只是想在數據上做改變，去做一個更好的多模態推理模型，我們是整個full-stack approach（全棧方法）。我覺得Anthropic就是這樣的，它是一個專注于編程的全棧公司，每個部分都聚焦在編程上。我們則是在數據、架構、RL算法的每個環節都聚焦在多模態上，包括vision encoder（視覺編碼器）都會有新的方法。

陳茜：為什么你們現在做的事情谷歌做不了？

Andrew Dai：可以對比Anthropic。Anthropic的編程模型做得很好，但它不做多模態的東西，不會生成圖片或視頻，因為他們專注于編程。而Gemini和ChatGPT，他們的模型什么都可以做，在我們行業叫generalist models（通用模型），Claude這個模型可能叫specialist model（專用模型）。我們這個公司也是同樣的想法：如果你做一個specialist model（專用模型），generalist model（通用模型）就很難超越它。因為我們會有更多多模態數據，我們會把數據調整好，去掉對多模態沒有幫助的數據，比如“二戰是誰贏的、在哪里打”這類信息對多模態其實沒什么幫助，我們就可以減少這類數據，把更多資源留給多模態數據、視頻和圖片，這種方式其他公司很難追上來。

陳茜：現在的視覺模型，比如Google的Veo系列或者OpenAI的Sora系列，你覺得它們還不夠好，因為視覺里面它們還不夠理解自己在生成的東西，是嗎？能給我們解釋一下，視覺理解模型是什么？它跟Sora和Veo這樣的視頻生成模型有什么區別？

Andrew Dai：生成、理解和推理是非常不同的三件事。以語言模型舉例：5年前這些模型已經會寫代碼，讓GPT-3寫代碼，普通人看了會覺得寫得很好，像是工程師寫的，但工程師看了肯定會說：這個不對，根本跑不了，這就是生成和理解的區別。這些大模型都很容易生成內容，一眼看上去挺好，但仔細看就會發現問題，比如圖片里字寫錯了、人有三只手、動物有五條腿。導演看了視頻也會說：這個地方不對，明顯是AI生成的，拍攝風格很AI。所以我們在視覺理解能力上，可能相當于5年前的GPT-3、GPT-2在語言理解上的水平。

陳茜：我記得我們在前采的時候，你提到了一個老鷹抓兔子的比喻，我覺得很形象。

Andrew Dai：對，那是在談世界模型。你可以想象一只老鷹，很多老鷹都捕食鳥類，但要抓住一只鳥，你肯定需要理解重力、風和氣流，知道翅膀需要以什么角度才能追上另一只鳥，還要預測那只鳥會往哪個方向飛，計算需要多快的速度才能在同一個點截住它。老鷹的大腦可以處理這些非常復雜的計算，也可以計算出兔子跑到橋下會從哪里出來，或者老鼠跑進草叢會從哪里出來。這些動物對自然世界、物理世界有深刻的理解。

但如果我們能把老鷹的大腦取出來問它：萬有引力定律是什么？萬有引力常數是多少？需要拍打什么角度才能飛行？它不會知道這些，因為這些概念都是人類發明的，如果我們是有4只手或者有 20 個手指，那我們數學可能就很不一樣。因此，老鷹自己的世界模型，幫不了其他領域，這就是我覺得世界模型和語言模型的區別。

陳茜：現在很多neolab出來，嘗試不同的模型研發思路。一派是大語言模型，一派是世界模型，但你相信存在一個中間點，也是目前你們在做的這一派：既需要語言模型，又需要視覺模型。能不能幫我們梳理一下這三派各自的信仰，以及他們押注的AGI路徑？

Andrew Dai：我們現在看語言模型，它們的思維鏈都是用語言來完成的，包括Gemini、ChatGPT、Claude，他們認為思維鏈越來越長、越來越多樣，模型就越來越聰明，可以做越來越多的事情，最終達到AGI。通過更強的編程能力，從而做出更好的模型。但如果你看這些模型在處理視覺問題上的表現，它們現在都不會“數”東西，比如桌子上放幾個杯子，它們經常會產生幻覺、說錯數量。所以我覺得，光scale（擴展）語言部分，還是不夠理解我們的世界，不夠理解圖片和視頻。

另一個方向是世界模型，很多做這個的實驗室來自計算機視覺領域，比如李飛飛和Yann LeCun，他們的想法更偏學術。學術界強調novelty（新穎性），因為你必須要有novel的東西才能發表論文，所以他們傾向于做與眾不同的新東西。他們相信視覺是intelligence（智能）的關鍵，就是因為人類有視覺，所以人很聰明。這也有歷史背景，NeurIPS以前大部分文章都是視覺方向，做語言理解的人很少，包括我和Quoc，都算少數。但從語言角度看，光靠視覺是不夠的。動物能用視覺做我們的機器人還做不到的事，就像老鷹可以抓住那只鳥。但就算我們做出一個很好的虛擬老鷹，我們還是沒有intelligence，還達不到AGI。視覺領域的人會覺得vision is the key to intelligence（視覺是智能的關鍵），所以他們更傾向于靠視覺和圖像數據，靠世界模型。但這樣就無法和數學、物理、化學這些人類創造的概念體系結合，因為這些都是人為的東西，和世界模型還是比較遠。

所以我們公司的想法是：要把視覺推理和語言推理結合起來，才能做出一個可以幫助所有行業的模型。

陳茜：就相當于把重力公式輸到老鷹的腦子里？

Andrew Dai：對，哈哈，用老鷹的眼睛，用一部分老鷹的大腦，但還是要用人的推理。

陳茜：世界模型這個概念這兩年很火，你覺得這些公司的發展能達到AGI嗎？

Andrew Dai：可能五年后再問我這個問題，我覺得它們現在還非常早期，可能相當于大模型最早期的階段：訓練的時候還是在一塊顯卡上跑。就像我們2015年做最初的預訓練時也是一塊顯卡開始，但需要很多年才能做成一個大模型。

陳茜：所以你覺得世界模型還沒有到它的Transformer時刻？

Andrew Dai：還沒有。他們可能需要一種新的結構，像JEPA，我覺得還需要再走幾步才能到一個有用的模型。

陳茜：你覺得在視覺推理領域，其他公司的競爭優勢是什么？谷歌內部可能也看到了這個方向，Meta、OpenAI也會做。我看到DeepSeek之前好像也發布了一篇類似的文章，后來把那篇文章刪掉了。你覺得現在的競爭格局是什么樣的？

Andrew Dai：DeepSeek那篇文章很有意思，發出來之后又刪了，但在網絡上什么都刪不了，大家都已經讀過了。其實DeepSeek的想法和我們的路徑很像。但其他前沿實驗室，像OpenAI、DeepMind和Anthropic，我覺得他們越來越偏向編程方向，因為編程市場很大，而且他們認為做好編程模型可以實現self-improvement，也就是所謂的recursive self-improvement（遞歸自我提升，RSI）。誰先突破，誰就先達到AGI，這些前沿實驗室都不想成為第二，所以有很大壓力去做更好的編程模型。正因為這種壓力，他們對多模態視覺推理這個方向關注不夠。我在Gemini的時候就感受到了這一點，所以覺得現在是做多模態推理模型的好時機。

陳茜：所以你覺得DeepSeek會是你們比較大的競爭對手嗎？

Andrew Dai：可能吧，但我不知道他們為什么把那篇文章刪了，是不是又換了方向？

陳茜：如果你們是一個非常research-driven（研究驅動）的團隊，距離達到AGI還有一段時間。那投資人肯定也會問：中間你用什么來養活自己？除了VC的錢，你們的產品商業化落地是怎么規劃的？

Andrew Dai：我們是一個研究與產品并重的實驗室，也做frontier research（前沿研究）。但我有Google Brain的背景，Google Brain當時也有一個目標：把這些模型放到產品里，讓幾十億人使用?，F在Gemini就有很多人在用了，那是比較成功的。我們這家公司也有同樣的目標：做一個APII（應用程序接口），讓大家使用，幫助企業解決視覺問題。

陳茜：就是通過模型API的方式變現。但你的ultimate goal（終極目標）還是幫助大語言模型和視覺模型一起達到AGI？

Andrew Dai：對，至少達到視覺AGI。

陳茜：怎么定義視覺AGI？

Andrew Dai：我覺得“視覺AGI”比“AGI”表達得更準確。AGI的門檻每天都在變，有些人說我們已經達到AGI，有些人說沒有。但“視覺”這件事，大部分人都能看到東西，在最基本的層面上能力差不多，比如你看到一個方向盤就知道怎么用，看到系鞋帶的動作就知道怎么做，拼樂高或宜家家具也都是視覺問題，但這些現有的模型都做不好。如果有了一個可以做這些最基本視覺任務的模型，那距離AGI就不遠了。

“最重要的資源是時間”

谷歌14年的研究品味與引路人

陳茜：你覺得自己出來做公司跟在谷歌有什么不一樣？在谷歌14年，你有無限的資源、資金和人才，出來之后什么都要自己搞，需要找人、找錢、找方向，這中間的差異對你來說是什么樣的體驗？

Andrew Dai：很多地方不一樣，卡方面當然少很多。但有一個優點，在谷歌或大公司，優先級可能每周都變，今天有卡，下周可能就沒了。在新公司則更穩定，我們買了卡，沒有人會拿走。

另外，我突然需要學很多新東西，比如怎么用PyTorch（因為DeepMind都用JAX）、怎么用Megatron、怎么用AWS、怎么用Slurm。谷歌基本上不用開源的東西，所以學習曲線對我來說很陡峭。

還有一個比較難的是招聘，DeepMind的Gemini團隊很多人都想加入，發了offer候選人一般會接受。但在小公司不一樣，我們現在還沒有太大的名氣，候選人知道小公司風險更大。所以招聘更難，有的人喜歡大公司的安全感，但也有人想嘗試新的地方，覺得我們可能會成為下一個OpenAI或Anthropic，所以會加入我們。

陳茜：出來之后，你說會有更多的research freedom（研究自由）。但研究自由的代價是什么？

Andrew Dai：代價是支持會少一些。在谷歌，如果一個研究想法不成功，沒關系，還可以做下一個項目，公司有很多資源支持你。但在初創公司，一個失敗的研究想法風險更高，因為那些資源已經消耗了，不會回來。因此我做研究的壓力會稍微大一些，我們現在就是尋找世界上最好的研究員，靠他們做出很好的成果。

陳茜：你覺得谷歌這14年帶給你最大的是什么？

Andrew Dai：我這幾年運氣很好，能待在世界一流的研究室，看著AI發展到今天這個程度。10年前沒有人會想到AI會發展得這么快，這是不可能的。我本來一直覺得世界變化比較慢，登月都已經是快六十年前的事了，但AI出現之后，突然感覺科技發展又重新提速了。

陳茜：你之前跟我提到過一個詞叫research taste（研究品味），說neolab的這些人，都是因為他們所看重的研究方向在大公司里不被重視，但這很考驗一個研究員的研究品味。能跟我們說一下，研究品味為什么重要嗎？你在谷歌的14年是如何養成這種研究品味的？

Andrew Dai：對，研究品味很重要，不只是因為跑實驗需要卡和資源，我覺得最重要的資源是時間。如果你跑了一個錯誤的實驗或者走了一條錯誤的路，時間不會回來。你要知道什么時候繼續追一個方向，也要知道什么時候放棄，研究品味就能幫助你做出這些判斷。

我的研究品味很大程度上來自Geoffrey Hinton。他一直認為，做AI要根據大腦的工作方式來，如果大腦用某種方式處理視覺，那我們的模型也應該用類似的方式。就像CNN（卷積神經網絡），這些神經網絡模型是參照大腦的神經元設計的，也是從數據中學習的。我們現在的模型也都是從數據學習，一個全新的Transformer什么都不知道，給了數據才能做事。這也契合神經科學的想法：大腦一開始什么都不懂，通過成長才慢慢學會很多東西。所以我做研究的時候，也按照這個思路來判斷：如果某個新方向和人類神經認知的方式相差很遠，我可能就不會追那個方向。

陳茜：你的新公司Jeff Dean也有投資，你覺得在整個谷歌生涯中，Jeff Dean對你來說是怎樣的存在？

Andrew Dai：Jeff Dean是一個很好的advisor（導師）。我剛進Brain團隊就認識了他，那時候我們的模型跑得很慢，我的經理說如果有速度問題，直接去問Jeff Dean，他什么都知道。他來到我的電腦旁邊，不光看代碼，還看machine code（機器碼），比C++和Python還要深層的代碼，然后說“噢，這個地方不對”，然后他就給改了。

從那時候我就知道Jeff Dean是很親力親為的人，什么都懂、什么都學，包括自學了深度學習，才能做出Google Brain。所以他是我比較重要的榜樣。他現在是Gemini的負責人，做得很好。

陳茜：在谷歌里面還有沒有其他對你影響很大的人？

Andrew Dai：Quoc Le的影響也比較大，我跟他合作了好幾個項目，也一起帶了好幾個實習生。谷歌厲害的人太多了，我覺得Google Brain和DeepMind就是這一代的Bell Labs（貝爾實驗室），聚集了非常多聰明的人。包括Noam Shazeer，他真的非常厲害。還有Demis Hassabis，他是很獨特的人，致力于用AI幫助整個世界，這個目標我覺得很了不起。

陳茜：最后可以聊聊你想招什么樣的人才？對于好的人才，你跟他們喊幾句話，告訴大家為什么他們應該來你的公司，和你一起實現視覺AGI？

Andrew Dai：我們現在在招世界一流的團隊。我們認為人才密度越高，進步就越快。我看到DeepSeek這些中國研究機構，正是因為規模小、人才密集，才能做出很好的東西。我們在招有多模態經驗、RL經驗的研究員，也在招管理過GPU集群、training kernels（訓練算子）、CUDA kernel（CUDA算子）、optimization（優化）這些方向的基礎設施工程師。

為什么要加入我們？因為我覺得我們這個團隊屬于是neolab里的頂尖梯隊，能找到有這么多數據經驗、預訓練經驗、前沿模型經驗的地方可能只有三四個，大部分其他的neolab都沒有這么豐富的積累。我們的方向也是一個比較新的方向，我們認為會帶來下一代的推理，一種更接近人類推理方式的reasoning（推理）。我們希望大家來跟我們一起成長，成為下一個Anthropic或下一個OpenAI。

陳茜：好的，謝謝Andrew。

Andrew Dai：謝謝。

Office tour

AI科學家需要綠植和白天蒸桑拿?

陳茜：你們也是剛搬進來，對吧？

Andrew Dai：對，剛搬進來，我們還在用鑰匙開門。

陳茜：現在是周五下午，員工都差不多離開了。你們現在有多少人？

Andrew Dai：差不多15個人。

陳茜：你們現在的比例是怎樣的？多少人在做研究，多少人在做基礎設施？

Andrew Dai：可能是12個人在做研究，1個人在做基礎設施，2個人在做運營，我們是非常重研究的團隊。

我們之所以選擇這個辦公室，就是因為這個院子。就像大學里的Quad（四方院）。我們午飯、happy hour都來這里，有客人也在這里接待。

陳茜：你們還需要多一點綠植。

Andrew Dai：對，還有一個噴泉，可以讓人放松。

陳茜：這個院子你打算再加什么東西嗎？

Andrew Dai：我們有一個研究員想加一個桑拿，累了就去泡?？赡茉谏Ｄ玫臅r候能想到一些東西。就像我洗澡的時候會thinking（思考）。

陳茜：所以你會用視覺模型去玩桌游嗎？

Andrew Dai：我試過了，但它們太差了，連象棋都不太會玩?？赡艿任覀兊哪Ｐ妥鐾曛螅涂梢杂盟蜃烙瘟恕?/p>

陳茜：你最愛的辦公室是哪一間？

Andrew Dai：就是角落那間。

陳茜：這間嗎？光線很好，還有一個站立式辦公桌。所以你經常會在這邊看著外面，想一想？

Andrew Dai：對，或者坐在這里打電話。

陳茜：你現在大概一天的時間分配是怎樣的？有多少時間在做運營工作，多少時間在做research（研究）跟thinking（思考）？

Andrew Dai：我白天大部分時間都在做運營，比如面試、搭建IT架構、搭建AWS。Research（研究）基本上是周末和晚上，在家里很安靜，可以思考新的方法。

陳茜：經常在洗澡的時候有新想法。

Andrew Dai：是的，很多idea都是洗澡時冒出來的。

陳茜：我也是。然后idea來了之后，馬上用Claude Code就可以實現了。

Andrew Dai：對，現在因為編程模型很好，我們可以很快套進去看看，這個idea好不好，快很多。

陳茜：這個idea是來自研究員還是你自己？你們公司的idea是怎么產生的？

Andrew Dai：都有。比如一些新的vision encoder（視覺編碼器）的想法是我提出的，一些SFT（監督微調）和數據的想法是團隊里的人提出的，現在正在跑。但我們總體覺得，自動化研究工具產生的想法太平庸了，沒有創造力，做研究一定需要創造力。

以前ideas很便宜，因為編程很難、執行很難。但有了Claude Code、GPT Codex之后，執行容易了很多，ideas的價值就上漲了。

陳茜：所以這些有創造力的研究員，現在是大家爭搶的寶貴資產。

Andrew Dai：對，creative researchers（有創造力的研究員）非常重要。

陳茜：最近neolab出來了很多人和創業公司，你覺得這個趨勢還會持續嗎？

Andrew Dai：我覺得還會，因為現在機會很多，開源模型很多，融資也變得容易了一些，很多公司都在IPO。所以這段時間我覺得還會有更多。但這也是一個窗口，過了一段時間，我們這一代neolab都成長壯大了，再新起來的就會更難了。

陳茜：你覺得這個窗口的截止日期是什么時候？

Andrew Dai：很難說，可能是這兩年吧。然后等一段時間，又會有下一代實驗室。

陳茜：下一代實驗室會是什么樣子的？

Andrew Dai：我不知道?？赡苁茿GI之后的實驗室，那我就不知道了，可能都是AI在跑，但現在它們的創造力離人類的創造力還太遠了，所以還不適合。

陳茜：好的，謝謝Andrew。

Andrew Dai：謝謝。

以上就是我們與Andrew Dai的全部訪談和辦公室探訪了。Neolab是如今在硅谷非常重要的一個支線，也是今年在硅谷101著重關注的方向。接下來我們還會有更多Neo Labs創始人的深度訪談。

如今VC的大量資金涌入這樣的新型AI實驗室，是因為這些大基金們在OpenAI等前沿模型上的賭注已經太重了，他們需要一些對沖：萬一大語言模型無法走到最后呢？那么接下來AI怎么發展，可能就是要看這些neolab的研究的成果。

就像AI靈魂領袖Ilya Sutskever說的那樣：我們正在重新回到“研究時代”。

注：部分圖片來源于網絡

【本期節目不構成任何投資建議】

【視頻播放渠道】

國內：B站｜視頻號

海外：Youtube

聯系我們：video@sv101.net

【創作團隊】

監制｜泓君陳茜

撰稿/采訪｜陳茜

剪輯｜Frentee 橘子

運營｜孫澤平王梓沁 13

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.