網易首頁 > 網易號 > 正文申請入駐

“為了一個功能，需要再造一個Google！”Jeff Dean最新對話：TPU的誕生，與那些差點把服務器燒了的瘋狂往事

2026-04-27 17:25:08　來源: AI科技大本營

北京舉報

分享至

揭秘那些寫在教科書之外的硬核黑歷史與底層邏輯。

圖文 | Gemini A I 小分隊

責編 | CSDN 編輯部

出品丨AI 科技大本營（ID：rgznai100）

在 Google Cloud Next 的主舞臺上，兩塊泛著金屬冷光的芯片被穩穩地擺在桌面上。左邊那塊稍微厚重一點，右邊那塊則顯得更加緊湊。

此時的臺下，坐著數千名剛剛聽完 Keynote 一系列大模型新功能發布的開發者；而在桌子兩邊，則是科技播客圈和工程界最具分量的四個人。一邊是著名商業播客《Acquired》的主播Ben Gilbert和David Rosenthal——就在幾個月前，他們剛用一檔長達 12 小時的節目，把 Google 25 年的技術史扒了個底朝天；另一邊，則是這段歷史真正的締造者：Google 首席科學家Jeff Dean，以及 Google AI 基礎設施高級副總裁Amin Vahdat。

就在過去的這大半年里，整個 AI 行業的敘事正在經歷一場劇烈的物理轉向。當具有長鏈條推理能力的新一代大模型出現，當各種“智能體（Agent）”開始在后臺日夜不休地調用工具、生成成千上萬行代碼時，人們突然發現，過去那種“重訓練、輕推理”的算力消耗模式到頭了。推理端的算力需求，正在從一道涓涓細流變成決堤的洪水。

與此同時，大模型帶來的不再只是軟件層面的代碼競速，它已經徹底演變成了一場重資產的物理戰爭。為了滿足龐大的能源需求，微軟買下了三里島核電站的產能，亞馬遜和 Google 也在滿世界尋找風電、太陽能和小型核反應堆；英偉達的新一代架構常常因為發熱和封裝產能牽動著整個華爾街的神經。AI 正在猛烈地撞擊著真實世界的物理壁壘。

在這樣的背景下，Jeff Dean 和 Amin Vahdat 并沒有在臺上大談 AGI 還有幾年到來，也沒有兜售虛無縹緲的科幻概念。他們聊起的是 11 年前，為了不讓龐大的語音識別需求把 Google 拖垮，而在一張幻燈片背面算出來的TPU雛形；是 2003 年為了造出 1 萬個端口的交換機，直接把服務器主板燒起火的極客往事；是今天哪怕手握上千億美元的資本支出預算，依然會被一顆 57 美分的德州儀器電容器卡住脖子的工程現實。

這也是一次極其難得的“軟硬碰撞”。當一個掌管著世界上最前沿模型研發方向的首席科學家，遇上一個掌管著地球上最龐大算力網絡的基建狂魔，他們每天在會議室里是如何為了下一代芯片的架構討價還價的？為了讓模型少等幾毫秒，硬件團隊需要對網絡拓撲結構做出怎樣的妥協？以及，當 Google 內部 75% 的新代碼都已經被 AI 自動生成時，人類工程師這最后 1% 的價值，究竟落在了哪里？

在這場對談中，你不僅能聽到一段關于 Google 算力帝國是如何在誤解與試錯中崛起的極客秘史，更能窺見在未來十年，支撐起整個 AI 時代的鋼鐵骨架究竟長什么樣。

以下為這場精彩對談的完整實錄：

“我們需要再造一個 Google”：TPU 的瘋狂起點

David Rosenthal & Ben Gilbert：我們是今天的主持人。今天我們將展開一場非常精彩、有趣的對話。《Acquired》是我們做的一檔超長篇幅的播客，專門講述科技及其他公司的發展史。去年，我們做了一個由三部分組成、長達 10 到 12 小時的系列節目，深扒了 Google 的整個歷史——從搜索引擎的誕生，一直講到我們當下所處的 AI 時代。所以，當 Google打來電話問：“嘿，你們想不想在臺上采訪 Amin 和 Jeff？”這簡直是想都不用想的好事。今天非常激動能在這里對他們進行采訪。也很高興能和大家一起分享。

Amin Vahdat：臺上的這些芯片確實巧奪天工。它們真的很美。

David Rosenthal：右邊這塊看起來比左邊那塊稍微大一點點。是這樣嗎？

Amin Vahdat：左邊這是 v8t，這是我們的訓練性能怪獸；而右邊這塊是 v8i，它在物理尺寸上確實稍微大一點，它的內部構造意味著這里蘊含了更強的算力。里面有更多的靜態隨機存取存儲器（SRAM）。這也是為什么我們能實現超低延遲推理的部分原因。我們可以把像 KV 緩存之類的東西全都存放在芯片上。高帶寬內存（HBM）和 SRAM 之間的數據傳輸速度極快。

這一塊則是為吞吐量而生的，提供規模化的原始算力，每個 Pod 最多可容納 9600 個 TPU。然后通過我們的數據中心網絡和軟件——其實如果你聽了今天早上的演講就會知道——得益于 Pathways 和 JAX，一百萬塊芯片可以協同工作。

Jeff 在這兩項技術的開發中發揮了舉足輕重的作用。它們真的就像一臺計算機在運轉。換句話說，你只需寫下一段代碼，編譯器和運行時環境就會自動弄清楚，如何將它分配到多達一百萬個 TPU 上去執行。

Jeff Dean：甚至只需一個 Python 進程就能驅動這整個龐然大物。

Ben Gilbert：這絕對是我聽過“最 Google”的事情了。Jeff，我們想先問問你，1999 年你加入那個沒人看好的小型初創搜索引擎公司時的情景——你是 Google 的第 30 號員工。

Jeff Dean：當時我們全都擠在帕洛阿爾托市中心一家店鋪的樓上，那地方現在是個 T-Mobile 手機店。現在每次路過那里感覺都很奇妙。它現在就是個賣手機的。

Ben Gilbert：你當時有想過有一天自己會設計最前沿的硅芯片嗎？

Jeff Dean：我當然沒想過，因為我壓根沒有這方面的經驗。但我認為，就我們要努力實現的目標而言，Google 一直是一家雄心勃勃的公司。我喜歡我們那個永恒的使命：整合全球信息。我覺得這仍然是我們正在努力做的事情。而這也帶來了一系列多年來仍未被完全解決的、非常有趣的純技術挑戰。

David Rosenthal：說到這個，我們今天想先帶大家回到十多年前的 2013 年，回到 TPU 項目的起點，聊聊當時你和 Google 預見到了怎樣即將到來的技術挑戰，從而催生了你們要自己研發芯片這個瘋狂的想法。你能帶我們回到那個時刻嗎？整個項目是怎么開始的？那是個很棒的故事。

Jeff Dean：其實比那還要早一點，甚至在2011 年和 2012 年的時候，我們就開始使用海量的 CPU 機器來訓練規模越來越大的神經網絡了。因為我們發現，每次只要我們擴大訓練模型的規模，用更多的數據去喂它——我們當時有句口頭禪：“模型越大，數據越多，效果越好”。這在我們嘗試過的許多問題中都得到了印證，無論是語音識別領域，還是各種不同的計算機視覺任務，以及在 2012 年、2013 年初的語言和翻譯任務中，都是如此。

Ben Gilbert：而這后來就被大家通俗地稱為“縮放定律”（Scaling Laws）。

Jeff Dean：我們當時其實并沒有對它進行過什么正式的定義。大家只是在茶水間里閑聊：“哦，我們把模型做大了一倍，效果更好了”，諸如此類的話。但這確實是我們在 2012 年和 2013 年初，在規模越來越大的實驗中實實在在看到的結果。

所以，特別是在語音識別方面，我們在過去幾個月里通過訓練更大的模型，使得詞錯率下降的幅度，竟然抵得上過去 20 年語音識別研究取得的進步總和。在那個時候，現有的語音系統效果還不夠好，無法讓人真正愿意去用，因為大概每說五個詞就會錯一個。想象一下，你口述了一段話，然后還得回過頭去修改每五個詞里的一個錯誤，這太讓人抓狂了。

Ben Gilbert：而且那時候我們已經進入移動互聯網時代五年了。

Jeff Dean：尤其是當時的手機沒有足夠的算力在本地運行語音識別。所以你只能把音頻發送到云端，在云端進行識別。但如果我們能把錯誤率降低一半，顯然人們就會開始更頻繁地使用它。

于是我就做了一個思維實驗——通常大家會說是“信封背面的粗略計算”，或者是“幻燈片背面的推演”——我當時想：“好吧，假設有 1 億人每天開始對著手機說上 3 分鐘的話。為了推出我們想要的最優質模型，我們需要多少算力？”

結果算出來，為了上線這個新的語音識別功能，我們需要比Google當時擁有的計算機總數還要多出一倍以上的機器。

Ben Gilbert：為了一個功能投入這么多，聽起來代價太大了。你等于是需要把 Google 的整個基礎設施再復制一遍。

Jeff Dean：所以我當時撓了撓頭。心想：“這聽起來不太妙啊。”

但后來我們發現，神經網絡推理有一個極其不可思議的特性，那就是它對降低精度有著極高的容忍度。它本質上就是一堆線性代數的基本運算、矩陣乘法、向量運算，為了不同的模型以不同的方式串聯在一起。

因此，如果你能造出一塊芯片，它本質上就是一臺性能極其強悍的低精度線性代數運算機——也就是后來的TPU——那你就有希望獲得更好的性能。

我們在 2017 年發表了一篇關于TPU v1的論文，它的誕生正是源于那個“幻燈片背面的推演”，論文顯示它的效率是當時 CPU 和 GPU 的 30 到 80 倍，延遲則降低了 15 到 30 倍。這就是 TPU 最初的故事。

David Rosenthal：所以當時的邏輯就是，如果要搞語音轉文字這類東西，就需要一個 ASIC（專用集成電路），也就是一塊專門為處理這類運算而定制的硅芯片。

Jeff Dean：在設計過程中，我們其實試圖解決幾種不同類型的問題。我們有語音識別，它對應一種特定類別的模型。我們還有用于各種視覺任務的多種卷積神經網絡模型。然后在最后一刻，我們開始覺得：“哦，這些 LSTM（長短期記憶網絡）的東西挺有意思的。哪怕我們已經開始設計芯片了，還是給它們加點額外的支持吧。”

正是因為這樣，我們后來才能支持 Google 翻譯以及其他一堆類似 LSTM 的應用。

Ben Gilbert：LSTM 正是 Transformer 架構的前身。

“第一代產品直接燒了”：被群嘲后，自研硬件的血淚史

David Rosenthal：大多數公司在這個時候面臨這種問題，哪怕是資源雄厚的其他大型科技公司，估計都會跑去找，比如英特爾、博通或者英偉達，然后說：“嘿，給我造塊芯片吧。”

但 Google 并沒有這么做。為什么？

Amin Vahdat：我來講個故事吧。這可能算是個坊間傳聞——因為那是在我加入 Google之前的事了。也許 Jeff 可以幫我證實一下。

在早期，我們意識到，為了支持 Jeff 和其他人在 Google 早期構建的一些系統，比如 MapReduce、Google 文件系統（GFS）等等，我們需要一個擁有1萬個端口、每秒 1GB 帶寬——這在 2003 年可是個天文數字——的無阻塞以太網交換機。而這就是我們想要的。所以我們當時真的發布了一個——

David Rosenthal：而這東西當時根本不存在。很難想象一個設備上有1萬個端口。

Amin Vahdat：不管別人怎么想，反正這就是我們想要的。在那個年代，主流帶寬還是每秒 100 兆，能有 32 個端口左右你就謝天謝地了。所以我們實際上發了一份 RFQ（報價請求），把它發了出去，結果所有的網絡公司……每個人都在嘲笑我們。

每一家都說：“這簡直是個笑話。你們做不到的。1 萬個端口，絕不可能。這就是你們異想天開。”

所以，Google 一如既往地展現了它的極客本色，說：“那我們就自己搞。網絡嘛，能有多難？” 于是我們打造了第一個系統，而且我們實際上是把它做成了一張PCI 擴展卡，因為我們覺得傳統的網絡盒子沒什么意義。我們懂服務器。我們要造一張 PCI 卡，然后把它插進服務器里。

結果第一代產品直接起火了。事實證明，搞硬件確實很難。它失敗了。

但是不，我們沒有放棄。我們造了第二代。第二代實際上投入了生產。我想現在我可以坦白說，它并不怎么好用。實際上大家都很討厭它。他們雖然在用，但都想盡量避開那些插了這卡的服務器。

第三代產品就是那個無阻塞的、當時已經達到每秒 10GB 帶寬、擁有 1 萬個端口的交換機。它不是一個單獨的盒子。它是數百個盒子排列成一種叫做 Clos 拓撲的可重排無阻塞拓撲結構。它在整個 Google 內部大獲成功。它改變了 Google。

我認為正是像這樣的經驗教訓，讓我們愿意去投資那些看起來很瘋狂的東西，那些所有傳統觀念、所有懂點網絡的人都覺得荒謬的東西。我們總是愿意站出來說，我們要試一試。我們愿意承受第一次燃起大火的慘痛失敗。第二次它是個還湊合的產品，但我們繼續前行。然后是第三次、第四次，還有我們今天宣布的Virgo——那個百萬 TPU 網絡，它正是第三次迭代在邏輯上的延續。

而我有幸在 2010 年把開發第四代版本作為我在 Google 的新人項目。所以我們愿意去嘗試——我不用去處理那場大火，但我享受了那場大火帶來的紅利。但我認為這在某種程度上是相似的，因為如果你回到 2003 年，你問：“制造加速器的傳統智慧是什么？”

答案是，不，你不要去造加速器。你不要為單個工作負載去制造 ASIC，因為它們很快就會過時。等你把它推向市場的時候，世界早就把你拋在腦后了。

所以我認為我們當時可能本可以去英偉達，或者別的什么公司，然后說：“嘿，你們能為這個專門造點東西嗎？” 然后可能被告知：“好的，這需要花這么多時間”等等。

不過，與我們的網絡設備不同，第一版 TPU v1 就成功了。它不僅能用，而且效果非常好。

David Rosenthal：速度極快，大概只用了18個月。

Jeff Dean：我想從有了想法到實際部署，只用了15個月。

David Rosenthal：真是不可思議。

Jeff Dean：我們當時還抱著投機的心態買了一大批，雖然當時還不知道要怎么用，但后來全用光了。我當時跑去攔住我們當時的首席財務官 Patrick Pichette，我說我們應該買一大堆這玩意兒。他問：“多少？”我說：“很多很多。”

Ben Gilbert：嗯，這就像是那種情況：你看，既然我們有這么多 Google 工程師，我們也許應該給他們點好玩的玩具，看看他們能搗鼓出什么新產品來。而且，甚至在 2021、2022 年左右我們現在所處的這場真正的 AI 大爆發之前，就已經有很多機器學習的狹義應用在Google的產品中大放異彩了。

Jeff Dean：我給你舉個例子。這不是一個 Google 的常規產品，但在 AlphaGo 對戰李世石的比賽中，我們使用了整整兩個機架的 TPU v1 芯片來進行推理。我后來去參觀數據中心的時候，甚至還在那個機架旁邊貼了一個紀念版的圍棋棋盤。

正是因為擁有了大量并行的專用 ASIC，我們才得以對落子空間進行如此深度的探索，這是一個極其關鍵的因素。

Ben Gilbert：而李世石當時并沒有意識到這一點。你知道，我們之前沒聊過這個，但我回想起了我們做調研時發現的一點。TPU v1 真的能塞進硬盤倉里嗎？

Jeff Dean：它們是基于 PCIe 接口的擴展卡，所以你只需要把它們插進 PCI 插槽里就行了。

Ben Gilbert：我一直覺得這是一種非常聰明的做法，就好像在說：“好吧，有很多東西我們不想去碰。我們只想專注于解決這個非常狹窄的問題，我們能不能直接把它塞進現有的硬件里。”

Jeff Dean：我們當時試圖把模型塞進單張卡里，而這個事實讓事情變得簡單了，因為你實際上不需要那么大的帶寬來讓數據進出這張卡。然而，如果你現在想塞進大得多的模型，即使只是用于推理，它們也無法容納在單一芯片上，你就需要復雜得多的網絡，就像我們在 v8i 或后續幾代 TPU 上所做的那樣。

David Rosenthal：而真正帶來質變的是幾年后問世的 TPU v2，它把256個稍微加強版的 v1 通過網絡拓撲結構連接在了一起。那時的頓悟是，我們不僅能用它們來提供服務，還能用它們來訓練這些大模型。

Jeff Dean：而且同樣是利用了降低精度的特性，這意義重大。

想象一下：把一個帶有六位小數的分數乘以另一個帶有六位小數的數字。這對你來說超級難，對吧？嗯，這對計算機來說也超級難。

所以，如果你能把相乘的數字從小數點后六位減少到只有一位，你就能用更簡單的乘法器單元去計算多得多的數字，并且能夠并行處理更多運算。

從本質上講，你可以在相同面積的芯片里塞進更多的乘法器，這不僅能給你帶來大得多的吞吐量，還能大幅降低延遲，并且在計算結果時，減少了你需要從內存中讀取和寫回的數據量。所以，對于深度學習和計算機架構師來說，這簡直就是絕配。

Amin Vahdat：我描述這事兒的方式是，如果你回想一下高中物理，或者大學物理課，當教授或老師在黑板上解題時，他們會推導出各種各樣的近似值。這曾經快把我逼瘋了，因為我是個徹頭徹尾的“精度控”，但教授會說：“3π，我們就把它當成 10 吧。” 然后這些數字在計算過程中，偏大和偏小的誤差就會相互抵消。最后，他或者她就會得出一個與真實答案驚人接近的結果，而這一切僅僅是通過一路近似算出來的。

所以，當你能在腦子里完成計算，并且只用大概百分之一的力氣就能得到幾乎一樣的答案時，降低精度就是件好事。

Ben Gilbert：但這似乎會帶來一種權衡，它會影響下游的模型訓練，比如有人會說：“嘿，我們來做一個使用高精度的優秀模型吧。”我總是覺得非常不可思議，我們今天擁有的這些令人驚嘆的前沿模型，竟然都是在精度盡可能最低的硬件上訓練出來的。

Jeff Dean：一種理解方式是，你在模型中有一堆不同的權重，對吧？如果你降低這些權重的精度，如果只降一點點，影響并不大。如果你降得很多，那你確實會損失一些模型質量，但你可以通過增加，比如說 20% 的權重來彌補這些質量損失，哪怕你把精度的位數砍掉了一半。所以你就知道這是一筆劃算的買賣，因為它讓你的模型在參數數量上稍微變大了一點，但在你需要處理的比特數上卻變小了很多。

“YouTube里全是貓”： Scaling Law 的蠻荒時代

David Rosenthal：你們 Google 如今擁有一個處于行業前沿的硅加速器業務，如果你愿意的話，可以稱之為“基建業務”。你們制造 TPU。這么說很貼切。而且它與一個前沿人工智能實驗室結合在一起，全都在同一個屋檐下。這種緊密的合作是從什么時候開始的？顯然，在 TPU 剛起步時，今天概念中的這種“前沿實驗室”還不存在。

Amin Vahdat：我想說，早期在大規模神經網絡訓練上的工作，實際上為 v1 提供了方向。所以，從某種意義上說，我們從一開始就已經這么做很久了。Jeff 領導的 Google 研究院（Google Research）在這里做了許多先驅性的工作，而且多年來一直在持續推進，他不僅深入參與了 v1，還深度參與了整個 TPU 項目。

我們提到了那個展現了非凡遠見的“幻燈片推演”，但 Jeff 一直深度參與了 v1、v2、v3 的研發，包括架構設計、細節打磨，并將來自研究領域的全部知識以及未來的發展方向，注入到每一代 TPU 中，包括我們今天在這里看到的這兩款。

Ben Gilbert：那篇關于 YouTube 識別出貓的論文，是用 TPU 跑出來的，對吧？那是 TPU v1 還是……

Jeff Dean：不，那甚至是在 TPU 誕生之前的事了。那是在 2012 年。當時我們正試圖擴大大型神經網絡的規模。我們對圖像的無監督學習目標有一些想法。所以我們說：“好吧，我們就隨便挑 1000 萬幀隨機的 YouTube 畫面，看看模型能從中學到什么。”

于是我們動用了 2000 臺不同的機器，在 16,000 個 CPU 核心上訓練了一個神經網絡。結果我們訓練出了一個多層模型，在訓練完成后，你可以去觀察頂層的不同神經元會對什么樣的圖像產生興奮反應。

結果發現，因為我們是用 1000 萬個隨機的 YouTube 視頻訓練它的，其中一個神經元在看到貓臉時會變得非常興奮，因為 YouTube 上有很多貓的視頻，而其他神經元則會對汽車的零部件之類的事物感到興奮。而這完全是無監督的。我們從來沒有告訴過模型這是一只貓，或者這是一輛車、一個人。但因為我們訓練了一個比別人嘗試過的都要大 50 倍的模型，這個模型就開始純粹在無監督的情況下發展出這些表征能力。我認為這也是我們在內部得出“模型越大，數據越多”這一啟示的一部分。

Ben Gilbert：我要稍微跑個題，因為我覺得這個話題很有意思。這項研究發展到今天變成什么樣了？比如盯著特定的神經元說：“這是一個識別貓的神經元嗎？還是更抽象的概念？”

Amin Vahdat：我們在 Google 內部曾進行過一場激烈的辯論，爭論我們是否應該將這些深度模型用于搜索。

Jeff 對此再清楚不過了，因為我們面臨的一個挑戰是，很多時候，也許是大多數時候，這些模型的表現都優于人類手動微調的算法，對吧？比如那種你可以閱讀并理解的算法：“哦，我明白這個算法想干什么，這是它給出的搜索結果。” 模型的表現會比它更好。

但問題來了——你無法解釋為什么。比如為什么這個神經元變成了“貓神經元”，而另一個神經元變成了……所以如果有漏洞，你該怎么去調試它？我認為這個問題一直延續到了今天。Jeff，關于這個你或許可以多說兩句。

Jeff Dean：我認為，現在的無監督學習已經稍微退居二線，讓位于我所說的“自監督學習”了。因為現如今，你訓練那些最強大的語言模型的方法，就是拿大量的文本，然后把其中的一部分藏起來，讓模型去猜缺失的是什么。通常你會讓它這樣猜：你給它看文檔的前綴，比如一個句子的前半部分，然后讓它猜下一個詞。毫不夸張地說，這就是今天那些擁有各種驚人能力的語言模型的全部訓練目標。

還有其他的變體，比如你可以拿一段文本，隱藏掉里面大概 10% 的詞，然后模型在嘗試填空時，可以同時看左邊和右邊的上下文。這有點像你小時候可能玩過的“瘋狂填詞”（Mad Libs）游戲。但這對于對話應用來說并不是特別好用，因為在實際對話發生之前，你是看不到對話后續部分的。不過，這種方法在生成文檔摘要之類的事情上，還是有很好的用武之地的。

軟硬件的“宮心計”：頂級實驗室如何協同設計？

Ben Gilbert：我想深入探討一下 David 剛才提出的一個概念。你們這邊有 TPU 團隊。那邊有 Google DeepMind。如果我空降到你們的一些會議里，那會是一幅怎樣的場景？誰會提出什么想法？每個團隊都在要求些什么？有多大的靈活性？基本上就是你們日常工作的一天。

Amin Vahdat：靈活性非常大，而且這里最美妙的一點是，大家的目標是一致的：構建盡可能最好的模型，盡可能最高效的模型。所以我認為這里面有很多的相互妥協與配合。

舉個例子，研究團隊可能有七個看起來非常、非常大有可為的研究方向。實際上他們遠不止七個。硬件團隊也有七個看起來非常、非常大有可為的硬件方向。

那么，你如何將這兩者結合起來呢？然后就會有一系列的討價還價，因為他們最終會達成這樣的共識：“好吧，如果為了你的模型，你把你那七個想法中的一個往這個方向改一改，然后我也把我在硬件上的七個想法中的一個改一改，會怎么樣？因為我們沒法完全照你們想要的做。” 這種事經常發生。

研究團隊會跑來找硬件團隊說：“我們想要 X。” 硬件團隊會說：“那不可能。”

現在，如果你們是在不同的公司，對話到這兒就結束了。“好吧，拜拜。我們也許會去找另一個搞硬件的人談談。你拒絕了我們的報價請求。所以，我們想要一個1萬個端口的交換機。”

反過來，在許多其他情況下，硬件團隊會跑去找研究團隊說：“我們搞出了一個超棒的新玩意兒。你們想拿它干點啥？” 研究團隊會說：“啥也不干。聽起來毫無用處。我確信你們的硬件小玩意兒很酷，但我們不感興趣。”

所以正是這種相互的磨合促使他們去想：“好吧，如果我用你們的硬件小玩意兒，我的模型是不是能玩出點不一樣的新花樣？” 所以，這種相互配合的精神真的每天都在，這種對聯合空間的探索也每天都在。這不是我的地盤，也不是你的地盤，這是我們的共同地盤。我們如何構建一個系統，能夠盡可能高效地交付模型、服務、訓練、智能體（Agents）以及所有的一切。這發生在各個層級。現在 Google 有很多人，所以很多這種交流都是工程師對工程師的直接碰撞，這正是你所期望的。然后，其中一些想法就會脫穎而出。

Jeff Dean：我想補充一點，在人工智能和機器學習這樣一個日新月異的領域里，作為一名硬件設計師是極其艱難的。因為基本上，如果你考慮今天開始設計一款芯片，可能需要兩年時間才能完成設計并部署到數據中心，然后它還需要服役三到六年之類的時間。所以你實際上是在試圖預測這個發展極其迅猛的領域，在未來兩到六年、甚至八年的時間跨度里會走向何方。

而就在六個月前，我們可能剛剛用某種新算法徹底改變了機器學習的許多方面。所以這超級難。因此，能擁有那些真正在小規模上嘗試各種想法、并且這些想法看起來很有希望成功的研究人員的洞察力，是非常棒的。

對于一個研究人員來說，最美妙的事情莫過于一個看起來“呼之欲出”的想法，因為你知道只要再加把勁，你就能讓它成真；而那些怎么弄都不見起色、你試盡了所有辦法也不行的想法，可能就沒那么讓人興奮了。

但我認為那種相互配合和協同設計真的非常重要。我實際上可以給你舉一個 v8i 的例子。我們想做的一件事是為強化學習進行非常長的軌跡追蹤，你需要解碼海量的 Token。比方說你生成了一段大約 500 行的代碼，然后你希望能夠運行它，看看代碼是否能跑通并經過單元測試，如果可以，它們就會在強化學習中獲得獎勵。

那么，為了解碼這些 Token，你必須承受每次生成 Token 時的延遲，對于一次生成 60,000 個 Token 來說，如果這需要很長時間，那么你的強化學習就會花費長得多的時間，因為它沒有達到盡可能低的延遲。

因此，研究團隊找到 TPU 硬件團隊說：“我們真的需要一種方法來大幅降低延遲，因為這不僅能改善在線推理，還能提升強化學習的效率。” 于是大家湊在一起集思廣益，說：“嘿，我們其實可以對正在設計的芯片做一些相對較小的改動，但改變網絡的拓撲結構。” 這實際上不會是一個翻天覆地的變化，但它真的能極大地改善解碼的延遲。

Amin Vahdat：這就是蝴蝶拓撲結構。

Jeff Dean：所以我認為這是一個非常清晰、具體的例子，展現了我們是如何進行協同設計的。

Amin Vahdat：多年來，我們構建這些 TPU 都是為了追求吞吐量，而 Jeff 剛才提到的那個推理例子，我們過去基本上是通過將許多許多查詢組成流水線來控制延遲的。所以我們會同時處理大量查詢。但對于強化學習，你沒法把很多查詢做成流水線。就像 Jeff 舉的那個絕佳例子，你正試圖生成這500行代碼。運行它，然后測試它并獲得結果。你沒法用流水線來處理。

所以，那個為吞吐量優化的引擎——它現在依然存在，因為對于其他用例，你仍然需要那種龐大的吞吐量——并不最適合這種“好吧，讓我先跑出一個結果來”的低延遲場景。硬件團隊本來會自然而然地傾向于說：“我只要把最后一個環節弄快點就行了。” 但這完全忽略了即將到來的研究問題的實際用例。如果沒有那種密切的溝通，你就會錯過這個關鍵點。

Ben Gilbert：未來是未知的，未來是模糊的，而且你往未來每多看一天，它就變得越發不清晰。你們有這么多世界級的研究人員正在開發，比如下一個 Transformer 會是什么？而且你們對下一次迭代的信心存在著巨大的梯度差異。當你們在硅片上只有固定的空間，而且這東西還要服役兩到八年的時候，你們是如何分配籌碼下注的？

Amin Vahdat：這是我們每天都在激烈爭論的問題。

Jeff Dean：這就是每天協同設計的整個過程，對吧？

Amin Vahdat：你可能有成千上萬個想法，但你不可能把它們全都塞進硅片里。正如你所說，它們全都是展望未來兩三年的概率分布函數。而你每一代只能挑選四個左右的想法。也許是五個，但絕不是一千個。你只能挑出四五個宏大、冒險且大膽的東西放進去。好的。那么現在，你如何去預測未來呢？實際上，你是去寫模擬器。

換句話說，我們并不是完全在憑主觀說：“好吧，我喜歡這家伙。我不喜歡那個人，所以我要去看書了。” 我們實際上是在進行內部的“大比武”。

Jeff Dean：擁有高保真度的模擬器真的、真的非常重要。

Amin Vahdat：你必須對工作負載做出預測。有許許多多的變量。模擬器并不是……到最后，它們可能會從那一千個想法中篩選掉 90%。甚至可能是 95%。

這是件好事。但現在你手里還有 50 個，對吧？接下來的就是主觀判斷了，比如，我們認為這個東西在三年后會有多重要，相比之下，另一個東西在五年后或兩年后又會有多重要。

Ben Gilbert：而且我敢肯定，你們也在尋找巧妙的折中方案，比如：“我們能不能用一些獨特的乘法器或者這里的什么東西，把這兩件事都給辦了？”

Amin Vahdat：但空間終究是有限的。不可避免地會有一些人感到些許失望，但我認為，大家都在同一個團隊、都有著同一個目標的美妙之處在于，每個人都參與了這個過程。實際上，關于 Google 的另一件重要的事情是，大家有一種共識——而且我認為這也是事實——即這是一個公開透明、數據驅動的過程。沒有完美的決定，大家只是在一起做出他們所能做出的最佳決定，然后相互信任：“好吧，這就是我們做出的決定，現在我們要去執行它了。”

而且也許 12 個月后又會有一趟新列車（新想法）到來，也許 12 個月后會有兩趟列車到來，誰知道呢？所以，也許我這次沒趕上這趟車，但我為加深理解做出了貢獻。也許我能趕上下一趟車。

Ben Gilbert：TPU v9 就可以有那個功能了。你們現在是每年都在做新芯片嗎？

Amin Vahdat：數據似乎表明，我們將來每年都會推出新芯片。而且一年有兩款。

“從一萬個模型到幾個”：谷歌 AI 中樞的統一之路

David Rosenthal：所以我們一直在談論 Google 內部研究團隊和 TPU 團隊之間這種令人驚嘆的互動。如今還有第三個維度，對吧？這在 TPU 項目剛開始時是不存在的，那就是——我敢肯定在座有很多 Google 員工，也可能有很多現在正在使用 TPU 的非 Google 員工，我希望如此——第三方用戶。

這在整個體系中扮演了什么角色？或者實際上，先給我們講講決定在Google Cloud上向第三方開放 TPU 的過程吧？我想象那一定是個復雜的決定。

Amin Vahdat：其實并不復雜。我們在 2018 年發布了它們。可以這么說，Jeff 從第一天起，就一直是將 TPU 向學術界和其他公司等外部人員開放的堅定支持者。

桑達爾（Sundar）在 2018 年宣布了首款云 TPU。我想我們可能是在 2017 年做出的決定。所以大概是在 v3 左右的時候，但我們不想發布 v1。我的意思是，Jeff 知道它能行。其他許多人也知道它能行，但它還沒有被廣泛證明。

v2 是我們第一次用于訓練。所以到了 v3 的時候，大家都覺得：“我的天哪，這東西是真的牛。其他人也能利用它。” 而且我認為我們看到了世界上機器學習的應用正在不斷增長，對吧？比如 Google 在采用這項技術方面走得比較靠前，但我們看到許多不同的公司和機構也意識到，這種方法可以解決他們關心的問題。

David Rosenthal：但與此同時，我敢肯定，Google 內部的需求絕對足以消化掉你們生產出來的每一個新增的 TPU。

Amin Vahdat：現在依然如此。所以我認為，這當然就變成了“你如何將你的想法融入 TPU”的另一種變體，它是一個投資組合。我認為它就是一個投資組合。

換句話說，我們極其幸運，我們擁有云服務，我們擁有世界領先的研究實驗室，我們還有各種面向用戶的服務。換句話說，我們擁有分發渠道。我們有 12 個日活躍用戶超過 5 億的服務，而且它們全都在使用 TPU。好的。那么現在你只有有限數量的 TPU。你該如何在它們之間進行分配？

Jeff Dean：我想說，在過去幾年里幫了大忙的一件事是，在 Gemini 之前，我們有許多不同種類的模型被不同團隊用于各種各樣的任務。我們有用于視覺任務的卷積模型。我們有許多用于推薦系統的模型，還有一些用于廣告預測的模型，而這些模型都有點截然不同。所以，對于 TPU 硬件團隊來說，要弄清楚我們應該更看重哪一個并為其進行優化，實際上變得有點困難，因為你可能需要不同類型的技術。

但隨著 Transformer 的使用變得越來越普遍，你可以專注于讓 Transformer 模型運行得極其出色，將其作為一個非常重要的用例，結果你最終覆蓋的用例范圍，比我們以前要大得多。

Ben Gilbert：這是最近才做出的決定，對吧？“All-in”一個超級大模型，這大概是 2023 年左右的決定。

Jeff Dean：是的，沒錯。我的意思是，這正是 2018 年 Pathways 項目的初衷，當時的愿景就是我們應該訓練一個能夠處理所有模態的統一大模型。但這是一個相當復雜且漫長、宏大的計劃。所以我們花了一段時間才走到今天這一步。

Amin Vahdat：這個決定其實做得早得多，只是現在才真正實現，因為我想我們曾經統計過，我們在生產環境中不知道跑著大概 1 萬個不同的模型。其中大多數可能都是某個母模型的變體，但大家都在按照自己的意愿進行優化。

Ben Gilbert：如果你用當初得出1萬個模型這個數字的相同標準來衡量，你覺得今天這個數字是多少？

Amin Vahdat：幾百個。

Jeff Dean：是的，可能只有幾百個。其中少數幾個核心大模型，幾乎承載了絕大部分的推理流量和絕大部分的應用場景。

Ben Gilbert：這背后的邏輯，是不是完全印證了你之前提到的觀點？“模型越大，數據越多，效果越好”，只不過現在是打了雞血的加強版。我們干脆就把所有 Google 的產品、所有 Google 的用戶數據以及所有第三方的數據，全都喂給它。

Jeff Dean：機器學習的終極夢想，就是構建出能夠舉一反三、處理從未見過的新事物的模型。因此，當你構建了一個見多識廣的更大模型時，它能夠泛化去處理你要求它做的新任務的可能性，就會變得高得多。

所以這就是你在所有這些模型的進化過程中所看到的，它們現在已經見識過種類多得多的數據。它們在人們關心的任務上接受了強化學習訓練，從而能夠泛化到人們關心的其他任務上。這就是為什么你現在能擁有這些幾乎無所不能的單一統一模型。

“推理需求正在超越訓練”：AI 下半場的終極瓶頸

David Rosenthal：順著這個思路，我們剛才聊了很多歷史，因為顯然本和我都熱愛歷史，重溫這一切太有趣了。但既然今天把你們兩位請到了這里，如果不聊聊未來，那就太失職了。

也許我們可以從“瓶頸”這個話題開始。能不能給我們講講你們今天工作中所面臨的現狀：阻礙我們獲得更多算力、更高性能的瓶頸究竟是什么？以及你們認為未來幾年這種情況會如何改變？

Amin Vahdat：我給出的一個不幸的答案是：一切都是瓶頸。而且我非常確信，如果我們不齊頭并進地解決所有問題，那么那個我們沒有去解決的問題，最終就會變成我們后悔當初沒去解決的致命瓶頸。

Ben Gilbert：給我們盤點一下吧。都有哪些瓶頸？

Amin Vahdat：能源是一個巨大的瓶頸。我們已經將大量工作重心轉移到了優化每瓦性能上。數據中心，在全球各地建設這些數據中心，面臨著許許多多的問題。審批許可、土木施工、電氣工程、機械設備等等。

Ben Gilbert：這似乎是 Google 和你們的同行目前面臨的最嚴峻挑戰之一，就是如何實打實地把這些東西建起來。這是一個非常硬核的物理過程。

Amin Vahdat：非常物理的過程。換句話說，我們平時生活在光子和比特的世界里。但這是原子的世界。我的意思是，這里有大量的混凝土、大量的泥土、大量的電纜等等。還有太陽能電池板、風力渦輪機、核反應堆……所以這些都是瓶頸。硬件絕對是個瓶頸。我是說，這是現在大家都知道的一個。它可能是臺積電或其他廠商的晶圓。也許是三星、英特爾和其他公司。它可能是內存。它可能是印刷電路……

David Rosenthal：甚至可能是用來把這根小電纜連接到這個玩意兒上的那個橡膠小配件。

Amin Vahdat：在新冠疫情期間，我們有個來自德州儀器的電容器，大概只要 57 美分。順便說一句，它的價格在一段時間內竟然飆升到了 500 美元左右，而那正是當時的瓶頸。不僅是我們，其他所有人，都栽在了這個小東西上。

David Rosenthal：電容器是用來吸收電荷的。

Amin Vahdat：是的。事實證明它們非常重要。所以這些都是瓶頸。

Ben Gilbert：如果今天 TPU 的數量是一個瓶頸，如果我給你雙倍的預算，讓你去造雙倍數量的 TPU，而且你也確實做到了，那還會遇到瓶頸嗎？瓶頸會變成什么？

Amin Vahdat：回顧 2025 年，我想我們在資本支出上大概花了 900 億美元左右，不管具體數字是多少。對于 2026 年，我們已經宣布了大約1750 億到 1850 億美元的資本支出。

Ben Gilbert：看來我們正在把你的假設變成現實。

Amin Vahdat：我每天都在經歷這些。我的團隊負責在 2025 年到 2026 年間交付兩倍的產能，就是實打實地把 TPU、GPU、CPU 或其他任何東西部署到位。我覺得我們能做到。

Jeff Dean：我想說的一點是，推理能力將會成為一個日益突出的問題，因為我們看到大語言模型推理對Token的需求正在爆炸式增長。隨著人們開始在后臺任務中使用更多的智能體，這些智能體會消耗更多的 Token。

而且我認為，低延遲將成為一個真正決定成敗的關鍵特性。你從 v8i 上就能看出來，我們正在追求更低的延遲。

Amin Vahdat：v8i 確實在集合通信操作上實現了5倍的延遲降低，而且網絡直徑也更小了。所以這就是集合加速引擎，實際上是我們內置在板子上的“加速器的加速器”。有太多不同的部件在協同運轉。

Ben Gilbert：Google Search 曾經也對速度有著近乎狂熱的癡迷，而這也是它的決定性特征之一。比如，直到搜索跨越了某個速度門檻、質量門檻等等，它才成為了這個無處不在的產品。同樣的事情似乎正在 AI 領域重演。Jeff，你應該是這件事的親歷者。

Jeff Dean：縱觀 Google 的歷史，我們一直對產品的響應時間癡迷不已。特別是搜索，它是我們早期真正死磕的領域之一，而且我們實際上可以衡量增加延遲帶來的影響。

比如，你可以挑出千分之一的用戶，給他們增加 5 毫秒的延遲。然后你就會發現他們使用搜索的頻率降低了。這可不是什么好事。反之亦然，如果速度更快，他們就會更頻繁地使用搜索。

所以這是我們非常關注的地方，而且我認為你將會開始看到，模型延遲路徑上的所有環節——軟件、為其打造的更好硬件——都會更加專注于將算力推向離用戶更近的地方，以滿足交互使用的需求。這在過去對搜索來說并沒有那么重要，因為如果數據中心處理時間是 150 毫秒，然后數據在用戶之間往返需要 150 毫秒，那網絡延遲占了很大比重。但語言模型最初的響應時間更接近一秒，那時候 150 毫秒的網絡延遲就顯得沒那么重要了。

但現在，如果你開始把響應時間縮短 5 倍，你就會覺得：“好吧，那我最好把這些服務器放在用戶隔壁，而不是放在大半個國家之外。”

Ben Gilbert：我對 Google 所有這些不同團隊的心理模型是：你們在某個領域取得了突破。某個團隊在縮短響應時間方面做出了驚人的成績，然后突然之間，聚光燈打到了另一個巨大的瓶頸上。

Amin Vahdat：阿姆達爾定律（Amdahl's law）就是這樣一種情況……在 Google，沒有哪個團隊想成為主要的瓶頸。而我總是告訴所有團隊：最終你們都會成為主要瓶頸的。遲早會輪到你們的。

Jeff Dean：在智能體的世界里，你看到的是：模型先做一些事情，然后調用工具，接著獲取這些工具的輸出并進行分析，最后決定下一步做什么，這可能又是調用另一個工具。如果你把模型處理的時間降到零，我想我們就會開始意識到，我們的工具太慢了。

在很多情況下，我們的工具是為人類的交互節奏而設計的，比如“給我列出目錄里的文件”或者“執行 SQL 查詢并給我結果”。如果你的模型調用這些工具的速度比人類快 100 倍，那這些工具的響應速度就顯得太糟糕了。

Ben Gilbert：這很有趣。我記得就在幾年前，我和 AI 界的一些朋友聊天時還說：“哦，AI 數據中心建在哪兒都行，無所謂，因為延遲根本不是個事兒。”對于訓練來說，這確實是真的。

Jeff Dean：沒錯，但我認為甚至對于任何事情，大家當時都覺得，哦對，對于離線推理和強化學習來說也是如此。

Ben Gilbert：但現在情況正在發生變化。聽起來這馬上就要變天了。離線推理有哪些例子？

Jeff Dean：比如你想在每一個上傳的 YouTube 視頻上運行某個模型，你需要這么做，但這并不是說有個用戶正眼巴巴地等著安全分類器的結果。或者你需要分析我們抓取的所有網頁來做點什么。這種推理工作負載有相當大的比重，這其實是件好事，因為那時你就會想要以吞吐量為導向的芯片，而不是以低延遲推理為導向的芯片，因為你對延遲沒那么在乎，只要今天能跑完就行，你可以把它們全部打包成批處理。

Amin Vahdat：所以這時候你就可以使用超大的批處理規模，而在這方面 v8t 比 v8i 更在行。所以，只要你有大批量的任務要處理，v8t 實際上在推理方面表現得極其出色。

David Rosenthal：如果我們在 2023 年進行這場對話，我問更多的算力是流向了訓練還是推理？我想答案肯定是訓練。現在情況反轉了嗎？

Amin Vahdat：正在反轉。天平正在傾斜。

75% 代碼已由 AI 接管？

David Rosenthal：說到反轉，我們剛才一直在談論未來的瓶頸。但，Google 現在 75% 的代碼都是 AI 寫的？

Amin Vahdat：是有這么個統計數據，我不知道準不準確。它從去年的 50% 躍升到了 75%。我想這大概是智能體和代碼模型共同的功勞。

David Rosenthal：Google 目前的編程現狀是怎樣的？它變化得有多快？

Jeff Dean：實際上，我們使用編程助手已經有很長一段時間了，而且我們眼看著這些數據一路攀升。有一年大概是 8%，幾個月后，提交到我們代碼庫的字符中就有 16% 是它們寫的，然后是 25%。而在過去大概四個月里，這個數字真的是呈爆炸式增長，因為現在的模型能夠處理運行時間長得多、復雜得多的任務。

所以現在你實際上可以對它說：“能不能幫我寫一個模塊，大致的頂層英文需求是這樣的？” 然后它就會真的跑去把代碼寫出來，并且順帶寫一大堆測試用例。這在過去可能是好幾個小時、甚至好幾天的工作量，而現在模型可以自主完成這一切。

所以你會看到大家都在充分利用這一點，因為突然之間，作為一名軟件開發者，你可以指揮一大堆這樣的后臺任務，從而完成比過去多得多的工作，而過去你可能只能交給它一個 20 分鐘級別的任務，而且它還不一定能做對。

Ben Gilbert：當這個數字達到 99% 而不是 100% 的時候，最后那 1% 由人類編寫的會是什么類型的代碼？

Jeff Dean：我認為，“知道該去解決什么問題”蘊含著巨大的杠桿效應。而且我認為，這將是這些模型最難真正理解的事情之一，那就是：你到底應該去研究什么問題？而人類在這種選擇過程中，有著不可思議的天賦。

David Rosenthal：這場對話太精彩了。也許作為收尾的最后一個問題。在你們兩位的職業生涯中，都經歷過令人難以置信的技術板塊大碰撞，無論是互聯網，還是移動設備、云計算，以及隨之而來的一切。我很好奇，以你們今天的親身經歷來看，現在正在經歷的這場 AI 變革，與過去相比感覺如何？

Amin Vahdat：對我來說，這是迄今為止最大的一次。我記得——那已經是挺久以前的事了——在 1993 年看到 NCSA Mosaic。那真的是第一個圖形化網頁瀏覽器。我當時想：“我的天哪，世界變天了。” 然后互聯網就爆發了。

但這次的規模要大得多。如果我回想從 1993 年到互聯網真正以有意義的方式改變世界，大概花了十年時間，也許稍微短一點。我記得幾年前我還說過：“你知道嗎，有了 AI 現在的突破，我們將為每位患者配備一名醫生，為每個學生配備一名老師，為每種疾病找到治愈的方法。” 我的意思是，這些都是很大膽的預測。我當時沒有給出時間表，但現在看來，這已經不再像是科幻小說了。

比如，你能想象我們在未來五年內就能實現其中的很多目標嗎？我能想象。這是我見過的規模最大、速度最快、很可能也是最具影響力的一場變革。

Ben Gilbert：這是大自然的規律嗎？是不是在 10 年后，無論下一個風口是什么，這種情況都會再次上演？歷史還會重演嗎？

Amin Vahdat：這些變革發生的速度——也許我在這方面研究得還不夠深入。我的意思是，如果你想想第一次工業革命、電力、內燃機，你再想想太空時代、核能，你再想想信息時代，所有這些變革現在都來得越來越快，影響也越來越大。這是最新的一次。它是最新的，也是最大的。

所以我猜想，我不知道會不會是 10 年，但在未來 10 到 20 年的某個時候，我們將迎來下一次。

Jeff Dean：是的，我認為這是一件真正的大事，比你提到的之前任何一次變革都要大。原因在于它能應用到太多領域了，對吧？比如我們能用 AI 做的所有造福社會的偉大事業，像是為每個人提供更好的醫療或教育，它加速科學研究本身的能力將是無比巨大的，特別是如果你能實現無人參與的自動化實驗，去真正探索不同科學領域中那些錯綜復雜的未知空間。它將引領我們在新事物上取得新突破，這些新事物或許不像 AI 這樣具有普適性，但 AI 將成為推動這一切的引擎。

而這取決于我們所有人，我們要確保自己是在推動 AI 中那些對每個人都最有益的方面。同時我們也必須清醒地認識到，AI 確實有一些可能不太積極的方面，我們需要齊心協力去消除或減少這些負面影響，我認為這是每個人都應該銘記在心的事情。

Amin Vahdat：不過，作為一個搞基礎設施的人，我可以滿懷信心地預測一件事：無論未來如何，它都將需要海量的算力。

Jeff Dean：而且永遠都會有瓶頸。

Amin Vahdat：我認為專業化定制將會變得越來越重要。

Jeff Dean：專業化絕對會成為重頭戲。尤其是硬件的專業化定制。

Ben Gilbert：考慮到我們今天所處的時代，以及桌上擺著的這些“老朋友”，感覺在這里收尾簡直再完美不過了。

（投稿或尋求報道：zhanghy@csdn.net）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.