網易首頁 > 網易號 > 正文申請入駐

GTC 巔峰對話 Jeff Dean x Bill Dally：預訓練范式已死、延遲瓶頸不在計算、談透 AI 五年未來 | GTC 2026

2026-03-19 10:08:24　來源: AI科技大本營

北京舉報

分享至

Agent 一旦跑起來，很多為人類設計的工具都會變成新的瓶頸。

責編 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

今天早上，GTC 2026 剛結束了一場重磅對話：雙方分別是 NVIDIA 首席科學家Bill Dally和 Google DeepMind、Google Research 首席科學家Jeff Dean。

這個是每年 GTC 的慣例，請一位大神和英偉達的首席科學家聊聊，前年是李飛飛，去年是，往往信息密度極高。Bill Dally 代表的是 NVIDIA 這邊對 GPU、推理、網絡和系統架構的理解；Jeff Dean 則代表 Google 這邊對 TPUs、大模型訓練、Gemini 和大規模機器學習系統的判斷。

和我們經常整理的“一問一答”不一樣，這兩個大神都準備了各自的問題給對方。所以這大概也是我近期整理的最奇妙的稿件，他們就像兩個宗師你一招我一招，交流江湖上最頂尖的武學，頗有一分禪意。

兩個人的問題都很具體，回答也很少繞彎：過去一年到底變了什么？推理為什么突然比訓練更重要？低延遲瓶頸究竟卡在哪？預訓練會不會被重寫？AI 能不能自己去設計下一代 AI？AI 又能不能反過來幫人類設計芯片？

下面按這場對話的推進順序，整理 Jeff Dean 和 Bill Dally 的核心討論。

Bill Dally：過去一年，機器學習里最讓你興奮的變化是什么？明年又會發生什么？

Jeff Dean：我覺得這個領域里的每個人都看到了模型能力在過去一年里的快速進步，也看到了人們開始如何真正把這些模型用起來。所以整體來說，這一切都非常有意思，也非常令人興奮。

如果讓我回看過去一年，我會特別提幾件事。

第一，我覺得模型在有可驗證獎勵的問題上，已經變得強太多了。比如數學和編程。

三四年前，如果我們的模型能做對八年級數學題——像“Fred 有四只兔子，又得到了兩只兔子”這種——而且正確率能有 40% 或 50%，那時候大家就已經很興奮了，會說：“這太棒了。”

但在過去幾年，尤其是過去一年，我們在復雜數學問題上的能力提升得非常快。
比如 Gemini 參加 IMO，拿到了金牌；在編程競賽 ICPC 上，我們也拿到了金牌。所以我覺得，這兩個領域的能力進步都非常驚人。

另一件可能發生得更近一點、但同樣重要的變化是，我們開始看到agent-based workflows在更長時間尺度的任務上真正有效了。

以前你讓模型去做一些事情，它確實也會去做。但通常幾分鐘之后，你還得回來告訴它：“好，這一步做完了，下一步該做什么？”
而現在，你可以把一些需要一個小時、甚至幾天的任務交給這些模型，它們會自己跑出去做很多事，中間會糾正自己、繼續做更多事情。

我覺得這是一個非常令人興奮的轉變，因為它意味著這些模型現在可以在更長時間范圍內相對自主地運行。
而在以前，雖然你不是時時刻刻交互，但本質上還是得相當近距離地監督它。

這顯然是一個很大的變化。

而且說到這里，我覺得接下來會非常重要的一件事是：我們會有越來越多 agent 在后臺運行。

于是，一個非常關鍵的問題就變成了：我們怎樣才能做到ultra-low-latency inference（超低延遲推理）？

因為如果這些系統要自主工作，而且工作得更快，那么推理延遲會直接決定它們解決問題的效率。

Jeff Dean：所以我想反過來問你們 NVIDIA：你們下一代架構準備怎么把“顯著的延遲降低”真正做出來？我們怎么從今天的幾百 token/s，走到幾千、甚至幾萬 token/s？我們怎么從幾百 token/s 走到幾千、幾萬？下一代低延遲推理架構該怎么做？

Bill Dally：簡單說，答案其實有很多層。

如果你看一下推理任務的性能曲線，會發現它本質上是一條延遲（latency）和吞吐量（throughput）的權衡曲線。

在曲線的一端，如果你愿意犧牲延遲，就能換來極高的吞吐量——也就是每花一塊錢或每一瓦功耗，每秒能處理更多的 token。

順著曲線走到另一端，通過減小批處理大小（batch size），系統會更偏向于交互場景，追求單個用戶的響應速度。

而當你走到曲線的極限，也就是完全為降低延遲而優化時，會發現一個關鍵事實：大部分延遲，其實源于通信。

一個典型的 LLM，由許多前饋網絡和注意力環節堆疊而成，整個模型可能有 50 甚至上百層。每完成一個計算環節，通常需要一次片上通信將結果傳到下一步。每計算完一層，又往往需要一次片外通信。有時甚至在同一層內部的不同環節間，也需要跨芯片通信，這取決于你如何切分任務。

所以我們現在正做的一件要事，就是重新設計架構，把通信延遲真正壓縮到接近我們英偉達常說的——光速。

在片上通信方面，我們采用一些區塊化設計（tile design），通過靜態調度來避免路由、排隊和仲裁帶來的額外開銷。這樣一來，信號在芯片導線中的傳播速度接近物理極限，大約是每納秒 2 毫米。

從芯片的一角到另一角，通信時間可以從現在常見的幾百納秒，縮短到大約 30 納秒。而在片外通信這邊，延遲的很大一部分來自物理接口（PHY）。

過去很多年，我們優化物理接口都是為了追求極致帶寬，而不是低延遲。為了從一條信號嘈雜的高速鏈路中準確還原出數據（bit），我們需要做非常復雜的數字信號處理和前向糾錯。

但如果你愿意犧牲一點帶寬，比如把每對線路的速率從 400Gbps 降到 200Gbps，很多復雜的處理就沒必要了。你只需檢測線路電壓就能識別數據，剩下的主要就是數據串行化的延遲，芯片間的通信耗時僅需幾個時鐘周期。

因此，我完全看到了一條實現路徑：重新打造一種低延遲路由器（router），就像我 20 年前在克雷公司（Cray）做“黑寡婦”項目時那樣，當時的路由器引腳間延遲小于 50 納秒。

我覺得我們完全能再次達到這個水平。

一旦做到，我能想象，即便是相當大的模型，也能為每個用戶實現每秒 1 萬到 2 萬個 token 的處理速度。

Jeff Dean：這真的很讓人興奮。我覺得一個非常重要的點是：不只是小模型，而是讓最大規模的模型也能在這種低延遲下運行。

Bill Dally：對，我也覺得這是關鍵。

Bill Dally：下個問題。我們距離“讓 Gemini 去設計下一代 Gemini”還有多遠？

你前面提到了這些智能體系統，提到它們已經開始能處理更長時間尺度的任務。

那你覺得，我們距離這樣一個時刻還有多遠：拿當前版本的 Gemini，給它一個持續一個月的任務，讓它自己去實驗新的模型結構、自己想數據篩選策略、自己決定怎么獲取更多數據，甚至去寫幾個合同搞到這些數據，然后訓練出下一代版本的自己。

也就是說，我們離這種“讓模型去做下一代自己”的事情還有多遠？

Jeff Dean：你描述的整套閉環，我覺得現在還沒有完全到來。

但我確實覺得，我們已經開始看到它的雛形在出現。

比如現在，你已經可以站在更高維度對模型下令：“請在這個大致方向上，探索一些提升性能的想法。”

接著，它會自動開展 50 項實驗，篩掉 40 個沒前景的方向，鎖定剩下的 10 個苗頭，繼續做深入的后續驗證。

我最近有一個觀點，把這類工作看作“元學習”（Meta-learning）的一種新形態。

其實早在多年前，我們就開始嘗試類似的事了。比如 2017 年，Google Brain 團隊就在做神經網絡架構搜索（NAS）。當時你需要用代碼來定義一個搜索空間，再跑很多小規模實驗，看哪種架構學得最好。后來我們還嘗試過自動化優化器、自動化激活函數等等。

在那個階段，研究員得親自寫代碼來劃定研究范圍。但現在，最令人興奮的變化是：我們已經開始有能力用自然語言去定義研究空間了。

你現在可以直接下令：

“去讓自己變得更強。”

“去探索一些有趣的蒸餾算法。”

“試著利用那些我們目前還沒用上的信息。”

然后它就真的會跑出去做這些實驗。所以我覺得，這本質上是一種極其強大的、由自然語言驅動的自動化搜索。

Bill Dally：對，本質上這會是一個非常強的研究生產力乘數。因為想出研究點子本身往往沒那么難，難的是把實驗真的跑出來，理解結果，再決定下一步做什么。

如果 Agent 能承擔這部分工作，那就會形成一種非常強的組合：超級研究員加上超級 Agent。

Jeff Dean：硬件項目今天立項，兩年后芯片才進機房。你們怎么預測兩到五年后的 AI？

做硬件一直有個很難的問題。

尤其是在機器學習這種變化非常快的領域里，你今天啟動一個新硬件項目，哪怕很順利，真正進數據中心也常常是兩年后。我們當然希望更短，但現實里已經很難了。然后它還得繼續活很多年。

所以你實際上是在預測：兩到五年后的機器學習和 AI 到底會往哪里走。

這一直都是一件非常難的事。

我很好奇，你們英偉達有沒有什么比較好的工具或者方法，來幫助做這種“看水晶球”的事？

Bill Dally：我們盡最大努力。

其中一個辦法，是我們自己也盡量去做模型。

比如 LLM 我們做 Nemotron，world model 我們做 Cosmos，機器人基礎模型我們做 Groot。

但即便如此，我們還是會被驚到。

因為外面有太多聰明人在做這些事了，他們每天都會冒出新的好點子。

所以最終我們必須做的一件事，是：

future-proof our hardware（使我們的硬件具備未來適應性）

一部分方式，是去做那些對所有模型都好的事情。

比如，如果我們能找到一種更高效的數字表示法，那所有模型都會受益。

如果我們能把片上通信組織得更高效，讓數據傳輸更少，那所有模型都會受益。

真正容易出問題的地方，是模型變化改變了“計算、內存帶寬、內存容量、通信”這四樣資源之間的比例關系。

因為即便你把這四樣都做得很高效，你還是得決定：每一項到底配多少。

而一旦有人發明出一種不同的模型，比如從分組查詢注意力機制變到多頭潛意識注意力機制，它就可能顯著改變這些配比。

結果就是：有些硬件部分閑著，另一些部分卻被打滿。

這件事沒有真正完美的解決辦法。

也許未來如果模型真的分化得足夠厲害，而不同形態都擁有足夠大的量，那最后的答案可能就是做不同 SKU，用不同的精簡配置去對沖未來的不確定性。

Jeff Dean：對，這確實很有道理。

Bill Dally：如果數據快挖完了，我們還怎么繼續 scale 模型？

過去這幾年，至少在最近這段歷史里，我們訓練模型會參考 Chinchilla Scaling Laws：也就是說，給定一筆訓練算力，你會決定多大的參數量，以及多少 token，通常 token 大概是參數量的 20 倍。

但現在我們好像到了一個階段：很難繼續拿到更多 token。可我們還是希望繼續 scale，希望繼續投入更多算力去訓練。

那你覺得，填補這個缺口的會是什么？如果數據真的越來越難拿了，我們還能怎樣用更多算力訓練出更好的模型？

Jeff Dean：我先澄清一點。

Chinchilla Scaling Laws 優化的是訓練算力。

如果你把 inference 也放進目標函數，它未必還是最優。

另外，我其實不太同意“我們快沒數據了”這個前提。

我覺得世界上還有非常多數據沒有被真正用于訓練這些模型。

Bill Dally：比如哪些數據？

Jeff Dean：我們現在確實訓練一些視頻數據，但還有更多視頻數據沒有真正用上。尤其是帶音頻的視頻數據。

另外，真實世界里的機器人數據、自動駕駛數據，我覺得都會非常豐富。

再一個方向當然是合成數據。

如果問題是“怎么生成很有意思、很高質量的數據”，那合成數據當然是一條路。

某種意義上，這就是往系統里繼續注入算力，讓它自己產生更多可用訓練數據。

Bill Dally：但這不會最后變成一種“再咀嚼自己已經看過的東西”嗎？

你用舊數據訓練模型，再讓模型生成合成數據，本質上還是原來的那些東西，只是換了種說法。

Jeff Dean：是的，但它有時候依然會幫助模型。

因為如果生成合成數據的那個模型本身很強，那它確實會帶來增益。

Bill Dally：對，相當于把原始東西清洗、提純了一遍。

Jeff Dean：對。

而且我覺得，還有很多我們今天尚未充分挖掘的技術，其實在早期的圖像模型時代非常普及。比如數據增強（Data Augmentation）。從某種意義上說，合成數據本質上也是一種數據增強。

再比如那些防止過擬合（Overfitting）的手段，無論是隨機失活（Dropout）還是知識蒸餾（Distillation），都可以歸類為一種正則化（Regularization）。

所以我認為，這里面依然大有可為。你完全可以投入更多算力，在數據上多跑幾輪訓練迭代，讓模型持續變強，而且未必會發生過擬合。

Bill Dally：LLM 會不會有一天像 AlphaGo 一樣，在環境中行動、自己變強？你會不會覺得，未來 LLM 也會走到類似 AlphaGo 的路上？比如模型彼此交互，或者在某個環境里持續行動，從而讓自己的能力不斷提高。

Jeff Dean：我確實覺得，今天的預訓練機制是有點奇怪的。

你拿一個隨機初始化的模型，把它“綁在一塊板子上”，然后把互聯網數據從它面前一股腦地流過去。它盡量從這些觀測里學到能學到的東西。
但它其實沒有在世界里采取行動。

而我覺得，我們未來真正想要的，是把這種被動觀察和“在環境里采取行動”更深地交織起來。這個環境可以是模擬機器人環境，也可以是問題求解環境。模型先行動，然后再繼續學習。

而且它最好還能更主動地決定：我下一步到底要看什么數據。而不是像今天這樣，訓練數據順序基本是預先排好的。

我覺得，這會非常有意思，因為它可能顯著提高學習效率。

也就是：給定同樣數量的 token，模型到底能從里面學到多少東西。

而我非常相信，在世界里采取行動這件事，會對提升學習效率非常有幫助。今天我們在后訓練階段確實也做一些這樣的事情，但那只是一個很有限的版本。如果未來能把這種交織更深地推進……

Bill Dally：推進到預訓練階段。

Jeff Dean：對，推進到預訓練階段。

我們今天其實人為地把預訓練和后訓練分開了，但長期看，我不覺得這條邊界會一直存在。

Bill Dally：可能前提是模型先聰明到一定程度。

因為一開始只是隨機初始化，它大概還做不了這些事情。

Jeff Dean：對。也許你先喂它 100 億 token，它就已經能開始做點什么了。

Jeff Dean：訓練負載當然重要，但推理負載現在越來越關鍵。你怎么看訓練和推理硬件的差別？

過去幾年，整個圈子都盯著訓練規模的擴展。但隨著模型深入現實世界，推理的需求開始爆發。傳統上我們想做“全能芯片”，但英偉達最近的動作表明，推理硬件已被提升到核心地位。

那你怎么看訓練和推理在硬件上的真正差別？

Bill Dally：這是一個非常好的問題。我甚至想說得更絕對一點：推理才是現在的重頭戲（Inference is the jobnow）。

今天數據中心里，很容易出現 90% 的功耗都花在推理上的情況。

Jeff Dean：我剛才說得還太輕了。

Bill Dally：當然，兩者有共性。比如我們最初為推理設計的數值格式（如 NVFP4），后來發現對訓練也同樣有效。但在系統需求上，它們大不相同，特別是內存系統：訓練需要保留所有激活值以供反向傳播使用；而推理則是隨用隨扔。

所以訓練更吃內存容量。而推理則考驗計算、內存帶寬、容量和通信之間的資源配比。

更有意思的是，推理內部也存在差異。比如預填充（Prefill）階段更像訓練：你一次性處理大量數據，屬于密集計算型，受通信能耗主導。而到了解碼（Decode）階段，為了優化延遲，你通常在做極瘦矩陣運算，這會變成極端的帶寬受限和延遲受限。

長期來看，用不同的組件和資源配置去適配這些階段是很自然的。我猜未來至少會分化出三類硬件：一類針對訓練和預填充，一類針對解碼，而解碼類硬件內部甚至還會進一步細分。

Jeff Dean：同意。預填充確實比解碼更像訓練；解碼太串行化（Sequential）了，一個字一個字地走完整個鏈路。

Bill Dally：對，太串行了。就一個 token，它必須把整條鏈路都走一遍。

Jeff Dean：當然，投機性解碼（Speculative Decoding）能幫上忙，讓單向量運算變成稍微瘦一點的矩陣運算。

Bill Dally：不再是 1 個 token，而是 8 個。

Jeff Dean：而擴散模型也許還能再往前一步，一次做幾百個 token 的塊。

Jeff Dean：現在新模型不斷出現，從 MoE 到新 attention 機制，你最興奮的是什么？

新模型現在出現得非常快：新的 attention 形式、diffusion transformer、state space transformer、hybrid model。你現在看整個“模型動物園”，最讓你興奮的是什么？

Bill Dally：很明顯的一個方向是：參數越來越大，但激活越來越稀疏。

Jeff Dean：所以是 MoE。

Bill Dally：對，MoE。

這件事對硬件影響很大。因為總參數量很大，但你每次真正激活的只是其中一小部分。而麻煩在于，當你有一個 batch 時，里面不同樣本常常會激活不同 expert，這就很煩。

Jeff Dean：對，這某種程度上會把 batching 的優勢給毀掉，因為大家現在都跑去不同地方了。

Bill Dally：沒錯。原來是一個大 batch，現在一下子變成很多小 batch。

另外，在 attention 這邊，我覺得也有很多很有意思的改進空間。

原始 quadratic attention 在質量上確實非常好，但只要 token 數量一上來，它的代價就會非常高。所以如果你想把上下文推到一百萬 token 以上，就必須做點什么。

有一類辦法，是大幅降低 quadratic attention 的常數項。比如你先對 token chunk 做 attention，再識別哪些 chunk 最重要，只深入那些 chunk，而不是對全部 token 做 full attention。

Jeff Dean：不過嚴格來說，這不一定改變復雜度，只是把你真的深入處理的部分變小了。

Bill Dally：對。但也還有一些更激進的辦法，比如你先聚類 attention state，再只看和當前 query 最接近的 cluster。這些方向有可能把復雜度做到 N log N，甚至更低。

Jeff Dean：對，這些方向都很有意思。當然一般的 trade-off 是：你往往會損失一點點相對于 full quadratic attention 的質量。

但我自己更興奮的一件事，其實是另外一條路。

今天模型表現好，很大程度上是因為你把正確的信息放進了上下文窗口，它就能 attend 到它。但真正理想的狀態當然不是“一百萬 token 上下文”，而是我能夠“好像 attend 到所有信息”——比如整個互聯網，或者我個人所有的郵件、照片等等。

顯然，那遠遠不止一百萬 token。

所以我覺得更合理的辦法是：通過一層一層更輕量級的檢索機制，先從一個極大規模的信息池里篩出最相關的部分，再一步步縮小到真正送進上下文窗口的那部分內容。

比如，不是從一萬億 token 直接縮到一百萬。而是先縮到一萬個最相關文檔，也許相當于一兩千萬 token；然后再用更輕量級的機制，從里面找出最終真正值得塞進上下文的那一百萬 token。

我對這種分層架構非常興奮。因為它能讓你做到今天單純靠增加 attention window 做不到的事情。

Bill Dally：有點像一種分層注意力機制。

Jeff Dean：對，我覺得這條路很有前景。

Jeff Dean：我很相信 AI for chip design（為芯片設計的 AI）。你怎么看 AI 在整個硬件設計流程里的作用？

如果把芯片設計過程拆開看，其實有很多階段：高層架構探索、綜合、驗證、placement、layout、routing。

我們做 AlphaChip，就是用 AI 去幫助 placement 和 routing，而且它已經在幾代 TPU 上被證明很有用。我也看到 NVIDIA 做了一些很好的工作，比如一些 gradient-based 方法。

那你怎么看 AI 在整個硬件設計流程里的作用？是分階段各自突破比較合適，還是未來會走向更 end-to-end 的方式？

Bill Dally：我們現在基本上是：能用 AI 的地方都在用。

比如一個非常具體的例子。每次我們遷移到一個新的半導體制程，都要把 standard cell library 移過去，大約是 2500 到 3000 個 cell。

以前這件事要一個 8 人團隊做大約 10 個月，也就是 80 person-month。

后來我們做了一個基于強化學習的系統，叫NVCell。現在大概已經是 NVCell 2 或 3 了。現在這件事只需要一塊 GPU，跑一夜就行。而且結果在 cell size、功耗和延遲這些指標上，實際上能和人類設計打平甚至更好。

所以這件事是一個巨大的生產率提升。更重要的是，它讓遷移到新制程不再是一件那么重的負擔。

另一個例子是PrefixRL。

它用強化學習去解一個計算機設計里非常古老的問題：carry look-ahead chain 里的前瞻級到底放在哪。這個問題從 1950 年代就有人研究了。

而我們的 RL 系統就像打 Atari 游戲一樣去試，做一個選擇、給自己打分、再做下一步。

它追求的不是“絕對最快的 adder”，而是“剛好滿足 timing，同時面積最小、功耗最低”的 adder。

結果它會吐出一些人類根本想不到的奇怪設計，但在這些指標上能比人類方案好 20% 到 30%。

再往上，我們還有一些更整體性的 LLM，叫ChipNeMo和BugNeMo。

我們把一個通用 LLM 喂進 NVIDIA 內部所有與 GPU 設計相關的專有資料——包括所有歷代 GPU 的 RTL、架構規格文檔、各種設計資料——這樣你就得到一個非常懂 GPU 設計的模型。

它帶來的一個很大收益是：過去 junior designer 會大量打擾 senior designer，問一些很基礎的問題。

比如“texture unit 是怎么工作的？”“我要怎么和它做接口？”

現在他們不用總去找 senior 了，可以先問 ChipNeMo。

它會非常詳細地解釋 texture unit，后面你繼續追問，它還可以繼續回答。

Jeff Dean：它是一個非常有耐心的導師。

Bill Dally：對。在 bug 這邊，我們也可以讓它總結 bug report，做 attribution，判斷 bug 屬于哪個模塊、該 assign 給誰。

在 NVIDIA，我們會決定一個 bug 該 “IRB” 給誰，也就是誰來負責。現在這些事情也可以讓系統先給出建議。

再往上，在 NVIDIA Research 里，我們已經開始用 agentic systems 去做架構探索。

你可以讓 agent 跑很多 thought experiment、探索參數空間、提出不同方案、跑簡單架構實驗，然后逐步把巨大的設計空間縮小。

而我們非常想縮短的一段時間，是從 F model——也就是 GPU 的可執行模型——到真正 tape-out 之間的時間。

這段時間里，最長的長板其實是設計驗證。所以我們特別關注怎么用 AI 更快地證明設計是對的。

中間還有一些階段也非常適合自動化。比如 RTL 設計完成后，為了 floor planning，你要把某些邏輯從一個模塊搬到另一個模塊，同時還要保證系統繼續正確。這類事情我覺得就非常應該能自動化。

當然，理想情況是我只要說一句：

“Design me the new GPU.”

然后我出去滑幾天雪，回來發現它已經做完了。

但我覺得那還很遠。不過，即便如此，AI 今天已經在很多局部環節上顯著提高了我們的生產率。

Jeff Dean：對，我覺得真正困難的是，讓每個自動化環節都快到足以支持你在巨大設計空間里做搜索，這本身就非常難。

Bill Dally：是。而且即便未來真的走向端到端，我猜也會是一個 master agent 去調用很多專門負責不同階段的 Agent，再不斷迭代。

Jeff Dean：甚至會像今天人類芯片團隊一樣拆開：這個 Agent 負責這一部分芯片，那個 Agent 負責另一部分，中間通過清晰接口協作，必要時還要協商接口變化。

Bill Dally：對。它們會開和我們今天一樣的會，只不過是 Agent 之間的會。

Jeff Dean：如果未來出現 agent swarm，最大的系統挑戰是什么？

我順著 agent 這個話題繼續問。如果未來真的出現大量虛擬工程師、swarm of agents 在復雜項目上協作，那么 orchestration 和 continual learning 上最大的挑戰會是什么？像 hierarchical rewards、sparse activations、dynamic model growth 這些，你覺得硬件在哪些地方最可能真正幫上忙？

Bill Dally：我覺得現在機器學習里一個很大的挑戰是：怎樣讓系統在 reward signal 非常 sparse、而且不像數學和編程那樣容易驗證的任務上，也能學得很好。

如果這個問題真的被突破了，那模型能掌握的能力邊界會大幅擴展。

但在 agent 系統里，我覺得還有一個非常現實的問題。
這些系統通常會滾出很多 trajectory。我們當然希望它們越低延遲越好，讓模型更快地產生下一段代碼、下一組動作，然后再繼續和環境互動。

但它們經常是通過一些為人類速度設計的工具和環境交互。

這些工具本來就是按人類操作節奏設計的。而且很多還跑在 CPU 上。

所以，比如說一個 C 編譯器的啟動時間，對人類程序員來說也許只是“有點慢”；但如果一個 agent 的運行速度是人類的 50 倍，那這個啟動時間就會變成類似 Amdahl’s Law 的硬瓶頸。

也就是說，就算你把模型做得無限快，你端到端延遲最后也許還是只會降兩三倍，因為工具本身占了很大一部分。

所以我覺得，未來我們得重新工程化很多 agent 要交互的工具。這件事已經在 coding tools 上發生了，也會發生在電子表格、文檔系統、信息提取工具上。

Jeff Dean：你覺得這種變化現在已經在 coding tools 上明顯發生了嗎？

Bill Dally：對，已經在發生了。而且不止 coding，會擴展到更多辦公和知識工作工具上。

Bill Dally：你講能耗時最打動我的一句話是，“真正貴的是把數據搬過來”。未來最大的能效突破會來自哪里？

我在不少場合聽你講過能耗這個問題。最讓我印象深刻的一點是：真正的 multiply-add 本身非常便宜，真正貴的是把數據從內存系統遠處搬過來。

在這種背景下，你覺得未來最大的能效提升會來自哪里？

Jeff Dean：先把數字說得精確一點。

比如一個 NVFP4 的 multiply-add，大概是10 femtojoules。

但如果你要把那四五個 bit 從 HBM4 里讀出來，每 bit 也許是 3 到 4 picojoules，所以總共大概是 15 picojoules。

也就是說，從外部內存讀一個 NVFP4 數字的能耗，比做一次 multiply-add 本身高大約1000 倍。

但如果是從一個簡單的 SRAM bank 里讀，代價就又會回到 10 femtojoules 量級。

所以降低能耗最關鍵的原則就是：

Don’t move the data.

大家會笑，但我是認真的。

這真的就是核心。

比如，我們現在在看一些設計，讓矩陣的一行放在 SRAM 里，同時 activation vector 的一行也盡量就地拿到，然后就在那個位置完成 dot product。

這樣你其實做了兩件事：

一次性做很多 multiply-add，幾乎沒有 data movement；
把一個長向量直接規約成一個輸出。

所以我們在看很多類似的思路。

問題當然在于，SRAM 按 bit 來算太貴了，大概比 DRAM 貴一個數量級。

所以我們更興奮、但還沒完全 ready 的方向，是把 DRAM 直接堆在計算芯片上方。

因為 DRAM 讀取時，大部分能耗其實不是“讀 DRAM mat”本身，而是把那個 bit 從 DRAM 讀出位置一路搬到 GPU pin 的過程。
如果 DRAM 直接堆在 GPU 上方，你就能得到：

一個數量級更高的帶寬；
一個數量級更低的每 bit 能耗。

結果就是：差不多同樣的功耗，但性能會高很多。

某種意義上，這有點像一個 pachinko machine。

你想要的那個 bit，直接從上面掉到下面的 operation 單元里。

當然，更高效的模型本身也會幫助能耗下降。如果你用更少的 work 達到同樣精度，那當然也會更省能量。

我覺得這里一個真正可能很有幫助的方向還是sparsity。從 Ampere 開始，我們已經用過 2:1 structured sparsity。但模型其實天然是非常稀疏的。

問題在于，除了像 2:1 structured sparsity 和 MoE 這種非常粗粒度的稀疏形式之外，更一般的稀疏很難在硬件上真正贏回來。

因為一旦你利用更自由的稀疏，你就會打破規則性。

而規則性恰恰是高效計算的基礎——所有 bit 規則地向前走，數據流很穩定。
你一旦破壞這種規則性，就要做更多控制、更多路由，反而可能把收益吃掉。

所以我覺得，這其實是一個非常有意思的開放問題：下一層稀疏到底怎么做。

Jeff Dean：TPU 采用的 2D/3D環形拓撲（Torus）全交換網絡相比，到底該如何權衡？

我想問個提綱之外的問題。我們的 TPU 通常采用定制網絡，比如 2D 或 3D Torus 這種點對點結構，且能擴展到上萬顆芯片。這和全交換互連架構（Fully switchable network fabric）走的是完全不同的路線。你怎么看這兩者的折衷（Trade-off）？

Bill Dally：問得好。你也知道，我職業生涯很長一段時間都在研究互連網絡。

2D/3D Torus 在很多場景下表現卓越。實際上，80 年代末到 90 年代初，我曾親手推動了一整代 3D Torus 超級計算機（如 Cray T3D）。

但到了 2000 年代，情況變了。芯片的引腳帶寬（Pin bandwidth）變得極高。如果你設計一個路由芯片，卻只給它 6 個方向（即 3D Torus 的 6 個雙向端口），你會發現帶寬根本吃不滿。于是我們轉向研究高基數路由器（High-radix routers），開始采用折疊 Clos（Folded Clos，即胖樹 Fat Tree）以及 Dragonfly（蜻蜓）等拓撲結構。

但結論其實很簡單：不能抽象地評判優劣。核心永遠取決于業務負載（Workload）和流量模式（Traffic pattern）。

如果你的負載具有很強的局部性，那么像 Torus 這樣直接互連、低基數的網絡非常理想，數據只需“一跳”即可到達。但如果你跑的是MoE，專家模塊分散在各地，為了找到特定專家，數據可能要經過很多輪跳躍（Hop）。此時，“一跳上交換機、一跳下交換機”的方案反而更高效。

我們在一些實驗性系統里經常做混合架構（Hybrid）。比如，局部通信采用直接互連，甚至帶一點 Flattened Butterfly（扁平蝴蝶）拓撲的味道，讓它的覆蓋范圍比 Torus 更廣；而全局通信則走專門的交換網絡。

Jeff Dean：完全同意。歸根結底還是取決于負載。

Bill Dally：沒錯。針對特定的流量模式，你可以找到最優網絡；但不存在一種拓撲能通吃所有場景。

Bill Dally：這些系統越來越強之后，它們最積極的社會影響會是什么？

如果我們繼續把這些系統做得越來越強，模型越來越大、機器越來越強，你覺得它們最積極的社會影響會是什么？教育？醫療？商業效率？你最期待哪個方向？

Jeff Dean：這是一個非常好的問題。

顯然，AI 可以被應用在很多領域，其中一些會帶來非常大的社會收益，比如教育和醫療；也有一些方向可能并不是我們特別希望看到大規模使用的。

我和一些合作者大約一年前做過一個系統梳理，甚至有個單獨的網站，叫shapingAI.com。我們當時看了七個可能被 AI 深刻改變的領域，包括教育、醫療、勞動與就業、科學發現，還有媒體——包括視頻生成、圖像生成，以及誤傳誤報這樣的潛在負面后果。

而我自己尤其興奮的是：教育和醫療。

如果看教育，我們早就知道：當一個學生擁有一個真正個性化的輔導老師——這個輔導老師知道他已經會什么、不會什么，知道教材是什么，也知道這個人最適合怎么學習——那教學效果會比群體教學高出大約一到兩個標準差。

Bill Dally：而 AI 可以讓每個人都擁有一位個性化輔導老師。

Jeff Dean：對。如果每個人都能擁有一個真正知道自己如何學習的輔導老師，那會完全不一樣。

而且現在這些模型有一個很好的能力：它們能把一種形式轉換成另一種形式。這對不同學習風格的人會非常有幫助。

比如有的人更適合聽播客來學某一章生物；有的人更想通過一個互動游戲去理解重力，而不是直接看物理教材里的方程；這樣他們會更快建立直覺。

我覺得，在未來幾年里，我們完全有機會擁有那種真正優秀的輔導教育：它不會直接把答案給你，但它會幫助你更好地理解概念、更有效率地學習。

Bill Dally：很有意思的是，今天很多學校還在試圖限制 AI 的使用。但也許他們更應該做的，是教學生如何有效地和 AI 一起工作。

Jeff Dean：這件事甚至和“要不要讓學生使用 AI”幾乎是正交的。

如果你回想計算器剛進入數學課堂的時候，也有很多老師說：不能用計算器，否則學生以后不會加法和乘法。但真正發生的是，數學教育終于可以把重點從機械計算，轉移到更高層次的理解。

所以我覺得，教育者應該真正擁抱這些工具的存在。

那我也想反過來問你：對你來說，最讓你興奮的 AI 應用領域是什么？

Bill Dally：對我來說，第一當然還是AI for hardware design。

畢竟我骨子里還是個硬件設計師。我當然希望有一天，我的工作只需要 15 分鐘就能做完，然后剩下時間都去干更有趣的事。

這里面已經有很多立刻就有生產力價值的東西。

比如把一個項目所有文檔都記住，然后我能快速查詢；

比如總結 bug report。

再往前一點，如果你足夠詳細地教會它 texture unit 是怎么工作的，它現在大概已經能設計出一個相當不錯的 texture unit。

更難的是另一類問題：比如把 Blackwell 這一代的 texture unit 遷移到 Rubin 這一代，告訴它哪些新功能要加、哪些舊功能廢棄掉，然后要求它用最小改動把代碼樹遷過去。這個難得多。

但除此之外，對我來說第二個最讓我興奮的方向也是教育。

我做過 26 年教授，所以某種意義上，我算是一個“康復中的教育工作者”。

我真心希望已經有人在做這件事。如果沒有的話，也許我該辭職自己去做：一個真正好的個性化輔導教師。

另外還有一個和它很像的方向個性化健康教練。就像一個小天使坐在你肩膀上。

比如我今天去聽黃仁勛的 panel，到了休息區時正餐已經沒了，只剩一堆甜點。于是我的午飯就是甜點。如果我肩膀上有個健康教練，它大概會把我勸住。

很多國家的健康問題，本質上其實都和飲食、運動有關。如果每個人都有一個了解自己、知道怎么激勵自己、目標和你一致——也就是“不想讓你死”的——健康教練，那會很有價值。

Jeff Dean：這里說的是健康場景，不是教育場景，對吧？

Bill Dally：對。微積分課上不是那種語氣。

Jeff Dean：我對健康領域也非常興奮。因為今天其實有很多和健康相關的信息完全沒有被真正用進醫療系統。

比如我戴著一個能監測心率的手表，但我的醫生會看這些數據嗎？不會。

Bill Dally：而且我們完全可以給每個人做測序。這樣你就會知道他對某些疾病的易感性、對某些藥的反應。這些很多其實已經是已知信息了，但現在基本沒有被大多數醫療機構真正用起來。

Jeff Dean：你說的這個想法，我覺得真的很好。因為醫療系統本身確實有很多挑戰。

Bill Dally：而且它甚至可以去和醫生說：你考慮過 Dally 教授有這個特殊病癥嗎？這個藥可能對他效果不好。

Jeff Dean：我甚至都能想象它會提醒你：“我看到你這周第四次去麥當勞了。你知道拐角有一家很好的沙拉店嗎？”所以我確實覺得，AI 在醫療上的影響會非常大。

當然，這個領域很復雜，因為隱私和監管問題都是真實存在的。

但我覺得我們至少應該有一個理想目標：盡可能讓過去全世界的醫療決策，更多地用來幫助未來的醫療決策。

如果我們能盡量接近這一點，那會非常了不起。

Jeff Dean：NVIDIA 過去十年增長巨大。你最懷念以前公司小的時候什么？

我想問你一個更偏哲學一點的問題。NVIDIA 在過去十年里增長非常快。你們招了很多人，公司規模、影響力都大得多了。

那你最懷念以前什么？

哪些東西以前很好用，現在在更大規模下已經不那么管用了？

Bill Dally：

這個問題很有意思。

我 2003 年開始給 NVIDIA 做咨詢，那時我還在 Stanford 當老師。那時候 NVIDIA 大概就一千人上下。

當時的狀態是：你當然不認識每一個人，但你認識你需要認識的每一個人。決策非常快，幾乎沒有官僚作風（bureaucracy）。

有很多東西我都很懷念。

因為現在確實已經有官僚氣息了。英偉達變成一個 4 萬多人的公司——雖然按人數來說我們還算是個相對小公司——就不可避免會出現很多規則，也會出現一些官僚，妨礙事情以“光速”推進。

但另一方面，這也是大公司不可避免的一部分。

公司小時候，大家之所以會自然地做對的事，是因為你會覺得自己是一個社區的一部分，不會想做讓同伴失望的事。

公司大了，這種社區感會弱一些，于是規則就開始變多。

所以我大概最懷念的是那種社區感。但同時，黃仁勛又非常了不起的一點在于：即便到了 4 萬人，NVIDIA 在一階近似上還是有初創公司的感覺，這一點我非常喜歡。

而且，公司變大之后，也有很多以前根本不可能做到的事情，現在終于可以做了。所以我們還是得利用這種規模和資源，去做最大的好事。

Jeff Dean：對，我有很類似的感受。我加入 Google 的時候，公司還很小，我們擠在 Palo Alto 市中心一棟樓上，那地方現在好像已經變成 T-Mobile 門店了。現在 Google 已經快 18 萬人了。

公司每翻倍一次，都會有一些以前非常好用的機制突然沒那么有效了。你就得不斷在組織里加入恰到好處的新方式，但又不能讓事情變得過度官僚。

這是個持續的挑戰。

（投稿或尋求報道：zhanghy@csdn.net）

"48 小時，與 50+ 位大廠技術決策者，共探 AI 落地真路徑"

由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。

2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開，大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論，真正實現 AI 技術的規模化落地與商業價值轉化。

這不僅是一場技術的盛宴，更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.