網易首頁 > 網易號 > 正文申請入駐

硅谷前沿訪談：CUDA之父復盤英偉達20年護城河，揭開萬億算力帝國的底牌

2026-04-07 19:11:17　來源: AI科技大本營

北京舉報

分享至

作者 | 李建忠

出品丨AI 科技大本營（ID：rgznai100）

期間，奇點智能研究院院長、2026 奇點智能技術大會（SITS）發起人李建忠在硅谷采訪了英偉達 CUDA 奠基者、被稱為“CUDA 之父”的 Ian Buck。作為英偉達超大規模與高性能計算副總裁，Ian Buck 不僅深度參與了 CUDA 的創建，也長期處于 NVIDIA 平臺演進的核心位置，見證并推動了這家公司從一家 GPU 廠商走向全球 AI 生態平臺領跑者的全過程。

這場對話圍繞 CUDA 20 年的演進邏輯、AI 工廠、異構計算、開發者生態、軟硬件協同設計，以及下一代基礎設施的開放性與競爭格局，Ian Buck 在這場訪談中系統回應了外界最關心的一系列問題。這場采訪最大的看點，不只是 Ian Buck 對英偉達AI工廠最新的技術與產品的闡述，而在于他把英偉達如何從 CUDA 開始、把芯片、系統、軟件和開發者不斷擰成一個統一生態平臺的底層邏輯。

外界往往把英偉達的優勢理解為芯片領先，但從 CUDA、GPU、LPU、CPU，到 NVLink、交換機、軟件棧和開發者生態，英偉達最大的護城河，早已不是單點產品，而是一整套圍繞訓練、推理與 AI 工廠組織起來的生態級平臺的能力。

問題：您是否可以談談此次GTC大會新發布的技術和產品、以及令您印象最深刻的部分？

IanBuck：我最大的感受是， AI 基礎設施正在進入一個全新的階段。黃仁勛在主題演講里已經展示了這一點：NVIDIA 現在同時推進七款芯片和五種機架架構，目標是服務AI工廠，以前所未有的規模完成訓練與推理，把下一代智能體 AI推向市場。

我最關注的是，LPU 被正式納入整個體系。NVIDIA Groq 3 LPU 可以被理解為 Vera Rubin 的增強組件。LPU 基于 SRAM，能夠依靠極快的 SRAM 完成浮點計算。但它的限制也非常明確，一旦把它用于擁有超長上下文、面向實時推理的超大模型，問題就會暴露出來。僅靠 LPU 去運行一個萬億參數模型，需要幾十個機架。這樣的方案也許可以帶來極高的 Token 速率，但在成本和基礎設施效率上都無法支撐真正的大規模部署。

我們的解決辦法不是讓 LPU單獨承擔任務，而是讓它和Vera Rubin 配合工作。現在，隨著新的Groq 工程師加入 NVIDIA，我們正在把 GPU 和 LPU 的優勢整合到同一個系統里。原本需要幾十個 LPU 機架完成的工作，現在兩個機架就可以覆蓋。所有 Token 的注意力計算可以交給 GPU，模型每一層的專家部分的矩陣計算則交給 LPU。這正是讓下一代模型落地所面臨的挑戰之一。

當然，AI 市場的大部分需求——聊天機器人、圖像生成、視頻處理、推薦系統——仍然會主要運行在 Vera Rubin 上。LPU 并不會為這些場景帶來額外收益，Rubin 本身已經是非常成熟的 AI 平臺。LPU真正發揮作用的，是下一代智能體所需要的工作負載：萬億參數模型、幾十萬 Token 級上下文，以及每秒千 Token 級別的服務速度。到了這個級別，Vera Rubin 與 LPU 的組合才變得關鍵。

我今天也帶來了 Vera 模塊。這就是 Vera CPU，和你們現在看到的系統里使用的是同一顆 CPU。在 AI 智能體時代，我們需要的是一種新的 CPU：既要有極強的單核性能，也要有很多核、且讓每個核都能滿性能運行。只有這樣，它才能承擔工具調用、代碼編譯、瀏覽器渲染和 SQL 查詢等任務，讓 GPU 去調度 CPU，在訓練和推理時共同交付完整的 AI 體驗。NVIDIA 會把 Vera 作為獨立 CPU 推向市場，而且只提供這一種 SKU。它本身就是參考架構，合作伙伴可以在此基礎上繼續構建自己的系統。我很樂意聊這些產品，以及讓這一切得以運轉的軟件系統。

問題：今年是CUDA誕生20周年。2006年您帶領團隊發布CUDA時，您是否預料到它20年后會發展到今天這個規模？CUDA取得成功的密碼是什么？

Ian Buck：CUDA 走到今天，確實是一段非常特別的歷程。今年 11 月，距離我們第一次發布CUDA 正好滿 20 年。我 2004 年加入 NVIDIA，就是為了做這件事。第一個版本花了兩年時間才真正完成。更早的時候，我在斯坦福做博士研究，方向就是如何把 GPU——當時還只是圖形處理器——用于通用計算。那篇博士論文的核心，其實就是一個問題：什么樣的編程模型才是對的？怎樣才能讓程序員不再用兩線程、兩核心、四核心的方式思考，而是真正進入 1 萬線程級別的并行思維？

人類并不天然適合這樣思考。我們的思維方式更接近線性。但 GPU 架構所展示的，是一種完全不同的計算方式。它并不是用來解決所有問題，而是專門用來加速那些真正具備萬級、十萬級，乃至百萬級并行潛力的部分。真正的難點，不只是硬件本身，而是怎么讓程序員形成這種思維，并把它清楚地表達出來。

CUDA之所以能夠成功，一個決定性的原因是：我們沒有試圖重新發明一門全新的編程語言。那當然是可以做的，而且從學術角度看也很自然。但當我們真正和客戶、和那些有實際計算問題的人交流時，得到的反饋很明確：他們需要的不是一套新的語言體系，而是一種能提高開發效率的工具。所謂開發者生產力，本質上就是能利用現有技術，而不是為了使用它被迫重學一整套新的語言和概念。

所以 CUDA 最關鍵的一點，其實是 C語言。它建立在 C 語言之上。我們的思路是盡量少改 C語言，只在真正有價值的地方做擴展，讓程序在最需要性能的部分跑上 1 萬個核心。最初的構想就是這樣。后來，CUDA 擴展到C++ 、Python， Java、和 Fortran，但一個真正可行的編程模型仍然是它最核心的東西。

另一件同樣關鍵的事，是始終確保兼容性。一旦開發者進入 CUDA 體系，從 GeForce 8800 到今天的 Vera Rubin，只要他們運行在支持CUDA的GPU上，那么之后的每一代硬件都會讓它變得更快。這就是我所說的一種新的“摩爾定律”。變快的不只是硅片和晶體管，而是整個技術棧。CUDA 的每一層都在持續變快，開發者的代碼也會沿著同一條指數曲線變快。即使CUDA 1.0 時代寫下的代碼，今天放到 Vera Rubin 上，性能也會得到百萬倍的提升。

當然，隨著時間推移，我們不斷加入新的能力、新的特性、新的技術和新的庫，但最初對開發者的承諾從未改變：給他們一個容易理解、容易使用的編程環境，而不是逼他們接受一門陌生的新語言；只在真正能創造價值的地方做擴展；同時始終把向后兼容和向前兼容放在心上。你在 GTC 現場就能直觀地看到這種承諾如何兌現：Volta 比上一代更快，Ampere 更快，Hopper 更快，Blackwell 更快，Rubin 還會繼續更快。

最后也非常重要的是，今天的 CUDA不只是一個編程平臺，而是一個龐大的庫和生態平臺。我們現在已經有超過 1000 個 CUDA-X 庫和模型。其中有做電子結構理論的模型，比如 cuEST；有用于 SQL 查詢的cuDF；有用于向量搜索的 cuVS；也有像 cuEquivariance 這樣幫助 AI 模型預測蛋白質結構的工具。我們還有面向量子計算的庫，比如 cuTensor 和 cuStateVec，用于量子比特糾錯、量子系統模擬。我們使用量子重新定義了計算機科學，讓計算機科學家今天就可以借助 GPU 去模擬未來生產級量子計算機的行為。這些庫非常多，而且并不都是 NVIDIA 自己開發的。事實上，其中很多都來自開發者社區本身。

對我來說，這里面一直有件很簡單、但也很讓人謙卑的事：最開始，我做的不過是在 C 語言里加了幾個關鍵字。我的老板支持我這么做，也支持我組建團隊把它做出來。黃仁勛當年做出的一個非常偉大的決定是：從我們2006年談到的第一代 GPU開始，要把 CUDA放進每一塊 GPU。這個決定花費了公司數十億美元。我們前 10 年都沒從這件事上賺到錢，但他從來沒有放棄。

問題：今天NVIDIA似乎在加速計算領域占據主導地位。從長期看，未來可能出現什么新的力量，對CUDA構成真正的挑戰，甚至成為替代品？

Ian Buck：我不喜歡“主導地位”這個詞，這從來不是我們的目標，也不是重點。我們的重點始終是幫助開發者。這些芯片和機架本身不會自動做事，它們只是等待開發者來決定如何使用。

如果在 GTC 現場走一圈，會看到很多不同類型的開發者。有些開發者希望對圖形處理器進行底層編程，從頭開始編寫 CUDA 代碼；有人想模擬一種新型合金的分子結構，以預測其性能，所以他們會直接調用某個程序庫、某款軟件，或者某個 ISV 的產品；還有些人只是想跑一個預訓練 AI 模型，例如做一個 chatbot，去理解等離子體物理學領域過去 50 年的論文。

我們的目標，是給開發者打造一個平臺，幫助他們提升工作效率，實現能力升級。從而解決科研問題、將服務推向市場，或者在某個垂直領域做出被全球用戶使用的軟件。至于最佳切入點到底是什么——是從一個 CUDA 庫開始，還是從 GitHub 或開源生態里的庫開始，還是深入直接操作 CUDA 底層——這是一個開放平臺，由開發者自己決定。我明天也可以做一個新操作系統，區別于Linux 或 iOS，再為它辦一場發布會。但如果沒有開發者，它就不是一個平臺。平臺從來都是由開發者定義的。

開發者并不需要非用 CUDA 不可。他們在我們的平臺上可以選擇自己想用的方式。只要開發者有機會做事情，我們就會保持開放，讓他們去編程、去編譯、去鏈接、去做推理、去做訓練。我們歡迎各種不同的計算形態。開發者也不需要鎖定在整套方案上。你可以只買 Vera，可以只用 Vera Rubin，也可以不買完整 NVL72，只用一張 PCIe 卡，都可以。你也可以讓智能體的工作負載運行在別家的 CPU 上，替代 Vera Rubin，也沒問題。

實際上，我們甚至把NVLink 也開放出來了。通過NVLink Fusion，其他 CPU 可以把 NVLink 集成進去，直接和 NVIDIA 的GPU 通信。我們也把 NVLink 向其他 XPU 開放，它們可以接入 NVLink 的 IP 和芯片，利用 NVLink 交換機的能力。整個技術棧的每一層，我們都在盡量開放。只要有人能在其中某一層創造價值，不管是面向自己的業務、自己的軟件，還是要解決的問題，我們都歡迎。我們打造的是開放平臺，而非強迫開發者全盤接受我們的一整套方案。開發者需要選擇權，也需要開放性，而我們愿意把整套技術棧打開，讓他們去優化、去探索。

我們沒有發明AI。至少在GPU這個語境里，AI更像是被“發現”的。大家都知道，加拿大的一位研究生 Alex Krizhevsky，在自己的游戲 PC 上，用買來的 GeForce GPU 下載了 CUDA 這個免費軟件，然后做出了第一個基于 GPU 的 AI 神經網絡，也就是AlexNet。這才是這件事真正重要的地方。至于下一步會發生什么，我并不知道。但我相信，開發者會找到答案。我們其實只是陪著他們一起往前走，幫助他們去探索下一代編程范式、下一代模型，下一代智能體世界到底會變成什么樣子。

問題：NVIDIA內部是如何保持軟件研發和硬件研發的協同？軟件架構師是從硬件設計的第一天就參與其中，還是要等到硬件設計全部完成后才開始軟件設計？這中間會否有部門墻帶來的隔閡？

Ian Buck：這是一個非常棒的問題。我可以談一個關鍵的內部機制：我們并不公開 GPU 的指令集。大家都熟悉 X86 指令集、ARM 指令集，但 NVIDIA GPU 從沒有對外公開我們的官方指令集。我們在軟件棧對外支持的是 CUDA-X，而不是把最底層的硬件接口直接開放出去。

指令集是軟件和硬件之間最底層的接口。正因為如此，我們才能把很多優化從最底層一路往上做：從芯片、內核，GPU 指令（我們的確存在一套指令集，只是我們不會將其公開），一直延伸到 CUDA、編譯器、運行時庫、操作系統優化、線性代數庫，以及整個軟件棧。

每一次平臺迭代，從 Hopper到 Blackwell，再到 Rubin，我們更新的都不只是芯片，而是整套技術棧。我們架構團隊不只是做 GPU 本身——門電路、晶體管、核心、計算引擎——同時還有一個規模巨大的內核與軟件團隊，直接嵌在架構團隊里。當他們交付 Rubin 時，交付的不只是芯片，還有全部內核、全部優化，以及和我的框架團隊一起打磨好的整套軟件能力。

我的團隊里還有很多人專門負責 PyTorch、Dynamo、SGLang、vLLM、JAX、NeMo。這些都是我們長期投入工程師和資源的生態軟件項目。所以每一代架構真正交付出來的，其實是芯片、各類內核庫、底層接口、調優后的 NCCL 和 NVSwitch，以及成千上萬個內核的總和。這才是所謂架構協同設計的真正含義。

我最近沒去看具體數字，但我想 NVIDIA 現在的軟件工程師肯定比硬件工程師多得多，原因就在這里。外界經常把我們看成一家無晶圓廠的半導體硬件公司，但實際上，我們內部有一個規模極其龐大的軟件團隊。

我們讓成千上萬的軟件和內核工程師，與設計芯片的團隊一起，被組織在同一個體系里，向同一個 VP 匯報。這樣做最大的好處是：芯片交付以后，他們的工作并不會停止。Blackwell 出貨之后，這些軟件團隊和同樣在做 Rubin 的硬件團隊，仍然在做我剛才提到的那些 DeepSeek 優化。他們繼續和 OpenAI、Anthropic、Microsoft 以及整個行業合作，不斷把 Blackwell 的內核性能再往上推。

更重要的是，他們在這個過程中積累的經驗，又會反過來讓 Rubin 變得更好。這種并非簡單 “甩手掌柜式” 的交付模式，意味著他們也是實際支撐現有模型運行團隊的一員。除了對各類內核進行優化之外，他們還能確保 Rubin 在硬件層面也能實現更進一步的優化提升。

問題：AI正在改變軟件開發，這會為CUDA及其開發者帶來什么樣的改變？

Ian Buck：AI 編碼在加速 CUDA 的使用，而且速度比很多人想得更快。就拿 NVIDIA 內部來說，我們每天都在生成大量 CUDA 內核，這些內核代碼被用于運行 GPT-OS、DeepSeek 這樣的模型。現在，一部分 CUDA 內核已經開始由 AI Coding 工具生成。雖然仍有一些內核代碼需要工程師手工打磨。這樣帶來的結果，是性能更高、優化更好，而這背后涉及了大量的軟件與調優工作。

我剛才提到的 CUDA-X 的上千個庫，現在也不再只是由開發者手工編寫，AI Agent 也深度參與其中。CUDA 和 CUDA-X 的采用速度之所以加快，原因就在這里：這些 Agent 已經能夠理解這些庫各自的能力，并主動調用它們。

我團隊有一些做 HPC 的研究人員，他們正在朝 Gordon Bell Prize （全球高性能計算領域的最高榮譽）這類頂級目標推進。現在，他們已經在用 Python、NVIDIA Warp、Claude 和 ChatGPT 生成 CUDA 代碼。生產力的提升非常明顯，因為Agent 現在可以訪問大量不同的庫，并把這些庫用在具體的領域問題上。無論是直接生成 CUDA 代碼，還是基于某個 CUDA-X 庫去開發，Agentic Coding 都在整體上提升開發效率，也在推動加速計算更快普及。

問題：統一架構對CUDA非常重要，但Groq目前還有一點不同，它還沒有被CUDA支持。未來它會被納入CUDA，還是保持獨立？

Ian Buck：我們的方向一直很明確：所有平臺最終都應該是可編程的。GPU 要可編程，CPU 要可編程，BlueField DPU 要可編程，ConnectX 也可以編程，Spectrum-X 也一樣。里面有很多與擁塞控制相關的算法和機制，本身就具備很強的可編程性。如何把這些硬件開放給開發者，以及如何用開發者熟悉的方式完成這件事，是整個體系里非常重要的一部分。

現在，LPU 和 Groq 已經有一套非常強的編譯器，能夠對 Groq 芯片內部的計算單元進行調度和編程。這里真正關鍵的是“調度”。當系統以每秒 1000 個 Token 的速度運行時，所有任務都必須被精確安排。每一份數據、每一次計算，都必須在剛剛好的納秒到位，以便銜接下一個操作。這對這類處理器是否能真正運轉，至關重要。

這和 CPU、GPU 的工作方式都不一樣。在 GPU 中，我們采用的是針對延遲優化的核心。GPU 有大量任務需要處理，且流水線非常豐富，憑借極高的并行度，硬件可以讓所有任務持續流暢地執行與計算。而 LPU 架構的一個核心特點，也是它與 GPU 形成互補的原因，在于它是一種具有精確時序的調度型架構，能夠把專家模型里前饋網絡（FFNs）的那部分計算精確執行出來。

我們的確打算把這一套編程環境開放出來，但第一代還做不到。因為當前的重點仍然是支持由前沿 AI 實驗室打造的標桿模型，我們會直接和這些團隊合作。但“開放 LPU 的編程環境”本身，是明確的目標。至于未來是通過 CUDA 的方式，還是通過更通用的方式來實現，這件事還要往后看。

不過有一點非常明確：LPX 和 LPU 的能力不可能單獨發揮出來。過去我們追求極快解碼時，就已經遇到過這個問題。你當然可以把足夠多的芯片堆在一起，組成十幾柜 LPX、成千上萬個 LPU 去跑一個萬億參數的模型，但問題是內存容量根本不夠。這些是 SRAM，容量只有 500 MB。如果再給它接上 HBM，它原本的優勢也會隨之消失。所以你一定需要另外的GPU和它協同，才能把效率做出來。原本需要幾十個機架才能完成的萬億參數模型，現在我們只需要兩個機架：一個 Vera Rubin 機架，一個 LPX 機架。

而這件事遠不只是兩種芯片簡單拼在一起。它們之間還需要互連，需要交換機，需要 Spectrum 芯片。當我們解碼每一個 Token 時，我們需要 NVLink 芯片把 GPU 連接起來，Spectrum 芯片本身還要與 ConnectX 相連。換句話說，LPX 上的解碼不是某一顆芯片單獨完成的事，而是七款芯片協同工作后，才能把這些模型真正推向市場，并同時實現性能與效率。

問題：很多競爭對手都在押注推理，因為他們認為這一領域存在巨大機遇。現在你們有了Groq，在推理方面表現非常出色。你怎么看和TPU、Cerebras這類公司的競爭？

Ian Buck：推理從來不可能靠某一個招式取勝。它要求所有芯片協同工作，才能實現出色的性能與極高的吞吐。缺少任何一項，都不可能真正實現規模化。高性能讓大模型能夠快速思考，出色的 Token 速率讓模型賦予我們真正的智能，實現能力與價值的躍升。但只有性能還不夠，你還需要具備強大的吞吐量。如果一個數據中心只能為一個模型處理一次查詢，這根本形成不了市場，成本太高。你必須擁有足夠的吞吐量。

而這正是七款芯片協同工作的意義所在：LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField 共同組成一個系統。這樣，我們才能用兩個機架完成傳統需要一整排機柜才能完成的工作，把每 Token 成本與整體吞吐量打到一個理想區間，讓我們能夠真正將其推向市場，并以經濟高效的方式大規模服務新一代智能體模型。至于其他工作負載，正如黃仁勛在主題演講里說的，跑在 Blackwell 上很好，跑在 Vera 上也一樣很好，這一點我們非常確定。

從這個角度看，為了實現高性能和高吞吐，只有七款芯片協同工作，才能把推動 AI前沿技術發展，去支撐那些更大的模型。當然，每個人都在提出好的想法。每一塊都在創新，軟件、模型、架構、機柜設計…..最早在數據中心上液冷的不是我們，而是 Google。其液冷系統設計精妙，色彩豐富。整個 AI 領域都是這樣，創新到處都在發生。AI 像一股漲潮的海水，把所有船都一起抬了起來。

有很多很棒的想法。我們要如何汲取其中的精華 —— 無論是軟件設計、AI模型、內核優化、壓縮算法、數值格式、系統工程、芯片架構，還是封裝工藝—— 并將其推向市場？NVIDIA 在做的，就是把這些最好的想法吸收進來，推向市場，從而實現更高的性能、每瓦特性能，以及更有優勢的 Token 成本，就像我們在 InferenceMax 基準測試里展示的那樣。然后，我們再把它規模化，讓整個世界都能從這些創新中獲益。

創新一直都在發生。NVIDIA 還有一個獨特之處——也是我老板給我們的一個“殊榮”——就是我們每年都要做一個新的平臺。這有時候也令人心力交瘁。一年前我們還沒有 LPX 機架，也沒有 Vera 機架。AI 的演進速度就是這么快。只要你認真去看，那些好想法其實一直都在那里。正因為我們每年都在創新、每年都在推出新平臺，所以你們每年也都有理由回到 GTC。

問題：從架構角度看，把三種不同芯片整合到一起，最大的挑戰是什么？尤其Groq這樣的技術來自外部。

Ian Buck：答案首先還是制造和供應鏈。NVIDIA 這些芯片——Groq 芯片、NVLink 芯片、Spectrum 芯片、BlueField 芯片、CPU、GPU 的制造，里面涉及 CoWoS 封裝，要把內存封裝到 GPU 上，同時還涉及整個系統級工程：如何把所有器件最終集成為一個機架。

現在，我們已經把第一批工程樣機交到了客戶手里。在離這里不遠的地方，NVIDIA 內部也已經有多臺 Vera Rubin 機架在運行，它們已經能跑 PyTorch。展廳里還有 Runway 的一個非常精彩的演示，可以直接看到 Vera Rubin 的實際效果。AI 工廠真正推向市場，背后依賴的是全球供應鏈與全球制造能力的協同。

問題：所以你們構建了GB200，實際上是把一個超級計算機真正做到了規模化，對嗎？

Ian Buck：可以這么理解。我們做的，其實就是把超級計算機真正推到了大規模。自從當年在佛羅里達州坦帕的 Supercomputing 2006（SC06）大會上發布 CUDA 以來，我一直在做超級計算機。它們有點像一級方程式賽車：你造出一輛車，需要無數工程師圍著它工作，保證它能跑；跑完一圈以后，還要把它拆開檢查每一個部分。那只是一輛車。

但我們今天做的，是把那套工程方法擴展到數百萬輛“車”，擴展到以吉瓦計的數據中心規模。現在，我們每個月出貨的數據中心 GPU，總功耗加起來大概就是幾個吉瓦。這背后需要巨大的系統工程能力、全球制造流程，以及完整的零部件生態。這中間包括液體鏈接用的 QD 連接器、NVLink 連接器、冷板制造、熱管、電容器、穩壓器、漏液檢測器——所有這些東西都要齊備。

更重要的是，所有零部件最終都必須真正拼成系統。薩蒂亞（微軟 CEO）前段時間發過他們機架的照片，我這里也有很多客戶機架的照片。有大量工程師負責搭建這些機架。我們通常會先在中國臺灣完成這一過程，那里不只是芯片制造的重要地點，也是整個計算機制造工程能力最密集的地方。然后我們再把它推廣到全球各地。Dell 在馬薩諸塞州和愛爾蘭設有制造工廠，今天很多用來訓練標桿模型的機架，也有在墨西哥、得克薩斯州或圣何塞等地生產出來的。歸根到底，這是整個生態系統共同完成的事。

問題：在整條供應鏈都參與進來的情況下，把這些東西整合起來的關鍵挑戰，是不是系統工程？

Ian Buck：是的，好消息是 NVIDIA 在 Grace Blackwell 上已經完成過這一過程。借助 NVL72，我們已經把整個系統擴展到那個規模。有了這一層基礎之后，現在我們就能在此基礎上繼續加速，因為供應鏈、工程經驗和制造體系都已經建立起來了。

當我們去構建 LPX 機架和 Vera Rubin 機架時，你會發現它們外觀上很像。原因不是巧合，而是我們復用了同一套供應鏈體系、制造流程、認證周期、測試流程、運輸方式，和數據中心標準。這些機架的供電要求一致，液冷要求一致，其排布、散熱和水溫維持同一標準。這使得客戶能夠自由組合搭配，或將所有機架整合為一套完整的系統生態。

問題：讓這一切真正運轉起來的核心，是整個生態系統都在持續投入？

Ian Buck：答案很大一部分確實是：供應鏈、可制造性，以及整個生態系統都在持續投入，并且把這些能力推向市場。但在那之前，還有大量更基礎的工作要做。我們得先把第一臺做出來，確保整個軟件棧能跑、互連能跑、所有芯片能一起工作。

讓我倍感興奮的是，Vera Rubin 現在已經能跑 PyTorch，能生成漂亮的圖像，也能運行大語言模型。我們的 Bring-up 實驗室里也有多款大語言模型跑在 LPU 上，目前我們正在搭建對應的機架。Vera 也已經點亮和運行。我自己在上面跑過 287 個不同的基準測試，從 HPC 應用到計算 π 的位數，都已經跑通。現在剩下的，就是把規模繼續拉起來，優化調整生產線，并確保良率達到優異水平，以便在今年晚些時候將其交付至各大數據中心。

問題：隨著制程進入亞納米，硅基材料的物理極限越來越明顯。NVIDIA現在如何看待下一代半導體材料，比如TMD？

Ian Buck：如果你問我現在最興奮什么，我的答案其實是 CPO（共封裝光學，Co-Packaged Optics）。黃仁勛在 GTC 演講中舉起過那塊 Spectrum-6 CPO 模塊。能夠把這樣的東西真正做出來，背后的技術和硅工藝都非常驚人。我們全程運用光學物理原理，并將其直接部署在信號生成的位置附近。這會顯著增加帶寬，大幅提升功耗效率，同時增強了系統的可靠性，讓所有服務器實現互聯協作、統一運行。今天，我們已經在 NVL72 上做到了這一點。

當初我們敢把密度推到這么高，是因為我們知道，只要有 NVLink 提供的帶寬、連接能力和信號速度，就有可能在一個機架里做出一顆“巨型 GPU”：其背后配備的是 5000 根銅纜和 9 臺 NVLink交換機。為了讓 72 顆 GPU 真正像一個系統那樣工作，NVLink 與 CPO 的結合使這一切成為可能。

我不知道你們是否注意到，黃仁勛在演講里也提到了：在最終的新一代產品里，我們會把 CPO 融入 NVLink，把 NVLink 的擴展規模提升到 1152 顆 GPU。這聽起來很瘋狂。如果想做到這一點，唯一的辦法就是在維持如此大規模信號與連接的同時，避免功耗激增、成本失控，并且讓整個系統能夠協同如一。其中涉及的物理原理十分精妙，相關技術也堪稱驚艷，但研發難度極大。搭載 CPO 技術的 Spectrum-6 交換機將與 Vera Rubin 同步推向市場。它可以把光信號傳到幾公里之外，同時保持大規模數據中心所需要的穩定性和可靠性。嚴格說，這并不是對“新材料”問題的直接回答，但如果你問我最期待什么，我的答案就是這個。

問題：隨著NVIDIA發布新的CPU和LPU，AI架構正在變得越來越異構。你是否認為，隨著AI工作負載越來越專業化，基礎設施異構化已經成為必然趨勢？英偉達GPU向來以通用性著稱。你們將如何應對全新挑戰？GPU是否仍是該領域的“最優解”？

Ian Buck：這是一個很棒的問題：到底要把系統做得多專用，還是要提供一個可編程平臺去承載持續創新？我們始終在兩者之間找平衡。

我們完全可以將 GPT-OS 進行流片，把它做成一款芯片級模型。如果走到極端，把整個模型直接做成硅片，我相信某些效率一定會更高。但問題也同樣明顯：模型和它的實現方式會被永久固化在那塊硅片里。這樣一來，繼續優化模型、優化軟件、探索應用場景的空間就會消失。即便是 GPT-OS，也仍然有可能變得更快、更好、更聰明、更可擴展。

我們可以看 DeepSeek R1，它是一年多前發布的，我記得很清楚——對我們的股價來說，那一天也確實很有意思。但從發布以后，它一直在變得更快。為什么？因為整個世界都拿起自己的 GPU，去研究怎么把混合專家網絡（MoE）模型跑得更快、更高效，怎么把 Token 成本壓低，怎么像 InferenceMax 基準測試里那樣繼續提高每瓦特性能。這背后有非常大的價值。而這之所以可能，一個根本原因就在于：這些芯片是開放的。它們可以被重新配置、編程、編譯、鏈接、推理、訓練。我們歡迎開發者去探索各種不同的計算模式。

【活動分享】"48 小時，與 50+ 位大廠技術決策者，共探 AI 落地真路徑。"奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開，大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論，真正實現 AI 技術的規模化落地與商業價值轉化。這不僅是一場技術的盛宴，更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.