<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      硅谷前沿訪談:CUDA之父復盤英偉達20年護城河,揭開萬億算力帝國的底牌

      0
      分享至

      作者 | 李建忠

      出品丨AI 科技大本營(ID:rgznai100)

      期間,奇點智能研究院院長、2026 奇點智能技術大會(SITS)發起人李建忠在硅谷采訪了英偉達 CUDA 奠基者、被稱為“CUDA 之父”的 Ian Buck。作為英偉達超大規模與高性能計算副總裁,Ian Buck 不僅深度參與了 CUDA 的創建,也長期處于 NVIDIA 平臺演進的核心位置,見證并推動了這家公司從一家 GPU 廠商走向全球 AI 生態平臺領跑者的全過程。


      這場對話圍繞 CUDA 20 年的演進邏輯、AI 工廠、異構計算、開發者生態、軟硬件協同設計,以及下一代基礎設施的開放性與競爭格局,Ian Buck 在這場訪談中系統回應了外界最關心的一系列問題。這場采訪最大的看點,不只是 Ian Buck 對 英偉達AI工廠最新的技術與產品的闡述,而在于他把英偉達如何從 CUDA 開始、把芯片、系統、軟件和開發者不斷擰成一個統一生態平臺的底層邏輯。

      外界往往把英偉達的優勢理解為芯片領先,但從 CUDA、GPU、LPU、CPU,到 NVLink、交換機、軟件棧和開發者生態,英偉達最大的護城河,早已不是單點產品,而是一整套圍繞訓練、推理與 AI 工廠組織起來的生態級平臺的能力。

      問題:您是否可以談談此次GTC大會新發布的技術和產品、以及令您印象最深刻的部分?

      IanBuck我最大的感受是, AI 基礎設施正在進入一個全新的階段。黃仁勛在主題演講里已經展示了這一點:NVIDIA 現在同時推進七款芯片和五種機架架構,目標是服務AI工廠,以前所未有的規模完成訓練與推理,把下一代智能體 AI推向市場。

      我最關注的是,LPU 被正式納入整個體系。NVIDIA Groq 3 LPU 可以被理解為 Vera Rubin 的增強組件。LPU 基于 SRAM,能夠依靠極快的 SRAM 完成浮點計算。但它的限制也非常明確,一旦把它用于擁有超長上下文、面向實時推理的超大模型,問題就會暴露出來。僅靠 LPU 去運行一個萬億參數模型,需要幾十個機架。這樣的方案也許可以帶來極高的 Token 速率,但在成本和基礎設施效率上都無法支撐真正的大規模部署。

      我們的解決辦法不是讓 LPU單獨承擔任務,而是讓它和Vera Rubin 配合工作。現在,隨著新的Groq 工程師加入 NVIDIA,我們正在把 GPU 和 LPU 的優勢整合到同一個系統里。原本需要幾十個 LPU 機架完成的工作,現在兩個機架就可以覆蓋。所有 Token 的注意力計算可以交給 GPU,模型每一層的專家部分的矩陣計算則交給 LPU。這正是讓下一代模型落地所面臨的挑戰之一。

      當然,AI 市場的大部分需求——聊天機器人、圖像生成、視頻處理、推薦系統——仍然會主要運行在 Vera Rubin 上。LPU 并不會為這些場景帶來額外收益,Rubin 本身已經是非常成熟的 AI 平臺。LPU真正發揮作用的,是下一代智能體所需要的工作負載:萬億參數模型、幾十萬 Token 級上下文,以及每秒千 Token 級別的服務速度。到了這個級別,Vera Rubin 與 LPU 的組合才變得關鍵。

      我今天也帶來了 Vera 模塊。這就是 Vera CPU,和你們現在看到的系統里使用的是同一顆 CPU。在 AI 智能體時代,我們需要的是一種新的 CPU:既要有極強的單核性能,也要有很多核、且讓每個核都能滿性能運行。只有這樣,它才能承擔工具調用、代碼編譯、瀏覽器渲染和 SQL 查詢等任務,讓 GPU 去調度 CPU,在訓練和推理時共同交付完整的 AI 體驗。NVIDIA 會把 Vera 作為獨立 CPU 推向市場,而且只提供這一種 SKU。它本身就是參考架構,合作伙伴可以在此基礎上繼續構建自己的系統。我很樂意聊這些產品,以及讓這一切得以運轉的軟件系統。

      問題:今年是CUDA誕生20周年。2006年您帶領團隊發布CUDA時,您是否預料到它20年后會發展到今天這個規模?CUDA取得成功的密碼是什么?

      Ian BuckCUDA 走到今天,確實是一段非常特別的歷程。今年 11 月,距離我們第一次發布CUDA 正好滿 20 年。我 2004 年加入 NVIDIA,就是為了做這件事。第一個版本花了兩年時間才真正完成。更早的時候,我在斯坦福做博士研究,方向就是如何把 GPU——當時還只是圖形處理器——用于通用計算。那篇博士論文的核心,其實就是一個問題:什么樣的編程模型才是對的?怎樣才能讓程序員不再用兩線程、兩核心、四核心的方式思考,而是真正進入 1 萬線程級別的并行思維?

      人類并不天然適合這樣思考。我們的思維方式更接近線性。但 GPU 架構所展示的,是一種完全不同的計算方式。它并不是用來解決所有問題,而是專門用來加速那些真正具備萬級、十萬級,乃至百萬級并行潛力的部分。真正的難點,不只是硬件本身,而是怎么讓程序員形成這種思維,并把它清楚地表達出來。

      CUDA之所以能夠成功,一個決定性的原因是:我們沒有試圖重新發明一門全新的編程語言。那當然是可以做的,而且從學術角度看也很自然。但當我們真正和客戶、和那些有實際計算問題的人交流時,得到的反饋很明確:他們需要的不是一套新的語言體系,而是一種能提高開發效率的工具。所謂開發者生產力,本質上就是能利用現有技術,而不是為了使用它被迫重學一整套新的語言和概念。

      所以 CUDA 最關鍵的一點,其實是 C語言。它建立在 C 語言之上。我們的思路是盡量少改 C語言,只在真正有價值的地方做擴展,讓程序在最需要性能的部分跑上 1 萬個核心。最初的構想就是這樣。后來,CUDA 擴展到C++ 、Python, Java、和 Fortran,但一個真正可行的編程模型仍然是它最核心的東西。

      另一件同樣關鍵的事,是始終確保兼容性。一旦開發者進入 CUDA 體系,從 GeForce 8800 到今天的 Vera Rubin,只要他們運行在支持CUDA的GPU上,那么之后的每一代硬件都會讓它變得更快。這就是我所說的一種新的“摩爾定律”。變快的不只是硅片和晶體管,而是整個技術棧。CUDA 的每一層都在持續變快,開發者的代碼也會沿著同一條指數曲線變快。即使CUDA 1.0 時代寫下的代碼,今天放到 Vera Rubin 上,性能也會得到百萬倍的提升。

      當然,隨著時間推移,我們不斷加入新的能力、新的特性、新的技術和新的庫,但最初對開發者的承諾從未改變:給他們一個容易理解、容易使用的編程環境,而不是逼他們接受一門陌生的新語言;只在真正能創造價值的地方做擴展;同時始終把向后兼容和向前兼容放在心上。你在 GTC 現場就能直觀地看到這種承諾如何兌現:Volta 比上一代更快,Ampere 更快,Hopper 更快,Blackwell 更快,Rubin 還會繼續更快。

      最后也非常重要的是,今天的 CUDA不只是一個編程平臺,而是一個龐大的庫和生態平臺。我們現在已經有超過 1000 個 CUDA-X 庫和模型。其中有做電子結構理論的模型,比如 cuEST;有用于 SQL 查詢的cuDF;有用于向量搜索的 cuVS;也有像 cuEquivariance 這樣幫助 AI 模型預測蛋白質結構的工具。我們還有面向量子計算的庫,比如 cuTensor 和 cuStateVec,用于量子比特糾錯、量子系統模擬。我們使用量子重新定義了計算機科學,讓計算機科學家今天就可以借助 GPU 去模擬未來生產級量子計算機的行為。這些庫非常多,而且并不都是 NVIDIA 自己開發的。事實上,其中很多都來自開發者社區本身。

      對我來說,這里面一直有件很簡單、但也很讓人謙卑的事:最開始,我做的不過是在 C 語言里加了幾個關鍵字。我的老板支持我這么做,也支持我組建團隊把它做出來。黃仁勛當年做出的一個非常偉大的決定是:從我們2006年談到的第一代 GPU開始,要把 CUDA放進每一塊 GPU這個決定花費了公司數十億美元。我們前 10 年都沒從這件事上賺到錢,但他從來沒有放棄。

      問題:今天NVIDIA似乎在加速計算領域占據主導地位。從長期看,未來可能出現什么新的力量,對CUDA構成真正的挑戰,甚至成為替代品?

      Ian Buck我不喜歡“主導地位”這個詞,這從來不是我們的目標,也不是重點。我們的重點始終是幫助開發者。這些芯片和機架本身不會自動做事,它們只是等待開發者來決定如何使用。

      如果在 GTC 現場走一圈,會看到很多不同類型的開發者。有些開發者希望對圖形處理器進行底層編程,從頭開始編寫 CUDA 代碼;有人想模擬一種新型合金的分子結構,以預測其性能,所以他們會直接調用某個程序庫、某款軟件,或者某個 ISV 的產品;還有些人只是想跑一個預訓練 AI 模型,例如做一個 chatbot,去理解等離子體物理學領域過去 50 年的論文。

      我們的目標,是給開發者打造一個平臺,幫助他們提升工作效率,實現能力升級。從而解決科研問題、將服務推向市場,或者在某個垂直領域做出被全球用戶使用的軟件。至于最佳切入點到底是什么——是從一個 CUDA 庫開始,還是從 GitHub 或開源生態里的庫開始,還是深入直接操作 CUDA 底層——這是一個開放平臺,由開發者自己決定。我明天也可以做一個新操作系統,區別于Linux 或 iOS,再為它辦一場發布會。但如果沒有開發者,它就不是一個平臺。平臺從來都是由開發者定義的。

      開發者并不需要非用 CUDA 不可。他們在我們的平臺上可以選擇自己想用的方式。只要開發者有機會做事情,我們就會保持開放,讓他們去編程、去編譯、去鏈接、去做推理、去做訓練。我們歡迎各種不同的計算形態。開發者也不需要鎖定在整套方案上。你可以只買 Vera,可以只用 Vera Rubin,也可以不買完整 NVL72,只用一張 PCIe 卡,都可以。你也可以讓智能體的工作負載運行在別家的 CPU 上,替代 Vera Rubin,也沒問題。

      實際上,我們甚至把NVLink 也開放出來了。通過NVLink Fusion,其他 CPU 可以把 NVLink 集成進去,直接和 NVIDIA 的GPU 通信。我們也把 NVLink 向其他 XPU 開放,它們可以接入 NVLink 的 IP 和芯片,利用 NVLink 交換機的能力。整個技術棧的每一層,我們都在盡量開放。只要有人能在其中某一層創造價值,不管是面向自己的業務、自己的軟件,還是要解決的問題,我們都歡迎。我們打造的是開放平臺,而非強迫開發者全盤接受我們的一整套方案。開發者需要選擇權,也需要開放性,而我們愿意把整套技術棧打開,讓他們去優化、去探索。

      我們沒有發明AI。至少在GPU這個語境里,AI更像是被發現的。大家都知道,加拿大的一位研究生 Alex Krizhevsky,在自己的游戲 PC 上,用買來的 GeForce GPU 下載了 CUDA 這個免費軟件,然后做出了第一個基于 GPU 的 AI 神經網絡,也就是AlexNet。這才是這件事真正重要的地方。至于下一步會發生什么,我并不知道。但我相信,開發者會找到答案。我們其實只是陪著他們一起往前走,幫助他們去探索下一代編程范式、下一代模型,下一代智能體世界到底會變成什么樣子。

      問題:NVIDIA內部是如何保持軟件研發和硬件研發的協同?軟件架構師是從硬件設計的第一天就參與其中,還是要等到硬件設計全部完成后才開始軟件設計?這中間會否有部門墻帶來的隔閡?

      Ian Buck這是一個非常棒的問題。我可以談一個關鍵的內部機制:我們并不公開 GPU 的指令集。大家都熟悉 X86 指令集、ARM 指令集,但 NVIDIA GPU 從沒有對外公開我們的官方指令集。我們在軟件棧對外支持的是 CUDA-X,而不是把最底層的硬件接口直接開放出去。

      指令集是軟件和硬件之間最底層的接口。正因為如此,我們才能把很多優化從最底層一路往上做:從芯片、內核,GPU 指令(我們的確存在一套指令集,只是我們不會將其公開),一直延伸到 CUDA、編譯器、運行時庫、操作系統優化、線性代數庫,以及整個軟件棧。

      每一次平臺迭代,從 Hopper到 Blackwell,再到 Rubin,我們更新的都不只是芯片,而是整套技術棧。我們架構團隊不只是做 GPU 本身——門電路、晶體管、核心、計算引擎——同時還有一個規模巨大的內核與軟件團隊,直接嵌在架構團隊里。當他們交付 Rubin 時,交付的不只是芯片,還有全部內核、全部優化,以及和我的框架團隊一起打磨好的整套軟件能力。

      我的團隊里還有很多人專門負責 PyTorch、Dynamo、SGLang、vLLM、JAX、NeMo。這些都是我們長期投入工程師和資源的生態軟件項目。所以每一代架構真正交付出來的,其實是芯片、各類內核庫、底層接口、調優后的 NCCL 和 NVSwitch,以及成千上萬個內核的總和。這才是所謂架構協同設計的真正含義。

      我最近沒去看具體數字,但我想 NVIDIA 現在的軟件工程師肯定比硬件工程師多得多,原因就在這里。外界經常把我們看成一家無晶圓廠的半導體硬件公司,但實際上,我們內部有一個規模極其龐大的軟件團隊。

      我們讓成千上萬的軟件和內核工程師,與設計芯片的團隊一起,被組織在同一個體系里,向同一個 VP 匯報。這樣做最大的好處是:芯片交付以后,他們的工作并不會停止。Blackwell 出貨之后,這些軟件團隊和同樣在做 Rubin 的硬件團隊,仍然在做我剛才提到的那些 DeepSeek 優化。他們繼續和 OpenAI、Anthropic、Microsoft 以及整個行業合作,不斷把 Blackwell 的內核性能再往上推。

      更重要的是,他們在這個過程中積累的經驗,又會反過來讓 Rubin 變得更好。這種并非簡單 “甩手掌柜式” 的交付模式,意味著他們也是實際支撐現有模型運行團隊的一員。除了對各類內核進行優化之外,他們還能確保 Rubin 在硬件層面也能實現更進一步的優化提升。

      問題AI正在改變軟件開發,這會為CUDA及其開發者帶來什么樣的改變?

      Ian BuckAI 編碼在加速 CUDA 的使用,而且速度比很多人想得更快。就拿 NVIDIA 內部來說,我們每天都在生成大量 CUDA 內核,這些內核代碼被用于運行 GPT-OS、DeepSeek 這樣的模型。現在,一部分 CUDA 內核已經開始由 AI Coding 工具生成。雖然仍有一些內核代碼需要工程師手工打磨。這樣帶來的結果,是性能更高、優化更好,而這背后涉及了大量的軟件與調優工作。

      我剛才提到的 CUDA-X 的上千個庫,現在也不再只是由開發者手工編寫,AI Agent 也深度參與其中。CUDA 和 CUDA-X 的采用速度之所以加快,原因就在這里:這些 Agent 已經能夠理解這些庫各自的能力,并主動調用它們。

      我團隊有一些做 HPC 的研究人員,他們正在朝 Gordon Bell Prize (全球高性能計算領域的最高榮譽)這類頂級目標推進。現在,他們已經在用 Python、NVIDIA Warp、Claude 和 ChatGPT 生成 CUDA 代碼。生產力的提升非常明顯,因為Agent 現在可以訪問大量不同的庫,并把這些庫用在具體的領域問題上。無論是直接生成 CUDA 代碼,還是基于某個 CUDA-X 庫去開發,Agentic Coding 都在整體上提升開發效率,也在推動加速計算更快普及。

      問題統一架構對CUDA非常重要,但Groq目前還有一點不同,它還沒有被CUDA支持。未來它會被納入CUDA,還是保持獨立?

      Ian Buck我們的方向一直很明確:所有平臺最終都應該是可編程的。GPU 要可編程,CPU 要可編程,BlueField DPU 要可編程,ConnectX 也可以編程,Spectrum-X 也一樣。里面有很多與擁塞控制相關的算法和機制,本身就具備很強的可編程性。如何把這些硬件開放給開發者,以及如何用開發者熟悉的方式完成這件事,是整個體系里非常重要的一部分。

      現在,LPU 和 Groq 已經有一套非常強的編譯器,能夠對 Groq 芯片內部的計算單元進行調度和編程。這里真正關鍵的是“調度”。當系統以每秒 1000 個 Token 的速度運行時,所有任務都必須被精確安排。每一份數據、每一次計算,都必須在剛剛好的納秒到位,以便銜接下一個操作。這對這類處理器是否能真正運轉,至關重要。

      這和 CPU、GPU 的工作方式都不一樣。在 GPU 中,我們采用的是針對延遲優化的核心。GPU 有大量任務需要處理,且流水線非常豐富,憑借極高的并行度,硬件可以讓所有任務持續流暢地執行與計算。而 LPU 架構的一個核心特點,也是它與 GPU 形成互補的原因,在于它是一種具有精確時序的調度型架構,能夠把專家模型里前饋網絡(FFNs)的那部分計算精確執行出來。

      我們的確打算把這一套編程環境開放出來,但第一代還做不到。因為當前的重點仍然是支持由前沿 AI 實驗室打造的標桿模型,我們會直接和這些團隊合作。但“開放 LPU 的編程環境”本身,是明確的目標。至于未來是通過 CUDA 的方式,還是通過更通用的方式來實現,這件事還要往后看。

      不過有一點非常明確:LPX 和 LPU 的能力不可能單獨發揮出來。過去我們追求極快解碼時,就已經遇到過這個問題。你當然可以把足夠多的芯片堆在一起,組成十幾柜 LPX、成千上萬個 LPU 去跑一個萬億參數的模型,但問題是內存容量根本不夠。這些是 SRAM,容量只有 500 MB。如果再給它接上 HBM,它原本的優勢也會隨之消失。所以你一定需要另外的GPU和它協同,才能把效率做出來。原本需要幾十個機架才能完成的萬億參數模型,現在我們只需要兩個機架:一個 Vera Rubin 機架,一個 LPX 機架。

      而這件事遠不只是兩種芯片簡單拼在一起。它們之間還需要互連,需要交換機,需要 Spectrum 芯片。當我們解碼每一個 Token 時,我們需要 NVLink 芯片把 GPU 連接起來,Spectrum 芯片本身還要與 ConnectX 相連。換句話說,LPX 上的解碼不是某一顆芯片單獨完成的事,而是七款芯片協同工作后,才能把這些模型真正推向市場,并同時實現性能與效率。

      問題:很多競爭對手都在押注推理,因為他們認為這一領域存在巨大機遇。現在你們有了Groq,在推理方面表現非常出色。你怎么看和TPUCerebras這類公司的競爭?

      Ian Buck推理從來不可能靠某一個招式取勝。它要求所有芯片協同工作,才能實現出色的性能與極高的吞吐。缺少任何一項,都不可能真正實現規模化。高性能讓大模型能夠快速思考,出色的 Token 速率讓模型賦予我們真正的智能,實現能力與價值的躍升。但只有性能還不夠,你還需要具備強大的吞吐量。如果一個數據中心只能為一個模型處理一次查詢,這根本形成不了市場,成本太高。你必須擁有足夠的吞吐量。

      而這正是七款芯片協同工作的意義所在:LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField 共同組成一個系統。這樣,我們才能用兩個機架完成傳統需要一整排機柜才能完成的工作,把每 Token 成本與整體吞吐量打到一個理想區間,讓我們能夠真正將其推向市場,并以經濟高效的方式大規模服務新一代智能體模型。至于其他工作負載,正如黃仁勛在主題演講里說的,跑在 Blackwell 上很好,跑在 Vera 上也一樣很好,這一點我們非常確定。

      從這個角度看,為了實現高性能和高吞吐,只有七款芯片協同工作,才能把推動 AI前沿技術發展,去支撐那些更大的模型。當然,每個人都在提出好的想法。每一塊都在創新,軟件、模型、架構、機柜設計…..最早在數據中心上液冷的不是我們,而是 Google。其液冷系統設計精妙,色彩豐富。整個 AI 領域都是這樣,創新到處都在發生。AI 像一股漲潮的海水,把所有船都一起抬了起來。

      有很多很棒的想法。我們要如何汲取其中的精華 —— 無論是軟件設計、AI模型、內核優化、壓縮算法、數值格式、系統工程、芯片架構,還是封裝工藝—— 并將其推向市場?NVIDIA 在做的,就是把這些最好的想法吸收進來,推向市場,從而實現更高的性能、每瓦特性能,以及更有優勢的 Token 成本,就像我們在 InferenceMax 基準測試里展示的那樣。然后,我們再把它規模化,讓整個世界都能從這些創新中獲益。

      創新一直都在發生。NVIDIA 還有一個獨特之處——也是我老板給我們的一個“殊榮”——就是我們每年都要做一個新的平臺。這有時候也令人心力交瘁。一年前我們還沒有 LPX 機架,也沒有 Vera 機架。AI 的演進速度就是這么快。只要你認真去看,那些好想法其實一直都在那里。正因為我們每年都在創新、每年都在推出新平臺,所以你們每年也都有理由回到 GTC。

      問題從架構角度看,把三種不同芯片整合到一起,最大的挑戰是什么?尤其Groq這樣的技術來自外部。

      Ian Buck答案首先還是制造和供應鏈。NVIDIA 這些芯片——Groq 芯片、NVLink 芯片、Spectrum 芯片、BlueField 芯片、CPU、GPU 的制造,里面涉及 CoWoS 封裝,要把內存封裝到 GPU 上,同時還涉及整個系統級工程:如何把所有器件最終集成為一個機架。


      現在,我們已經把第一批工程樣機交到了客戶手里。在離這里不遠的地方,NVIDIA 內部也已經有多臺 Vera Rubin 機架在運行,它們已經能跑 PyTorch。展廳里還有 Runway 的一個非常精彩的演示,可以直接看到 Vera Rubin 的實際效果。AI 工廠真正推向市場,背后依賴的是全球供應鏈與全球制造能力的協同。

      問題:所以你們構建了GB200,實際上是把一個超級計算機真正做到了規模化,對嗎?

      Ian Buck可以這么理解。我們做的,其實就是把超級計算機真正推到了大規模。自從當年在佛羅里達州坦帕的 Supercomputing 2006(SC06)大會上發布 CUDA 以來,我一直在做超級計算機。它們有點像一級方程式賽車:你造出一輛車,需要無數工程師圍著它工作,保證它能跑;跑完一圈以后,還要把它拆開檢查每一個部分。那只是一輛車。

      但我們今天做的,是把那套工程方法擴展到數百萬輛“車”,擴展到以吉瓦計的數據中心規模。現在,我們每個月出貨的數據中心 GPU,總功耗加起來大概就是幾個吉瓦。這背后需要巨大的系統工程能力、全球制造流程,以及完整的零部件生態。這中間包括液體鏈接用的 QD 連接器、NVLink 連接器、冷板制造、熱管、電容器、穩壓器、漏液檢測器——所有這些東西都要齊備。

      更重要的是,所有零部件最終都必須真正拼成系統。薩蒂亞(微軟 CEO)前段時間發過他們機架的照片,我這里也有很多客戶機架的照片。有大量工程師負責搭建這些機架。我們通常會先在中國臺灣完成這一過程,那里不只是芯片制造的重要地點,也是整個計算機制造工程能力最密集的地方。然后我們再把它推廣到全球各地。Dell 在馬薩諸塞州和愛爾蘭設有制造工廠,今天很多用來訓練標桿模型的機架,也有在墨西哥、得克薩斯州或圣何塞等地生產出來的。歸根到底,這是整個生態系統共同完成的事。

      問題:在整條供應鏈都參與進來的情況下,把這些東西整合起來的關鍵挑戰,是不是系統工程?

      Ian Buck是的,好消息是 NVIDIA 在 Grace Blackwell 上已經完成過這一過程。借助 NVL72,我們已經把整個系統擴展到那個規模。有了這一層基礎之后,現在我們就能在此基礎上繼續加速,因為供應鏈、工程經驗和制造體系都已經建立起來了。

      當我們去構建 LPX 機架和 Vera Rubin 機架時,你會發現它們外觀上很像。原因不是巧合,而是我們復用了同一套供應鏈體系、制造流程、認證周期、測試流程、運輸方式,和數據中心標準。這些機架的供電要求一致,液冷要求一致,其排布、散熱和水溫維持同一標準。這使得客戶能夠自由組合搭配,或將所有機架整合為一套完整的系統生態。

      問題讓這一切真正運轉起來的核心,是整個生態系統都在持續投入?

      Ian Buck答案很大一部分確實是:供應鏈、可制造性,以及整個生態系統都在持續投入,并且把這些能力推向市場。但在那之前,還有大量更基礎的工作要做。我們得先把第一臺做出來,確保整個軟件棧能跑、互連能跑、所有芯片能一起工作。

      讓我倍感興奮的是,Vera Rubin 現在已經能跑 PyTorch,能生成漂亮的圖像,也能運行大語言模型。我們的 Bring-up 實驗室里也有多款大語言模型跑在 LPU 上,目前我們正在搭建對應的機架。Vera 也已經點亮和運行。我自己在上面跑過 287 個不同的基準測試,從 HPC 應用到計算 π 的位數,都已經跑通。現在剩下的,就是把規模繼續拉起來,優化調整生產線,并確保良率達到優異水平,以便在今年晚些時候將其交付至各大數據中心。

      問題:隨著制程進入亞納米,硅基材料的物理極限越來越明顯。NVIDIA現在如何看待下一代半導體材料,比如TMD

      Ian Buck如果你問我現在最興奮什么,我的答案其實是 CPO(共封裝光學,Co-Packaged Optics)。黃仁勛在 GTC 演講中舉起過那塊 Spectrum-6 CPO 模塊。能夠把這樣的東西真正做出來,背后的技術和硅工藝都非常驚人。我們全程運用光學物理原理,并將其直接部署在信號生成的位置附近。這會顯著增加帶寬,大幅提升功耗效率,同時增強了系統的可靠性,讓所有服務器實現互聯協作、統一運行。今天,我們已經在 NVL72 上做到了這一點。

      當初我們敢把密度推到這么高,是因為我們知道,只要有 NVLink 提供的帶寬、連接能力和信號速度,就有可能在一個機架里做出一顆“巨型 GPU”:其背后配備的是 5000 根銅纜和 9 臺 NVLink交換機。為了讓 72 顆 GPU 真正像一個系統那樣工作,NVLink 與 CPO 的結合使這一切成為可能。

      我不知道你們是否注意到,黃仁勛在演講里也提到了:在最終的新一代產品里,我們會把 CPO 融入 NVLink,把 NVLink 的擴展規模提升到 1152 顆 GPU。這聽起來很瘋狂。如果想做到這一點,唯一的辦法就是在維持如此大規模信號與連接的同時,避免功耗激增、成本失控,并且讓整個系統能夠協同如一。其中涉及的物理原理十分精妙,相關技術也堪稱驚艷,但研發難度極大。搭載 CPO 技術的 Spectrum-6 交換機將與 Vera Rubin 同步推向市場。它可以把光信號傳到幾公里之外,同時保持大規模數據中心所需要的穩定性和可靠性。嚴格說,這并不是對“新材料”問題的直接回答,但如果你問我最期待什么,我的答案就是這個。

      問題:隨著NVIDIA發布新的CPULPUAI架構正在變得越來越異構。你是否認為,隨著AI工作負載越來越專業化,基礎設施異構化已經成為必然趨勢?英偉達GPU向來以通用性著稱。你們將如何應對全新挑戰?GPU是否仍是該領域的最優解

      Ian Buck這是一個很棒的問題:到底要把系統做得多專用,還是要提供一個可編程平臺去承載持續創新?我們始終在兩者之間找平衡。

      我們完全可以將 GPT-OS 進行流片,把它做成一款芯片級模型。如果走到極端,把整個模型直接做成硅片,我相信某些效率一定會更高。但問題也同樣明顯:模型和它的實現方式會被永久固化在那塊硅片里。這樣一來,繼續優化模型、優化軟件、探索應用場景的空間就會消失。即便是 GPT-OS,也仍然有可能變得更快、更好、更聰明、更可擴展。

      我們可以看 DeepSeek R1,它是一年多前發布的,我記得很清楚——對我們的股價來說,那一天也確實很有意思。但從發布以后,它一直在變得更快。為什么?因為整個世界都拿起自己的 GPU,去研究怎么把混合專家網絡(MoE)模型跑得更快、更高效,怎么把 Token 成本壓低,怎么像 InferenceMax 基準測試里那樣繼續提高每瓦特性能。這背后有非常大的價值。而這之所以可能,一個根本原因就在于:這些芯片是開放的。它們可以被重新配置、編程、編譯、鏈接、推理、訓練。我們歡迎開發者去探索各種不同的計算模式。

      【活動分享】"48 小時,與 50+ 位大廠技術決策者,共探 AI 落地真路徑。"奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開,大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論,真正實現 AI 技術的規模化落地與商業價值轉化。這不僅是一場技術的盛宴,更是決策者把握 2026 AI 拐點的戰略機會。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      49 歲馬伊琍爆炸頭官宣新狀態!文章攜新歡亮相,兩人各自安好

      49 歲馬伊琍爆炸頭官宣新狀態!文章攜新歡亮相,兩人各自安好

      橙星文娛
      2026-05-14 10:09:49
      阿森納迷惑操作!19 歲天才剛坐穩主力,就要被 7000萬先生擠走?

      阿森納迷惑操作!19 歲天才剛坐穩主力,就要被 7000萬先生擠走?

      奶蓋熊本熊
      2026-05-15 01:10:37
      多地村鎮理發店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      多地村鎮理發店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      紅星新聞
      2026-05-14 18:01:16
      國家發改委、國家糧食和物資儲備局、財政部、交通運輸部、農業農村部、中國人民銀行、國家市場監督管理總局等聯合印發重要通知

      國家發改委、國家糧食和物資儲備局、財政部、交通運輸部、農業農村部、中國人民銀行、國家市場監督管理總局等聯合印發重要通知

      農民日報
      2026-05-14 16:45:33
      特朗普來了,成都也火了

      特朗普來了,成都也火了

      城市財經
      2026-05-14 11:36:41
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀經濟報道
      2026-05-13 23:28:25
      他帶了一個轟動全球的豪華天團訪華,卻唯獨把老婆留在了美國?

      他帶了一個轟動全球的豪華天團訪華,卻唯獨把老婆留在了美國?

      菁菁子衿
      2026-05-13 22:15:32
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產車降維打擊!

      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產車降維打擊!

      阿芒娛樂說
      2026-05-14 11:16:01
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      顧蔡衛
      2026-05-15 02:35:49
      5月13日向太終于發聲!向佐郭碧婷分居真相,根本不是婚變

      5月13日向太終于發聲!向佐郭碧婷分居真相,根本不是婚變

      小椰的奶奶
      2026-05-14 00:14:20
      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現場仍顯緊張

      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現場仍顯緊張

      懂球帝
      2026-05-15 04:13:11
      中美會晤結束,特朗普松開中方的手,鄰國總統:中美穩定利好全球

      中美會晤結束,特朗普松開中方的手,鄰國總統:中美穩定利好全球

      鐵甲觀
      2026-05-14 17:10:40
      特朗普:美國最高法院門楣上刻著孔子雕像!

      特朗普:美國最高法院門楣上刻著孔子雕像!

      看看新聞Knews
      2026-05-14 21:28:04
      當你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      當你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      心理觀察局
      2026-05-14 09:29:14
      教你一個玄學法則:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      教你一個玄學法則:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      心理觀察局
      2026-05-13 09:18:07
      徹底涼透!偷稅網紅白冰復出賣慘翻車,哭訴被陷害,結局大快人心

      徹底涼透!偷稅網紅白冰復出賣慘翻車,哭訴被陷害,結局大快人心

      喜歡歷史的阿繁
      2026-05-15 02:54:49
      馬斯克攜幼子現身北京人民大會堂 外國網友:孩子那身新中式簡直太棒

      馬斯克攜幼子現身北京人民大會堂 外國網友:孩子那身新中式簡直太棒

      快科技
      2026-05-14 19:00:09
      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經成了一種常態

      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經成了一種常態

      上海云河
      2026-05-13 19:55:38
      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      談芯說科技
      2026-05-14 23:23:31
      2026-05-15 05:08:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創造者和使用者
      2691文章數 7683關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      房產
      教育
      親子
      藝術
      公開課

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      親子要聞

      孤獨癥特教老師的工作,遠不止“教說話”!(下)

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区二区三区在线看| 成人做爰69片免费看网站| 亚洲精品二区在线播放| 香蕉eeww99国产在线观看| 亚洲精品成人区在线观看| 韩国福利一区二区三区| 内丘县| 亚洲一二三四五区视频 | 亚洲一级特黄大片在线观看| 色噜噜狠狠一区二区三区Av蜜芽| 亚州无码成人| 亚洲av综合一二三区| 精品无码久久午夜福利| 日韩深夜免费在线观看| 国产精品国产亚洲看不卡| www.黄色| 无码人妻丰满熟妇精品区| 99精品视频九九精品| 国产人在线成免费视频| 亚洲偷自拍国综合| 亚洲av影院一区二区三区| 四虎跳转到新域名| 99无码人妻一区二区三区色| 精品人妻无码区在线视频| 内射毛片内射国产夫妻| 国产伦精品一区二区三区| 国产精品中文字幕久久| 亚洲欧美精品一中文字幕| 夜夜躁狠狠躁日日躁| 激情久久av一区二区三区 | 日本精品中文字幕在线不卡 | 国产午夜精品久久久久免费视| 国产精品揄拍一区二区久久| 亚洲欧美v| 婷婷99狠狠躁天天躁| 婷婷成人亚洲综合五月天| 97国产一区二区精品久久呦 | 亚洲乱码二区| 亚洲精品乱码久久久久久不卡| 庄河市| 四虎国产精品永久在线影视|