![]()
AI 在不斷演進,推理模型對 Token 的需求不斷增加,對 AI 基礎設施的每一層都提出了新的要求。如今,計算能力比以往任何時候都更需要實現高效擴展,以最大化 Token 產出,并提高模型創作者和用戶的工作效率。
現代 GPU 已在接近峰值容量下運行,每一代產品都在推動吞吐量的不斷提升,但系統性能越來越多地受限于智能體循環中由 CPU 負責的串行任務,這是核心計算機科學原理“阿姆達爾定律”的典型體現。
這一趨勢在兩類工作負載中尤為明顯:用于訓練模型掌握編程或工程等新專業技能的強化學習(RL),以及智能體操作,使 AI 智能體能夠使用網頁瀏覽器、數據庫、代碼解釋器和其他軟件等工具來完成現實環境或沙盒中的任務。
這兩類工作負載融合了兩種過去截然不同的 CPU 特性。單個環境需要強大的單線程性能,像工作站一樣快速執行復雜的代碼。與此同時,現代 AI 系統會同時啟動數千個此類環境,從而產生典型的服務器基礎設施大規模吞吐量需求。
NVIDIA Vera CPU 專為現代 AI 工作負載而設計,其關鍵設計特性包括:
- 極致單核性能
單個任務的快速執行至關重要,并且必須在大量并發用戶和智能體任務的恒定負載下維持性能。
- 每核心的高顯存和網絡帶寬
確保在負載下一致的服務等級協議(SLA),從而高效傳輸海量數據,以執行實時分析和上下文切換任務。
- 高效的機架級協同設計
AI 工廠必須快速部署和管理容量,以滿足智能體需求,同時最大化能效。
無論是將 Vera CPU 直接連接到加速器,還是在網絡末端的獨立 CPU 上執行任務,基于 Vera CPU 構建的數據中心都能最大化 AI 基礎設施的投資價值。
本文將從以下幾個方面,詳細介紹 Vera CPU:
- 后訓練的現實情況
NVIDIA Olympus 核心
NVIDIA 可擴展一致性結構和內存子系統
- AI 工廠全棧性能表現
- 基于機架的智能體運行環境
- Vera 平臺和配置
以上為摘要內容,點擊鏈接閱讀完整內容:NVIDIA Vera CPU 為 AI 工廠提供高性能、高帶寬和高效率 - NVIDIA 技術博客
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.