網易首頁 > 網易號 > 正文申請入駐

NVIDIA 發布 Nemotron 3 Nano Omni 模型，助力 AI 智能體效率提升高達 9 倍

2026-04-30 18:16:10　來源: NVIDIA英偉達中國

北京舉報

分享至

這一領先的開放式全模態推理模型可提供更高的效率和準確性，能夠為計算機操作、文檔智能和音頻-視頻推理等智能體工作流提供動力。

如今的 AI 智能體系統需要分別調用視覺、語音和語言模型 —— 而在模型間傳遞數據的過程中，不僅耗時，還會丟失上下文信息。

最新發布的 NVIDIA Nemotron 3 Nano Omni 是一款開放式多模態模型，它將上述功能集成至一個系統中，使智能體能夠對視頻、音頻、圖像和文本進行高級推理，從而提供更快、更智能的響應。這一出色的模型為企業和開發者提供了一條生產路徑，幫助其構建更高效且更準確的多模態 AI 智能體，并賦予他們完全的部署靈活性與控制權。

Nemotron 3 Nano Omni 助力打造更快、更精簡的多模態智能體

通過在其 30B-A3B 的混合專家模型 (MoE) 架構中結合視覺和音頻編碼器，Nemotron 3 Nano Omni 無需獨立的感知模型，從而大規模提高推理效率。它將這種效率與強大的多模態感知準確性相結合，使 AI 系統在保持相同交互性能的情況下，實現比其他開放式全模態模型高 9 倍的吞吐量。因此，其能夠在不犧牲響應速度或質量的前提下降低成本并提高可擴展性。

在智能體系統中，Nemotron 3 Nano Omni 可以與專有云模型或其他 NVIDIA Nemotron 開放模型，例如用于高頻執行的 Nemotron 3 Super 或用于復雜規劃的 Nemotron 3 Ultra，同時也可結合其他供應商的專有模型協同工作，來支持計算機操作、文檔智能和音頻-視頻推理等智能體工作流中的子智能體。

計算機操作智能體 —— Nemotron 3 Nano Omni 為智能體提供感知回路，幫助其在圖形用戶界面導航、對屏幕內容進行推理，并理解隨時間變化的用戶界面狀態。H Company 最新推出的由 Nemotron 3 Nano Omni 驅動的計算機操作智能體，采用 1920x1080 像素的原生輸入分辨率，以實現高保真視覺推理。在對 OSWorld 基準測試的初步評估中，這種集成在導航復雜圖形界面上實現了重大飛躍，并利用了 Nemotron 3 Nano Omni 處理超高分辨率圖像的能力。

文檔智能 —— 解析文檔、圖表、表格、屏幕截圖和混合媒體輸入，使智能體能夠連貫地推理視覺結構和文本內容。這對企業分析和合規性工作流至關重要。

音頻和視頻理解 —— 針對客戶服務、研究和監測工作流，Nemotron 3 Nano Omni 能夠保持音頻-視頻上下文，將所說、所顯示和所記錄的內容綁定到單個推理流中，而非毫無關聯的摘要。

開放且可定制，隨處可部署

Nemotron 3 Nano Omni 發布時附帶開放權重、數據集和訓練技術，賦予組織對模型定制和部署方式的完全透明度與控制力。

其開放、輕量級的架構可支持從 NVIDIA Jetson 硬件、NVIDIA DGX Spark 等本地系統到數據中心和云環境的一致性部署。

以上為摘要內容，請點擊鏈接閱讀完整內容：NVIDIA 發布 Nemotron 3 Nano Omni 模型，融合視覺、音頻和語言，助力 AI 智能體效率提升高達 9 倍 | NVIDIA 英偉達博客

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.