這一領先的開放式全模態推理模型可提供更高的效率和準確性,能夠為計算機操作、文檔智能和音頻-視頻推理等智能體工作流提供動力。
![]()
如今的 AI 智能體系統需要分別調用視覺、語音和語言模型 —— 而在模型間傳遞數據的過程中,不僅耗時,還會丟失上下文信息。
最新發布的 NVIDIA Nemotron 3 Nano Omni 是一款開放式多模態模型,它將上述功能集成至一個系統中,使智能體能夠對視頻、音頻、圖像和文本進行高級推理,從而提供更快、更智能的響應。這一出色的模型為企業和開發者提供了一條生產路徑,幫助其構建更高效且更準確的多模態 AI 智能體,并賦予他們完全的部署靈活性與控制權。
Nemotron 3 Nano Omni 助力打造更快、更精簡的多模態智能體
通過在其 30B-A3B 的混合專家模型 (MoE) 架構中結合視覺和音頻編碼器,Nemotron 3 Nano Omni 無需獨立的感知模型,從而大規模提高推理效率。它將這種效率與強大的多模態感知準確性相結合,使 AI 系統在保持相同交互性能的情況下,實現比其他開放式全模態模型高 9 倍的吞吐量。因此,其能夠在不犧牲響應速度或質量的前提下降低成本并提高可擴展性。
在智能體系統中,Nemotron 3 Nano Omni 可以與專有云模型或其他 NVIDIA Nemotron 開放模型,例如用于高頻執行的 Nemotron 3 Super 或用于復雜規劃的 Nemotron 3 Ultra,同時也可結合其他供應商的專有模型協同工作,來支持計算機操作、文檔智能和音頻-視頻推理等智能體工作流中的子智能體。
- 計算機操作智能體 —— Nemotron 3 Nano Omni 為智能體提供感知回路,幫助其在圖形用戶界面導航、對屏幕內容進行推理,并理解隨時間變化的用戶界面狀態。H Company 最新推出的由 Nemotron 3 Nano Omni 驅動的計算機操作智能體,采用 1920x1080 像素的原生輸入分辨率,以實現高保真視覺推理。在對 OSWorld 基準測試的初步評估中,這種集成在導航復雜圖形界面上實現了重大飛躍,并利用了 Nemotron 3 Nano Omni 處理超高分辨率圖像的能力。
- 文檔智能 —— 解析文檔、圖表、表格、屏幕截圖和混合媒體輸入,使智能體能夠連貫地推理視覺結構和文本內容。這對企業分析和合規性工作流至關重要。
- 音頻和視頻理解 —— 針對客戶服務、研究和監測工作流,Nemotron 3 Nano Omni 能夠保持音頻-視頻上下文,將所說、所顯示和所記錄的內容綁定到單個推理流中,而非毫無關聯的摘要。
![]()
開放且可定制,隨處可部署
Nemotron 3 Nano Omni 發布時附帶開放權重、數據集和訓練技術,賦予組織對模型定制和部署方式的完全透明度與控制力。
其開放、輕量級的架構可支持從 NVIDIA Jetson 硬件、NVIDIA DGX Spark 等本地系統到數據中心和云環境的一致性部署。
以上為摘要內容,請點擊鏈接閱讀完整內容:NVIDIA 發布 Nemotron 3 Nano Omni 模型,融合視覺、音頻和語言,助力 AI 智能體效率提升高達 9 倍 | NVIDIA 英偉達博客
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.