網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

深夜王炸！英偉達開源最強AI智能體模型，效率狂飆900%

2026-04-29 02:29:11　來源: 智能紀元AGI

遼寧舉報

分享至

就在剛剛，老黃深夜炸場了！

4月29日消息，英偉達今晨重磅推出Nemotron 3 Nano Omni開源全能多模態(tài)大模型。

該頂尖AI多模態(tài)模型，采用30B-A3B MoE混合專家架構(gòu)，整合視覺、語音、文本多維能力于一體。

幫助AI智能體依托視頻、音頻、圖像、文本全維度信息開展深度推理，輸出更快、更智能的交互應(yīng)答，為企業(yè)與開發(fā)者提供可落地的工程化方案。

同時，該模型顯著提升了大規(guī)模推理效率。它不僅效率高，而且擁有強大的多模態(tài)感知精度，使AI系統(tǒng)的吞吐量比其他具有相同交互性的開放式全向模型高出9倍（900%）。

最終實現(xiàn)了更低的成本和更好的可擴展性，同時又不犧牲響應(yīng)速度或質(zhì)量。

英偉達表示，新模型在MMlongbench-Doc和OCRBenchV2等文檔智能排行榜上提供了一流的準確性，同時在視頻和音頻理解方面也處于領(lǐng)先地位，在WorldSense、DailyOmni和VoiceBench等排行榜上名列前茅。

除了準確率之外，MediaPerf（一個開放的行業(yè)基準測試，它使用真實媒體數(shù)據(jù)和制作任務(wù)，從質(zhì)量、成本和吞吐量等方面評估視頻理解模型）顯示，Nemotron 3 Nano Omni 在所有任務(wù)中都實現(xiàn)了最高的吞吐量，并且在視頻級標注方面推理成本最低。

值得一提的是，另一家硅谷AI巨頭依然發(fā)布重要消息。

針對市場有關(guān)銷售增長放緩及未達內(nèi)部目標的擔(dān)憂，OpenAI周二公開回應(yīng)稱，公司消費端與企業(yè)業(yè)務(wù)正“全速運轉(zhuǎn)”，需求持續(xù)增長，并淡化相關(guān)負面報道影響。

OpenAI在聲明中表示，來自企業(yè)客戶的需求及其尚處于起步階段的廣告業(yè)務(wù)仍在持續(xù)增長。“公司內(nèi)部氛圍非常積極，”該公司在一份聲明中稱。

《華爾街日報》周一晚間報道，隨著競爭對手不斷取得進展，OpenAI已未能實現(xiàn)多個內(nèi)部目標。OpenAI將該報道形容為“典型的標題黨”。

英偉達最強模型設(shè)計與跨模態(tài)數(shù)據(jù)和訓(xùn)練

Nemotron 3 Nano Omni 架構(gòu)將多模態(tài)感知和推理集成到一個 30B 混合 MoE 模型中，原生支持文本、圖像、視頻和音頻輸入，同時在代理循環(huán)中保持統(tǒng)一的多模態(tài)上下文，無需單獨的視覺、語音和語言模型。

該產(chǎn)品采用融合Mamba層與Transformer層結(jié)構(gòu)，分別強化序列內(nèi)存效率與推理精準度，大幅提升模型吞吐量，內(nèi)存與計算效率最高可提升4倍，適配各類子智能體應(yīng)用場景。

在視頻處理層面，Nemotron 3 Nano Omni依靠3D卷積捕捉畫面幀間運動特征，并通過高效視頻采樣層壓縮多幀高密度視覺標識，保障大模型在上下文限制內(nèi)順暢完成視頻內(nèi)容解析。

多模態(tài)體系以成熟文本模型作為核心解碼器，保留原生語言能力的同時搭建跨模態(tài)適配橋梁，有效降低多模態(tài)訓(xùn)練的難度、成本與不穩(wěn)定性，強化連續(xù)感知任務(wù)的綜合表現(xiàn)。

音頻能力依托NVIDIA Parakeet編碼器及定制化專業(yè)數(shù)據(jù)集搭建，結(jié)合Granary、Music Flamingo等技術(shù)實現(xiàn)超越基礎(chǔ)語音轉(zhuǎn)錄的多元化音頻理解能力。

視覺模塊搭載C-RADIOv4-H編碼器與視頻摘要技術(shù)，通過分層壓縮策略應(yīng)對高清圖像與動態(tài)視頻處理需求，精準保留畫面細節(jié)并保障OCR識別精度。

該模型基于海量跨模態(tài)數(shù)據(jù)與指令調(diào)優(yōu)完成訓(xùn)練，面向真實智能體場景打造，可獨立處理圖文音視頻多類型指令，充當大型智能體系統(tǒng)的多模態(tài)感知子模塊，全流程由NVIDIA NeMo Evaluator庫完成性能評測。

依托文檔、截圖、音視頻等多元大規(guī)模數(shù)據(jù)開展適配器與編碼器訓(xùn)練，讓模型在復(fù)雜企業(yè)級感知任務(wù)中具備出色泛化能力。

NVIDIA 通過 Nemotron 3 Nano 和 Nemotron 3 Super 發(fā)布了業(yè)界最全面的基于文本的智能 AI 開放數(shù)據(jù)集，其中包括：10T+ 預(yù)訓(xùn)練標記、4000+ 訓(xùn)練后樣本、20 多個 RL 環(huán)境配置和完整的訓(xùn)練方案，所有這些都是公開可用的。

借助NVIDIA Megatron-LM落地多階段監(jiān)督微調(diào)流水線，循序漸進拓展模態(tài)適配范圍，逐步將上下文長度從16K提升至262K，筑牢跨模態(tài)指令跟隨基礎(chǔ)。

模型層面約 1270 億個標記，涵蓋文本+圖像、文本+視頻、文本+音頻和文本+視頻+音頻等混合模態(tài)——反映了真實世界的上下文交互，而非單一模態(tài)數(shù)據(jù)。

針對真實世界任務(wù)的訓(xùn)練后訓(xùn)練：約 1.24 億個精心挑選的多模態(tài)組合示例（文本+音頻、文本+圖像、文本+視頻和文本+視頻+音頻），旨在支持文檔推理、計算機使用和長期工作流程。

模型在監(jiān)督微調(diào)后開展多環(huán)境強化學(xué)習(xí)，覆蓋25種環(huán)境配置，依托NVIDIA NeMo系列工具完成超230萬次環(huán)境部署，持續(xù)增強多模態(tài)任務(wù)與智能體工作流的運行穩(wěn)定性。

英偉達還提供了使用 NVIDIA NeMo Data Designer構(gòu)建的合成數(shù)據(jù)生成 (SDG)流水線，用于對 Nemotron 3 Nano Omni 進行后訓(xùn)練，以使其能夠勝任復(fù)雜的長文檔理解任務(wù)。

通過迭代的流水線開發(fā)、訓(xùn)練和故障分析，我們最終將一系列生成約 1140 萬個合成視覺問答對（約 450 億個tokens）的流水線整合到 Nemotron 3 Nano Omni 的最終訓(xùn)練數(shù)據(jù)集中。

圖像訓(xùn)練數(shù)據(jù)已公開。

借助底層圖像數(shù)據(jù)和模型，開發(fā)人員可以檢查、調(diào)整和擴展多模態(tài)訓(xùn)練流程。

對于以往維護各自獨立的視覺、語音和文檔數(shù)據(jù)棧的企業(yè)而言，Omni 將這些數(shù)據(jù)棧整合到一個單一的、可用于生產(chǎn)環(huán)境的基礎(chǔ)架構(gòu)中，從而降低了跨模態(tài)部署智能體的門檻。

已經(jīng)采用 Nemotron 3 Nano Omni 的人工智能和軟件公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和Pyler，而戴爾科技、DocuSign、Infosys、K-Dense、Lila、Oracle和Zefr正在評估該模型。

H Company首席執(zhí)行官Gautier Cloix表示，“要構(gòu)建實用的智能體，不能讓模型花費數(shù)秒時間來解讀屏幕。基于Nemotron 3 Nano Omni，我們的智能體可以快速解讀全高清屏幕錄像——這在以前是無法實現(xiàn)的。這不僅僅是速度的提升，更是智能體實時感知和與數(shù)字環(huán)境交互方式的根本性轉(zhuǎn)變。”

OpenAI回應(yīng)：商業(yè)化沒放緩

此前，《華爾街日報》報道稱，隨著競爭對手搶占市場，OpenAI未能達成若干內(nèi)部增長目標。

報道還稱，OpenAI首席財務(wù)官Sarah Friar擔(dān)憂，若銷售增長不足，公司未來可能無力承擔(dān)不斷攀升的算力需求。

如果收入增長速度不能進一步加快，OpenAI 未來能否支撐龐大的數(shù)據(jù)中心和算力合同成本？

該消息出現(xiàn)在 OpenAI 沖刺潛在 IPO 的關(guān)鍵階段，也讓市場重新審視 AI 基礎(chǔ)設(shè)施投資的回報周期。

受此影響，OpenAI 相關(guān)概念股出現(xiàn)明顯下跌。

其中，甲骨文跌超4%，CoreWeave跌超5.7%。

股價的波動凸顯了OpenAI在涉及頂尖云計算供應(yīng)商和芯片制造商的復(fù)雜投資與交易網(wǎng)絡(luò)中所扮演的核心角色。投資者本就對AI基礎(chǔ)設(shè)施泡沫日益擔(dān)憂，紛紛質(zhì)疑OpenAI及其他科技公司未來數(shù)年投入數(shù)千億美元建設(shè)數(shù)據(jù)中心和采購芯片的計劃。

與此同時，投資者對AI基礎(chǔ)設(shè)施泡沫擔(dān)憂也持續(xù)升溫。市場開始質(zhì)疑OpenAI及其他科技公司未來數(shù)年投入數(shù)千億美元建設(shè)數(shù)據(jù)中心與采購芯片的計劃能否帶來合理回報。

對此，OpenAI表示，公司仍將擴大算力資源視作“關(guān)鍵推動因素”，認為更多計算能力將幫助其持續(xù)改善客戶產(chǎn)品體驗。公司稱，推動更多算力部署不僅是成本投入，更是支撐長期競爭優(yōu)勢的重要基礎(chǔ)。

OpenAI本月稍早曾向投資者表示，早期大幅擴充計算資源，使公司在與長期競爭對手Anthropic競爭中具備關(guān)鍵優(yōu)勢，盡管后者近期正快速追趕。

不過，值得注意的是，即便在《華爾街日報》報道發(fā)布前，OpenAI實際上已開始對基礎(chǔ)設(shè)施投資采取更審慎態(tài)度。

公司近期表示計劃暫停英國一個項目，同時，微軟同意租賃原本擬供OpenAI使用的挪威數(shù)據(jù)中心容量。另據(jù)3月報道，由于融資談判拖延，甲骨文與OpenAI已放棄擴建得州旗艦AI數(shù)據(jù)中心計劃。

市場人士認為，這些調(diào)整顯示OpenAI并未無節(jié)制擴張，而是在高投入戰(zhàn)略與資本約束之間尋求平衡。

Wedbush 分析師DivesTech認為，《華爾街日報》報道 OpenAI 最近未能實現(xiàn)其新用戶和收入目標后，甲骨文遭到拋售，這是一種“過度反應(yīng)”。

Wedbush 認為 OpenAI 在消費者和企業(yè)市場都獲得了“非常高的需求”。該公司“強烈”不同意其增長放緩的說法。

分析師在一份研究報告中告訴投資者，甲骨文5530 億美元的積壓訂單主要來自未來五年與 OpenAI 簽訂的價值 3000 億美元的云合同，該項目預(yù)計將為公司貢獻 300 億美元的收入。

該行對甲骨文完成 5000 萬美元融資的能力充滿信心。該行認為近期圍繞 OpenAI 的擔(dān)憂被夸大了，并表示該公司擁有足夠的資金來滿足其至少未來三年的計算能力需求。

此外，一直以來，微軟與OpenAI的合作被視為科技屆最成功的“聯(lián)姻”。微軟向OpenAI累計投資130億美元，一步步助推后者成為世界級AI巨頭。而微軟也依靠OpenAI拿到了AI時代的核心入場券。

然而在今年4月27日，微軟與OpenAI雙雙在官網(wǎng)發(fā)布了一份公告“修訂后的協(xié)議，厘清長期合作細則（Amended Agreement Provides Long-Term Clarity）”，對兩家公司延續(xù)七年的合作框架作出重大調(diào)整。

兩家公司在收入分配上也做出了重新調(diào)整。

微軟將不再向OpenAI支付收入分成，OpenAI對微軟的收入分成持續(xù)到2030年，并設(shè)總額上限。

此外，微軟將繼續(xù)“以核心股東身份深度參與OpenAI的長期發(fā)展。也就是說微軟作為持股27%的OpenAI最大股東仍然可以享受OpenAI的增長紅利。

而且，此前的協(xié)議規(guī)定一旦OpenAI被認定實現(xiàn)AGI，收入分成即停止。修訂后的協(xié)議則取消了這一觸發(fā)條款，也就是無論OpenAI是否達成AGI，微軟都能穩(wěn)定收到至2030年的分成。

在這份聲明的最后，兩家公司強調(diào)，雖然本次修訂簡化了合作關(guān)系，但兩家公司共同推進事業(yè)的野心不變。聲明還提到了兩者其他的一些意向合作領(lǐng)域，包括“新建千兆級算力數(shù)據(jù)中心、聯(lián)合研發(fā)新一代芯片、AI技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域的落地”等。雙方將繼續(xù)攜手合作，為全球的個人與組織推進并擴展AI的發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.