網易首頁 > 網易號 > 正文申請入駐

NVIDIA 30B參數新模型，1個token只激活3B，長上下文直達100萬

2026-06-22 01:50:28　來源: 閃存獵手

北京舉報

分享至

“Nemotron是一系列開放模型家族，提供開放權重、訓練數據和方案，專為構建專業AI智能體而設計。”這是NVIDIA對這條產品線的定位。

Nemotron 3 Nano是這個家族里主打緊湊和效率的型號。它不是簡單地縮小參數，而是瞄準了一個具體矛盾：團隊既想要強推理能力，又不想承擔大規模密集模型的服務成本。把推理質量、推理吞吐、長上下文支持和部署成本拉到同一張桌子上做權衡，是這個模型的出發點。

把推理和常規回答合并到一個模型里，是Nano第一個值得細看的設計。它能在給出最終答案之前先生成推理痕跡，而且這個行為可以通過聊天模板來控制。不是“有時推理有時不推理”的概率問題，而是開關交到了開發者手里。

第二個關鍵決策藏在架構里。NVIDIA的模型卡寫得很清楚：混合Mamba-2、注意力機制和專家混合層。總參數量在30B級別，但每處理一個token只激活大約3B級別的參數。這種混合專家架構的好處很直接——保持推理水準的同時，把實際計算負載壓下來。對于要在本地或私有環境跑模型的團隊，這個設計直接關系到硬件選型和運營賬單。

長上下文支持直接拉到100萬token，這是第三個技術錨點。NVIDIA的Nemotron 3研究頁面明確標注了這個數字。100萬token意味著什么？大文檔、密集檢索任務、智能體記憶、代碼倉庫、日志文件、企業知識庫——這些過去需要切塊拼接的場景，現在可以整塊喂進去。上下文窗口的物理邊界一打開，應用層的設計空間就跟著變了。

回到基準測試上，NVIDIA公布了Nemotron 3 Nano 30B-A3B-BF16與Qwen3–30B-A3B-Thinking-2507、GPT-OSS-20B的對比數據。在數學、代碼和形式推理任務上，Nano尤其在MiniF2F上拉出了明顯差距。相關消息顯示，這些數據覆蓋了推理、編程、智能體、指令遵循、長上下文和多語言任務共六個維度。

基準數字好看只是入場券，開發者真正關心的問題是：我能用它搭什么？適合的場景清單其實很清晰——AI編程助手、智能體工作流、覆蓋大型文檔集合的檢索增強生成、私有企業聊天、技術問答、數學和邏輯密集型任務、長文檔分析、工作流自動化智能體、內部開發者工具、定制化應用。共同點是：需要模型會推理、能遵循指令、寫得出代碼、用得了工具、消化得了長上下文，但不想為此運行一個巨型密集模型。Nemotron 3 Nano在參數效率和能力密度之間找到的那個平衡點，恰好踩在這類需求的交叉口上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.