神秘模型排名超 Gemma 4 31B：不跟 Qwen 硬剛，主打“快”和“省 token”

2026-04-16 15:09:55　來源: AI前線

北京舉報

分享至

整理 | 褚杏娟

這兩天，OpenRouter 一個名為“Elephant”（大象）的模型，Trending 榜排名突然超過 Gemma 4 31B，位列排行榜第二名。

根據(jù) Kilo 的說法，這款模型來自一家知名開源模型實驗室，主打“智能效率”，在盡量減少 token 消耗的同時，提供接近同規(guī)模 SOTA 性能表現(xiàn)。

Elephant 是一款 100B 參數(shù)隱身模型（stealth model），支持 256K token 上下文窗口，可以一次性加載整個代碼倉庫或大型依賴樹；最大輸出長度為 32K token，適合單次生成完整模塊或整套測試代碼。與此同時，這款模型還支持提示緩存、函數(shù)調(diào)用和結(jié)構(gòu)化輸出，明顯面向企業(yè)級開發(fā)和智能體工具鏈接入場景。

據(jù) Kilo 介紹，Elephant 不是一款單純追求規(guī)模的“大模型”，更強(qiáng)調(diào)速度、響應(yīng)和實際開發(fā)效率。Elephant 主要針對快速代碼補(bǔ)全與調(diào)試、大規(guī)模文檔處理以及輕量級智能體交互等場景進(jìn)行了優(yōu)化，適合需要高頻調(diào)用、低延遲反饋的開發(fā)工作流。相比那些更重、更慢的模型，Elephant 希望成為開發(fā)者日常使用中的“高響應(yīng)主力模型”。

具體地，我們將同是 100B 級別的 NVIDIA Nemotron 3 Super、Qwen3.5-122B-A10B，以及 OpenAI 的 gpt-oss-120b 進(jìn)行了直接對比。

在速度方面，Elephant 最快，平均響應(yīng)時間約 1.27 秒；Qwen3.5-122B-A10B 最慢，平均約 31.38 秒。Elephant 在數(shù)據(jù)解析與提取平均響應(yīng)時間只花了 979 毫秒，綜合項目也只用了 3.70 秒。

相比之下，Qwen3.5-122B-A10B 的表現(xiàn)是靠更高的推理投入換來的，比如編程項目平均響應(yīng)時間高達(dá) 70.98 秒，綜合項目平均響應(yīng)時間更是達(dá)到 107.79 秒，數(shù)據(jù)解析與提取這類任務(wù)也用了 16,558 推理 token。

而在 token 消耗方面，Qwen3.5-122B-A10B 是這組里最“燒 token”的模型，推理 token 遠(yuǎn)高于另外三個；gpt-oss-120b 和 Nemotron-3 Super 120B 屬于中間檔；Elephant 基本不消耗。

在指令遵循上，Elephant 在穩(wěn)定性上表現(xiàn)最突出。其一致性得分達(dá)到 9.6，說明它在重復(fù)運行中的結(jié)果波動最小，是這組模型里最穩(wěn)定的一款。但 Qwen3.5-122B-A10B 在正確率和通過能力上依然領(lǐng)先，Nemotron-3 Super 120B A12B 表現(xiàn)較為均衡，而 gpt-oss-120b 則暴露出更明顯的波動性。

Elephant 的問題是綜合項目上只有 3.0，在數(shù)據(jù)解析與提取上是 6.5，側(cè)面說明其目前追求的是高頻、低成本、先求有結(jié)果再說的場景，而非復(fù)雜 agent 工作流或者關(guān)鍵判斷任務(wù)場景。

因此，如果將各個維度綜合起來打分的話，Qwen3.5-122B-A10B 綜合分 8.1，排第一，NVIDIA Nemotron-3 Super 120B A12B 6.7 分排第二，OpenAI gpt-oss-120b 第三，Elephant Alpha 第四。

與 Elephant Alpha 類似，Nemotron-3 Super 120B A12B 在綜合項目上拿到 10.0，在工具調(diào)用上也是 10.0，在數(shù)據(jù)解析與提取上同樣是 10.0。從結(jié)果看，它很適合那種流程清晰、任務(wù)邊界明確、強(qiáng)調(diào)執(zhí)行鏈條和調(diào)用能力的場景。但它在領(lǐng)域?qū)ｍ椛现挥?2.9，在通用智能上是 3.8，在謎題求解上只有 3.5，說明一旦任務(wù)從“結(jié)構(gòu)化執(zhí)行”轉(zhuǎn)向“開放復(fù)雜推理”，其掉隊就很明顯。gpt-oss-120b 則在編程項目上只有 4.3，還出現(xiàn)了未遵循指令的問題。

可以看出，雖然同為 100B 級別模型，但大家的研發(fā)重點并不相同。

Qwen3.5-122B-A10B 代表了重推理、重完成度路線，有更高的分?jǐn)?shù)和通過率，但需要付出更多延遲和更高推理開銷。而 Nemotron-3 Super 120B A12B 是工作流型路線，它不一定最適合復(fù)雜開放問題，但在結(jié)構(gòu)化抽取、工具調(diào)用、執(zhí)行鏈條這類任務(wù)上表現(xiàn)突出。新上榜的 Elephant 則代表了極致輕量路線，把“快”和“低成本”做成了核心賣點。

https://aibenchy.com/zh/compare/nvidia-nemotron-3-super-120b-a12b-medium/qwen-qwen3-5-122b-a10b-medium/openrouter-elephant-alpha-medium/openai-gpt-oss-120b-medium/

https://blog.kilo.ai/p/introducing-elephant-a-new-stealth

會議推薦

QCon 全球軟件開發(fā)大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題，聚焦 100+ 重磅議題，匯聚來自阿里、騰訊、字節(jié)跳動、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊的技術(shù)專家，圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.