![]()
整理 | 褚杏娟
這兩天,OpenRouter 一個名為“Elephant”(大象)的模型,Trending 榜排名突然超過 Gemma 4 31B,位列排行榜第二名。
![]()
根據(jù) Kilo 的說法,這款模型來自一家知名開源模型實驗室,主打“智能效率”,在盡量減少 token 消耗的同時,提供接近同規(guī)模 SOTA 性能表現(xiàn)。
Elephant 是一款 100B 參數(shù)隱身模型(stealth model),支持 256K token 上下文窗口,可以一次性加載整個代碼倉庫或大型依賴樹;最大輸出長度為 32K token,適合單次生成完整模塊或整套測試代碼。與此同時,這款模型還支持提示緩存、函數(shù)調(diào)用和結(jié)構(gòu)化輸出,明顯面向企業(yè)級開發(fā)和智能體工具鏈接入場景。
據(jù) Kilo 介紹,Elephant 不是一款單純追求規(guī)模的“大模型”,更強(qiáng)調(diào)速度、響應(yīng)和實際開發(fā)效率。Elephant 主要針對快速代碼補(bǔ)全與調(diào)試、大規(guī)模文檔處理以及輕量級智能體交互等場景進(jìn)行了優(yōu)化,適合需要高頻調(diào)用、低延遲反饋的開發(fā)工作流。相比那些更重、更慢的模型,Elephant 希望成為開發(fā)者日常使用中的“高響應(yīng)主力模型”。
具體地,我們將同是 100B 級別的 NVIDIA Nemotron 3 Super、Qwen3.5-122B-A10B,以及 OpenAI 的 gpt-oss-120b 進(jìn)行了直接對比。
在速度方面,Elephant 最快,平均響應(yīng)時間約 1.27 秒;Qwen3.5-122B-A10B 最慢,平均約 31.38 秒。Elephant 在數(shù)據(jù)解析與提取平均響應(yīng)時間只花了 979 毫秒,綜合項目也只用了 3.70 秒。
相比之下,Qwen3.5-122B-A10B 的表現(xiàn)是靠更高的推理投入換來的,比如編程項目平均響應(yīng)時間高達(dá) 70.98 秒,綜合項目平均響應(yīng)時間更是達(dá)到 107.79 秒,數(shù)據(jù)解析與提取這類任務(wù)也用了 16,558 推理 token。
![]()
而在 token 消耗方面,Qwen3.5-122B-A10B 是這組里最“燒 token”的模型,推理 token 遠(yuǎn)高于另外三個;gpt-oss-120b 和 Nemotron-3 Super 120B 屬于中間檔;Elephant 基本不消耗。
![]()
在指令遵循上,Elephant 在穩(wěn)定性上表現(xiàn)最突出。其一致性得分達(dá)到 9.6,說明它在重復(fù)運行中的結(jié)果波動最小,是這組模型里最穩(wěn)定的一款。但 Qwen3.5-122B-A10B 在正確率和通過能力上依然領(lǐng)先,Nemotron-3 Super 120B A12B 表現(xiàn)較為均衡,而 gpt-oss-120b 則暴露出更明顯的波動性。
![]()
Elephant 的問題是綜合項目上只有 3.0,在數(shù)據(jù)解析與提取上是 6.5,側(cè)面說明其目前追求的是高頻、低成本、先求有結(jié)果再說的場景,而非復(fù)雜 agent 工作流或者關(guān)鍵判斷任務(wù)場景。
因此,如果將各個維度綜合起來打分的話,Qwen3.5-122B-A10B 綜合分 8.1,排第一,NVIDIA Nemotron-3 Super 120B A12B 6.7 分排第二,OpenAI gpt-oss-120b 第三,Elephant Alpha 第四。
與 Elephant Alpha 類似,Nemotron-3 Super 120B A12B 在綜合項目上拿到 10.0,在工具調(diào)用上也是 10.0,在數(shù)據(jù)解析與提取上同樣是 10.0。從結(jié)果看,它很適合那種流程清晰、任務(wù)邊界明確、強(qiáng)調(diào)執(zhí)行鏈條和調(diào)用能力的場景。但它在領(lǐng)域?qū)m椛现挥?2.9,在通用智能上是 3.8,在謎題求解上只有 3.5,說明一旦任務(wù)從“結(jié)構(gòu)化執(zhí)行”轉(zhuǎn)向“開放復(fù)雜推理”,其掉隊就很明顯。gpt-oss-120b 則在編程項目上只有 4.3,還出現(xiàn)了未遵循指令的問題。
可以看出,雖然同為 100B 級別模型,但大家的研發(fā)重點并不相同。
Qwen3.5-122B-A10B 代表了重推理、重完成度路線,有更高的分?jǐn)?shù)和通過率,但需要付出更多延遲和更高推理開銷。而 Nemotron-3 Super 120B A12B 是工作流型路線,它不一定最適合復(fù)雜開放問題,但在結(jié)構(gòu)化抽取、工具調(diào)用、執(zhí)行鏈條這類任務(wù)上表現(xiàn)突出。新上榜的 Elephant 則代表了極致輕量路線,把“快”和“低成本”做成了核心賣點。
https://aibenchy.com/zh/compare/nvidia-nemotron-3-super-120b-a12b-medium/qwen-qwen3-5-122b-a10b-medium/openrouter-elephant-alpha-medium/openai-gpt-oss-120b-medium/
https://blog.kilo.ai/p/introducing-elephant-a-new-stealth
會議推薦
QCon 全球軟件開發(fā)大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節(jié)跳動、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊的技術(shù)專家,圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.