<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      200億AI獨角獸反擊,MiniMax首款推理模型趕超DeepSeeK

      0
      分享至

      OpenAI、DeepSeeK點燃大模型推理浪潮后,越來越多的大模型企業開始涌入,阿里、百度、騰訊、字節、谷歌等先后發布推理模型。



      不少企業都在想著如何憋大招,后發制人。這一次輪到估值超200億元的獨角獸MiniMax,發布首款推理模型M1,并稱這是全球首款開源權重、大規模混合注意力推理模型。

      根據基準評測,M1性能超越國內閉源模型,接近海外最領先模型,部分任務超過DeepSeek、阿里、字節,以及OpenAI、谷歌和Anthropic等最新最強的開閉源模型。

      在年初DeepSeek-R1推出后,MiniMax所在的“AI六小龍”陣營被打蒙了。如今,M1一定程度上讓MiniMax在國內模型陣營梯隊中踏上一個臺階。

      “第一次感覺到大山不是不能翻越?!盡iniMax創始人&CEO閆俊杰發文表示。

      我們了解到,M1是MiniMax此次為期5天的發布周的第一彈,后續還將官宣智能體應用,并在海螺AI視頻、音樂等模型和產品層面帶來更多更新。

      多項任務性能趕超Deepseek

      輸入長度業內最高

      M1是MiniMax推出的首款推理模型,其基于MiniMax-Text-01模型開發,總參數達4560億,每token激活參數459億,采用了混合專家(MoE)架構和線性注意力機制(Lightning Attention)。

      MiniMax在業內主流的17個評測集上測試了M1,結果顯示,其在部分數學和代碼測試超過Anthropic最強模型Claude-4-Opus、字節最新發布的Seed-Thinking-v1.5,以及參數達6710億的Deepseek-R1,但不及R1-0528版本,距o3和谷歌最新的Gemini 2.5-pro也有一定差距。



      不過,M1在軟件工程、長上下文、工具使用等復雜的生產力場景中,具備比較全面的優勢。如M1在測試軟件工程能力的SWE-bench上取得超過55%的成績,雖不及海外頂尖模型,但顯著高于國內的DeepSeek-R1、以及阿里和字節模型。

      在長上下文理解任務中,M1則在三項基準測試上全面超越所有開源模型,并超越o3和Claude-4等閉源模型,僅以微弱差距落后于Gemini 2.5 Pro,全球排名第二。

      在代理工具使用場景測試TAU-bench中,M1在airline(航空領域)的得分超過60%,領跑目前最為領先的開閉源模型;在retail(零售領域)的表現則超過DeepSeek、阿里、字節和谷歌模型,略遜于o3和Claude-4模型。

      “通過全面的評估,MiniMax-M1與DeepSeek-R1和Qwen3-235B一起,躋身全球最佳開源權重模型之列。”MiniMax表示。

      值得注意的是,M1包括兩個版本模型,分別有40k和80k的思考上下文長度,其中M1-80k在多數基準測試中始終優于MiniMax-M1-40k,這充分驗證了擴展測試時計算資源的有效性。



      M1另一個顯著優勢是支持高達100萬Token上下文輸入,和Gemini 2.5 Pro一樣,業內最高,這是DeepSeek-R1輸入長度的8倍。同時,M1支持8萬Token的推理輸出,除o3外最高。

      架構和算法創新

      強化學習成本54萬美元

      這些性能得益于MiniMax在架構和算法的創新。

      過去半年,推理模型借助大規模強化學習持續向上探索著大語言模型的天花板,但由于Transformer架構中,注意力機制的計算量會隨序列長度呈平方級增長,導致其在推理擴展上面臨挑戰。

      DeepSeek和月之暗面此前均針對注意力機制進行了研發,前者提出原生稀疏注意力(NSA),后者提出塊注意力混合架構(MoBA),使得上下文處理速度提升十多倍。

      MiniMax則在論文中提到,業內此前提出了稀疏注意力等方法解決,但尚未在大規模推理模型中得到充分驗證,為此還需在高效擴展推理方面進行探索。

      M1則在混合專家架構上采用了線性注意力機制(Lightning Attention),其核心是通過將注意力計算分解為多個小塊,采用線性復雜度的計算方式,實現對長序列的高效處理。

      “這種設計理論上能夠高效地將推理長度擴展到數十萬 token?!盡iniMax表示,這還能帶來計算成本的大幅下降,“這個特性使我們在訓練和推理的時候都有很大的算力效率優勢”。

      例如,與DeepSeek-R1 相比,在生成長度為64K token時,M1消耗的算力FLOPs不到其50%;在長度為100K token時,消耗的FLOPs約為其25%。



      這正是M1上下文長度得到擴展的關鍵,并使其特別適合需要處理長輸入和進行深入思考的復雜、現實世界任務,因此其在軟件工程、長上下文、工具使用等方面體現出性能優勢。

      當然,這也離不開M1在進行大規模強化學習時的算法創新。論文提到兩個關鍵創新,一是提出一種新穎的強化學習算法CISPO,從而提升強化學習效率。

      經過驗證對比,這種算法具備更高效率。如在數學測試基準AIME的實驗中,MiniMax發現CISPO比字節近期提出的DAPO強化學習算法實現了兩倍的加速,即其只需50%的訓練步驟就可以與DAPO的表現相匹配,同時也顯著優于DeepSeek此前使用的GRPO算法。



      二是針對使用混合架構進行強化學習擴展時存在的挑戰,如架構的訓練內核和推理內核之間存在精度不匹配,阻礙了強化學習期間的獎勵增長,為此開發了針對性的解決方案。

      此外,為防止過于激進擴展訓練長度可能導致訓練過程中突然發生梯度爆炸(模型失控),MiniMax通過四個階段采用更平滑的上下文長度進行擴展,從32K開始,最終將上下文擴展到1M。

      “得益于這些技術創新,我們最終強化訓練過程非常高效,超出預期?!盡iniMax論文介紹,M1在整個強化學習階段只用到512塊H800三周的時間,租賃成本只有53.74萬美金(約合人民幣380萬),“這比一開始的預期少了一個數量級”。

      和豆包采取相同價格策略

      MiniMax還有更多更新

      目前,MiniMax-M1已經對外開源,并在MiniMax APP和Web端免費升級。在API價格方面,MiniMax和字節最新更新的豆包1.6同樣采用了“區間定價”策略。



      在0-32k輸入長度和32k-128k輸入長度下,M1的價格相比未按區間計價的DeepSeek-R1(輸入4元/百萬token,輸出16元/百萬token)更有性價比,而對于最長的128k-1M的輸入長度,DeepSeek模型則不支持。

      同時,M1劃分的三個區間價格與豆包1.6對應區間價格也相同,但豆包1.6最后一個區間的最長長度為256k。可以說,M1成為和豆包一樣的大模型價格殺手,這也正是得益于其相對高效的訓練和推理算力效率。

      “性價比新王”、“又一次卷到硅谷了”,不少開發者對M1評價到。

      MiniMax認為,M1將在未來的智能體應用中具有獨特優勢?!拔覀冾A見這種高效架構在解決現實挑戰方面具有巨大潛力,包括自動化工作流程、科學研究等?!?/p>

      “未來智能體需要數十到數百個回合進行推理,同時整合來自不同來源的長上下文信息,我們未來將進一步朝著這一目標前進。”MiniMax表示。

      旺旺屋了解到,目前MiniMax正在面向海外內測智能體應用,主打代碼、多模態等能力,同時支持調用多款MCP工具。

      值得注意的是,M1是MiniMax此次為期5天發布周的第一彈,后續該公司將官宣推出智能體,并在海螺AI視頻、音樂等模型和產品層面帶來更多更新。

      此前,MiniMax進行了品牌調整,原有的對話類應用海螺AI更名為MiniMax,包括國內及國際市場,海螺品牌將專指AI視頻海螺視頻,從而在產品品牌上進行了明確劃分。

      在DeepSeek沖擊下,昔日“AI六小龍”受到市場質疑,也做出了不同選擇,零一萬物和百川智能放棄大模型訓練,其它幾家則在不同層面謀求突圍。

      MiniMax顯然還在堅持大模型訓練,并通過卷成本、卷效率,試圖向DeepSeek等領先模型發起挑戰,有望為其在未來的大模型格局競爭中獲取更多勝算。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      互相出軌各玩各的!結婚32年后,蔣雯麗夫婦隱居美國活成了這樣

      互相出軌各玩各的!結婚32年后,蔣雯麗夫婦隱居美國活成了這樣

      阿斚田侃故事
      2026-05-25 14:10:56
      神舟二十三號名單炸出照妖鏡:黎家盈還沒上天,就刺痛了某些人?

      神舟二十三號名單炸出照妖鏡:黎家盈還沒上天,就刺痛了某些人?

      夢的微塵
      2026-05-25 11:25:02
      趁丈夫洗澡,我用他微信讓婆婆轉八千,她秒轉8萬并留言:傻孩子,我兒子那420萬的婚房早就寫你名了,這錢你拿著零花

      趁丈夫洗澡,我用他微信讓婆婆轉八千,她秒轉8萬并留言:傻孩子,我兒子那420萬的婚房早就寫你名了,這錢你拿著零花

      LULU生活家
      2026-05-25 08:37:59
      她是王大治媽媽,是秦腔演員名氣大,今客串《主角》再引關注

      她是王大治媽媽,是秦腔演員名氣大,今客串《主角》再引關注

      白面書誏
      2026-05-25 15:22:01
      神舟二十三號深夜出征!一年期駐留、首位香港航天員、百項實驗

      神舟二十三號深夜出征!一年期駐留、首位香港航天員、百項實驗

      海右那人
      2026-05-23 13:12:33
      華為麒麟2026芯片劇透:晶體管密度提升53.5%,頻率首超3GHz

      華為麒麟2026芯片劇透:晶體管密度提升53.5%,頻率首超3GHz

      IT之家
      2026-05-25 11:26:16
      女選手游泳隱私照被泄露,近萬人圍觀,有人提醒反被責怪

      女選手游泳隱私照被泄露,近萬人圍觀,有人提醒反被責怪

      映射生活的身影
      2026-05-25 08:46:19
      剛上太空僅一夜,就炸出一堆牛鬼蛇神,香港母親黎家盈刺痛了誰?

      剛上太空僅一夜,就炸出一堆牛鬼蛇神,香港母親黎家盈刺痛了誰?

      另子維愛讀史
      2026-05-25 19:20:39
      史詩級交易:超級雙塔!熱火梭哈!10換1值得嗎?

      史詩級交易:超級雙塔!熱火梭哈!10換1值得嗎?

      籃球盛世
      2026-05-25 20:12:49
      央視緊急預警!將有大事發生?應急儲備別亂囤,這4類才是剛需

      央視緊急預警!將有大事發生?應急儲備別亂囤,這4類才是剛需

      強大氣場的注視
      2026-05-25 18:40:16
      全國通緝犯藏上海9年,成身價3億大佬,被捕時:放了我,給5000萬

      全國通緝犯藏上海9年,成身價3億大佬,被捕時:放了我,給5000萬

      鑒史錄
      2026-05-23 12:44:00
      2026年5月1日起從嚴整治,體制內人員務必嚴守九條紅線

      2026年5月1日起從嚴整治,體制內人員務必嚴守九條紅線

      職場資深秘書
      2026-05-22 21:01:25
      率臺灣青年看 “神舟二十三號”發射,連戰之子:中華民族的里程碑

      率臺灣青年看 “神舟二十三號”發射,連戰之子:中華民族的里程碑

      海峽導報社
      2026-05-25 17:21:03
      兒子周歲宴老家親戚一個沒來,過年他們組團進城,我關機帶娃回娘

      兒子周歲宴老家親戚一個沒來,過年他們組團進城,我關機帶娃回娘

      麥子情感故事
      2026-05-25 16:12:19
      相親角來了個印度小伙,全程拽得不行,張嘴就吹自己是印度高種姓

      相親角來了個印度小伙,全程拽得不行,張嘴就吹自己是印度高種姓

      西樓知趣雜談
      2026-05-25 11:51:00
      馬刺拖入天王山!卻有人要離隊?西決16+6,薪資2.2億,不如新秀

      馬刺拖入天王山!卻有人要離隊?西決16+6,薪資2.2億,不如新秀

      你的籃球頻道
      2026-05-25 11:31:36
      武契奇剛下飛機就去長城了 在紀念品商店買買買

      武契奇剛下飛機就去長城了 在紀念品商店買買買

      看看新聞Knews
      2026-05-24 21:47:25
      你每天按的3個按鈕,可能根本沒連電線

      你每天按的3個按鈕,可能根本沒連電線

      歷史的塵埃發
      2026-05-24 20:06:00
      黎家盈帶20多封信赴太空,丈夫放棄香港事業:家人付出有多大

      黎家盈帶20多封信赴太空,丈夫放棄香港事業:家人付出有多大

      鐵錘妹妹是只貓
      2026-05-25 01:36:53
      那個倒貼3套房,嫁到河南農村的混血港姐郭羨妮,如今后悔了嗎?

      那個倒貼3套房,嫁到河南農村的混血港姐郭羨妮,如今后悔了嗎?

      飄飄然的娛樂匯
      2026-05-22 20:10:06
      2026-05-25 20:56:49
      旺旺屋
      旺旺屋
      電臺主持人,歌手,作家等。
      1847文章數 672關注度
      往期回顧 全部

      科技要聞

      華為:沒有先進光刻機也能造出高端芯片

      頭條要聞

      牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

      頭條要聞

      牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

      體育要聞

      如果不好好守門,他可能早就繼承家業了

      娛樂要聞

      李晨鄭愷跑男停宣:12年元老被邊緣化

      財經要聞

      起底煤礦“暗面”:假整改、假數據

      汽車要聞

      啟境GT7定檔5月29日預售 提供三電機版本

      態度原創

      家居
      教育
      本地
      房產
      旅游

      家居要聞

      生與命相依 舊公寓改造

      教育要聞

      “妹妹能嫁有錢人,姐姐注定家庭婦女”,家長曬兩個女兒對比火了

      本地新聞

      用云錦的方式,打開江蘇南京

      房產要聞

      工抵房騙局!134套房款入私賬!海南這個盤,坑慘買房人!

      旅游要聞

      3小時直飛直達!這個盛夏奔赴延吉沉浸式感受天然氧吧

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国内精品视频成人一区二区| 国产精品久久久| 久久久久婷婷国产综合青草 | 久久精品亚洲热综合一本奇米| 亚洲五月丁香综合视频| 国产男女猛烈无遮挡免费视频| 亚洲欧洲在线中文字幕| 国产一区二区不卡视频在线 | 伊人色影院| 黄男女激情一区二区三区| 国产亚洲精品久久久久蜜臀| www插插插无码视频网站| 亚洲欧美一区二区成人片| 久久精品99国产精品亚洲| 欧美wwww| 日韩欧美2| 毛片| 免费国产高清在线精品一区| 国产精品毛片在线完整版| 亚洲一二区在线视频播放| 9191精品国产免费久久片| 少妇和邻居做不戴套视频| 亚洲av成人在线一区| 亚洲天堂三区| 四虎亚洲无码| 国产农村妇女毛片精品久久| 精品国产乱码一区二区三区| 国产超碰人人做人人爰| 婷婷综合亚洲| 人妻无码αv中文字幕久久| 好吊视频在线一区二区三区| 99热精品毛片全部国产无缓冲| 日韩视频一区二区三区网友伦理小说交换伴侣网友 | 亚洲VA无码VA在线VA天堂| 扒开女人内裤猛进猛出免费视频| 欧美在线看片a免费观看| 中文字幕精品aⅴ内射夜夜夜| 真人性囗交视频| 亚洲欧美日韩精品久久亚洲区| 色欲av伊人久久大香线蕉影院| www.熟女|