<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      真實測評MiniMax M2.7,不吹不夸,它到底什么水平?

      0
      分享至

      大家好,我是冷逸。

      最近,模型圈又卷起來了。GLM、MiniMax甚至小米都相繼發布了新模型。

      眾所周知,國產御三家有四位:Qwen、GLM、MiniMaxKimi

      剛我去掃了眼,在實時更新的龍蝦榜PinchBench上,MiniMax M2.7已經干到了全球第四(GLM和GPT分數一樣,有兩個第三名)。


      給大家簡單介紹下這個龍蝦榜,它不是傳統benchmark那種,看模型答得準不準,而是看模型能不能完成一件完整的事情。

      當然,PinchBench不代表模型的真實水平,僅代表模型在Agent任務上的成功率情況。

      所以,今天我想重點測評一下MiniMax M2.7在真實場景中的表現。

      本文會相繼用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent網頁端等不同平臺來測試,并會在每個Case前做說明。


      一手實測

      測試主要分為6個場景,重點評估模型的執行過程和最終結果。

      1)龍蝦任務:搜索→整理表格→做信息圖→發到飛書

      龍蝦任務,主要在MaxClaw里測(他們已經接上了M2.7)。

      第一個任務是:

      打開豆瓣網頁 https://movie.douban.com 搜索最近熱門的電影,結合熱度、評分和上映時間綜合篩選10部電影,整理成Excel表格,并根據Excel表格的信息設計一個可視化HTML。最后,把Excel和HTML一并發到我的飛書上。

      這里的任務一共有5步:聯網檢索→總結內容→生成表格→編寫代碼→自動發到飛書。

      比較考驗模型的多步驟執行能力和工具調用能力。

      M2.7一次過,直接交付了Excel表格和信息圖Html。


      來看下最終的結果:Excel和HTML。


      Excel表格


      可視化HTML

      還行,而且它給Excel表格做了一個底色設計,分成了封面和原始數據兩個子表給我。

      當然,如果我們的提示詞要求得更多,它會生成得更精細。只不過,我們這里主要考驗的,是模型對長任務的指令理解和執行能力。

      2)龍蝦任務:自動做視頻

      接著,我又讓它用libtv-skills給我做個視頻(skill教程可以看這篇文章:LibTV)。

      任務是:

      用libtv-skills幫我生成40秒的短漫劇,主題是:
      《像素荒原》 (The Pixel Wasteland)
      視覺核心:實拍與低多邊形(Low-Poly)CGI的實時混合渲染。世界在“高清現實”與“崩壞馬賽克”間切換。
      劇情:主角行走在繁華都市,但他走過的地方,建筑瞬間退化為粗糙的幾何色塊,行人變成靜止的貼圖。他試圖奔跑逃離“渲染延遲”,卻發現自己的雙手也開始像素化消散。結尾,鏡頭拉遠,整個城市只是一個老舊顯示器上即將斷電的畫面,最后一聲電流音后,屏幕徹底黑屏,只映出觀眾自己的臉。
      隱喻:探討數字存在主義危機,利用故障藝術(Glitch Art)風格制造強烈的不安感與哲學反思。

      來看下結果。

      這個視頻的所有工作流,全由MiniMax M2.7驅動的龍蝦自己調用libtv-skills完成,劇本、分鏡圖、分鏡視頻,以及最后的視頻合成,都一氣呵成。

      視頻質量,還不錯。

      不過,有個小細節大家要注意,MaxClaw本身就支持視頻生成(接的Hailuo模型)。如果你不強制調用skill,它會生成鏡頭片段,而不是完整的視頻。

      整體來看,M2.7在龍蝦上的任務成功率還是挺高的,前面我這2個case都是one short,一次生成。

      那M2.7能夠在龍蝦榜上排名全球第四,也就可以理解了。

      3)編程任務:3D

      下面3個編程任務,都是在Claude Code里進行測試。

      先測一個3D Case,看下模型的空間想象和邏輯推理能力,看它能否準確理解指令,并創建一個零BUG的視覺圖形。

      照例,還是我們的3D魔方。

      提示詞:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
      中文:創建一個HTML文件,其中使用Three.js(通過CDN方式引入)來實現一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。


      沒問題。而且,這回它的UI比上一個版本M2.5看起來更高級一些。


      不過,這個Case并非one short。第一個版本,在打亂和還原的動畫過程中會出現部分方塊顏色丟失的情況,這是因為方塊的位置和顏色沒有正確更新。

      簡單反饋問題后,第二版就修復這個問題了。

      4)編程任務:前端

      既然審美在線,我們也同步測一下它寫前端的能力。

      讓M2.7給一款AI鼠標「小沃」設計產品宣傳頁。



      這個前端,還是比較好看的,尤其是這個VI和配色,我很喜歡。

      有點遺憾的是,目前M2.7還不具備視覺理解能力。如果有視覺理解能力,它的應用場景會更豐富。

      5)編程任務:用skills做網站

      我們繼續上點強度,讓它調用Skills來生成一個網站。

      需求是:

      用Knowledge Site Creator Skills為「Token」創建一個知識學習網站,既要嚴謹,又要有趣味,頁面高級審美。
      關于token的知識,可以參考這篇文章:https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

      這次One short,效果還不錯,配色和排版是我喜歡的調調。

      不過,有個小缺陷,M2.7似乎不能直接讀公眾號url,內容是我手動給Claude Code的。

      6)辦公任務:出報告、圖表和PPT

      辦公任務,換到了MiniMax Agent網頁端進行測試。


      體驗地址:agent.minimaxi.com

      這次,我們直接復刻MiniMax官方案例,看看能不能復現。

      任務是:

      基于騰訊2025年財報信息,構建騰訊的營收模型,讀取多個研報,設計對應的假設,基于最新的信息對騰訊營收建模,然后選擇合適的 PPT 模版產出 PPT ,并寫一個 Word 文檔研究報告和 Excel 圖表。

      首先看它建的Excel財務模型。

      這份財務分析模型還是挺全面的,像業績總覽、收入分析、盈利分析、核心業務(游戲)分析、估值分析這些該有的部分都有。說明M2.7模型,知道一個初級分析師在干什么活。

      數據方面,我也對了一下,沒有差錯。

      就是涉及到有復雜表格時(比如有多個坐標軸),模型用Python寫的圖表并沒有完整地呈現出來。


      不過問題不大,我們自己再改改就好了。畢竟,初始數據的搜索和整理,這才是最耗時的。M2.7已經幫我們把最麻煩的事情搞定了。對于分析師來說,這差不多已經節約了至少半天時間。

      然后是Word研究報告。

      整體23頁,近萬字,研報該有的它都有。

      數據方面,我也隨便挑了幾頁對比了一下,完全準確。




      左邊是M2.7做的研報,右邊是真實的財報

      當然,Word文檔里的一些字體、格式、排版還是會有點小問題,但我覺得問題不大,自己手動改改就好了。

      最主要是,這份近萬字的研報,它竟然沒有出現任何的幻覺問題,這說明M2.7在長任務上的上下文能力是真滴恐怖。

      它讓產出結果真實、可信,可以直接走進我們的真實工作流。

      最后,再來看下它整的PPT。

      這排版、UI一看就很高級,如果你讓我來手搓,我是真的整不出來。

      而以上這三件套,是一個Prompt完成,并不是單獨生成的。這M2.7在復雜任務上的指令遵循能力,是真的強。


      整個體驗下來,我感覺M2.7在各個方面都又一次進化了。

      從Coding能力到Agentic能力,從工具調用到長程任務,從高難度的龍蝦場景到日常的辦公場景,都能全方位hold住。

      而且有點意思的是,這個模型是MiniMax第一個由模型自己深度參與迭代的模型。

      這句話讀起來可能有點繞,簡單說就是,他們用AI搞了一個Agent harness,然后用這個系統去訓練、評測模型,人類把控方向,模型負責構建,最終形成模型迭代自己的數據飛輪。

      也就是,用AI打造下一代AI。

      據說,他們還會加大AI自動化的力度,去推出自己的新一代模型。

      如果這個飛輪真的轉起來,接下來的事情,可能會比我們想象的更有意思。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老顧客為皮皮蝦店發聲:店里簽字確認后才做,價格不合適包退

      老顧客為皮皮蝦店發聲:店里簽字確認后才做,價格不合適包退

      映射生活的身影
      2026-05-09 14:50:11
      外媒:美民主黨議員呼吁政府勿對以核武計劃保持沉默

      外媒:美民主黨議員呼吁政府勿對以核武計劃保持沉默

      參考消息
      2026-05-08 15:25:06
      越來越多人查出胰腺炎?提醒:冰箱這5樣東西放久了可能是元兇

      越來越多人查出胰腺炎?提醒:冰箱這5樣東西放久了可能是元兇

      芹姐說生活
      2026-05-08 19:03:26
      澤連斯基真的失控了,這或許是俄烏戰爭即將結束的標志

      澤連斯基真的失控了,這或許是俄烏戰爭即將結束的標志

      羅富強說
      2026-05-09 14:02:37
      文班亞馬這么打,森林狼是真沒招

      文班亞馬這么打,森林狼是真沒招

      只關于籃球
      2026-05-09 13:44:07
      鄉鎮女大學生曬“低審美”穿搭,網友眼前一黑:求求你都扔了吧!

      鄉鎮女大學生曬“低審美”穿搭,網友眼前一黑:求求你都扔了吧!

      妍妍教育日記
      2026-05-09 10:34:34
      外媒:巴基斯坦宣布達成殲-35戰斗機交易,引發南亞空中力量危機

      外媒:巴基斯坦宣布達成殲-35戰斗機交易,引發南亞空中力量危機

      零度Military
      2026-05-09 13:05:39
      特朗普即將訪華,啟程前提了個要求,向中方點名要這個人

      特朗普即將訪華,啟程前提了個要求,向中方點名要這個人

      帶你領略世界風采
      2026-05-08 18:05:23
      尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

      尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

      火山詩話
      2026-05-09 06:34:45
      斯諾克巨星邀請賽:吳宜澤被罰7分逆轉!4-2奪賽點,巫師開門黑?

      斯諾克巨星邀請賽:吳宜澤被罰7分逆轉!4-2奪賽點,巫師開門黑?

      劉姚堯的文字城堡
      2026-05-09 16:45:24
      康佳集團兩位高管被查,涉嚴重違紀違法

      康佳集團兩位高管被查,涉嚴重違紀違法

      北青網-北京青年報
      2026-05-09 15:38:03
      國家免費電視已開通!不用繳費,動手調好就能看

      國家免費電視已開通!不用繳費,動手調好就能看

      小柱解說游戲
      2026-05-08 16:59:21
      馬刺2;1森林狼,文班亞馬把戈貝爾打成文具,華子遇到了天敵?

      馬刺2;1森林狼,文班亞馬把戈貝爾打成文具,華子遇到了天敵?

      司峰阿道
      2026-05-09 14:25:55
      章建平砸5.5億!10種航天材料比稀土還香,才是真硬通貨

      章建平砸5.5億!10種航天材料比稀土還香,才是真硬通貨

      慧眼看世界哈哈
      2026-05-09 10:24:15
      中央5臺直播乒乓時間表:5月9日CCTV5轉播世乒賽!國乒半決賽調整

      中央5臺直播乒乓時間表:5月9日CCTV5轉播世乒賽!國乒半決賽調整

      等等talk
      2026-05-09 06:12:13
      升溫提速,連續30℃要來了!

      升溫提速,連續30℃要來了!

      上觀新聞
      2026-05-09 10:24:10
      體檢報告中,若3個指標都正常,基本可以排除很多疾病

      體檢報告中,若3個指標都正常,基本可以排除很多疾病

      芹姐說生活
      2026-05-08 19:06:29
      浙江高速上,男子開著“輔助駕駛”直接睡著,因長時間無操作,系統自動退出,停在第一車道,后方車輛緊急避讓,最終被罰款400元記 9分

      浙江高速上,男子開著“輔助駕駛”直接睡著,因長時間無操作,系統自動退出,停在第一車道,后方車輛緊急避讓,最終被罰款400元記 9分

      臺州交通廣播
      2026-05-09 14:20:34
      明日立夏,有錢沒錢記得“吃4樣,做1事,忌1事”安康入夏身體棒

      明日立夏,有錢沒錢記得“吃4樣,做1事,忌1事”安康入夏身體棒

      雪峰兒
      2026-05-04 06:33:32
      大廠員工分享:今年又提前還貸110萬,剩下的月供不足千元了!

      大廠員工分享:今年又提前還貸110萬,剩下的月供不足千元了!

      黯泉
      2026-05-09 15:28:13
      2026-05-09 17:15:00
      沃垠AI incentive-icons
      沃垠AI
      努力分享一些有用、有趣的AI干貨
      90文章數 35關注度
      往期回顧 全部

      數碼要聞

      新華社財經報道小米空調節能技術團隊:用AI實現舒適與節能雙贏

      頭條要聞

      新華社調查"胖東來為啥總被黑" 于東來連發6動態回應

      頭條要聞

      新華社調查"胖東來為啥總被黑" 于東來連發6動態回應

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      存儲芯片上演造富潮

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      本地
      親子
      旅游
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      哪個牌子的奶粉好?君樂寶至臻A2奶牛奶粉圈粉廣大家庭

      旅游要聞

      千年泰山承文脈 數字文旅啟新程

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人在线亚洲| 人妻少妇456在线视频| 5月丁香,6月综合| 宿迁市| 国产香蕉国产精品偷在线观看| 加勒比无码人妻东京热| 欧洲无码视频| 99国产精品国产高清一区二区| 人妻中文字幕不卡精品| 九色视频丨PORNY丨丝袜| 人人妻人人澡人人爽人人欧美一区| 91网站免费看| 亚洲一区久久蜜臀av| 国产熟女网| 国产AV一区二区三区四区五区| 亚洲色偷偷色噜噜狠狠99| 国产资源精品中文字幕| 亚洲日本久久久| 亚洲成a人无码| 91久久愉拍愉拍国产一区| 久久久久免费看少妇高潮A片| 春梦视频站| 国产永久免费高清在线观看| 亚洲qingse中文| 国产精品毛片一区二区| 色猫咪av在线观看| 在线观看免费人成视频色9| 91麻豆精品国产高清在线| 国产欧美一区二区三区免费视频| 伊人激情av一区二区三区| 亚洲午夜精品久久久久久浪潮| 久久精品无码一区二区2020 | 无套内谢少妇毛片A片樱花| 卡一卡二久久| 国产av无码专区亚汌a√| 91久久亚洲综合精品成人| 亚洲成人在线网址| 国产欧美一区二区精品久久久| 成A人片亚洲日本久久| 亚洲国产精品综合久久20| 一本大道中文字幕无码29|