事情是醬的。
這天我在AA榜上看前28的模型感到有點陌生。
![]()
上周太集中發的后果就是光在用GPT -5.5了,小米的Mimo-V2.5-Pro,DeepSeek V4 Pro還沒有放在Agent的場景上測。所以我跟錢包一拍即合,復制了4個一模一樣的Hermes Agent,
記憶一樣,skill一樣,
系統設置一樣,能調用的工具也一樣。
我只換模型。
這次的4個候選是GPT 5.5、MiniMax M2.7、DeepSeek V4 Pro和小米Mimo-V2.5-Pro,默認能開高推理就上高。
![]()
為什么沒上Opus?
API太費錢,賬號額度不敢打滿,比起作為Agent的主力還要長時間不掉線的模型,它還是更適合養在web端上,至少我這樣Claude Design能爽用。
那我們先用30s簡單回顧一下這次橫測的選手們!
DeepSeek V4 Pro最近還剛開了識圖模式,5月底之前都是2.5折。V4 Pro的總參數量1.6T,比V3.2翻了兩倍多。
這四個模型的API價和訂閱價我都放在后面用表格對比了,所以我們先看后續。V4 Pro這幾天有被發現放在Agent場景上識別本地的Skill不成功,執行高風險動作的時候也沒有詢問的,用人話說就是Agent框架失效了。
還有說V4 Pro巨燒token的,同樣的任務是sonnet 4.6 medium的8倍。
我太好奇了我。
Mimo-V2.5-Pro也傳很猛,能跟和GLM 5.1打得有來有回。但額度也燒超快,據說是一個5分鐘編程任務月額度就沒了50%。
我更好奇了我。
所以才有了這次的四個模型搭配,選MiniMax M2.7是因為它的Codng Plan真的量大管飽。這段時間MiniMax開源了自家CLI,在一個coding plan里還用視頻生成,音樂生成和語音合成模型,不需要額外去接MCP server,額度也是分開計算的。
長話短說,
我這次設計了5個Agent任務,但不想寫成機械的case1、case2、case3。那太像實驗報告,讀起來也沒勁。
你可以把它理解成5關,包括Skill打包,網頁開發,PPT設計和文案,知識庫管理和巨燒token的瀏覽器自動化。
Here we go!
第一關,
讓模型把Claude Design提示語打包成可發布的skill。這一步是文檔整理的升級版,Hermes自己也會時不時被動觸發新建Skill,如果說一個模型連穩定把我們的經驗打包成Skill都做不到的話,下面救不用測了。
把我提供給你Claude Design提示語(/Users/carl/Downloads/Claude-Design-Sys-Prompt.txt)整理成一個可線上發布的skill。
目標不是復制提示語,而是把它封裝成別人裝上就能用的能力包。
輸出后自檢一次,指出這個skill可能出錯的地方。
PS:模型他們用到的Hermes是完全復刻了我本地已經用了幾個月的原型,所以并不會出現說一些專有名詞完全不懂,或者是一些約束完全不知道的情況。
實際上手就會很明顯發現就算記憶備份一樣,不同模型說話的風格就是很不同。
GPT 5.5列出了它在原版提示語提到的一些能力,然后去掉了一些很明顯的約束條件,因為這些放到別的模型或者別的環境的時候不會起作用,然后也為了線上發布,在這個skill上做了這個命名規避,整體來說就是一個很標準的答案。
![]()
MiniMax 2.7在打包的過程發現了更多的細節,包括因為它只是一個提示語,里面提到的很多環境都是沒有的,所以直接打包成Skill的時候,會把這些理想化的條件設定進去。
2.7還覺得現在Skill的觸發條件不夠寬。現有的觸發只給了設計關鍵詞,但是如果我說給我做一個好看的頁面的時候,是不會觸發的。
發現這個Skill有缺陷的時候,比方說JS或者是動畫組件不完整。他也給了我對應的解決方案,要不要去聯網搜索來去補足。所以這個skill后續的完整性我覺得是會更好。
![]()
DeepSeek V4 Pro同樣是自檢出了不少的問題。
我覺得給我的一個驚喜就是不像開頭聽到的,Agent框架的約束不起作用,至少在這個case上也沒有明顯體驗到,甚至是提出了一些我在之前用Claude Opus 4.6打包這個skill的時候,我沒看到的一些潛在的問題,
所以我也很好奇,后面讓他用自己打包好的skill做網站設計的時候,表現會是怎么樣的。
![]()
小米這個就跟其他三家都不太一樣了。
他先是看到我本地已經有一個打包好的 Claude design skill,他覺得這個skill已經非常完善了,去檢查了一下它有沒有什么問題。
當我明確給他答復,我們要打包成為一個新的skill之后,他又給了我打包了個新的,自檢結果大家也可以看出來不一樣了。他更多的是針對這個skill在觸發的過程中,會遇到什么使用問題。
![]()
馬上到第二關,
基于這個skill做個人網頁。
這關測的是審美遷移,很多模型會背Skill里的設計詞,但做出來還是公式模板味。
我直接就是把一個簡歷和公開知識庫的鏈接作為這次的數據源。
加載剛生成的Claude Design風格skill,為卡爾做一個個人網頁單頁,讓陌生人快速理解卡爾的價值。
按照你對卡爾的理解,還有他的簡歷(/Users/carl/Downloads/2026-04-22__文檔_其他__簡歷(23-03-06).pdf),以及他公開的知識庫(https://aiwarts101.feishu.cn/wiki/MZTNwQ7b9i1dyXklFxzcirOxnRg?fromScene=spaceOverview)。
卡爾想要一個交互超級不一樣的頁面。
結尾說明你的視覺決策。
PS:每個都配了飛書Cli,所以他們讀取的知識庫是有快100個表格和文檔的。
GPT 5.5,
我只能說學Claude有點有點子學到精髓了。但是也不知道它是怎么去做這個定位跟整個尺寸的放大縮小了,可以看到它那個頁面跟它里面的這些組件不是說完全對位的,整體是往左邊上面縮小的。
雖然說它有一個比較有意思的互動,包括中間的SVG點擊可以跳轉不同的頁面,以及右下角的這個一個提問,可以問問題給出答案,
但是整體來說我只能說,在大家都只有一次修改的機會上, GPT 5.5這不能說是一個成品。
MiniMax M2.7優先保留了頁面的完整性,然后再去做整體的設計和互動。
而且它的互動也是有巧思在里面的。我是程序員,所以它給我保留了這個輸入光標,然后用一些動態圖表去做成果展示,底部也留下了我的聯系方式。
我覺得一個比較難得的細節就是它的中英文字體搭配不丑,很多模型要么就是中英文混雜會很奇怪,要么就是只擅長做一種語言,純中文或者純英文,然后再用i18n切換。
DeepSeek這腦回路跟大家想的都不一樣,他根據了我們知識庫過去分享的一些內容,想出了用鼠標作為探照燈,然后去看四個角跟中間的一部分,我有一些什么樣的信息。
比較可惜的就是中間那一頁被知識庫的信息所污染了。這里面的信息居然全都是Hermes和OpenClaw的一些特點。所以我只能說交互方式我覺得還蠻驚喜的,跟V3.2還是有比較不一樣的,但在這個長文知識處理上,比我想象中差點。
小米的話,網頁就更貼合普通的個人網站了,
在第四頁做了一個簡單的命令行樣式,我們可以輸入固定指令,來得到答案。我覺得是太強調程序員身份了,沒有給到很亮眼的交互。
OKOK,我們到了第三關,馬上來個中場結算。
經歷了上面兩輪至少10輪多輪對話后,他們消耗了多少的上下文?然后API價格又是多少?
![]()
![]()
![]()
![]()
![]()
按照完成兩個任務來算額度的話,
MiniMax消耗的上下文更少,價格也夠低,要是能用1M上下文就更好了。
我在最后,也就是第五個問之后再去橫向對比的他們的訂閱和Coding Plan的價格。
第三關,
讓它們加載PPT相關skill,把Hermes的安裝手冊變成一份能講的HTML PPT。
這里我很在意一個點是,代碼和文字混在一起的時候,模型會不會露餡。
Agent任務里最常見的不是純寫作,也不是純代碼,而是兩者混在一起。模型要會組織觀點,也要會控制組件,還要記得別把思考過程中的碎碎念帶進最終拿來展示的PPT,說的就是GPT 5.4,做網頁太拉了。
安裝github. com/op7418/guizang-ppt-skill,配置好環境,這個skill根據字體跟不同的明暗度,有20種搭配。你來判斷哪一種配色是最符合今天的主題的。然后把hermes-agent.nousresearch. com/docs/getting-started/quickstart做成一個10頁的html ppt
GPT 5.5完全在我預料當中,
排版都是沒什么問題的,但是它就像那種把自己的思考過程什么的一股腦全部都倒給你。。。
MiniMax M2.7就更多是偏向于說明,
在對話過程里,它覺得這10頁我們只夠的篇幅去安裝 Hermes ,里面的模型配置還有更復雜的這些 skill 之類的,它更想在這10頁里面做一個總篇目錄,就是使用 Hermes 通常要裝些什么,要經過哪幾個階段,然后有沒有合適的模型可以選。
DeepSeek從第二頁開始就開始放飛自己了,
我覺得配色選的倒是沒什么問題,就是頁面切換一頁藍一頁白,然后在小字的排版上,其中有一頁顯得特別嚴重。安裝命令的那一頁左側竟然是完全是空的。。。
又又又又到小米了,
小米這一把就有點奇怪了。
首先,中間我還做了一次對話重置,但是它會比較頻繁的觸發。比方說我們早就已經做完Skill打包跟網頁開發的任務了,它又向我確認這一次是不是已經完成了。還有就是它的上下文明明只消耗了154K左右,但是它就不往下跑了,我需要手動輸入繼續。不過最后輸出的結果是好的,然后也給出了具體的安裝命令以及分步驟來執行。
第四關是我最期待的一關。
讓模型判斷我本地Obsidian目錄怎么整理,我這里準備了從5號到30號中間,我收錄到知識庫里面的所有零散信息,包括但不限于視頻,圖文,播客,讓模型們給一個整理計劃。
![]()
這里有個我自己的經驗。
本地知識庫如果已經比較干凈,不一定適合直接接LLM Wiki。LLM Wiki更適合從零開始或者資料很亂的時候。而Garry Tan那套GBran,更適合用Git管理整個知識庫,把變化、分支、回滾都管起來。
我想看的就是,模型會怎么解決這種沒有標準答案的問題。
GPT 5.5首先查看了一下整個目錄里面有的文件數量,然后去補充說明文件,讓后續的Agent能夠更好的讀懂我們所有的文件夾能有什么用,然后給了我一個測試流程,既然我想測LLM Wiki的話,他就給了我選了一個合適的目錄作為試點,先連續觀察兩周使用這類系統的時候,某個文件夾有什么變化。
最后就是設置了不同的資料應該進哪個文件夾,
因為很明顯,我現在就是一股腦的掉到了收件箱,所以會導致里面的文件過多。我覺得就很延伸了這個Agent 的優勢,也就是說他們完全可以做到無感、定時化的緩慢遷移,而不是要一次性把所有東西都改到位,特別是對于知識管理這種任務的時候。
![]()
![]()
MiniMax M2.7同樣是用了定時遷移+試點目錄。
不同于GPT,它給出了更具體的方案。比方說我很喜歡這樣有時間軸的答復,它給出的是我們先按照哪幾個目錄,然后觀察3周。評估的標準就是這3周我們是不是多次用到了語義索引來去提問搜索里面的文件,再決定 LLM wiki 要不要保留下來。
![]()
![]()
輪到Deepseek了,
它給出的路線就更激進。首先它讓我自己給自己問問題,覺得我現在的obsidian是處理到一個什么樣的階段。
如果我覺得我的主題的邊界都非常清晰,而且我能記住每個東西都在哪一個文件夾,那我不需要修改,更多的是錄入進去。并且他給出了匹配度,他覺得我的obsidian 的目錄是有設計過的有動線的,但是目前來說存儲的文件太亂。
所以它也給出了一個 LLM wiki的一個完全重建方案,雖然會抹掉我們一些項目的目錄結構,但是會讓整體語義匹配會更高效。
![]()
![]()
小米同樣是給了三條路線,并且還給了路線規劃。
那么它的處理方式就是在我們已經有一個比較成體系的obsidian的文件夾,是很明顯看出是手動整理過的一個情況下,我希望 AI 能夠更快速的理解我的知識庫上下文。
是的,它在生成這個方案之前還來主動要求跟我進行對話。他給出我的方法是不動現在已有的目錄,而是在旁邊新建一個 LM wiki 作為速讀層,那么 obsidian 就作為一個橋接。那簡單來說,就是給文件加一個快速路徑,這樣的話又可以讓 agent 能讀得懂,我也不會喪失我原有的目錄結構。
![]()
![]()
第五關,讓模型們完成高token消耗的瀏覽器自動化任務。
我定時會讓Code X 去查看Clawhub的這個網頁前100的 skill ,然后跟前一天的備份去對比,看看有哪些skill是新上進了前100名,會不會跟原有的100名的skill有功能重疊,
![]()
為了可視度高一點,我這次讓他們完成了整個任務后,把他們得到的結論做成可視化的網頁。可以看到他們延續了上上上一個任務里面,我讓他們學到的這個網頁的風格。
GPT 5.5的實際效果,我也是有預期的。
但它做這個的時間,平時我掛在 CodeX App上面讓它跑定時任務,我不覺得有那么長。但是今天跟這四個模型對比的時候它幾乎是花了這些下面所有的模型兩倍到三倍的時間,才完成了這個任務。
MiniMax M2.7是把結論寫的最細致的一次,
因為他不僅把中間遇到的一些路徑錯誤告訴我,還說明了每次翻頁他是怎么實現的,以及給出了三個雙十榜,排名前十,下載前十以及star量的前十。然后給出了潛力Skill的一個評估標準,有三個條件,如果新進的Top100,下載增量的Top 20,然后排名比起上次漲了八位以上,那就是潛力新星。
DeepSeek對比了多個本地備份后,發現前后排名有大幅度震蕩,不過只給了這個的提醒沒有做修復,然后就綜合給出了新進榜單的下載增量跟新進榜單的前七名。
![]()
小米在這次做瀏覽器自動化的時候,就比前面幾個任務表現的效果要更好一點。
因為它完成了skill加載,網頁內容梳理,還已成功找了我obsidian之前對于這個網頁數據的一個數據備份,還額外去編寫了一個腳本,實現分頁,結構標準化。最后也是成功配置了一個在本地運行的定時任務。
![]()
測到這里,基本就能看出差異了。
如果一個模型只是會聊天,它很快就會露餡。
如果一個模型只是編程強,它也會在PPT里露餡。
如果一個模型只會跟著提示語走,它會在知識管理的環節受到我原來偏好的影響限制。
說到這里,我們再來看看訂閱側,
因為現在我更習慣,放在Agent這個高強度使用場景上來說,每5個小時做一次額度重置。
大家會覺得小米這個TokenPlan比較燒Token的一個原因,也可能因為他們把這個月費額度固定在一個數值上面,這就會導致了使用的焦慮感會放大。如果是高強度的使用的話,Plus是真不夠用,你至少得上Pro才行,但Pro的價格又擺在這,
所以如果讓我去選擇,
在今天這個Claude反復調價,甚至4月20號之后的Pro套餐已經不包含Claude Code的額度了,不是自家的Agent就不能用額度只能燒API的情況下,
我會選擇GPT和MiniMax作為我一個長期的Agent模型搭配。
![]()
它們的組合不一定最炸。
但都是真用得起,愿意每天用的模型。
這也是我對這次橫測最期待的地方。
以前總是在問,哪個模型更聰明。
但現在我越來越覺得,
真正的問題應該是,
哪個模型能長期穩定干活。
能封裝Skill,有自己的審美,
能整理本地知識庫,
能在瀏覽器自動化里摔幾次后繼續爬起來干活的。
這才配叫主力模型。
不是榜單上的第一名。
是我真的敢把任務全盤交給它負責的那個。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.