網易首頁 > 網易號 > 正文申請入駐

實測 GLM5.1 高速版，快到離譜還不掉智商

2026-05-23 12:15:52　來源: 蒼何

湖北舉報

分享至

這是蒼何的第 537 篇原創！

大家好，我是蒼何。

說實話，用 AI Coding 這么久來，最讓我崩潰的一件事就是：等。

你讓它改個組件，轉圈圈十幾秒；讓它重構個模塊，一分鐘過去了還在吐字。思路早就跑到前面去了，AI 還在后面慢悠悠地擠牙膏。

直到前兩天，智譜給了我一個 GLM-5.1 高速版的 API 內測，400 tokens/s。

什么概念？代碼不是一行一行「寫」出來的，是直接「噴」出來的。

我第一反應是：這速度，怕不是犧牲了效果吧？畢竟行業潛規則大家都懂，快的模型約等于小模型。

但實測下來，打臉了。

這玩意是旗艦級能力+極致速度，兩個我全都要，還真讓它做到了。廢話不多說，直接上case。

我在 Claude Code 中配了 GLM 5.1 高速版，30 秒不到就給我整出了這個東西。

玩家控制一個角色在 3D 地圖里移動。玩家可以輸入自然語言，系統調用 GLM-5.1 高速版，將用戶輸入轉換成結構化 JSON 場景指令，然后前端實時執行這些指令，讓 3D 場景立即發生變化。

這個是我給的提示詞：

你是資深全棧工程師與 3D Web 游戲開發專家，請從零實現一個「Text-to-World」Web Demo：玩家在 Three.js/R3F 的 3D 世界中移動，并通過自然語言實時改變場景。用戶輸入“在前方生成賽博朋克城堡并切換暴雨夜晚”等文本后，后端調用 GLM-5.1 高速版，
將文本轉換為結構化 JSON commands（spawn_object、set_environment、add_effect 等），前端 SceneCommandExecutor 實時解析并執行，讓世界瞬時變化。技術棧要求 React + TypeScript + React Three Fiber + Tailwind + Node.js/Express，
支持 WASD、鼠標視角、流式響應、環境天氣、粒子特效、NPC、傳送門等能力，且 API Key 不暴露在前端。
請輸出完整項目架構、前后端目錄結構、JSON Schema、核心執行器設計、完整可運行代碼、README、
環境變量配置與啟動命令，代碼需模塊化、類型清晰、具備錯誤處理與高實時交互體驗。

這個噴代碼的速度，服了，還沒反應過來，就直接做完了，關鍵效果還很不錯，還是那個 GLM 5.1，只是真的更快了。

為了更深入了解下，我又把分別搭載 GLM 5.1 高速版和 DeepSeek V4 Pro 的 Claude Code 接進 WeSight。

相同一個任務，我們來直觀的對比下一些重要指標，比如輸入輸出 Token、TTFT、TPS 等。

這個是 DeepSeek V 4 Pro 的指標：

估算 TPS 為 55.0，總耗時 2.3 分鐘。

TPS 指的是模型每秒能生成多少 token，總耗時是指從發送到完整結束花了多久。

這里除去了模型內部推理、代理步驟做的估算 TPS，實際耗時為最終文本到達 WeSight 的時間。

相同的任務，我把 Claude Code 里面的模型替換為 GLM 5.1 高速版，TPS 直接就干到了 350，雖然離官方說的 400 還有一點點差距，但實際體感，無法表達，你還沒反應過來就干完了。

實際耗時變為了 2.6 秒，這個體感還是非常明顯的。在 WeSight 中你也能很直觀的看到這個數據變化。

相同的任務，這是 Codex 的數據，用的 GPT 5.5 high，TPS 是 153.1，這也符合基準網站 Artificial Analysis 給出的 OpenAI 高速模型 TPS 數據在 120~170 t/s。

側面反應 WeSight 在預估 TPS 上還是做了很多功課的。

不瞞你說，WeSight 的這個監控能力也是通過 GLM 5.1 高速版開發的，前前后后幾個小時就搞定了。

現在 WeSight 支持任務狀態監控了。

這個是我在 WeSight 中用 Claude Code 配合 GLM 5.1 高速版 1.4 分鐘就完成的寵物電商網站，功能完全可用。

這個視頻是原速錄制下來的，你看下這個噴代碼的速度，有點可怕的，太快了吧。

數據詳情：

TPS 在 300 左右，總計耗時 1.4 分鐘。

什么概念，我打個水都沒打完，就給我開發完了。

我同樣的任務，用 DeepSeek V 4 Pro 試了一遍，就花了差不多 4.1 分鐘，是 GLM 5.1 高速版耗時的十倍左右。

當你把 GLM 5.1 高速版接入 Claude Code 或者 Hermes Agent、OpenClaw，這才是你起飛的開始。

比如，你看我用飛書直接指揮搭載 GLM 5.1 高速版 Claude Code 和搭載 GPT 5.5 的 OpenClaw 同時做個愛心表白網頁。

你可以看到 GLM 5.1 高速版幾乎是秒出結果：

而 GPT 5.5 花費了 47.2 s，對比下來速度差了不是一點半點。

而實際出來的效果是差不多的。

為什么快這么多？

簡單說下技術層面。

GLM-5.1 高速版背后是智譜自研的 TileRT 推理引擎，核心思路是把傳統推理框架里那些零碎的算子調度、內存讀寫、同步等待全部干掉，編譯期就把整個計算圖編排成一個常駐 GPU 的 Engine Kernel。

通俗講就是：傳統方案每算一步都要「匯報一次」，TileRT 直接把整條流水線焊死在 GPU 上，中間不回頭，一路算到底。

所以 400 tokens/s 不是峰值跑分，是穩定可用的生產級速度。

說真的，這次體驗完 GLM-5.1 高速版，我最大的感受是：速度本身就是一種能力。

以前我們評價模型，看的是跑分、看的是效果。但當你真正把模型接進工作流，每天跟它協作幾十上百次的時候，你會發現速度才是決定體驗的那個變量。

3 秒出結果和 30 秒出結果，不只是時間差了 10 倍，是你的心流狀態完全不一樣。快到一定程度，AI 真正變成了你的實時搭檔，想到哪它就跟到哪。

看了下目前 GLM-5.1-HighSpeed 模型僅面向部分企業客戶定向開放。

我是蒼何，AI 時代的速度戰爭才剛剛開始，咱們下期見。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.