這是蒼何的第 537 篇原創!
大家好,我是蒼何。
說實話,用 AI Coding 這么久來,最讓我崩潰的一件事就是:等。
你讓它改個組件,轉圈圈十幾秒;讓它重構個模塊,一分鐘過去了還在吐字。思路早就跑到前面去了,AI 還在后面慢悠悠地擠牙膏。
直到前兩天,智譜給了我一個 GLM-5.1 高速版的 API 內測,400 tokens/s。
什么概念?代碼不是一行一行「寫」出來的,是直接「噴」出來的。
我第一反應是:這速度,怕不是犧牲了效果吧?畢竟行業潛規則大家都懂,快的模型約等于小模型。
但實測下來,打臉了。
這玩意是旗艦級能力+極致速度,兩個我全都要,還真讓它做到了。廢話不多說,直接上case。
我在 Claude Code 中配了 GLM 5.1 高速版,30 秒不到就給我整出了這個東西。
玩家控制一個角色在 3D 地圖里移動。玩家可以輸入自然語言,系統調用 GLM-5.1 高速版,將用戶輸入轉換成結構化 JSON 場景指令,然后前端實時執行這些指令,讓 3D 場景立即發生變化。
這個是我給的提示詞:
![]()
你是資深全棧工程師與 3D Web 游戲開發專家,請從零實現一個「Text-to-World」Web Demo:玩家在 Three.js/R3F 的 3D 世界中移動,并通過自然語言實時改變場景。用戶輸入“在前方生成賽博朋克城堡并切換暴雨夜晚”等文本后,后端調用 GLM-5.1 高速版,
將文本轉換為結構化 JSON commands(spawn_object、set_environment、add_effect 等),前端 SceneCommandExecutor 實時解析并執行,讓世界瞬時變化。技術棧要求 React + TypeScript + React Three Fiber + Tailwind + Node.js/Express,
支持 WASD、鼠標視角、流式響應、環境天氣、粒子特效、NPC、傳送門等能力,且 API Key 不暴露在前端。
請輸出完整項目架構、前后端目錄結構、JSON Schema、核心執行器設計、完整可運行代碼、README、
環境變量配置與啟動命令,代碼需模塊化、類型清晰、具備錯誤處理與高實時交互體驗。
這個噴代碼的速度,服了,還沒反應過來,就直接做完了,關鍵效果還很不錯,還是那個 GLM 5.1,只是真的更快了。
為了更深入了解下,我又把分別搭載 GLM 5.1 高速版和 DeepSeek V4 Pro 的 Claude Code 接進 WeSight。
相同一個任務,我們來直觀的對比下一些重要指標,比如輸入輸出 Token、TTFT、TPS 等。
這個是 DeepSeek V 4 Pro 的指標:
![]()
估算 TPS 為 55.0,總耗時 2.3 分鐘。
TPS 指的是模型每秒能生成多少 token,總耗時是指從發送到完整結束花了多久。
這里除去了模型內部推理、代理步驟做的估算 TPS,實際耗時為最終文本到達 WeSight 的時間。
![]()
相同的任務,我把 Claude Code 里面的模型替換為 GLM 5.1 高速版,TPS 直接就干到了 350,雖然離官方說的 400 還有一點點差距,但實際體感,無法表達,你還沒反應過來就干完了。
![]()
實際耗時變為了 2.6 秒,這個體感還是非常明顯的。在 WeSight 中你也能很直觀的看到這個數據變化。
![]()
相同的任務,這是 Codex 的數據,用的 GPT 5.5 high,TPS 是 153.1,這也符合基準網站 Artificial Analysis 給出的 OpenAI 高速模型 TPS 數據在 120~170 t/s。
側面反應 WeSight 在預估 TPS 上還是做了很多功課的。
不瞞你說,WeSight 的這個監控能力也是通過 GLM 5.1 高速版開發的,前前后后幾個小時就搞定了。
現在 WeSight 支持任務狀態監控了。
這個是我在 WeSight 中用 Claude Code 配合 GLM 5.1 高速版 1.4 分鐘就完成的寵物電商網站,功能完全可用。
這個視頻是原速錄制下來的,你看下這個噴代碼的速度,有點可怕的,太快了吧。
數據詳情:
![]()
TPS 在 300 左右,總計耗時 1.4 分鐘。
什么概念,我打個水都沒打完,就給我開發完了。
我同樣的任務,用 DeepSeek V 4 Pro 試了一遍,就花了差不多 4.1 分鐘,是 GLM 5.1 高速版耗時的十倍左右。
![]()
當你把 GLM 5.1 高速版接入 Claude Code 或者 Hermes Agent、OpenClaw,這才是你起飛的開始。
比如,你看我用飛書直接指揮搭載 GLM 5.1 高速版 Claude Code 和搭載 GPT 5.5 的 OpenClaw 同時做個愛心表白網頁。
![]()
你可以看到 GLM 5.1 高速版幾乎是秒出結果:
![]()
而 GPT 5.5 花費了 47.2 s,對比下來速度差了不是一點半點。
![]()
而實際出來的效果是差不多的。
![]()
為什么快這么多?
簡單說下技術層面。
GLM-5.1 高速版背后是智譜自研的 TileRT 推理引擎,核心思路是把傳統推理框架里那些零碎的算子調度、內存讀寫、同步等待全部干掉,編譯期就把整個計算圖編排成一個常駐 GPU 的 Engine Kernel。
通俗講就是:傳統方案每算一步都要「匯報一次」,TileRT 直接把整條流水線焊死在 GPU 上,中間不回頭,一路算到底。
所以 400 tokens/s 不是峰值跑分,是穩定可用的生產級速度。
說真的,這次體驗完 GLM-5.1 高速版,我最大的感受是:速度本身就是一種能力。
以前我們評價模型,看的是跑分、看的是效果。但當你真正把模型接進工作流,每天跟它協作幾十上百次的時候,你會發現速度才是決定體驗的那個變量。
3 秒出結果和 30 秒出結果,不只是時間差了 10 倍,是你的心流狀態完全不一樣。快到一定程度,AI 真正變成了你的實時搭檔,想到哪它就跟到哪。
看了下目前 GLM-5.1-HighSpeed 模型僅面向部分企業客戶定向開放。
我是蒼何,AI 時代的速度戰爭才剛剛開始,咱們下期見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.