網易首頁 > 網易號 > 正文申請入駐

GLM-5.1 開源：零介入，交付整套的 Linux 桌面系統

2026-04-08 11:06:31　來源: 賽博禪心

北京舉報

分享至

PRODUCT

今天，智譜開源了 GLM-5.1：744B 參數，40B 激活，MIT 協議

零人工介入，能獨立工作超過 8 小時，GLM-5.1 從零交付了一套完整的 Linux 桌面系統：窗口管理器、文件瀏覽器、終端、文本編輯器、系統監視器、游戲庫等，共計 4.8MB

8小時，構建Linux 桌面系統

SWE-Bench Pro 58.4，超過 GPT-5.4 和 Claude Opus 4.6，全球最高

三項編碼基準綜合平均，全球第三、開源第一

三項編碼基準綜合平均分

給更多時間，真的會更好

GLM-5.1 能夠在長時間任務中持續保持有效工作，這讓它可以做到以前短對話里做不了的事情。以下是兩個硬核的例子

自主優化一個搜索引擎，連續跑了 655 輪

AI 搜索和推薦系統的背后都有一個向量數據庫，它的查詢速度直接決定用戶體驗。GLM-5.1 用 Rust 從零寫了一個向量搜索引擎，然后自己反復跑測試、看結果、改代碼，連續迭代了 655 輪

向量數據庫 655 輪優化

過程中模型完成了 6 次結構性的策略跳躍，從全庫掃描一路優化到兩級路由 + 提前剪枝，最終把查詢速度從 3108 QPS 提升到 21472 QPS，提高了 6.9 倍

向量數據庫優化軌跡：階梯型跳躍模式

給 50 個 AI 模型寫加速代碼，跑了 1000 多輪

KernelBench 給模型一個挑戰：拿到 50 個真實 AI 模型（MobileNet、VGG、MiniGPT、Mamba 等）的 PyTorch 代碼，想辦法寫出運行更快的 GPU 版本，功能完全一樣但速度要快

KernelBench Level 3 優化曲線：四個模型對比

GLM-5.1 在 1000 多輪工具調用中自主編寫了 Triton 和 CUDA 加速代碼，最終達到 3.6 倍加速，遠超 PyTorch 自帶優化器 torch.compile 的 1.49 倍

Benchmark 詳細數據

GLM-5.1 的提升集中在編碼和智能體兩個維度，提升幅度在 19%-42% 之間。推理能力和 GLM-5 基本持平，和 Gemini 3.1 Pro、GPT-5.4 還有明顯差距

GLM-5.1 Benchmark 總覽

編碼能力

SWE-Bench Pro 衡量的是模型能否在真實 GitHub 倉庫中定位并修復高難度工程 Bug，是目前最接近真實軟件開發的單項指標。GLM-5.1 得分 58.4，全球最高，超過 GPT-5.4（57.7）和 Claude Opus 4.6（57.3）

NL2Repo 要求模型根據自然語言描述從零構建完整的代碼倉庫，測試的是系統級工程能力。GLM-5.1 得分 42.7，vs GLM-5 的 35.9，提升 19%。和 Claude Opus 4.6（49.8）還有 7 分差距

Terminal-Bench 2.0 讓模型在真實終端環境中解決系統管理、運維和開發任務。GLM-5.1 得分 63.5，vs GLM-5 的 56.2

CyberGym 是網絡安全編碼基準，要求模型完成滲透測試、漏洞分析等安全工程任務。GLM-5.1 得分 68.7，vs GLM-5 的 48.3，提升 42%，進步最大的單項

編碼能力詳細對比

智能體能力

BrowseComp 測試模型能否通過自主瀏覽網頁解決復雜信息檢索問題。GLM-5.1 帶上下文管理得分 79.3

τ3-Bench 在模擬客服場景中測試對話式 Agent 的雙向控制能力。GLM-5.1 得分 70.6

MCP-Atlas 衡量模型在多步驟工作流中調用外部工具（MCP 服務器）的能力。GLM-5.1 得分 71.8

Vending Bench 2 讓模型經營一年的模擬自動售貨機生意，測試長期規劃和資源管理。GLM-5.1 最終賬戶余額 $5634，vs GLM-5 的 $4432。和 Claude Opus 4.6（$8017）還有明顯差距

智能體能力詳細對比

推理能力

HLE 被稱為「人類最后的考試」，由各領域專家出題，專門測試模型的知識和推理極限。GLM-5.1 得分 31.0，和 Gemini 3.1 Pro（45.0）、GPT-5.4（39.8）有明顯差距

AIME 2026 是美國數學邀請賽 2026 年賽題。GLM-5.1 得分 95.3，各家模型在這項上已經非常接近

GPQA-Diamond 是由博士級專家出題的科學問答，涵蓋物理、化學、生物等領域。GLM-5.1 得分 86.2

推理維度整體和 GLM-5 持平，GLM-5.1 的提升集中在編碼和智能體

推理能力詳細對比

技術報告解讀

GLM-5.1 的技術細節沿用 GLM-5 的論文框架，論文已公開在 arXiv（2602.15763）。這里提取幾個和長程能力直接相關的核心要點

異步 RL 基礎設施

GLM-5 整體訓練管線

傳統同步 RL 處理 Agent 任務時 GPU 空閑嚴重，因為不同任務的軌跡長度差異極大。智譜把訓練引擎和推理引擎解耦到不同 GPU 設備上：推理引擎持續生成軌跡，達到閾值后批量送訓練引擎更新模型，權重定期同步

通過一個「多任務 Rollout 編排器」支持超過 1000 個并發 rollout，每個任務實現為獨立的微服務，注冊到中央編排器統一調度

TITO（Token-in-Token-out）

異步 RL 中一個容易被忽視的問題：把推理引擎當作黑箱只取最終文本，訓練器需要重新分詞來重建軌跡。分詞邊界的微小不一致會在數千步的 Agent 任務中逐步累積

TITO 直接消費推理引擎產出的 token ID 流和元數據，保持 action 級別的精確對應，消除重新分詞帶來的誤差

DSA 與 RL 的適配

DSA 訓練 SFT loss 對比

GLM-5 在預訓練階段引入 DSA（DeepSeek Sparse Attention），用動態稀疏注意力把長上下文的注意力計算降低約 1.5-2 倍

在 RL 階段出現了一個實踐發現：DSA 的 indexer 必須使用確定性的 torch.topk。非確定性的 CUDA 實現會導致 RL 訓練幾步之后 entropy 急劇下降，性能嚴重退化

雙側重要性采樣

異步 RL 中不同軌跡可能由不同版本的模型生成，off-policy 問題嚴重。傳統方案需要維護歷史策略檢查點來計算重要性采樣比率

智譜的做法更直接：直接用 rollout 時的 log-probability 作為行為策略的代理，用 token 級別的雙側裁剪機制控制信任域，超出區間的 token 從梯度計算中屏蔽。不需要跟蹤歷史策略

環境規模

BrowseComp 上下文管理策略對比

編碼任務：構建超過 10000 個可驗證訓練環境，覆蓋 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby 9 種語言

搜索任務：構建 Web 知識圖譜，從 200 萬+ 高信息網頁中抽取實體和關系，合成高難度多跳 QA 對

國產芯片全棧適配

GLM-5 從第一天起就完成了七家國產芯片平臺的全棧適配：華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、沐曦、燧原

在華為昇騰上通過 W4A8 混量化、Lightning Indexer 融合算子、MLAPO 預處理優化等手段，單節點性能接近雙卡國際集群

開源與使用

GLM-5.1 權重以 MIT 協議開源，提供 BF16 和 FP8 兩個版本。支持 vLLM、SGLang、xLLM（華為昇騰）、Ktransformers 本地部署

API 方面，GLM-5.1 已納入 GLM Coding Plan（Max/Pro/Lite 套餐），支持 Claude Code、OpenCode、Kilo Code、Roo Code、Cline 等工具接入

GLM-5.1 即將上線 chat.z.ai

參考材料

GLM-5.1 Blog
https://z.ai/blog/glm-5.1

GLM-5 Technical Report
https://arxiv.org/abs/2602.15763

GitHub
https://github.com/zai-org/GLM-5

Hugging Face
https://huggingface.co/zai-org/GLM-5.1

ModelScope 魔搭社區
https://modelscope.cn/models/ZhipuAI/GLM-5.1

GLM Coding Plan
https://z.ai/subscribe

BigModel 開放平臺
https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Moltbot作者被Claude刁難后：MiniMax M2.1是最優秀的開源模型

量子位 2026-01-29 13:17:17
13 跟貼 13
實測Codex Chrome：簡單任務翻車，復雜任務反而成了

雷科技 2026-05-09 08:14:34
9 跟貼 9

Markdown不行了？Agent時代，老掉牙的HTML正在逆襲

雷科技 2026-05-09 20:35:53
3 跟貼 3

拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯網

DeepTech深科技 2025-12-26 18:07:26
35 跟貼 35
用Linux玩游戲從未如此簡單：新系統徹底告別繁瑣配置安裝Steam甚至不用動鼠標！

快科技 2026-05-07 11:37:09
17 跟貼 17

云游戲并非唯一解！開發者在PS5運行Linux環境讓PS3經典游戲《摩托風暴》流暢重現

快科技 2026-05-07 17:27:47
1 跟貼 1

劍指冠軍！國乒男團3-1戰勝法國隊晉級世乒賽決賽

央視新聞客戶端 2026-05-10 05:50:37
133 跟貼 133
微軟是如何穿越30年周期的

鈦媒體APP 2026-04-18 20:29:35
2 跟貼 2

阿Sa老公被爆玩交友軟件、為錢裝直男？用婚訊來擋張敬軒爭議？

一朵奇葩007 2026-05-09 08:42:24
0 跟貼 0
“蘇超”第五周比賽結束，最新戰報出爐：無錫隊3:1泰州隊、徐州隊1:2宿遷隊、南通隊0:0南京隊

江蘇新聞 2026-05-09 21:46:44
198 跟貼 198
VL-LN Bench：模擬「邊走邊問找具體目標」的真實導航場景

機器之心Pro 2026-02-02 17:10:55
0 跟貼 0
王天一被4名裁判全程緊盯，卻下出了比軟件更厲害的棋！

象棋經典棋局 2026-05-09 05:49:59
0 跟貼 0
商務部：中俄貿易連續三年突破2000億美元

界面新聞 2026-05-09 10:17:43
3678 跟貼 3678
300萬對樣本、200萬對實拍：深度估計的數據荒，終于被打破

機器之心Pro 2026-03-31 11:08:33
0 跟貼 0
Claude Code之父：我們公司已沒真人寫代碼了

智東西 2026-05-09 20:46:17
10 跟貼 10
具身智能的數據難題，終于有了可規?；慕夥?/a>

量子位 2025-12-18 14:13:03
0 跟貼 0
專家：警惕美國"偷師"中國用中國的方式與中國競爭

澎湃新聞 2026-05-10 07:17:35
699 跟貼 699
河北多地漫天楊絮似大雪紛飛省綠辦：多年前曾定下治理時間表每年都有打藥等防治措施

閃電新聞 2026-05-09 12:40:08
684 跟貼 684
AI突現首例自我復制！橫跨4國160小時無限繁殖

新智元 2026-05-09 18:31:30
47 跟貼 47
活久見，時代少年團給大模型上了一課

機器之心Pro 2026-05-09 12:48:20
1 跟貼 1
Excel公式寫到崩潰？這個隱藏函數讓你一次定義，全局復用

閃存獵手 2026-05-08 19:53:26
0 跟貼 0
國安部發布緊急提醒：你的手機或已成“間諜站”！

看看新聞Knews 2026-05-09 14:54:03
1155 跟貼 1155
上海迪士尼能通話錄音游客不能錄，否則無法提供服務！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
625 跟貼 625
廣西壯族自治區計劃生育協會常務副會長蘇英權接受審查調查

上觀新聞 2026-05-09 18:03:27
47 跟貼 47
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
299 跟貼 299
海關總署：前4個月中國貨物貿易進出口總值增長14.9%

財聯社 2026-05-09 10:57:06
2257 跟貼 2257
撬開大模型黑箱！Anthropic新研究把AI思考過程公開了，隱藏動機發現率漲了4倍

智東西 2026-05-08 22:30:56
1 跟貼 1
柳葉刀：2026年初PubMed Central收錄論文中，每277篇就有一篇引用了假文獻

醫咖會 2026-05-09 19:46:44
0 跟貼 0
Codex不只敲代碼！教你幾分鐘全自動搞定視頻

王子健 2026-05-08 23:37:52
5 跟貼 5
恒大前總裁夏海鈞廣州豪宅將拍賣：7室5廳享一線江景，參考市價超7000萬元

紅星新聞 2026-05-09 21:20:17
244 跟貼 244
iOS 26.5下周正式推送，一口氣上線五大新功能

環球網資訊 2026-05-08 10:49:06
533 跟貼 533
5.6美國加油機發出7700緊急代碼

空天觀察 2026-05-08 19:37:33
0 跟貼 0
那個催了我3個月的儀表盤，他打開過2次

全棧遛狗員 2026-05-09 23:57:11
0 跟貼 0
擺拍！“賓利車主高速救新人”全是假賬號被封

看看新聞Knews 2026-05-09 17:24:03
104 跟貼 104
申花半場進兩球追平重慶銅梁龍，但壞消息是下輪可能只剩一名外援可戰

上觀新聞 2026-05-10 07:48:03
2 跟貼 2
罕見！韓媒：韓國總統、國會議長、韓執政黨黨首同日落淚

環球網資訊 2026-05-09 11:57:09
129 跟貼 129
奧特曼預言與現實相差幾何？12個頂級模型“創業”一年，僅3個存活

鈦媒體APP 2026-04-03 17:11:08
0 跟貼 0
開發者薪酬悖論：誰在拿"泡沫工資"，誰又被低估？

硅嶼手記 2026-05-10 08:39:09
0 跟貼 0
襄陽百畝地疑遭奶牛場污染調查組：已送檢11處水體翻耕300畝地，將依法依規處置

封面新聞 2026-05-09 11:24:05
158 跟貼 158
把硬盤盒變“AI大腦”，還能聯動養龍蝦，英特爾亮出AI NAS全家桶

智東西 2026-05-09 19:34:29
0 跟貼 0

BenSir本色說

2026-04-15 22:38:07

一句“別染發”上熱搜，染發產品成抽檢不合規榜單“常客” 新京報

2026-05-08 16:20:47

賽博禪心

拜AI古佛，修賽博禪心

429文章數 53關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

教育

健康

數碼

手機 / 數碼

房產 / 家居

GLM-5.1 開源：零介入，交付整套的 Linux 桌面系統

DeepSeek融資，改寫所有人的估值

牛彈琴：74歲法國政壇老將對華清醒表態 讓人刮目相看

牛彈琴：74歲法國政壇老將對華清醒表態 讓人刮目相看

成立128年后，這支升班馬首奪頂級聯賽冠軍

50歲趙薇臉頰凹陷滄桑得認不出！

白酒大逃殺

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

用蘇繡的方式，打開江西婺源

自己就給自己確診了！

只需5步！手把手教你用一本書撬動整個資源盤！

干細胞能讓人“返老還童”嗎

全球首臺鴻蒙智選美的智能空調上市發布

GLM-5.1 開源：零介入，交付整套的 Linux 桌面系統

DeepSeek融資，改寫所有人的估值

牛彈琴：74歲法國政壇老將對華清醒表態讓人刮目相看

牛彈琴：74歲法國政壇老將對華清醒表態讓人刮目相看

成立128年后，這支升班馬首奪頂級聯賽冠軍

50歲趙薇臉頰凹陷滄桑得認不出！

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

自己就給自己確診了！

只需5步！手把手教你用一本書撬動整個資源盤！