<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      從GLM-4.5到GLM-5,我見證了一個模型從碼農晉升為架構師

      0
      分享至

      上周發了一篇關于OpenRouter上神秘模型Pony的文章,還給大家留了個搶紅包的競猜問題:Pony到底是誰?

      現在答案終于揭曉了,那就是智譜的GLM-5。

      「Pony」是小馬,2026農歷馬年,生肖彩蛋。智譜以匿名方式把GLM-5放到OpenRouter上做了一次公測。


      這事還挺有意思的。一個沒署名的模型,首日跑了400億token、20.6萬次請求。絕大多數用它的開發者都覺得「這水平不像GLM-4.7,太像Opus了」。


      但Pony是誰,不是這篇文章的重點。

      重點是我用它做了什么、感受到了什么。以及,這件事放在行業大背景下意味著什么。

      節前國內AI公司是真卷。2月6號智譜匿名放出Pony Alpha,2月7號字節就發了Seedance 2.0,AI視頻生成直接拉到了全球第一梯隊。一個卷編程,一個卷視頻,前后腳發布。 我這覺得我寫不過來了...

      我從GLM-4.5開始,每一代都寫了評測文章。

      每次寫完都覺得「開源模型又進了一步」。但這次GLM-5給我的感受完全不一樣。不是進了一步,是換了個身份。

      以前GLM系列在我的工作流里是「執行者」——Opus當大腦做規劃,GLM做具體的編碼工作。便宜、聽話、夠用。

      GLM-5讓我第一次覺得:它也能當大腦了。

      Vibe Coding過時了?

      寫GLM-5之前,得先聊一個剛發生的事。

      2月8號,Karpathy發了個帖子。就是那個提出「Vibe Coding」概念的人——去年這個詞火得一塌糊涂,基本成了AI編程的代名詞。對著AI說一句話,代碼就出來了,不用管細節,跟著感覺走。

      但他自己說,Vibe Coding正在過時。取而代之的是一個新概念:Agentic Engineering


      什么意思?

      Vibe Coding是你告訴AI「幫我寫這個功能」,AI寫完你看看行不行。本質上還是人在驅動,AI在執行。

      Agentic Engineering不一樣。你給AI一個目標,它自己拆任務、自己規劃步驟、自己寫代碼、自己測試、遇到bug自己修、遇到方向不對自己調整。可能跑幾小時甚至幾天。人類變成了架構師和監督者,AI變成了真正干活的工程團隊。

      這不是Karpathy一個人的判斷。看看最近兩周發生了什么:

      Anthropic發布Opus 4.6的時候,官方案例是什么?16個Claude實例并行工作兩周,寫了10萬行Rust代碼的C編譯器,能編譯Linux內核。花了2萬美元。

      OpenAI發布GPT-5.3 Codex的時候,強調的是什么?AI參與了自己的訓練過程。不是寫個貪吃蛇,是調試訓練流程、管理部署、診斷測試結果。

      兩家都不再說「一句話生成網頁」了。都在說Agent、長任務、系統工程。

      Anthropic甚至在1月21號發了一份「2026 Agentic Coding趨勢報告」,總結了8大趨勢。其中一個發現挺扎心的:AI出現在60%的開發工作中,但開發者能完全委托給AI的任務只有0-20%。

      差距就在于「系統工程能力」——不是寫單個函數的能力,而是理解整個系統、規劃架構、處理模塊間依賴、在出錯時自我糾正的能力。

      說白了,AI編程正在分成兩條路:

      一條是「審美編程」,以Gemini 3.0 Pro為代表。截圖轉代碼、一句話出漂亮頁面、視覺驅動。它做出來的前端確實好看,這沒什么好否認的。

      另一條是「系統工程」,以Opus和Codex為代表。后端架構、編譯器、微服務、長時間運行的Agent任務。不好看,但能用。

      這兩條路都有價值。但行業重心正在從前者轉向后者。

      在這個背景下,GLM-5選了后者。

      快速回顧:GLM怎么一步步走到這的

      給沒看過之前文章的讀者補個課。

      GLM-4.5(2025年7月):智譜的第一個真正能打的開源模型。當時我的評價是「能用的開源平替」。編程能力和Sonnet有差距,但日常任務夠用,關鍵是便宜。

      GLM-4.6(2025年10月):提升了不少,上下文窗口從128K擴到200K。我寫過一篇「Claude Code賬號被封?試試GLM-4.6完美平替」,當時確實幫很多人解決了問題。

      GLM-4.7(2025年12月):這代變化挺大。SWE-bench Verified達到73.8%,直逼一線。我測了5個案例,感受是審美、Coding和Agentic能力都達到了Claude Sonnet 4.5無差的水平。當時我的結論是「開源模型的新標桿」。

      每次寫完評測我都覺得「應該到頂了吧」。然后下一代又讓我改口。

      但從4.5到4.7,質的變化不大。每代都是在同一個維度上做增量——代碼寫得更好、bug更少、審美更好看。像一個程序員從初級升到高級,活干得越來越漂亮,但還是在執行層面。

      GLM-5不一樣。

      GLM-5:換了個身份

      先看規格。

      744B參數,MoE(混合專家)架構,每次推理激活40B參數。相比GLM-4.7(355B/激活32B),規模翻了一倍,預訓練數據從23T增加到28.5T。

      再看成績。


      在Artificial Analysis綜合榜單上,GLM-5排名全球第四、開源第一。

      編程能力:SWE-bench Verified拿了77.8%(Opus 4.5是80.9%,差3個百分點),Terminal-Bench 2.0拿了56.2%(Opus 4.5是59.3%,差距也不大)。這兩個榜都是開源最高。

      但更讓我意外的是Agent能力。8個榜單里,GLM-5有兩個拿了全場第一——不是開源第一,是包括Opus、Gemini、GPT在內的所有模型里的第一:BrowseComp(聯網檢索與信息理解)75.9分,比Opus 4.5的67.8高出一截;Humanity's Last Exam帶工具調用版本50.4分,同樣是全場最高。


      MCP-Atlas(工具調用與多步驟任務)、τ2-Bench(復雜多工具場景)也都是開源第一,和閉源模型幾乎打平。

      還有個挺有意思的Vending Bench 2——讓模型經營一年虛擬自動售貨機生意。GLM-5最終賬戶余額4432美元,超過了GPT-5.2的3591美元,和Opus 4.5的4967美元差距不大。

      但benchmark說到底只是考試成績。真正讓我改變看法的,是用Pony Alpha那幾天的體感。

      實測:從那個紅白機項目說起

      上周我發那篇Pony文章的時候,做了一個測試——把之前用Opus 4.6做的紅白機游戲廳網站(4700多行代碼),丟給Pony(也就是GLM-5),讓它重構成iPhone App。


      為什么說這個任務難?因為網站和App是完全不同的技術體系。網頁版跑在瀏覽器里,App跑在手機上,底層語言不一樣、界面框架不一樣、游戲模擬器的實現方式也不一樣。133款游戲的ROM文件(就是游戲卡帶的數據)和封面圖,要從網絡加載改成本地管理。整個東西等于推倒重來。

      不是翻譯代碼,是重新設計。

      GLM-5跑了2個多小時。我中途插手不到10次。

      跑完我去看了生成的代碼,說實話有點吃驚。

      最終產出6500多行代碼,比原來的網頁版還多了將近2000行。

      但代碼量不是重點,重點是它做的幾個關鍵決策。

      第一個決策:模擬器核心怎么做。紅白機游戲能在手機上跑,靠的是「模擬器」——用軟件模擬出一臺1983年的游戲機。網頁版直接用了別人寫好的模擬器庫,拿來就能用。最偷懶的做法是在iOS上也找一個現成的替代品。GLM-5沒這么干。它選了一個更難但更對的方案:用C語言從零寫了一個模擬器。CPU計算、圖像渲染、聲音處理,全部自己實現。


      第二個決策:畫面怎么渲染。它沒有用最簡單的CPU逐像素畫圖,而是選了Metal(蘋果的GPU加速方案),性能好得多。還額外寫了一個CRT復古濾鏡——加了老電視機的弧面效果、掃描線和邊緣暗角,讓游戲畫面看起來就像接在一臺老電視上。

      第三個決策:觸控手柄怎么做。手機上沒有實體手柄,得做虛擬的。它做了精確的方向識別——手指在十字鍵上滑動時能同時識別上和右(對角線輸入),中間區域設了「死區」防止誤觸。




      整個項目沒有用任何第三方庫,全部從零搭建。

      當然它也有明顯的「AI風格」問題——133款游戲的信息全部寫死在代碼里(1600多行),正常人會用配置文件來管理。收藏功能只有界面沒有存儲。這些是產品打磨的問題,不是設計能力的問題。

      這個任務讓我印象深刻的不是速度,是它做決策的方式。

      先理解整個系統的依賴關系,再決定從零搭建模擬器而不是找現成庫,再選GPU加速而不是最簡單的方案,再把代碼按職責分層組織。這是一個「架構師」的思路,不是一個「碼農」的思路。

      上次寫GLM-4.7的時候,我的原話是「審美、Coding和Agentic能力都達到了Claude Sonnet 4.5無差的水平」。注意,對標的是Sonnet。

      這次GLM-5,對標的是Opus。

      實測案例二:一句話觸發13步寫作工作流

      紅白機項目是編程任務。我想看看GLM-5在非編程場景下的Agent能力怎么樣。

      關注我的老粉應該都知道,我平時用Claude Code寫公眾號文章,有一套完整的自動化工作流——13個步驟,從信息搜索、競品掃描、選題討論、風格學習、初稿創作、三遍審校、標題矩陣、傳播力審查,一直到配圖生成。整套流程寫在一個1000多字的CLAUDE.md里,每一步都有明確的規則和工具調用要求。

      我只輸入了一句話:「幫我寫一篇介紹Seedance 2.0的公眾號文章」。

      然后我就看著它自己跑。


      GLM-5做的第一件事不是開始寫。它讀完CLAUDE.md之后,第一反應是:「根據公眾號寫作流程,我需要先搜索seedance 2.0的相關信息,然后進行選題討論,不能直接寫文章。」

      這個細節很重要。以前的模型收到「幫我寫一篇文章」,默認動作就是開始寫。GLM-5讀懂了規則,知道這套流程的第一步是搜索,不是動筆。

      接下來它搜索信息的時候,WebFetch請求失敗了(連不上火山引擎的頁面)。它沒卡住,自動轉向本地知識庫,用Grep和Glob找到了之前存的Seedance 2.0調研簡報。然后去36kr和Hacker News做了競品掃描。

      信息搜索完,它進入選題討論——提供了4個方向,每個都有標題、核心角度、工作量評估、大綱和優劣勢分析。我選了「實戰體驗型」。

      選完之后它也沒急著寫。先去讀了SHARED-RULES.md(審校規則),又讀了兩篇歷史文章學風格,還搜了個人素材庫。然后才開始寫初稿,寫完保存到草稿文件夾。


      初稿寫完,它自動開始三遍審校。我看著它一段一段地改——刪了15行加了14行、刪了19行加了9行。改完之后生成了12個標題變體供我選擇。

      然后做傳播力審查:轉發動機檢查打了4個勾(讓我顯得懂行、對朋友有用、驗證我的觀點、情緒共鳴),第一讀者模擬標記了一處「可能想劃走」的位置(競品對比部分稍長)。

      我選完標題,它又自動調用了wechat-image配圖技能,規劃了封面圖+4張正文配圖的方案,調用Gemini API生成圖片、上傳ImgBB圖床——光這一步就跑了12分鐘、20多次工具調用。

      最終交付了一篇約2000字的完整文章,5張配圖(封面+4張正文圖),所有圖片都是網絡鏈接,可以直接復制到飛書用。從我輸入那句話到拿到成品,總共大概28分鐘。13步流程,一步沒跳。


      這個測試讓我想起一個比喻。以前的AI編程是「你說一步,它做一步」,像導航軟件——每到一個路口告訴你左轉右轉。GLM-5更像一個經驗豐富的司機,你說「去機場」,它自己知道走哪條路、哪里該拐彎、遇到堵車怎么繞。

      兩個案例加在一起,我覺得GLM-5和之前幾代最大的不同就一個詞:持久力

      之前用GLM-4.7接Claude Code,還是會出現上下文丟失、指令遵循變差的問題。這是很多agentic模型都有的通病,跑著跑著就「忘了自己在干什么」。GLM-5在這方面的改進我覺得是最關鍵的——2小時重構6500行代碼、28分鐘走完13步寫作流程,全程沒有丟失上下文,沒有跳步。

      這意味著你可以給它一個大任務,讓它跑半小時、一小時甚至更久。不是那種「你盯著它干完一個函數」的用法,是真正的自動化工程。Anthropic那個16個Claude寫編譯器的案例,換成GLM-5,理論上也能做類似的事情。區別是——GLM-5是開源的,不需要付Opus的錢。

      不只是「平替」了

      從GLM-4.5開始寫評測,我一直用的詞是「平替」。性價比高、夠用、便宜。隱含的意思是:不如Opus,但能湊合。

      GLM-5讓我覺得這個詞不太準確了。它和Opus還有差距,但已經不是「湊合用」的水平。

      綜合榜全球第四、開源第一。編程榜單和Opus差3個百分點,Agent榜單有兩個拿了全場第一。官方的說法是「使用體感逼近Opus 4.5」——注意,是逼近,不是追平。整體上Opus仍然更強,但差距已經肉眼可見地縮小了。

      但在我最常用的場景——接入Claude Code做項目級開發——GLM-5的表現已經讓我覺得「很多任務不用每次都切回Opus了」。

      價格差距就更明顯了。Opus每百萬token輸入$5、輸出$25。GLM編程訂閱最低20元/月。

      之前我的工作流是「Opus當大腦規劃,GLM當手腳執行」。現在很多場景下,GLM-5自己也能規劃、也能執行。不是所有場景,但比以前多多了。

      從GLM-4.5到GLM-5,大概一年半的時間。

      4.5是能用的初級程序員。4.6是靠譜的中級程序員。4.7是讓人驚喜的高級程序員。

      GLM-5不再是程序員了。它是架構師。

      不是說它寫的每一行代碼都完美,沒有模型能做到。但它思考問題的方式變了。以前你得告訴它「寫一個函數,輸入是什么,輸出是什么」。現在你可以說「我要解決這個問題」,它自己來設計怎么解。

      這正好呼應了整個行業的趨勢。Karpathy說Vibe Coding過時了,AI編程正在進入Agentic Engineering時代。Opus和Codex選了這條路。GLM-5是開源界最早一批跟上來的。

      如果你需要的是一句話生成漂亮網頁,選別的也行。如果你需要一個能接入Claude Code/OpenClaw/OpenCode幫你做工程的模型,20元/月,GLM-5值得試試。

      Agentic Engineering時代,開源陣營終于有了自己的架構師。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      九方魚論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      財聯社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      聽我說球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說游戲
      2026-04-28 16:31:31
      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      丁丁鯉史紀
      2026-05-05 10:33:14
      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      狐貍先森講升學規劃
      2026-05-06 05:35:03
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      界面新聞
      2026-05-11 12:33:18
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      時分秒說
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      安安說
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      200文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      藝術
      教育
      數碼
      親子
      軍事航空

      藝術要聞

      2026中央美術學院博士生畢業作品選

      教育要聞

      奔赴一場英法教育之旅,遇見更好的未來

      數碼要聞

      聯想YOGA Air 14 Ultra筆記本官宣5月19日發布

      親子要聞

      孩子心疼父母,反而是對家的傷害?

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本护士一区二区| 看亚洲黄色不在线网占| 精品久久久久久亚洲综合网 | 精品人妻少妇| 亚洲精品视频在线观看视频| 国产精品国产三级国快看| 国产日韩一区二区在线| H色无码网站| 婷婷丁香六月| 成人小说一区二区三区| 小泽玛利亚区二区在线| 超碰人人人人| 97久久精品午夜一区二区| 国产成人精品一区二区秒拍1o| 一本色道久久综合无码欧美| 在线永久免费观看的毛片| 成年女人片免费视频播放A| 国语精品自产拍在线观看网站| 日韩亚洲精品国产第二页| 婷婷伊人綜合中文字幕小说| 狠狠精品久久久无码中文字幕| 96色色| 野外做受三级视频| 久久精品国产亚洲av麻| 又长又大又黑又粗欧美| 久热这里只有精品视频3| 亚洲香蕉av一区二区蜜桃| 国产精品午夜福利合集| 97久久精品人人澡人人爽| 五月丁香婷婷综合网| 狠狠操在线视频| 亚洲国产日韩欧美一区二区三区| 国产不卡在线一区二区| 新91视频在线观看www| 日韩肏屄一区二区| 久久精品性无码一区二区爱爱| 亚洲中文字幕国产综合| 黑人无码视频| 亚洲一页在线| 首页 综合国产 亚洲 丝袜日本| av在线日韩|