![]()
作者 | 四月
4 月 20 日深夜,Kimi K2.6 發布并開源。它最值得被探討的,并非又贏了幾個 Benchmark,跑分逼平乃至反超海外三巨頭。這些數字反映的更多是理論上限,而非你我實際上手時的真實水平。
![]()
圖注:K2.6 基準測試成績。在 DeepSearchQA、SWE-Bench Pro 等核心 Agent 與代碼評測項目中位居第一,在 Humanity's Last Exam 等博士級難度測試中持平或優于三巨頭(GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro),整體成績處于同級別模型的第一梯隊。
K2.6 更現實的意義,還在于它拋出了一個關鍵命題:
當模型步入 Agent 時代,競爭內核已從“單次作答的靈光乍現”,躍遷為“多步執行的善始善終”。Agent 的價值不再停留于輸出答案,而在于多步執行、對象管理、結構維護與增量更新中的系統承載能力。
這才是新一代模型真正的分水嶺。
循此判斷,筆者摒棄了常規的單點用例測試,轉而借 Andrej Karpathy 的 AI Wiki 思路,設計了一組高承壓任務。這套思路自 AK 大神在本月初提出,迅速出圈狂攬兩千萬曝光,被視為“檢索增強的下一代范式”。
![]()
測試目的直指 Agent 底層能力:它能否超越單純的“內容生成”,展現出將內容組織為結構、將結構推進為系統的建構能力。
比寫代碼難得多的任務
如果只是驗證代碼能力,最簡單的做法是復現網頁、寫個應用。直接,出活快。但這測的只是局部優勢,而非 Agent 的工作流承接力。
所以,Andrej Karpathy 的 AI Wiki 成了更優選。它表面是搭網站,內核卻是一套知識編譯系統。這也正是它比普通 RAG(檢索增強生成) 更難的地方。
![]()
圖注:基于 K2.6 Agent 搭建的一套 Harness Engineering Wiki,已形成可檢索、可路由、可寫回的知識閉環系統,具備持續演化的工程知識庫形態。效果可參見:https://f24e2z3zeghre.beta-ok.kimi.link/
很多人一聽“AI 知識庫”,認為還是老一套:切片、建索引、檢索、生成。每次問答都從零開始,毫無沉淀。
而 AK 大神的破局點,正在于把“查資料”變成了“整理知識”,將無狀態檢索(即沒有記憶,不留痕跡)推進為有狀態編譯。這體現在 Wiki 極清晰的三層架構上:
![]()
架構之外,更有精髓。AI Wiki 的真正價值,在于把知識系統的重心從“文檔展示”轉向了“對象構建”。原始資料喂進去,不直接吐長文,而是先拆解為主題、概念和來源,再織成一張可檢索、可連接、可擴展的網絡。
頁面 UI 只是表皮,底層真正拷問的是:對象穩不穩?關系立不立得住?新信息進來,舊結構會不會崩?
但原版的 Wiki 思路不是沒有短板:偏本地。它回避了線上系統的致命問題:對象如何持久化?增量如何接入?舊結構如何防覆蓋?前后臺如何同步?
所以,這一次我們不做簡單復刻,而是將其從一套離線編譯流程,改造為可在線運行、持續更新、前臺可訪問的知識網絡。從離線走向在線,從生成走向系統。
這也天然地覆蓋了當前 Agent 最該被檢驗的五大能力:
長鏈執行:持續推進,而非單輪結束
結構組織:拆為對象,而非停留于段落
系統維護:新信息入網,舊結構不崩
前臺落地:組織成可用的界面,而非僅存于后臺
任務拆解:規模擴大時,能否并行處理
為什么要用 K2.6 來測?
Kimi K2.6 值得測,恰恰在于它這次強化的幾條主線,與這類任務高度重合。
從官方披露的信息看,K2.6 的提升并不只停留在參數和榜單,而是明確落在了三種更接近系統任務的能力上:長鏈執行、Vibe Coding 與 Agent 集群。
先看長鏈執行。官方給出的案例里,K2.6 能在復雜任務中連續運行 12 小時以上、調用上千次工具、完成 4000 余行代碼修改;在主動式 Agent 框架中,甚至給出了最長 5 天持續自主運行的能力描述。
這類指標的意義,不只是“它更耐跑了”,而是它開始具備承接持續任務的基本條件。
![]()
而 AI Wiki 恰恰不是一次性生成任務,它要求模型能夠在對象抽取、關系組織、頁面生成和后續維護之間不斷往返。沒有足夠強的長鏈穩定性,這類任務很容易在中途塌掉。
再看 Vibe Coding。K2.6 這次另一條被明顯強化的能力,是將代碼、視覺理解與前端表達結合起來,直接交付專業級 Web 應用。對于 AI Wiki 來說,這一點并不只是“頁面更好看”——它意味著模型不只要會整理知識,還要能把知識網絡做成一個可瀏覽、可使用、可繼續擴展的前臺系統。
換句話說,AI Wiki 不是純知識抽取任務,必須落地成可瀏覽、可交互的前臺界面。這正是 K2.6 突出的強項。
最后是 Agent 集群。官方披露,K2.6 的集群架構最高支持 300 個子 Agent 協同,并且明確強調了它在搜索、深度研究、文檔分析和長文創作等任務中的協同能力。
這對于 AI Wiki 也非常關鍵。因為一旦輸入資料一多,任務就很容易從“一個 Agent 持續推進”轉向“多個 Agent 分工處理”。也就是說,AI Wiki 不只是一條長鏈任務,它天然也具備被 Swarm 化的潛力。
具體來看,這次任務至少包括四個關鍵環節:
消化與編譯(Raw Source → 結構化對象)原始文本不能直接當正文展示,必須先被拆解、提純,編譯成主題、概念、對比關系與來源,形成結構化對象層。難點在于:多步驟信息處理中,模型的準確性和連貫性在這里最先暴露。
聯網與落地(對象層 → 可用前臺系統)基于編譯結果生成 Topic 頁、Concept 頁、對比頁、關系圖譜,并保證頁面之間形成跳轉閉環。這考察的是 Vibe Coding 能力:結構能不能真正變成可用的產品。
調用與反哺(知識問答 → 持續沉淀)頁面之間不只有鏈接,還要能表達相似關系、對比關系和來源回溯,把"頁面集合"推進成"知識網絡"。跨頁面操作中的一致性,是這一步的核心考驗。
維護與演化(增量接入 → 系統自愈)新資料進入后,系統要能繼續觸發編譯,支持斷鏈檢查和重復概念識別。這測的不是一次性生成的驚艷,而是長程運行中的自我修復與持續生長能力。
此外,為更完整地觀察 K2.6 在不同任務組織方式下的能力邊界,這次測試并不只在一個執行環境中完成,而是分別考察了它在單 Agent 、 Agent 網站 和 Agent Swarm (集群)三種模式下的表現:
其中,單 Agent 作為基線,網頁端 Agent 重點考察連續施工能力,Swarm Agent 則進一步測試復雜任務的拆解與協作組織能力。
單 Agent 基準:
系統骨架成型,知識閉環待補
如果只給 K2.6 一個基礎單 Agent 執行環境作為基準水平,它的表現可以概括為一句話:前臺成型很快,系統感很強,但知識閉環最初并沒有自然成立。
它最先兌現的,是兩項能力。
這輪測試里,K2.6 最先體現出來的,不是單點頁面生成能力,而是把復雜任務持續推進成一個完整原型的能力。圍繞我們給出的要求,它先后完成了信息架構設計、對象層拆解、頁面路由搭建和主要交互補全,逐步做出了賬號登錄、工作臺、知識索引、主題頁 / 概念頁、問答 / 洞察面板以及知識圖譜等核心模塊。
![]()
從結果上看,這已經不是一個零散頁面集合,而是一套具備明確結構和產品感的知識網絡雛形。
這里最值得強調的,首先是它的長鏈條任務能力。
AI Wiki 不是一次性生成任務,而是一個需要在資料輸入、知識編譯、頁面生成、關系組織和后續維護之間反復往返的長鏈工作流。K2.6 在單 Agent 模式下,已經表現出了承接這類任務的基本穩定性:它不是完成一個頁面就停,而是能沿著既有上下文持續往前推進,把任務一步步從“做頁面”推向“搭系統”。
這一點很重要,因為如果沒有足夠強的長鏈穩定性,這類任務通常會很快退化成局部補丁,而無法積累成完整結構。
第二個更突出的優點,是它的自我修復能力。
單 Agent 模式下,K2.6 并不是一開始就把所有鏈路都做對了,但它有很強的“沿著當前系統繼續修”的能力:頁面缺入口,就補路由;對象層不完整,就補實體;跳轉不閉環,就補詳情頁;圖譜數據不夠,就繼續補關系讀取。
這種能力的價值在于,它不只是生成一次結果,而是能在連續上下文中維持系統狀態,對已有結構做增量修正。這比“第一版就完美”更接近真實工程任務,也更能體現 Agent 的實際承接能力。
同時,K2.6 的Vibe Coding能力在這一輪里也相當突出。它不僅能把知識對象落成前臺,還能迅速做出風格統一、結構清晰、適合展示的產品界面。換句話說,單 Agent 模式下,它已經證明自己不只是會寫頁面,而是能把抽象任務迅速組織成一個“像樣的系統原型”。
當然,單 Agent 的邊界也在這一輪里顯露出來。最核心的問題不是頁面是否成型,而是知識鏈路不會隨著頁面一起自動成立。也就是說,前臺可以很快搭出來,但知識編譯、問答調用和沉淀閉環,初始狀態下往往還需要繼續補強。
更進一步:從單點執行到系統組織
單 Agent 已經給出了基線:它能把復雜任務壓成系統原型。接下來的問題是,當執行環境增強,K2.6 能把任務推進多深?
從結果看,網頁端 Agent 和 Swarm 模式都帶來了明顯提升,但方向截然不同:網頁端 Agent 強化了對同一系統的連續施工與修正能力;Swarm 模式強化了對復雜任務的拆解、分工與編排能力。
4.1 Agent 網站模式:更強的連續施工能力
“Agent 網站”最突出的特質,不是多做了幾個頁面,而是能在同一套系統上連續迭代。
![]()
圖注:Agent 網站模式的體驗入口
在測試中,它圍繞既有知識網絡持續補全:從編譯管線、狀態處理到知識圖譜,始終保持了極強的上下文延續性。對于 AI Wiki 這類任務,最難的從來不是初版原型,而是多輪修改后系統不散架:對象層有沒有被保留?邏輯有沒有被延續?網頁端 Agent 在這一點上表現出了真正的工程連貫性。
更進一步,它的核心優勢在于能不斷重新識別系統的真實約束。
![]()
最典型的例子是登錄與數據庫的實現:它先按標準全棧思路做了認證和持久化,但部署后迅速察覺靜態環境無法承載后端服務,于是果斷切回本地持久化方案,把產品重新拉回可運行狀態。
當然,它的邊界也依然存在。Agent 網站模式的典型問題,不是不會推進,而是容易先把前臺和交互做成立,再逐步追補底層鏈路。
4.2 Agent Swarm 模式:不再硬扛,開始組織系統開發
如果說網頁端 Agent 是更強的執行器,那么 Swarm 模式帶來的則是質的躍遷:它讓 K2.6 嘗試把任務本身組織成一個可拆分、可協作、可調度的系統工程。
![]()
在測試中,Swarm 不再滿足于修補現有網絡,而是把開發過程抽象成了一套集群工作流:定義 Research、Architect、Compiler 等角色,制定流程模板、命令系統、狀態機與消息協議,甚至做出了任務流可視化。
![]()
這種變化極其關鍵。AI Wiki 天然是多線程任務,研究、編譯、生成、維護如果全壓在一個 Agent 身上,長鏈路很容易出現崩潰。Swarm 給出的是系統工程的解法:不把所有事硬扛,而是先拆成角色,再組織成流程。
它的深層價值,在于極強的抽象表達能力。它能把零散的開發過程,重寫成結構化的方法體系——誰先做、誰負責、怎么流轉、交付什么。這意味著它不僅在執行項目,更在生成一份可復用的“開發語法”。
能力形態開始從“完成一次任務”躍升為“為同類任務生成可復制框架”。
然而,Swarm 的邊界也很清楚:方法論和協作框架做得漂亮,但具體執行細節未必同等扎實。不過這恰好印證了它的核心定位:它不是更強的執行模式,而是讓復雜任務進入“可分工、可編排、可復用”狀態的能力放大器。
4.3 三種模式,三層系統能力
將三種模式放在同一坐標系,比較三者各自最有代表性的能力形態與能力本質更為清晰。
![]()
從“單輪聰明”到“長鏈存活”
這輪評測下來,我越來越清晰地感受到:模型競爭的重心正在改變。
真正重要的,已經不只是回答得像不像、寫得好不好,而是它能不能在真實任務里持續推進、持續修補,并最終把結果落成一個可用的系統。
單 Agent 搭骨架、Agent 網頁通經絡、 Agent Swarm 做編排,這不僅是對 K2.6 的能力測繪,更是行業下一階段的預演。
Agent 時代,競爭深水區,已從“誰生成質量更高”轉為了“誰的系統存活率更高”。
市場早已厭倦了單輪聰明的玩具。當下真正需要的,是三種硬核特質的系統融合:抗衰減的長鏈可靠性、遇阻即改的路徑校準力、面向系統的結構編排力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.