網易首頁 > 網易號 > 正文申請入駐

在AK大神爆火的任務里，摸清國產AI真實水平

2026-04-22 14:36:41　來源: InfoQ

北京舉報

分享至

作者 | 四月

4 月 20 日深夜，Kimi K2.6 發布并開源。它最值得被探討的，并非又贏了幾個 Benchmark，跑分逼平乃至反超海外三巨頭。這些數字反映的更多是理論上限，而非你我實際上手時的真實水平。

圖注：K2.6 基準測試成績。在 DeepSearchQA、SWE-Bench Pro 等核心 Agent 與代碼評測項目中位居第一，在 Humanity's Last Exam 等博士級難度測試中持平或優于三巨頭（GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro），整體成績處于同級別模型的第一梯隊。

K2.6 更現實的意義，還在于它拋出了一個關鍵命題：

當模型步入 Agent 時代，競爭內核已從“單次作答的靈光乍現”，躍遷為“多步執行的善始善終”。Agent 的價值不再停留于輸出答案，而在于多步執行、對象管理、結構維護與增量更新中的系統承載能力。

這才是新一代模型真正的分水嶺。

循此判斷，筆者摒棄了常規的單點用例測試，轉而借 Andrej Karpathy 的 AI Wiki 思路，設計了一組高承壓任務。這套思路自 AK 大神在本月初提出，迅速出圈狂攬兩千萬曝光，被視為“檢索增強的下一代范式”。

測試目的直指 Agent 底層能力：它能否超越單純的“內容生成”，展現出將內容組織為結構、將結構推進為系統的建構能力。

比寫代碼難得多的任務

如果只是驗證代碼能力，最簡單的做法是復現網頁、寫個應用。直接，出活快。但這測的只是局部優勢，而非 Agent 的工作流承接力。

所以，Andrej Karpathy 的 AI Wiki 成了更優選。它表面是搭網站，內核卻是一套知識編譯系統。這也正是它比普通 RAG（檢索增強生成）更難的地方。

圖注：基于 K2.6 Agent 搭建的一套 Harness Engineering Wiki，已形成可檢索、可路由、可寫回的知識閉環系統，具備持續演化的工程知識庫形態。效果可參見：https://f24e2z3zeghre.beta-ok.kimi.link/

很多人一聽“AI 知識庫”，認為還是老一套：切片、建索引、檢索、生成。每次問答都從零開始，毫無沉淀。

而 AK 大神的破局點，正在于把“查資料”變成了“整理知識”，將無狀態檢索（即沒有記憶，不留痕跡）推進為有狀態編譯。這體現在 Wiki 極清晰的三層架構上：

架構之外，更有精髓。AI Wiki 的真正價值，在于把知識系統的重心從“文檔展示”轉向了“對象構建”。原始資料喂進去，不直接吐長文，而是先拆解為主題、概念和來源，再織成一張可檢索、可連接、可擴展的網絡。

頁面 UI 只是表皮，底層真正拷問的是：對象穩不穩？關系立不立得住？新信息進來，舊結構會不會崩？

但原版的 Wiki 思路不是沒有短板：偏本地。它回避了線上系統的致命問題：對象如何持久化？增量如何接入？舊結構如何防覆蓋？前后臺如何同步？

所以，這一次我們不做簡單復刻，而是將其從一套離線編譯流程，改造為可在線運行、持續更新、前臺可訪問的知識網絡。從離線走向在線，從生成走向系統。

這也天然地覆蓋了當前 Agent 最該被檢驗的五大能力：

長鏈執行：持續推進，而非單輪結束
結構組織：拆為對象，而非停留于段落
系統維護：新信息入網，舊結構不崩
前臺落地：組織成可用的界面，而非僅存于后臺
任務拆解：規模擴大時，能否并行處理

為什么要用 K2.6 來測？

Kimi K2.6 值得測，恰恰在于它這次強化的幾條主線，與這類任務高度重合。

從官方披露的信息看，K2.6 的提升并不只停留在參數和榜單，而是明確落在了三種更接近系統任務的能力上：長鏈執行、Vibe Coding 與 Agent 集群。

先看長鏈執行。官方給出的案例里，K2.6 能在復雜任務中連續運行 12 小時以上、調用上千次工具、完成 4000 余行代碼修改；在主動式 Agent 框架中，甚至給出了最長 5 天持續自主運行的能力描述。

這類指標的意義，不只是“它更耐跑了”，而是它開始具備承接持續任務的基本條件。

而 AI Wiki 恰恰不是一次性生成任務，它要求模型能夠在對象抽取、關系組織、頁面生成和后續維護之間不斷往返。沒有足夠強的長鏈穩定性，這類任務很容易在中途塌掉。

再看 Vibe Coding。K2.6 這次另一條被明顯強化的能力，是將代碼、視覺理解與前端表達結合起來，直接交付專業級 Web 應用。對于 AI Wiki 來說，這一點并不只是“頁面更好看”——它意味著模型不只要會整理知識，還要能把知識網絡做成一個可瀏覽、可使用、可繼續擴展的前臺系統。

換句話說，AI Wiki 不是純知識抽取任務，必須落地成可瀏覽、可交互的前臺界面。這正是 K2.6 突出的強項。

最后是 Agent 集群。官方披露，K2.6 的集群架構最高支持 300 個子 Agent 協同，并且明確強調了它在搜索、深度研究、文檔分析和長文創作等任務中的協同能力。

這對于 AI Wiki 也非常關鍵。因為一旦輸入資料一多，任務就很容易從“一個 Agent 持續推進”轉向“多個 Agent 分工處理”。也就是說，AI Wiki 不只是一條長鏈任務，它天然也具備被 Swarm 化的潛力。

具體來看，這次任務至少包括四個關鍵環節：

消化與編譯（Raw Source → 結構化對象）原始文本不能直接當正文展示，必須先被拆解、提純，編譯成主題、概念、對比關系與來源，形成結構化對象層。難點在于：多步驟信息處理中，模型的準確性和連貫性在這里最先暴露。
聯網與落地（對象層 → 可用前臺系統）基于編譯結果生成 Topic 頁、Concept 頁、對比頁、關系圖譜，并保證頁面之間形成跳轉閉環。這考察的是 Vibe Coding 能力：結構能不能真正變成可用的產品。
調用與反哺（知識問答 → 持續沉淀）頁面之間不只有鏈接，還要能表達相似關系、對比關系和來源回溯，把"頁面集合"推進成"知識網絡"。跨頁面操作中的一致性，是這一步的核心考驗。
維護與演化（增量接入 → 系統自愈）新資料進入后，系統要能繼續觸發編譯，支持斷鏈檢查和重復概念識別。這測的不是一次性生成的驚艷，而是長程運行中的自我修復與持續生長能力。

此外，為更完整地觀察 K2.6 在不同任務組織方式下的能力邊界，這次測試并不只在一個執行環境中完成，而是分別考察了它在單 Agent 、 Agent 網站和 Agent Swarm （集群）三種模式下的表現：

其中，單 Agent 作為基線，網頁端 Agent 重點考察連續施工能力，Swarm Agent 則進一步測試復雜任務的拆解與協作組織能力。

單 Agent 基準：
系統骨架成型，知識閉環待補

如果只給 K2.6 一個基礎單 Agent 執行環境作為基準水平，它的表現可以概括為一句話：前臺成型很快，系統感很強，但知識閉環最初并沒有自然成立。

它最先兌現的，是兩項能力。

這輪測試里，K2.6 最先體現出來的，不是單點頁面生成能力，而是把復雜任務持續推進成一個完整原型的能力。圍繞我們給出的要求，它先后完成了信息架構設計、對象層拆解、頁面路由搭建和主要交互補全，逐步做出了賬號登錄、工作臺、知識索引、主題頁 / 概念頁、問答 / 洞察面板以及知識圖譜等核心模塊。

從結果上看，這已經不是一個零散頁面集合，而是一套具備明確結構和產品感的知識網絡雛形。

這里最值得強調的，首先是它的長鏈條任務能力。

AI Wiki 不是一次性生成任務，而是一個需要在資料輸入、知識編譯、頁面生成、關系組織和后續維護之間反復往返的長鏈工作流。K2.6 在單 Agent 模式下，已經表現出了承接這類任務的基本穩定性：它不是完成一個頁面就停，而是能沿著既有上下文持續往前推進，把任務一步步從“做頁面”推向“搭系統”。

這一點很重要，因為如果沒有足夠強的長鏈穩定性，這類任務通常會很快退化成局部補丁，而無法積累成完整結構。

第二個更突出的優點，是它的自我修復能力。

單 Agent 模式下，K2.6 并不是一開始就把所有鏈路都做對了，但它有很強的“沿著當前系統繼續修”的能力：頁面缺入口，就補路由；對象層不完整，就補實體；跳轉不閉環，就補詳情頁；圖譜數據不夠，就繼續補關系讀取。

這種能力的價值在于，它不只是生成一次結果，而是能在連續上下文中維持系統狀態，對已有結構做增量修正。這比“第一版就完美”更接近真實工程任務，也更能體現 Agent 的實際承接能力。

同時，K2.6 的Vibe Coding能力在這一輪里也相當突出。它不僅能把知識對象落成前臺，還能迅速做出風格統一、結構清晰、適合展示的產品界面。換句話說，單 Agent 模式下，它已經證明自己不只是會寫頁面，而是能把抽象任務迅速組織成一個“像樣的系統原型”。

當然，單 Agent 的邊界也在這一輪里顯露出來。最核心的問題不是頁面是否成型，而是知識鏈路不會隨著頁面一起自動成立。也就是說，前臺可以很快搭出來，但知識編譯、問答調用和沉淀閉環，初始狀態下往往還需要繼續補強。

更進一步：從單點執行到系統組織

單 Agent 已經給出了基線：它能把復雜任務壓成系統原型。接下來的問題是，當執行環境增強，K2.6 能把任務推進多深？

從結果看，網頁端 Agent 和 Swarm 模式都帶來了明顯提升，但方向截然不同：網頁端 Agent 強化了對同一系統的連續施工與修正能力；Swarm 模式強化了對復雜任務的拆解、分工與編排能力。

4.1 Agent 網站模式：更強的連續施工能力

“Agent 網站”最突出的特質，不是多做了幾個頁面，而是能在同一套系統上連續迭代。

圖注：Agent 網站模式的體驗入口

在測試中，它圍繞既有知識網絡持續補全：從編譯管線、狀態處理到知識圖譜，始終保持了極強的上下文延續性。對于 AI Wiki 這類任務，最難的從來不是初版原型，而是多輪修改后系統不散架：對象層有沒有被保留？邏輯有沒有被延續？網頁端 Agent 在這一點上表現出了真正的工程連貫性。

更進一步，它的核心優勢在于能不斷重新識別系統的真實約束。

最典型的例子是登錄與數據庫的實現：它先按標準全棧思路做了認證和持久化，但部署后迅速察覺靜態環境無法承載后端服務，于是果斷切回本地持久化方案，把產品重新拉回可運行狀態。

當然，它的邊界也依然存在。Agent 網站模式的典型問題，不是不會推進，而是容易先把前臺和交互做成立，再逐步追補底層鏈路。

4.2 Agent Swarm 模式：不再硬扛，開始組織系統開發

如果說網頁端 Agent 是更強的執行器，那么 Swarm 模式帶來的則是質的躍遷：它讓 K2.6 嘗試把任務本身組織成一個可拆分、可協作、可調度的系統工程。

在測試中，Swarm 不再滿足于修補現有網絡，而是把開發過程抽象成了一套集群工作流：定義 Research、Architect、Compiler 等角色，制定流程模板、命令系統、狀態機與消息協議，甚至做出了任務流可視化。

這種變化極其關鍵。AI Wiki 天然是多線程任務，研究、編譯、生成、維護如果全壓在一個 Agent 身上，長鏈路很容易出現崩潰。Swarm 給出的是系統工程的解法：不把所有事硬扛，而是先拆成角色，再組織成流程。

它的深層價值，在于極強的抽象表達能力。它能把零散的開發過程，重寫成結構化的方法體系——誰先做、誰負責、怎么流轉、交付什么。這意味著它不僅在執行項目，更在生成一份可復用的“開發語法”。

能力形態開始從“完成一次任務”躍升為“為同類任務生成可復制框架”。

然而，Swarm 的邊界也很清楚：方法論和協作框架做得漂亮，但具體執行細節未必同等扎實。不過這恰好印證了它的核心定位：它不是更強的執行模式，而是讓復雜任務進入“可分工、可編排、可復用”狀態的能力放大器。

4.3 三種模式，三層系統能力

將三種模式放在同一坐標系，比較三者各自最有代表性的能力形態與能力本質更為清晰。

從“單輪聰明”到“長鏈存活”

這輪評測下來，我越來越清晰地感受到：模型競爭的重心正在改變。

真正重要的，已經不只是回答得像不像、寫得好不好，而是它能不能在真實任務里持續推進、持續修補，并最終把結果落成一個可用的系統。

單 Agent 搭骨架、Agent 網頁通經絡、 Agent Swarm 做編排，這不僅是對 K2.6 的能力測繪，更是行業下一階段的預演。

Agent 時代，競爭深水區，已從“誰生成質量更高”轉為了“誰的系統存活率更高”。

市場早已厭倦了單輪聰明的玩具。當下真正需要的，是三種硬核特質的系統融合：抗衰減的長鏈可靠性、遇阻即改的路徑校準力、面向系統的結構編排力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.