![]()
Agent 進入新階段。
作者|連冉
編輯|鄭玄
當一個 AI 系統(tǒng)可以在無人工干預的情況下,獨立完成一個復雜項目的完整交付,以及,當這些能力開始可以被復用、被沉淀為「技能」,AI 在職場中的角色,是否已經發(fā)生了本質變化?
OpenClaw 這波熱潮帶動了大模型競爭進入深水區(qū),賽道的分水嶺,從「誰更強」,轉向了「誰能真正交付生產力」。自主 Agent 的落地能力、工程化適配水平以及長時穩(wěn)定運行的可靠性,也正在成為新的核心評判標準。
但現(xiàn)實問題依然存在:即便頭部模型持續(xù)迭代,大多數產品仍停留在「分步驟生成單一內容」的階段。面對復雜的企業(yè)與職場任務,要么無法完成全流程閉環(huán),需要人工反復拼接與修正;要么難以沉淀可復用經驗,在規(guī)模化場景中始終無法落地,每一次執(zhí)行都要從零開始。這種「碎片化、一次性」的能力形態(tài),仍然難以支撐真實生產需求。
在這一背景下,月之暗面發(fā)布的開源基座模型 Kimi K2.6,給出了一種更具針對性的解法。
![]()
Kimi K2.6 是當前全球開源權重(Open Weights)大模型綜合能力 SOTA|圖片來源:X
作為 Kimi 迄今最強開源底座,K2.6 在代碼能力與 Agent 運行可靠性上實現(xiàn)躍遷,更關鍵的是,在產品層將兩項核心能力推向實用階段:一是 Agent 集群單次運行即可完成多類型產物的端到端交付,二是將 Office 文檔轉化為可復用技能(document to skill),讓經驗得以沉淀與調用。
同時,在 K2.5 已引入的 Agent 集群基礎上,K2.6 進一步強化了規(guī)模化執(zhí)行能力。新引入的 Claw Group 這一新形態(tài),推動 OpenClaw、Hermes Agent 框架的自主 Agent 從單體執(zhí)行走向「團隊協(xié)作」。
這意味著,AI 開始具備組織級的任務拆解與協(xié)同能力。某種程度上,這已經不再是一次常規(guī)的模型升級——當 AI 能夠交付完整成果,并沉淀可復用能力,Agent 賽道的競爭邏輯,也隨之被重新改寫。
01
場景實測:
Kimi K2.6 的核心能力,到底強在哪?
拋開概念,回到企業(yè)辦公與開發(fā)的真實場景,Kimi K2.6 的核心能力表現(xiàn)如何?
我們嘗試聚焦兩個關鍵問題展開驗證:其一,AI 能否在無人工干預的情況下,完成復雜任務的全流程交付;其二,AI 能否將既有辦公經驗與模板規(guī)則轉化為可復用能力,從而減少重復勞動。圍繞這兩個維度,我們設計了兩組高頻職場場景進行實測,以檢驗其實際落地價值。
場景一——Agent 集群驅動的規(guī)模化多產物交付的測試指令為:圍繞「2026 AI Agent 行業(yè)發(fā)展」,一次性生成深度分析報告、數據統(tǒng)計 Excel、商務匯報 PPT 以及可視化展示網站四類產物,要求全程無人工干預,且內容同源、結構規(guī)范。
視頻來源:極客公園
這次實測運行了將近一小時,K2.6 在這次「無人工干預」測試中,表現(xiàn)出一種接近工程系統(tǒng)的成熟度,其中有三個環(huán)節(jié)尤為關鍵。
首先是 Agent 集群的「組織化」協(xié)同,這是最核心的亮點。在回溯錄屏中,可以清晰看到系統(tǒng)如何將一個宏大的宏觀課題(2026 AI Agent 行業(yè)發(fā)展),自主拆解為 12 個維度的子任務,并同時拉起 12 個子 Agent(從市場規(guī)模、競爭格局到安全隱私等)進行并行的深度研究。隨后,又在撰寫階段拉起 6 個 Agent 認領不同章節(jié)。這種類似「主架構師分配任務 + 基層研究員并行干活」的 Map-Reduce 邏輯,真正打破了單體模型長度和注意力的物理限制。
其次是內置的「交叉驗證與沖突解決」機制,在 Phase 4 和 Phase 5 階段,系統(tǒng)并沒有直接將 12 個子 Agent 的檢索結果暴力拼接,而是執(zhí)行了明確的 12 維度文件交叉驗證(如校驗市場規(guī)模預估、CAGR 數據是否沖突)。這種引入「校驗層」的設計,是提升長文本和深度報告事實準確性(Factuality)的決定性一步,大幅降低了 AI 產出「幻覺」的概率。
最后是端到端的同源多產物交付,從一份底層 Markdown 研究資料,原生分發(fā)為 3.7MB 的深度 Word 報告、包含多種圖表類型的 Excel、16 頁以上的 PPT,甚至是帶有 React 動效的可視化 Web 站點。確保了「四類產物,同源同質」,徹底免去了人類員工在不同軟件之間復制粘貼、重新排版的割裂感。
當工具開始展現(xiàn)出獨立承接完整工程項目的能力時,數字世界的生產關系確實在被重塑。
盡管系統(tǒng)演示了完美的閉環(huán),但這次測試同樣暴露出一個關鍵問題。
長時任務依然存在黑盒風險與「節(jié)點把控」缺失,運轉一小時意味著極高的「試錯成本」。如果 Agent 在前 15 分鐘的「方向理解」或「大綱設定」上出現(xiàn)了偏差,用戶只能在等待一小時后面對一堆南轅北轍的精美廢料。無需人工干預固然輕松,但真的不預留人工干預的環(huán)節(jié),可能也會有其他問題。
視頻來源:極客公園
在這個網站生成案例中,可以看到,從找客戶、做調研,到內容生成、設計開發(fā),再到網站上線與結果匯總,全部由 AI 一次性完成。除了通過 Agent 集群實現(xiàn)類似「包工頭+分工團隊」的并行協(xié)作,大規(guī)模任務也能有序推進;同時還具備「千店千面」的定制能力,不同行業(yè)對應不同視覺風格,而非模板化復制;并且對復雜指令的執(zhí)行精度也很高,能夠嚴格遵守約束條件并完成一站式交付(包括網站與配套 Excel 方案)。
而且這套系統(tǒng)的審美,已經可以達到一個比較成熟的「中級網頁設計師」水平。如果放在實際商業(yè)場景里——尤其是電商落地頁或品牌展示頁——整體表現(xiàn)是合格甚至偏上的,風格統(tǒng)一、表達清晰,也基本符合當前主流審美規(guī)范。
具體來看,它最突出的能力在于對「風格與場景匹配」的把握。不同類型的頁面,會自動切換對應的視覺語言,而不是簡單套用統(tǒng)一模板。
比如在偏街頭、復古的場景中,它會使用深色背景、高對比配色,以及更具沖擊力的字體和動態(tài)元素,整體呈現(xiàn)出較強的個性與氛圍感;而在花店這類偏柔和的場景中,畫面則明顯轉向留白、更克制的配色,以及更具裝飾性的字體,整體氣質變得輕盈、安靜;再到婚紗或禮服類頁面,則進一步收斂為更低飽和度的色調和更纖細的排版風格,強化「精致感」和「品質感」。這種針對行業(yè)語境的風格切換,說明它已經具備一定的「審美判斷」。
為了進一步測試 k2.6 的審美,我用 k2.6 制作了一個平潭旅行網站。當 Kimi agent 任務執(zhí)行完畢時,我看到它給我的這個「藍眼淚」網站首頁,有點被驚艷到。
視頻來源:極客公園
可以看到,在這個版本里,K2.6 已經從「全棧工程師」,進化為一個具備判斷力的「美術指導(Art Director)」。
無論是大地色系的質感控制、非對稱網格下的留白處理,還是對動效「克制感」的把握,都體現(xiàn)出「設計直覺」。
在設計層,K2.6 對色彩的切換不僅是審美選擇,也是一種情緒表達策略:米色為基底,配合深色對比,既降低了視覺侵略性,又維持了足夠的信息張力,這種處理方式更接近成熟品牌設計中的「松弛感」構建。
排版上,對非對稱布局的運用同樣關鍵。通過打破標準網格關系,讓圖文產生局部重疊與錯位,本質上是在用代碼復現(xiàn)「人工排版」的空間控制能力。模型不僅理解了 CSS 的布局邏輯,也在一定程度上理解了「為什么要這樣排」。
在內容層面,難點不在于生成圖片,而在于讓圖片「屬于這個頁面」。K2.6 對美食圖像的處理,已經體現(xiàn)出明顯的上下文意識:低飽和、自然光、留白構圖,這些特征服務于整體版面的統(tǒng)一表達,而不是隨機生成。也就是說,它開始把素材生成納入設計系統(tǒng)的一部分。
工程層面的進化同樣值得關注。面對修改需求,它能夠定位到具體組件并進行針對性調整,這背后其實是對項目結構和依賴關系的理解。更重要的是它做出的選擇——主動簡化動效,從復雜的 WebGL 表現(xiàn)轉向更輕量的過渡方式。這種「做減法」的能力,往往比「能實現(xiàn)復雜效果」更接近真實的設計與開發(fā)決策。
能夠把抽象的審美描述,直接轉譯為可運行的前端結構與交互體驗,K2.6 在網站設計上又前進了一大步。
之前我也用過其他 Agent 產品來生成網站,但出來的效果并不如人意,整體比較呆板、模板化,缺少真正「被設計過」的感覺。但這次 K2.6 生成的這個網站,不管是整體視覺風格還是交互節(jié)奏,都明顯更順滑、更有完成度,甚至在細節(jié)表達上也更接近一個「真實產品團隊打磨過的成品」。
此外,Kimi 還開始內測 Claw 群聊,它本質上是把每個人養(yǎng)好的、有專業(yè)技能的龍蝦 Agent 組成一個有分工、有管理、有協(xié)作流程的小團隊,由 Coordinator 負責拆任務、派活、驗收,讓復雜任務可以像真實團隊一樣推進。
視頻來源:極客公園
02
K2.6 擊穿了 Agent 的哪些原生痛點?
此前,行業(yè)內并非沒有嘗試多產物交付或文檔技能化,但大多停留在能演示、落地難的階段。問題不在于方向,而在于底層能力與架構無法支撐規(guī)模化應用。
K2.6 之所以能夠實現(xiàn)突破,本質上是針對 Agent 領域的幾個原生缺陷,給出了更系統(tǒng)性的解法。
首先是多產物交付。
![]()
多產物交付|圖片來源:Kimi官網
過去多產物交付難以成立,核心在于傳統(tǒng)架構的「碎片化」。一方面,單 Agent 的承載能力有限,任務一旦變長或變復雜,就容易出現(xiàn)中斷或執(zhí)行失控,難以支撐多任務并行;另一方面,不同工具與不同內容形態(tài)之間缺乏統(tǒng)一調度機制,跨格式生成往往彼此割裂,既影響效率,也難以保證內容的一致性。
K2.6 的關鍵變化,在于基于 K2.5 引入的 Agent 集群能力,進一步實現(xiàn)了規(guī)模化與精細化調度。通過多 Agent 并行分工,模型可以同時推進信息檢索、深度分析、文檔處理與多格式內容生成等環(huán)節(jié),再通過任務拆解與重組,將各類產物統(tǒng)一到同一邏輯框架下完成輸出。這種從「逐步生成」到「同步執(zhí)行」的轉變,本質上解決了長時運行與跨任務協(xié)同的結構性問題。
相比之下,document to skill 的難點更為隱蔽。
辦公文檔本質上是非結構化數據,內容與格式高度耦合,模型既難以準確提取其中的有效規(guī)則,也難以還原模板中隱含的版式與邏輯,這使得企業(yè)經驗長期停留在「存儲」狀態(tài),而無法轉化為「可調用能力」。
K2.6 的突破,來自兩類能力的疊加:一方面,借助更強的代碼能力,對文檔結構進行抽象與拆解,提取其內在邏輯;另一方面,通過視覺理解能力識別版式與格式細節(jié),從而實現(xiàn)對模板的完整還原。在此基礎上,文檔不再只是參考材料,而可以被轉化為可復用的 Skill,參與后續(xù)任務執(zhí)行。
但對于結構高度復雜或規(guī)則嵌套較深的定制化文檔,解析準確率仍有波動,通用性與穩(wěn)定性還有很多提升空間。
整體來看,K2.6 的關鍵突破,在于首次將「復雜任務執(zhí)行」「結果交付」與「經驗沉淀」整合為一套相對完整的系統(tǒng)能力。這一變化,補齊了 Agent 從「可用」走向「好用」的關鍵環(huán)節(jié)。當然,這并不意味著問題已經被徹底解決,但至少為 AI 進入真實生產場景,提供了一種更接近可行路徑的解法。
03
AI 從工具走向生產系統(tǒng)的關鍵一步?
Kimi K2.6 的發(fā)布,釋放出一個行業(yè)信號:大模型與 Agent 的發(fā)展,正在邁過一個關鍵門檻——從通用工具,走向具備生產能力的系統(tǒng)形態(tài)。
這一變化可以從三個層面來看。在模型層,K2.6 已不再局限于代碼片段生成或簡單推理,而是開始具備處理復雜工程任務的能力,代碼理解與邏輯推演能力顯著提升;在 Agent 層,能力邊界從「單次對話、短時執(zhí)行」擴展到「長時運行、持續(xù)任務處理」,穩(wěn)定性與可靠性明顯增強;而在產品層,最直觀的變化則是從「生成內容」,走向「交付結果」,AI 開始具備完成完整工作閉環(huán)的能力。
![]()
圖片來源:AI 生成
這些底層能力的疊加,最終在產品側體現(xiàn)為兩類更具決定性的變化:一是以 Agent 集群為代表的復雜任務交付能力,通過多智能體的協(xié)同調度,實現(xiàn)從任務拆解到執(zhí)行再到結果輸出的全流程覆蓋;二是以 document to skill 為代表的經驗復用能力,使原本分散在文檔中的規(guī)則與經驗,可以被結構化并持續(xù)調用。這兩者疊加,使 AI 開始從「輔助工具」,轉向能夠獨立完成任務的生產系統(tǒng)。
這些嘗試還很早期。
不管是企業(yè)級數據安全、多系統(tǒng)對接能力,還是在極端復雜任務中的穩(wěn)定性與容錯率,以及更低成本的規(guī)模化部署能力,要想讓成為 AI 真正意義上的產業(yè)級「操作系統(tǒng)」,這些都還有待進一步完善。
但趨勢已經逐漸清晰:當 AI 從工具轉向生產系統(tǒng),數字世界的生產關系也會隨之發(fā)生改變。人類在工作中的角色,將從具體執(zhí)行逐步轉向目標設定與結果把控;而 AI 行業(yè)的競爭,也將從模型層的能力比拼,轉向系統(tǒng)能力與生態(tài)能力的綜合博弈。
從這個角度看,K2.6 所呈現(xiàn)的「任務執(zhí)行—結果交付—能力沉淀」的能力組合,更像是 AI 生產基礎設施的一個早期雛形。它還未成熟,但已經提供了一種演進方向:AI 正在成為生產系統(tǒng)本身。
*頭圖來源:Kimi 官網
本文為極客公園原創(chuàng)文章,轉載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待Kimi K2.6?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.