<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      在AK大神爆火的任務里,摸清國產AI真實水平

      0
      分享至


      作者 | 四月

      4 月 20 日深夜,Kimi K2.6 發布并開源。它最值得被探討的,并非又贏了幾個 Benchmark,跑分逼平乃至反超海外三巨頭。這些數字反映的更多是理論上限,而非你我實際上手時的真實水平。


      圖注:K2.6 基準測試成績。在 DeepSearchQA、SWE-Bench Pro 等核心 Agent 與代碼評測項目中位居第一,在 Humanity's Last Exam 等博士級難度測試中持平或優于三巨頭(GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro),整體成績處于同級別模型的第一梯隊。

      K2.6 更現實的意義,還在于它拋出了一個關鍵命題:

      當模型步入 Agent 時代,競爭內核已從“單次作答的靈光乍現”,躍遷為“多步執行的善始善終”。Agent 的價值不再停留于輸出答案,而在于多步執行、對象管理、結構維護與增量更新中的系統承載能力。

      這才是新一代模型真正的分水嶺。

      循此判斷,筆者摒棄了常規的單點用例測試,轉而借 Andrej Karpathy 的 AI Wiki 思路,設計了一組高承壓任務。這套思路自 AK 大神在本月初提出,迅速出圈狂攬兩千萬曝光,被視為“檢索增強的下一代范式”。


      測試目的直指 Agent 底層能力:它能否超越單純的“內容生成”,展現出將內容組織為結構、將結構推進為系統的建構能力

      比寫代碼難得多的任務

      如果只是驗證代碼能力,最簡單的做法是復現網頁、寫個應用。直接,出活快。但這測的只是局部優勢,而非 Agent 的工作流承接力。

      所以,Andrej Karpathy 的 AI Wiki 成了更優選。它表面是搭網站,內核卻是一套知識編譯系統。這也正是它比普通 RAG(檢索增強生成) 更難的地方。


      圖注:基于 K2.6 Agent 搭建的一套 Harness Engineering Wiki,已形成可檢索、可路由、可寫回的知識閉環系統,具備持續演化的工程知識庫形態。效果可參見:https://f24e2z3zeghre.beta-ok.kimi.link/

      很多人一聽“AI 知識庫”,認為還是老一套:切片、建索引、檢索、生成。每次問答都從零開始,毫無沉淀。

      而 AK 大神的破局點,正在于把“查資料”變成了“整理知識”,將無狀態檢索(即沒有記憶,不留痕跡)推進為有狀態編譯。這體現在 Wiki 極清晰的三層架構上:


      架構之外,更有精髓。AI Wiki 的真正價值,在于把知識系統的重心從“文檔展示”轉向了“對象構建”。原始資料喂進去,不直接吐長文,而是先拆解為主題、概念和來源,再織成一張可檢索、可連接、可擴展的網絡。

      頁面 UI 只是表皮,底層真正拷問的是:對象穩不穩?關系立不立得住?新信息進來,舊結構會不會崩?

      但原版的 Wiki 思路不是沒有短板:偏本地。它回避了線上系統的致命問題:對象如何持久化?增量如何接入?舊結構如何防覆蓋?前后臺如何同步?

      所以,這一次我們不做簡單復刻,而是將其從一套離線編譯流程,改造為可在線運行、持續更新、前臺可訪問的知識網絡。從離線走向在線,從生成走向系統。

      這也天然地覆蓋了當前 Agent 最該被檢驗的五大能力:

      • 長鏈執行:持續推進,而非單輪結束

      • 結構組織:拆為對象,而非停留于段落

      • 系統維護:新信息入網,舊結構不崩

      • 前臺落地:組織成可用的界面,而非僅存于后臺

      • 任務拆解:規模擴大時,能否并行處理

      為什么要用 K2.6 來測?

      Kimi K2.6 值得測,恰恰在于它這次強化的幾條主線,與這類任務高度重合。

      從官方披露的信息看,K2.6 的提升并不只停留在參數和榜單,而是明確落在了三種更接近系統任務的能力上:長鏈執行、Vibe Coding 與 Agent 集群。

      先看長鏈執行。官方給出的案例里,K2.6 能在復雜任務中連續運行 12 小時以上、調用上千次工具、完成 4000 余行代碼修改;在主動式 Agent 框架中,甚至給出了最長 5 天持續自主運行的能力描述。

      這類指標的意義,不只是“它更耐跑了”,而是它開始具備承接持續任務的基本條件。


      而 AI Wiki 恰恰不是一次性生成任務,它要求模型能夠在對象抽取、關系組織、頁面生成和后續維護之間不斷往返。沒有足夠強的長鏈穩定性,這類任務很容易在中途塌掉。

      再看 Vibe Coding。K2.6 這次另一條被明顯強化的能力,是將代碼、視覺理解與前端表達結合起來,直接交付專業級 Web 應用。對于 AI Wiki 來說,這一點并不只是“頁面更好看”——它意味著模型不只要會整理知識,還要能把知識網絡做成一個可瀏覽、可使用、可繼續擴展的前臺系統。

      換句話說,AI Wiki 不是純知識抽取任務,必須落地成可瀏覽、可交互的前臺界面。這正是 K2.6 突出的強項。

      最后是 Agent 集群。官方披露,K2.6 的集群架構最高支持 300 個子 Agent 協同,并且明確強調了它在搜索、深度研究、文檔分析和長文創作等任務中的協同能力。

      這對于 AI Wiki 也非常關鍵。因為一旦輸入資料一多,任務就很容易從“一個 Agent 持續推進”轉向“多個 Agent 分工處理”。也就是說,AI Wiki 不只是一條長鏈任務,它天然也具備被 Swarm 化的潛力

      具體來看,這次任務至少包括四個關鍵環節:

      1. 消化與編譯(Raw Source → 結構化對象)原始文本不能直接當正文展示,必須先被拆解、提純,編譯成主題、概念、對比關系與來源,形成結構化對象層。難點在于:多步驟信息處理中,模型的準確性和連貫性在這里最先暴露。

      2. 聯網與落地(對象層 → 可用前臺系統)基于編譯結果生成 Topic 頁、Concept 頁、對比頁、關系圖譜,并保證頁面之間形成跳轉閉環。這考察的是 Vibe Coding 能力:結構能不能真正變成可用的產品。

      3. 調用與反哺(知識問答 → 持續沉淀)頁面之間不只有鏈接,還要能表達相似關系、對比關系和來源回溯,把"頁面集合"推進成"知識網絡"。跨頁面操作中的一致性,是這一步的核心考驗。

      4. 維護與演化(增量接入 → 系統自愈)新資料進入后,系統要能繼續觸發編譯,支持斷鏈檢查和重復概念識別。這測的不是一次性生成的驚艷,而是長程運行中的自我修復與持續生長能力。

      此外,為更完整地觀察 K2.6 在不同任務組織方式下的能力邊界,這次測試并不只在一個執行環境中完成,而是分別考察了它在單 Agent 、 Agent 網站 和 Agent Swarm (集群)三種模式下的表現:

      其中,單 Agent 作為基線,網頁端 Agent 重點考察連續施工能力,Swarm Agent 則進一步測試復雜任務的拆解與協作組織能力。

      單 Agent 基準:
      系統骨架成型,知識閉環待補

      如果只給 K2.6 一個基礎單 Agent 執行環境作為基準水平,它的表現可以概括為一句話:前臺成型很快,系統感很強,但知識閉環最初并沒有自然成立。

      它最先兌現的,是兩項能力。

      這輪測試里,K2.6 最先體現出來的,不是單點頁面生成能力,而是把復雜任務持續推進成一個完整原型的能力。圍繞我們給出的要求,它先后完成了信息架構設計、對象層拆解、頁面路由搭建和主要交互補全,逐步做出了賬號登錄、工作臺、知識索引、主題頁 / 概念頁、問答 / 洞察面板以及知識圖譜等核心模塊。


      從結果上看,這已經不是一個零散頁面集合,而是一套具備明確結構和產品感的知識網絡雛形。

      這里最值得強調的,首先是它的長鏈條任務能力

      AI Wiki 不是一次性生成任務,而是一個需要在資料輸入、知識編譯、頁面生成、關系組織和后續維護之間反復往返的長鏈工作流。K2.6 在單 Agent 模式下,已經表現出了承接這類任務的基本穩定性:它不是完成一個頁面就停,而是能沿著既有上下文持續往前推進,把任務一步步從“做頁面”推向“搭系統”。

      這一點很重要,因為如果沒有足夠強的長鏈穩定性,這類任務通常會很快退化成局部補丁,而無法積累成完整結構。

      第二個更突出的優點,是它的自我修復能力

      單 Agent 模式下,K2.6 并不是一開始就把所有鏈路都做對了,但它有很強的“沿著當前系統繼續修”的能力:頁面缺入口,就補路由;對象層不完整,就補實體;跳轉不閉環,就補詳情頁;圖譜數據不夠,就繼續補關系讀取。

      這種能力的價值在于,它不只是生成一次結果,而是能在連續上下文中維持系統狀態,對已有結構做增量修正。這比“第一版就完美”更接近真實工程任務,也更能體現 Agent 的實際承接能力。

      同時,K2.6 的Vibe Coding能力在這一輪里也相當突出。它不僅能把知識對象落成前臺,還能迅速做出風格統一、結構清晰、適合展示的產品界面。換句話說,單 Agent 模式下,它已經證明自己不只是會寫頁面,而是能把抽象任務迅速組織成一個“像樣的系統原型”

      當然,單 Agent 的邊界也在這一輪里顯露出來。最核心的問題不是頁面是否成型,而是知識鏈路不會隨著頁面一起自動成立。也就是說,前臺可以很快搭出來,但知識編譯、問答調用和沉淀閉環,初始狀態下往往還需要繼續補強。

      更進一步:從單點執行到系統組織

      單 Agent 已經給出了基線:它能把復雜任務壓成系統原型。接下來的問題是,當執行環境增強,K2.6 能把任務推進多深?

      從結果看,網頁端 Agent 和 Swarm 模式都帶來了明顯提升,但方向截然不同:網頁端 Agent 強化了對同一系統的連續施工與修正能力;Swarm 模式強化了對復雜任務的拆解、分工與編排能力。

      4.1 Agent 網站模式:更強的連續施工能力

      “Agent 網站”最突出的特質,不是多做了幾個頁面,而是能在同一套系統上連續迭代


      圖注:Agent 網站模式的體驗入口

      在測試中,它圍繞既有知識網絡持續補全:從編譯管線、狀態處理到知識圖譜,始終保持了極強的上下文延續性。對于 AI Wiki 這類任務,最難的從來不是初版原型,而是多輪修改后系統不散架:對象層有沒有被保留?邏輯有沒有被延續?網頁端 Agent 在這一點上表現出了真正的工程連貫性。

      更進一步,它的核心優勢在于能不斷重新識別系統的真實約束


      最典型的例子是登錄與數據庫的實現:它先按標準全棧思路做了認證和持久化,但部署后迅速察覺靜態環境無法承載后端服務,于是果斷切回本地持久化方案,把產品重新拉回可運行狀態。

      當然,它的邊界也依然存在。Agent 網站模式的典型問題,不是不會推進,而是容易先把前臺和交互做成立,再逐步追補底層鏈路。

      4.2 Agent Swarm 模式:不再硬扛,開始組織系統開發

      如果說網頁端 Agent 是更強的執行器,那么 Swarm 模式帶來的則是質的躍遷:它讓 K2.6 嘗試把任務本身組織成一個可拆分、可協作、可調度的系統工程。


      在測試中,Swarm 不再滿足于修補現有網絡,而是把開發過程抽象成了一套集群工作流:定義 Research、Architect、Compiler 等角色,制定流程模板、命令系統、狀態機與消息協議,甚至做出了任務流可視化。


      這種變化極其關鍵。AI Wiki 天然是多線程任務,研究、編譯、生成、維護如果全壓在一個 Agent 身上,長鏈路很容易出現崩潰。Swarm 給出的是系統工程的解法:不把所有事硬扛,而是先拆成角色,再組織成流程。

      它的深層價值,在于極強的抽象表達能力。它能把零散的開發過程,重寫成結構化的方法體系——誰先做、誰負責、怎么流轉、交付什么。這意味著它不僅在執行項目,更在生成一份可復用的“開發語法”。

      能力形態開始從“完成一次任務”躍升為“為同類任務生成可復制框架”。

      然而,Swarm 的邊界也很清楚:方法論和協作框架做得漂亮,但具體執行細節未必同等扎實。不過這恰好印證了它的核心定位:它不是更強的執行模式,而是讓復雜任務進入“可分工、可編排、可復用”狀態的能力放大器。

      4.3 三種模式,三層系統能力

      將三種模式放在同一坐標系,比較三者各自最有代表性的能力形態能力本質更為清晰。


      從“單輪聰明”到“長鏈存活”

      這輪評測下來,我越來越清晰地感受到:模型競爭的重心正在改變。

      真正重要的,已經不只是回答得像不像、寫得好不好,而是它能不能在真實任務里持續推進、持續修補,并最終把結果落成一個可用的系統。

      單 Agent 搭骨架、Agent 網頁通經絡、 Agent Swarm 做編排,這不僅是對 K2.6 的能力測繪,更是行業下一階段的預演。

      Agent 時代,競爭深水區,已從“誰生成質量更高”轉為了“誰的系統存活率更高”

      市場早已厭倦了單輪聰明的玩具。當下真正需要的,是三種硬核特質的系統融合:抗衰減的長鏈可靠性、遇阻即改的路徑校準力、面向系統的結構編排力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      表現又出現了下滑,馬刺后場大將無法匹配森林狼的防守強度?

      表現又出現了下滑,馬刺后場大將無法匹配森林狼的防守強度?

      稻谷與小麥
      2026-05-09 23:56:03
      河北王牌景區白洋淀徹底翻車!五一前3天不到2萬人,口碑徹底爛了

      河北王牌景區白洋淀徹底翻車!五一前3天不到2萬人,口碑徹底爛了

      譚談社會
      2026-05-07 20:44:05
      形勢有多嚴峻?曾經的王牌專業涼了!輔導員和教授感到無力和沉重

      形勢有多嚴峻?曾經的王牌專業涼了!輔導員和教授感到無力和沉重

      慧翔百科
      2026-05-09 11:34:26
      中方沒想到,金磚國家赴美求和,給美國送上稀土資源,動機不簡單

      中方沒想到,金磚國家赴美求和,給美國送上稀土資源,動機不簡單

      環球Talk
      2026-05-09 23:12:41
      帶10余名球員大鬧基地,隊報:奧巴梅揚拿滅火器噴高層被停賽

      帶10余名球員大鬧基地,隊報:奧巴梅揚拿滅火器噴高層被停賽

      懂球帝
      2026-05-09 08:16:59
      缺鉀比缺鈣危險?5個信號證明你缺鉀了,建議吃這5種食物緩解

      缺鉀比缺鈣危險?5個信號證明你缺鉀了,建議吃這5種食物緩解

      健康之光
      2026-05-07 20:50:03
      我在家里裝了廣告攔截器,卻發現6.5萬次查詢去了不該去的地方

      我在家里裝了廣告攔截器,卻發現6.5萬次查詢去了不該去的地方

      我是一個養蝦人
      2026-05-08 22:21:22
      沉悶的0-0!曼聯掉鏈子:3連勝被終結,拉門斯屢現神撲

      沉悶的0-0!曼聯掉鏈子:3連勝被終結,拉門斯屢現神撲

      足球狗說
      2026-05-09 23:52:56
      韓國乒乓球名宿柳承敏社媒:王皓正在認真努力的指導

      韓國乒乓球名宿柳承敏社媒:王皓正在認真努力的指導

      懂球帝
      2026-05-09 17:26:04
      “漢坦病毒”來勢洶洶,建議:每家備好5樣東西,關鍵時刻能救命

      “漢坦病毒”來勢洶洶,建議:每家備好5樣東西,關鍵時刻能救命

      健康科普365
      2026-05-08 15:00:16
      皮皮蝦事件博主陳女士相關信息被扒,網友又開始網暴她了

      皮皮蝦事件博主陳女士相關信息被扒,網友又開始網暴她了

      映射生活的身影
      2026-05-09 10:45:43
      鎖死海峽!阿聯酋突襲伊朗,埃及陣風戰機馳援:伊朗遭遇兇險包圍

      鎖死海峽!阿聯酋突襲伊朗,埃及陣風戰機馳援:伊朗遭遇兇險包圍

      知法而形
      2026-05-08 16:39:04
      事業沒了,婚也離了,封殺5年趙薇再次露面,原來她還有一條退路

      事業沒了,婚也離了,封殺5年趙薇再次露面,原來她還有一條退路

      臨云史策
      2026-05-09 16:25:56
      吳宜澤世錦賽奪冠后首秀!4-5惜敗,輸球原因揭曉,獲希金斯致敬

      吳宜澤世錦賽奪冠后首秀!4-5惜敗,輸球原因揭曉,獲希金斯致敬

      球場沒跑道
      2026-05-09 17:52:41
      緊急!停招電氣工程專業!

      緊急!停招電氣工程專業!

      新浪財經
      2026-05-08 16:42:06
      5月20官宣三婚!頭發都白了,何潔現狀惹人心疼

      5月20官宣三婚!頭發都白了,何潔現狀惹人心疼

      陳意小可愛
      2026-05-07 16:55:39
      “漢坦病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      “漢坦病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      岐黃傳人孫大夫
      2026-05-09 09:08:44
      實在沒辦法了,伊朗疑似將大量原油倒入海中!

      實在沒辦法了,伊朗疑似將大量原油倒入海中!

      阿龍聊軍事
      2026-05-09 11:10:25
      穆帥回歸倒計時!300萬觸發條款,“惡人”入主伯納烏,誰先走?

      穆帥回歸倒計時!300萬觸發條款,“惡人”入主伯納烏,誰先走?

      落夜足球
      2026-05-09 15:51:03
      曝蘑菇頭閏土退出陳翔六點半后續!知名導演透露細節,已洽談合作

      曝蘑菇頭閏土退出陳翔六點半后續!知名導演透露細節,已洽談合作

      裕豐娛間說
      2026-05-07 22:05:05
      2026-05-10 00:27:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12350文章數 51880關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      教育
      時尚
      手機
      本地
      公開課

      教育要聞

      @2026高三畢業生,高中畢業證正在印刷!附:檔案封裝、打印教程

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      手機要聞

      華為Mate 90首發!鴻蒙7定檔6月:和iOS安卓三分天下

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人3p在线观看| 久久精品亚洲精品国产色婷| 亚洲欧美?va天堂人熟伦| 精品无码国产不卡在线观看| 欧美成人论坛| 亚洲国产精品久久无套| 东京热人妻一区二区三区| 久久国产免费观看精品3| 国产精品一区久久av| 成年女人A级毛片免| 男人懂得成a人v网站| 欧美乱妇高清无乱码免费| 亚洲精品成人片在线观看精品字幕 | 久久综合一个色综合网| 四虎精品国产永久在线观看| 国产亚洲精品久久77777| 97久草| 国产专区一va亚洲v天堂| 国产亚洲精品97在线观看| 亚洲一级无毛片无码在线免费视频| 久久av无码精品人妻系列试探| 国产午夜福利视频在线| 色欲国产精品一区成人精品| 毛片免费全部播放无码| 亚洲色诱惑| 成人一区二区三区| 最新国产精品久久精品ai换脸| 真人在线射美女视频在线观看| 国产乱色熟女一二三四区| 国产精品美女毛片j酒店| 精品一区二区二区| 制服.丝袜.亚洲.中文.91| 日韩h片| 精品一卡2卡三卡4卡乱码精品视频| 亚洲欧美综合精品成人网站| 一本二本三本亚洲??码| 国产精品试看120秒| 精品无码av不卡一区二区三区| 欧美极品色午夜在线视频| 成人自拍短视频午夜福利| 草草地址线路①屁屁影院成人|