網易首頁 > 網易號 > 正文申請入駐

企業未來十年最重要的智能化工作 | 附5個關鍵追問

2026-04-20 18:12:15　來源: 長江商學院

北京舉報

分享至

「AI進化論」是長江商學院推出的AI+主題欄目，匯聚全球AI領域的原創洞見、產業實踐及前瞻研判。從技術突破到產業應用，從戰略布局到倫理邊界，在這里，一起與AI同頻進化。

不少AI項目上線驚艷，三個月后便歸于沉寂，很可能踩了企業AI轉型最大的坑——只把數據當資產，卻忘了把“判斷”寫進系統。企業家最珍貴、最難復制的東西，從來不是數據庫本身，而是判斷、資源、邊界和責任。勝負手在于將這些轉化成一種可計算、可執行、可驗證、可進化的組織能力。

今天和你分享長江商學院張維寧教授近日發表于FT中文網的署名文章。文章指出：企業真正的AI資產不止是私有數據，更是在于“判斷”和“協議”——什么是好、什么是危險、什么情況下必須叫停。未來領先的企業，不是最早用上AI的，而是最早能把自己的判斷變成系統、把自己的系統變成閉環的企業。

作者 | 張維寧

來源 | FT中文網

原標題 | 誰先把判斷寫進系統，誰先擁有下一代企業能力

張維寧

長江商學院教授

高層管理教育項目學術主任

MBA項目學術主任

企業真正要轉的，不是模型

而是結果系統

今天一個重要變化是，模型之間在靜態基準上的差距正在縮小，但一旦任務變長、步驟變多、涉及真實工具與環境，差距就會迅速拉大。

原因不復雜：真正困難的，不是回答問題，而是在幾十次、上百次工具調用之后，仍然不偏航、不自滿、不忘記、不把半成品當成果。

Anthropic、LangChain與OpenAI最近幾篇關于Harness的文章，實際上都在指向同一個結論：在長鏈路任務上，決定系統表現的，越來越不是模型本身，而是圍繞模型搭建的運行環境、驗證機制和反饋閉環。

企業家如果只盯模型，很容易做出錯誤判斷。

你會把一次demo的驚艷當成長期交付能力；會把“回答更順”誤判為“流程被完成”；會把“模型更強”誤判為“業務就能自動化”。

但客戶不會為排行榜買單，也不會為token花樣買單。客戶只會為一件事買單：事情是不是被穩定地做成了。

數據不是終點，判斷才是資產

因此，企業應重新理解自己的資產。

很多人以為企業最重要的AI資產是私有數據。其實，私有數據只是第一層。真正更深的資產至少還有四層：

第一，過程與場景經驗，也就是老員工“知道怎么處理”的那些例外；

第二，專家判斷與品味，也就是“什么叫好、什么叫危險、什么叫不值得做”的閾值；

第三，行業資源與關系網絡，也就是誰能被調動、什么路徑可行；

第四，執行入口與控制權，也就是API、系統權限、審批節點、現場流程和真實動作的抓手。

如果把資產再向上抽象，可以看到一條更重要的階梯：

● 數據回答“發生了什么”

● 信息回答“它意味著什么”

● 知識回答“在什么情境下該如何理解”

● 判斷回答“什么才算好”

● 協議則回答“下一步怎么做、怎么驗證、何時升級給人”

絕大多數企業今天停留在前兩層，做得好一點的到達第三層，建立了一個能檢索的知識庫。

但只有當企業把“判斷”和“協議”也寫進去，AI才開始具有真正的經營價值。否則，它只是在更快地復述材料，而不是在更穩地完成任務。

給AI的不是知識庫

而是知識架構

這也解釋了為什么“知識庫”這個詞，今天常常被用得太輕。很多企業把上傳文檔、做向量檢索、接上RAG，當成知識系統的完成。

但對智能體來說，知識從來不只是“能搜到”。它至少還涉及四個問題：

● 從哪里開始看

● 哪一份才是權威版本

● 哪些內容可以直接轉成動作

● 跨輪任務結束后狀態如何被下一輪繼承。

OpenAI在Codex的實踐里給出了一個非常有啟發的做法：不要給智能體一本1000頁的說明書，而要先給它一張地圖。

AGENTS.md不應是百科全書，而應是目錄；docs/不應是資料堆，而應是記錄系統；計劃、決策日志、技術債、產品規格、架構約束，都應被版本化、索引化、交叉鏈接化。

這背后體現的，不是文檔勤奮，而是知識架構。它讓智能體先從一個小而穩定的入口開始，再沿著索引、技能、鏈接與搜索，逐層深入。這種“漸進式披露”不是細節優化，而是多輪任務能否持續推進的前提。

一句更直白的話是：what the agent can't see doesn't exist。

對智能體來說，不能在運行時訪問到的內容一一無論它藏在Google Docs、聊天記錄、口頭共識還是專家腦中一一都等于不存在。

企業若不把隱性判斷外化進系統，就會不停抱怨模型“聽不懂我們公司”，而真相通常是：公司從未把“什么叫懂”寫給任何機器。

為什么單個Agent不夠

Harness才是分水嶺?

但即便有了知識架構，單個Agent仍然遠遠不夠。原因是，單體智能體有一組穩定而頑固的失敗模式。Anthropic在長周期應用開發中觀察到，模型很容易犯幾類錯誤：

一上來就試圖一步到位做完整個應用；

做了一半就宣布大功告成；

把自己寫出來的代碼看一眼便覺得“應該沒問題”；

上一輪留下半成品與臟狀態，下一輪又從錯誤的基礎上繼續；

局部單測過了，卻從不真正站在用戶視角做端到端驗證。

LangChain則進一步展示了另一類問題：

模型會圍繞同一個錯誤方案反復小修小補，掉進“doom loop”；

會在退出前忘記驗證；

會因為沒有被清楚告知環境約束，而把大量時間浪費在搜索與猜測上。

這也是為什么Harness會成為分水嶺。

Harness不是把Agent“包一層”的技術名詞，而是把一整套管理動作制度化：

● 先把任務拆成可以驗證的小單元

● 把完成定義寫清楚

● 把可用工具與權限邊界說清楚

● 把進度、狀態與交接痕跡持續外化

● 把自評與外評分離

● 把驗證前置成強制動作, 而不是事后補救。

Anthropic的initializer agent、 feature list JSON、 progress file、git提交和browser automation，本質上都在做這件事。它們不是在教模型“更聰明”，而是在教系統“更負責”。

如果繼續向前一步，Anthropic后續提出的planner/generator/evaluator三智能體結構就更值得企業家重視。它的重要性并不在于“多智能體”本身，而在于它把規劃、執行和評審這三種本該分開的職責，從一個自說自話的Agent身上拆開了。

更關鍵的是，在每個sprint開始之前，generator和evaluator先談好一份sprint contract：這一輪到底要做什么，如何驗證，什么情況算失敗。也就是說，不是先動手，再靠人猜“做對沒有”；而是在行動之前就把done的證據說清楚。

Harness的本質

是企業里的控制閉環

從操作層面看，Harness可以被理解為“模型的操作系統”：

模型像CPU，提供原始推理能力；上下文窗口像RAM，容量有限且易失；Agent像應用，承接具體業務邏輯；Harness則像OS負責啟動、調度、記憶、工具驅動、錯誤恢復與安全邊界。

這個類比已經很有幫助。但從更深層看，Harness的本質其實更接近控制論。

James Watt的離心調速器，讓蒸汽機不再依賴工人持續手擰閥門；Kubernetes的controller，讓工程師不必盯著服務是否崩潰，而是讓系統持續對齊到“期望狀態”。

今天，Harness正在對企業中的智能體做同樣的事。

它先定義目標狀態，再布置傳感器（測試、日志、指標、用戶反饋），然后設計評估器（rubric、閾值、獨立QA），再通過執行器（Agent+tools+workflow）作用于世界狀態，最后把失敗軌跡回流成新的規則、文檔和工件。

這不是“多加幾個鉤子”，而是把企業里原本依賴管理者盯著跑的糾偏動作，改造成一個持續收斂的系統。

基于這一點，我更愿意把企業Harness概括為“七環”：規、圖、工、憶、驗、控、學。

規，是標準與紅線；

圖，是上下文地圖與送達機制；

工，是動作空間與工具封裝；

憶，是進度、狀態與交接；

驗，是測試、rubric與完成證明；

控，是權限、預算、升級與回滾；

學，是把失敗軌跡轉成下一輪系統改進。

今天許多企業最多做到“圖”和“工”：給AI一點檢索，再接幾個工具。真正缺的，往往恰恰是“規”“驗”“學”。沒有這三項，系統只會顯得能干，卻很難真正越跑越穩。

企業家和管理者的新角色：

從轉閥門到掌舵

這會直接重寫企業家、管理者和專家的角色。

過去，優秀管理者常常通過親自盯流程、拍判斷、壓細節來保證質量；未來，越來越多價值會遷移到另一類工作上；定義目標狀態，寫清邊界，指定升級條件，觀察偏差，并把一次次失敗轉成系統規則。

換句話說，人的工作從“親自轉閥門”，變成“設計調速器并持續掌舵”。

OpenAI的Codex實驗最值得玩味的，不是“一百萬行代碼且零人工手寫”這個數字本身，而是角色變化。

工程師不再主要通過寫代碼推動系統，而是通過設計環境、明晰意圖、接入可觀察性、定義架構不變量、維護記錄系統，讓Agent能可靠工作。

人類最稀缺的資源，不再是勞動時間，而是注意力與判斷力。于是，組織也會隨之變化：

● 文檔從培訓材料變成基礎設施

● 審閱從“每一項都看”轉向“只看高風險例外”

● 架構從“以后長大了再管”變成一開始就要給機器讀懂的約束

● 品味與共識，不再停留在口頭，而是要被編碼進lint、測試、rubric和“黃金原則”里。

這恰恰是很多企業家最該盡早介入的地方。

因為“什么叫好”“什么必須升級”“哪些錯誤不可接受”，從來不是技術團隊單獨能定義的。那是經營判斷，是品牌判斷，是風險判斷，也是資源配置判斷。

沒有企業家參與，Harness最終就會退化成一個技術系統，而不是經營系統。

先做一個90天閉環

而不是先做一個大平臺

因此，真正務實的路徑，不是上來就建一個宏大的AI平臺，而是先做一個90天閉環。

先選一個高頻、高價值、結果可驗證、邊界可控的場景；然后把隱性經驗寫成地圖、原則、案例與完成定義；

再讓第一個Agent在沙箱里完成真實動作；

接著補齊Harness，把進度記錄、驗證清單、獨立評審、trace和升級機制接進來；

最后在影子模式下并行跑真實任務，比較完成率、驗證通過率、返工率、人工介入率、成本與時效。

90天的目標，不是徹底重構企業，而是證明三件事：隱性判斷能被外化，Agent能完成真實動作，Harness能顯著降低漂移與人工盯防成本。

在投資上，也應有新的分層。

●基礎模型訪問、通用算力、通用運行時和標準連接器，更適合“買”；

●知識架構、領域標準、評估語料、關鍵工具封裝、權限與升級規則，更適合“自建”；

● 而那些大量彌補當前模型缺陷的硬編碼控制流、脆弱的promp技巧和深度綁定單一模型的小聰明，則必須準備隨時刪除。

因為模型會持續進步，真正應該沉淀的，不是今天的一套花活，而是完成定義、例外處理和失敗軌跡。

某種意義上，Harness本身就在不斷生成企業自己的數據集：它記錄的不只是答案，而是“什么叫對”“哪里會錯”“系統如何被糾正”。

下一輪競爭，護城河越來越不在prompt，而在這些軌跡里。

誰先把判斷寫進系統

誰先擁有下一代企業能力

如果說過去二十年，企業最重要的數字化工作是把流程搬進系統；那么接下來十年，最重要的智能化工作，就是把判斷寫進系統。

誰先完成這一步，誰就不只是擁有一個更聰明的助手，而是擁有一個會持續變強的經營系統。

這也許正是Harness真正重要的地方。

它讓我們第一次可以把企業家最珍貴、最難復制的東西——不是數據庫本身，而是判斷、資源、邊界和責任一一轉化成一種可計算、可執行、可驗證、可進化的組織能力。

未來真正領先的企業，不一定是最早使用AI的企業，而更可能是最早把自己的判斷變成系統、把自己的系統變成閉環的企業。

企業家現在就該追問的5個問題

? 我們到底在自動化一個問題，還是在重寫一段經營能力？

? 我們是否已經寫清楚什么叫“做好”、什么叫“不能做”、什么情況必須升級給人？

? 我們的知識是資料堆，還是帶索引、權威性與繼承機制的知識架構？

? 我們讓Agent看見了什么？它能否看到環境、日志、指標與真實結果？

? 我們積累下來的，是零散的prompt，還是可復用的評估語料、失敗軌跡與規則更新？

文中圖片來自圖蟲創意，轉載需獲授權

點擊下方卡片，關注長江商學院

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

長江商學院

1710文章數 7845關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

親子

旅游

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

企業未來十年最重要的智能化工作 | 附5個關鍵追問

雷軍：輸給特斯拉不丟人

美方稱已暫停一項對臺軍售案 外交部回應

美方稱已暫停一項對臺軍售案 外交部回應

最糟糕裁判？他想要退役當市長

周也戀情曝光！對象身份不簡單

證監會擬對老虎、富途、長橋依法嚴厲處罰

空間、換電、智駕全都要 極狐貝塔S3上市 5.98萬起

態度原創

Steam喜加一：《汽車修理工模擬2018》免費領取

托兒所里有一群小寶寶，吃飯時一人一瓶牛奶，網友：到畢業都沒跟同學說過話

399元起！Yeelight推出智能弱電箱面板：智能控溫、接入米家App

美方稱已暫停一項對臺軍售案外交部回應

美方稱已暫停一項對臺軍售案外交部回應

空間、換電、智駕全都要極狐貝塔S3上市 5.98萬起