![]()
![]()
「AI進化論」是長江商學院推出的AI+主題欄目,匯聚全球AI領域的原創洞見、產業實踐及前瞻研判。從技術突破到產業應用,從戰略布局到倫理邊界,在這里,一起與AI同頻進化。
不少AI項目上線驚艷,三個月后便歸于沉寂,很可能踩了企業AI轉型最大的坑——只把數據當資產,卻忘了把“判斷”寫進系統。企業家最珍貴、最難復制的東西,從來不是數據庫本身,而是判斷、資源、邊界和責任。勝負手在于將這些轉化成一種可計算、可執行、可驗證、可進化的組織能力。
今天和你分享長江商學院張維寧教授近日發表于FT中文網的署名文章。文章指出:企業真正的AI資產不止是私有數據,更是在于“判斷”和“協議”——什么是好、什么是危險、什么情況下必須叫停。未來領先的企業,不是最早用上AI的,而是最早能把自己的判斷變成系統、把自己的系統變成閉環的企業。
作者 | 張維寧
來源 | FT中文網
原標題 | 誰先把判斷寫進系統,誰先擁有下一代企業能力
![]()
張維寧
長江商學院教授
高層管理教育項目學術主任
MBA項目學術主任
01
企業真正要轉的,不是模型
而是結果系統
今天一個重要變化是,模型之間在靜態基準上的差距正在縮小,但一旦任務變長、步驟變多、涉及真實工具與環境,差距就會迅速拉大。
原因不復雜:真正困難的,不是回答問題,而是在幾十次、上百次工具調用之后,仍然不偏航、不自滿、不忘記、不把半成品當成果。
Anthropic、LangChain與OpenAI最近幾篇關于Harness的文章,實際上都在指向同一個結論:在長鏈路任務上,決定系統表現的,越來越不是模型本身,而是圍繞模型搭建的運行環境、驗證機制和反饋閉環。
企業家如果只盯模型,很容易做出錯誤判斷。
你會把一次demo的驚艷當成長期交付能力;會把“回答更順”誤判為“流程被完成”;會把“模型更強”誤判為“業務就能自動化”。
但客戶不會為排行榜買單,也不會為token花樣買單。客戶只會為一件事買單:事情是不是被穩定地做成了。
02
數據不是終點,判斷才是資產
因此,企業應重新理解自己的資產。
很多人以為企業最重要的AI資產是私有數據。其實,私有數據只是第一層。真正更深的資產至少還有四層:
第一,過程與場景經驗,也就是老員工“知道怎么處理”的那些例外;
第二,專家判斷與品味,也就是“什么叫好、什么叫危險、什么叫不值得做”的閾值;
第三,行業資源與關系網絡,也就是誰能被調動、什么路徑可行;
第四,執行入口與控制權,也就是API、系統權限、審批節點、現場流程和真實動作的抓手。
如果把資產再向上抽象,可以看到一條更重要的階梯:
● 數據回答“發生了什么”
● 信息回答“它意味著什么”
● 知識回答“在什么情境下該如何理解”
● 判斷回答“什么才算好”
● 協議則回答“下一步怎么做、怎么驗證、何時升級給人”
絕大多數企業今天停留在前兩層,做得好一點的到達第三層,建立了一個能檢索的知識庫。
但只有當企業把“判斷”和“協議”也寫進去,AI才開始具有真正的經營價值。否則,它只是在更快地復述材料,而不是在更穩地完成任務。
03
給AI的不是知識庫
而是知識架構
這也解釋了為什么“知識庫”這個詞,今天常常被用得太輕。很多企業把上傳文檔、做向量檢索、接上RAG,當成知識系統的完成。
但對智能體來說,知識從來不只是“能搜到”。它至少還涉及四個問題:
● 從哪里開始看
● 哪一份才是權威版本
● 哪些內容可以直接轉成動作
● 跨輪任務結束后狀態如何被下一輪繼承。
OpenAI在Codex的實踐里給出了一個非常有啟發的做法:不要給智能體一本1000頁的說明書,而要先給它一張地圖。
AGENTS.md不應是百科全書,而應是目錄;docs/不應是資料堆,而應是記錄系統;計劃、決策日志、技術債、產品規格、架構約束,都應被版本化、索引化、交叉鏈接化。
這背后體現的,不是文檔勤奮,而是知識架構。它讓智能體先從一個小而穩定的入口開始,再沿著索引、技能、鏈接與搜索,逐層深入。這種“漸進式披露”不是細節優化,而是多輪任務能否持續推進的前提。
一句更直白的話是:what the agent can't see doesn't exist。
對智能體來說,不能在運行時訪問到的內容一一無論它藏在Google Docs、聊天記錄、口頭共識還是專家腦中一一都等于不存在。
企業若不把隱性判斷外化進系統,就會不停抱怨模型“聽不懂我們公司”,而真相通常是:公司從未把“什么叫懂”寫給任何機器。
04
為什么單個Agent不夠
Harness才是分水嶺?
但即便有了知識架構,單個Agent仍然遠遠不夠。原因是,單體智能體有一組穩定而頑固的失敗模式。Anthropic在長周期應用開發中觀察到,模型很容易犯幾類錯誤:
一上來就試圖一步到位做完整個應用;
做了一半就宣布大功告成;
把自己寫出來的代碼看一眼便覺得“應該沒問題”;
上一輪留下半成品與臟狀態,下一輪又從錯誤的基礎上繼續;
局部單測過了,卻從不真正站在用戶視角做端到端驗證。
LangChain則進一步展示了另一類問題:
模型會圍繞同一個錯誤方案反復小修小補,掉進“doom loop”;
會在退出前忘記驗證;
會因為沒有被清楚告知環境約束,而把大量時間浪費在搜索與猜測上。
這也是為什么Harness會成為分水嶺。
Harness不是把Agent“包一層”的技術名詞,而是把一整套管理動作制度化:
● 先把任務拆成可以驗證的小單元
● 把完成定義寫清楚
● 把可用工具與權限邊界說清楚
● 把進度、狀態與交接痕跡持續外化
● 把自評與外評分離
● 把驗證前置成強制動作, 而不是事后補救。
Anthropic的initializer agent、 feature list JSON、 progress file、git提交和browser automation,本質上都在做這件事。它們不是在教模型“更聰明”,而是在教系統“更負責”。
如果繼續向前一步,Anthropic后續提出的planner/generator/evaluator三智能體結構就更值得企業家重視。它的重要性并不在于“多智能體”本身,而在于它把規劃、執行和評審這三種本該分開的職責,從一個自說自話的Agent身上拆開了。
更關鍵的是,在每個sprint開始之前,generator和evaluator先談好一份sprint contract:這一輪到底要做什么,如何驗證,什么情況算失敗。也就是說,不是先動手,再靠人猜“做對沒有”;而是在行動之前就把done的證據說清楚。
05
Harness的本質
是企業里的控制閉環
從操作層面看,Harness可以被理解為“模型的操作系統”:
模型像CPU,提供原始推理能力;上下文窗口像RAM,容量有限且易失;Agent像應用,承接具體業務邏輯;Harness則像OS負責啟動、調度、記憶、工具驅動、錯誤恢復與安全邊界。
這個類比已經很有幫助。但從更深層看,Harness的本質其實更接近控制論。
James Watt的離心調速器,讓蒸汽機不再依賴工人持續手擰閥門;Kubernetes的controller,讓工程師不必盯著服務是否崩潰,而是讓系統持續對齊到“期望狀態”。
今天,Harness正在對企業中的智能體做同樣的事。
它先定義目標狀態,再布置傳感器(測試、日志、指標、用戶反饋),然后設計評估器(rubric、閾值、獨立QA),再通過執行器(Agent+tools+workflow)作用于世界狀態,最后把失敗軌跡回流成新的規則、文檔和工件。
這不是“多加幾個鉤子”,而是把企業里原本依賴管理者盯著跑的糾偏動作,改造成一個持續收斂的系統。
基于這一點,我更愿意把企業Harness概括為“七環”:規、圖、工、憶、驗、控、學。
規,是標準與紅線;
圖,是上下文地圖與送達機制;
工,是動作空間與工具封裝;
憶,是進度、狀態與交接;
驗,是測試、rubric與完成證明;
控,是權限、預算、升級與回滾;
學,是把失敗軌跡轉成下一輪系統改進。
今天許多企業最多做到“圖”和“工”:給AI一點檢索,再接幾個工具。真正缺的,往往恰恰是“規”“驗”“學”。沒有這三項,系統只會顯得能干,卻很難真正越跑越穩。
06
企業家和管理者的新角色:
從轉閥門到掌舵
這會直接重寫企業家、管理者和專家的角色。
過去,優秀管理者常常通過親自盯流程、拍判斷、壓細節來保證質量;未來,越來越多價值會遷移到另一類工作上;定義目標狀態,寫清邊界,指定升級條件,觀察偏差,并把一次次失敗轉成系統規則。
換句話說,人的工作從“親自轉閥門”,變成“設計調速器并持續掌舵”。
OpenAI的Codex實驗最值得玩味的,不是“一百萬行代碼且零人工手寫”這個數字本身,而是角色變化。
工程師不再主要通過寫代碼推動系統,而是通過設計環境、明晰意圖、接入可觀察性、定義架構不變量、維護記錄系統,讓Agent能可靠工作。
人類最稀缺的資源,不再是勞動時間,而是注意力與判斷力。于是,組織也會隨之變化:
● 文檔從培訓材料變成基礎設施
● 審閱從“每一項都看”轉向“只看高風險例外”
● 架構從“以后長大了再管”變成一開始就要給機器讀懂的約束
● 品味與共識,不再停留在口頭,而是要被編碼進lint、測試、rubric和“黃金原則”里。
這恰恰是很多企業家最該盡早介入的地方。
因為“什么叫好”“什么必須升級”“哪些錯誤不可接受”,從來不是技術團隊單獨能定義的。那是經營判斷,是品牌判斷,是風險判斷,也是資源配置判斷。
沒有企業家參與,Harness最終就會退化成一個技術系統,而不是經營系統。
07
先做一個90天閉環
而不是先做一個大平臺
因此,真正務實的路徑,不是上來就建一個宏大的AI平臺,而是先做一個90天閉環。
先選一個高頻、高價值、結果可驗證、邊界可控的場景;然后把隱性經驗寫成地圖、原則、案例與完成定義;
再讓第一個Agent在沙箱里完成真實動作;
接著補齊Harness,把進度記錄、驗證清單、獨立評審、trace和升級機制接進來;
最后在影子模式下并行跑真實任務,比較完成率、驗證通過率、返工率、人工介入率、成本與時效。
90天的目標,不是徹底重構企業,而是證明三件事:隱性判斷能被外化,Agent能完成真實動作,Harness能顯著降低漂移與人工盯防成本。
在投資上,也應有新的分層。
●基礎模型訪問、通用算力、通用運行時和標準連接器,更適合“買”;
●知識架構、領域標準、評估語料、關鍵工具封裝、權限與升級規則,更適合“自建”;
● 而那些大量彌補當前模型缺陷的硬編碼控制流、脆弱的promp技巧和深度綁定單一模型的小聰明,則必須準備隨時刪除。
因為模型會持續進步,真正應該沉淀的,不是今天的一套花活,而是完成定義、例外處理和失敗軌跡。
某種意義上,Harness本身就在不斷生成企業自己的數據集:它記錄的不只是答案,而是“什么叫對”“哪里會錯”“系統如何被糾正”。
下一輪競爭,護城河越來越不在prompt,而在這些軌跡里。
08
誰先把判斷寫進系統
誰先擁有下一代企業能力
如果說過去二十年,企業最重要的數字化工作是把流程搬進系統;那么接下來十年,最重要的智能化工作,就是把判斷寫進系統。
誰先完成這一步,誰就不只是擁有一個更聰明的助手,而是擁有一個會持續變強的經營系統。
這也許正是Harness真正重要的地方。
它讓我們第一次可以把企業家最珍貴、最難復制的東西——不是數據庫本身,而是判斷、資源、邊界和責任一一轉化成一種可計算、可執行、可驗證、可進化的組織能力。
未來真正領先的企業,不一定是最早使用AI的企業,而更可能是最早把自己的判斷變成系統、把自己的系統變成閉環的企業。
企業家現在就該追問的5個問題
? 我們到底在自動化一個問題,還是在重寫一段經營能力?
? 我們是否已經寫清楚什么叫“做好”、什么叫“不能做”、什么情況必須升級給人?
? 我們的知識是資料堆,還是帶索引、權威性與繼承機制的知識架構?
? 我們讓Agent看見了什么?它能否看到環境、日志、指標與真實結果?
? 我們積累下來的,是零散的prompt,還是可復用的評估語料、失敗軌跡與規則更新?
![]()
![]()
文中圖片來自圖蟲創意,轉載需獲授權
點擊下方卡片,關注長江商學院
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.