網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

王云鶴眼中的Harness：復(fù)雜優(yōu)化問題，AGI靈魂爭奪之戰(zhàn)

2026-05-18 18:15:52　來源: 機(jī)器之心Pro

河北舉報

分享至

機(jī)器之心轉(zhuǎn)載

最近一段時間，Agent 又一次成為 AI 圈最熱的關(guān)鍵詞。

OpenClaw 這類開源項目走紅之后，關(guān)于 Agent 的討論迅速升溫：Agent 到底是什么？應(yīng)該怎么做？長期會演進(jìn)到哪里？這些問題重新被擺到臺面上。

近日，王云鶴在知乎上圍繞這一問題發(fā)表了一篇文章，討論了自己對Harness Engineering的看法，引起了AI 社區(qū)的關(guān)注與討論。

機(jī)器之心經(jīng)授權(quán)轉(zhuǎn)載，讓我們看下他對Harness 的觀點

原文地址：https://zhuanlan.zhihu.com/p/2038669387150927679

其實長久以來，一直有一個問題沒有被定義清楚，到底什么是 Agent？LLM 和 Agent 的邊界在哪里？我也經(jīng)常會跟人討論，自主規(guī)劃、自己判斷、執(zhí)行任務(wù)……

但是其實一直也沒有個公論，隨著 LLM 的能力持續(xù)提升，甚至很多時候有一種 Base model as Agent 的趨勢，加上各種工具調(diào)用軌跡數(shù)據(jù)的回流后。比如問模型今天的日期和天氣，模型去讀取了本地的信息，這種時候，是叫它 LLM 還是叫它 Agent？

回到當(dāng)下，從 OpenClaw 出來，關(guān)于 Agent 到底是什么，應(yīng)該怎么做，長期演進(jìn)方向是什么的討論非常多，也衍生出來很多新的機(jī)會，無論是算法研究還是工程創(chuàng)新。

最早我跟人討論的是 Agent 已經(jīng)進(jìn)階到需要我們討論 AgentOS 層面（非通信、協(xié)議等）了，Agent = Base Models+AgentOS。很多人會聯(lián)想到上個時代的 OS，Android、Linux，但是此 OS 非彼 OS，AgentOS 里面包含了很多組件來進(jìn)一步釋放大模型本身的能力和拓展其應(yīng)用邊界。后來逐步大家收斂到 Harness Engineering 的概念 [r1]，也就是 Agent = Model+Harness。到現(xiàn)在，也有了更多的關(guān)于 AgentOS 和 Harness 的討論和推演 [r2,r3]，我覺得無論是 AgentOS 還是 Harness，都是在告訴我們，Base model 很重要，但是怎么把它使用的更好，可能，更重要。

另外一個值得深度思考的問題是，Harness 是否會長期存在，以及，Harness 會不會被模型吃掉？有人會說，Harness 只是一個新概念，像以前的 rag、向量數(shù)據(jù)庫一樣會隨著模型長序列能力的提升而消亡，但實際上呢？Rag 其實在升級而不是消失，加上了 prompt、工具調(diào)用、更多的知識等變成了 skills。很多 Harness 里面的元素都是一直存在的，并且隨著模型能力和業(yè)界的算法與工程算法創(chuàng)新不斷進(jìn)化。并且 Harness 真正意義上的把所有的圍繞模型的所有高價值元素都聯(lián)動在了一起，是 Agent 時代最重要的事情之一。

好了，那我們現(xiàn)在可以回答最初的問題了，就是 Agent 是 Base Model（可以是 LLM、VLM、VLA……）加上 Harness 層面的任何優(yōu)化，哪怕是多加一點點 prompt 優(yōu)化，多加了一點工具調(diào)用，而不是 Base Model as Agent。那回到我自己的觀點，我覺得 Agent 可能要更進(jìn)一步，還是要變成 Agent = Models+Harness，也就是說多模型配合可以產(chǎn)生更好的 Agent 能力。先講為什么：

1.模型 “七國八制”：我覺得模型的終局還早，先不談中美模型的差距，立足當(dāng)下國內(nèi)的模型格局，還是一個七國八制的情況，各家模型根據(jù)自己的業(yè)務(wù)屬性、根據(jù)自己的數(shù)據(jù)、根據(jù)自己最早 bet 的路線，一定會出現(xiàn)特異化的情況（有的生活娛樂類表現(xiàn)好、有的注重數(shù)學(xué)、有的 coding 能力強(qiáng)、有的長序列做的好），而且，價格也不一樣。Claude Code 內(nèi)部還會調(diào)用多款模型（opus、sonnet、haiku 等）來實現(xiàn)綜合最優(yōu)解。此外，不同模型盡管評測相差不大，但是在具體任務(wù)上的表現(xiàn)差異可能很大，甚至執(zhí)行結(jié)果會跟 benchmark 關(guān)聯(lián)度很小，還記得去年很火的 AI 量化的項目，qwen、deepseek、gpt、gemini、claude、grok 六個比拼的結(jié)果，最后勝出的是 deepseek 和 qwen，讓人大跌眼球的是 gpt。后來我也跟朋友們分析過，結(jié)論是 gpt 太安全了，遇到高風(fēng)險場景不敢做決策，但是往往那些才是收益率最大的地方。另外，服務(wù)于模型的 benchmark 也是非常多的，當(dāng)然也有主觀評測的榜單，這就導(dǎo)致了以不同基準(zhǔn)不同體系評價出來的最優(yōu)模型也是不一樣的。

2.模型中的任務(wù)會 “打架”：在機(jī)器學(xué)習(xí)中很多任務(wù)是沒法用一個統(tǒng)一的 loss function 來表達(dá)的，并且是不能用一個模型來學(xué)出來的。語言模型這塊有一點不一樣，首先 raw data 的 representation 是一致的，然后，通過 pre-training 和 scaling law 會抵消很多，但是還是有一些跡象。比如，快慢思考合一（非 prompt 切換）我們在 25 年 4 月份就努力的放到一起過，但是后來幾乎所有人都放棄了。其實關(guān)于這個很早做 IPT（Pretrained Image Processing Transformer [r4]）的時候就遇到過，圖像超分和圖像去模糊是最容易沖突的兩個任務(wù)，放在一個基模里面學(xué)不好，本質(zhì)上這兩個東西一個是高通濾波，一個是低通濾波，我覺得快慢思考從信號處理的角度也是一樣的，于是后面我們又做了 instruct IPT [r5]。所以，哪怕模型同質(zhì)化，不同的任務(wù)最優(yōu)的模型，也會有差異性，除非所有人都對所有任務(wù)給同樣的權(quán)重。

3.復(fù)雜任務(wù)更需要多模型：語言模型本身是個確定性的事情，大家在這個方向上已經(jīng)足夠卷了，排名靠前的幾個模型不存在顯著的性能上的差距。但是，Beyond LLM，未來還有更多復(fù)雜的任務(wù)，比如多模態(tài)理解和生成，具身智能的 agent 等，需要多個模型來協(xié)同，比如短劇生成，文案轉(zhuǎn)寫用什么模型？視頻生成用什么模型？中間過程比如轉(zhuǎn)場后的穩(wěn)定性用什么模型和方法保障？具身智能更是需要多模型協(xié)同來做感知、決策、運控、預(yù)測、記憶等等。如果說基模的愿景是一個最強(qiáng)的模型吞噬掉所有的 Harness，那這個事情相較于上面兩條，給 Harness 這一層的時間窗更大，甚至要 3-5 年以上了。

回到我為什么要對 Harness 這件事極度感興趣，首先是各種模型能力的持續(xù)提升，尤其是 coding 和 planning 能力的爆發(fā)，迎來了 OpenClaw 這么史無前例的開源項目，也涌現(xiàn)了非常多的生產(chǎn)力應(yīng)用，那如果進(jìn)一步思考 Agent 解決問題的能力，其實是要解決一個復(fù)雜的優(yōu)化問題的。比如，我們給定了一個任務(wù)，和一些可以用的 Base Models，那對應(yīng)每一個模型，Harness 當(dāng)中的每一個模組需要調(diào)整的可能是不一樣的，也就是模型 vs agent 有很多子特性上的匹配。這也跟上面一段講的 “七國八制” 有關(guān)。比如，有的模型 prompt 可以增長補(bǔ)充提升精度、有些模型 rag 掛多了反而會影響精度、有的安全加多了模型能力會劇烈下降。

所以，我對 Harness 這一層的認(rèn)知是，這是一個非常非常非常復(fù)雜的，優(yōu)化和系統(tǒng)工程問題，值得投入。

光是求解這個復(fù)雜的優(yōu)化問題來帶來更好的 agent 就是一個令人覺得有趣且有價值的事情了。但是，從公式 1 的角度，M 也未嘗不可以被優(yōu)化，尤其是在 Harness 上積累的數(shù)據(jù)，對下一階段的模型也至關(guān)重要。這二者一定不是互斥的，甚至 Anthropic 告訴我們的道理是，基模很重要，但是 Harness 做好了可以反哺基模的進(jìn)化，于是有了 opus 4-claude code 1.0-opus4.5-claude code2.0-opus4.6…… 的迭代。上一個時代，大家瞄著 AGI 要做的事情是，給定數(shù)據(jù)集，大家優(yōu)化模型參數(shù)。當(dāng)前這個階段，Agent 在干的所有事情其實，都是給定模型，大家優(yōu)化 Harness parameters。那如果，我們把 model parameters 也帶入進(jìn)來一起優(yōu)化呢？對應(yīng)的下一代 AGI 路徑很有可能就是

即，Model Parameters 和 Harness Parameters 迭代優(yōu)化，或者，聯(lián)合優(yōu)化。那么，Harness 最觸動我的事情是什么？

AI “靈魂” 之爭：廣義上，大家會覺得大模型才是真正智能的大腦，是所有應(yīng)用的核心源泉，就好比是汽車?yán)锏陌l(fā)動機(jī)，手機(jī)里面的芯片一樣，然后 Harness 是駕馭大模型，是自動駕駛系統(tǒng)，是整個手機(jī)的軟硬協(xié)同。但，如果公式 1 成立，要控制模型，甚至選擇模型，AI 的大腦，或者說靈魂到底是在 Base Model 還是 Harness 呢？如果公式 2 存在可能性，那就是我們還要基于 Harness 來進(jìn)一步增訓(xùn)模型，實現(xiàn) Agent 中的自主進(jìn)化，那靈魂到底屬于誰呢？

[r1] Trivedy, Vivek. "The Anatomy of an Agent Harness." LangChain Blog, 10 Mar. 2026, http://www.langchain.com/blog/the-anatomy-of-an-agent-harness.

[r2] Liu, Rui, et al. "AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem." arXiv preprint arXiv:2603.08938 (2026).

[r3] He, Chaoyue, et al. "Harness Engineering for Language Agents: The Harness Layer as Control, Agency, and Runtime." (2026).

[r4] Chen, Hanting, et al. "Pre-trained image processing transformer." CVPR 2021.

[r5] Tian, Yuchuan, et al. "Instruct-ipt: All-in-one image processing transformer via weight modulation." arXiv preprint arXiv:2407.00676 (2024).

[r6] Yang, Chengrun, et al. "Large language models as optimizers." ICLR 2024.

[r7] Trivedi, Prashant, et al. "Align-pro: A principled approach to prompt optimization for llm alignment." AAAI 2025.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.