![]()
機(jī)器之心轉(zhuǎn)載
最近一段時間,Agent 又一次成為 AI 圈最熱的關(guān)鍵詞。
OpenClaw 這類開源項目走紅之后,關(guān)于 Agent 的討論迅速升溫:Agent 到底是什么?應(yīng)該怎么做?長期會演進(jìn)到哪里?這些問題重新被擺到臺面上。
近日,王云鶴在知乎上圍繞這一問題發(fā)表了一篇文章,討論了自己對Harness Engineering的看法,引起了AI 社區(qū)的關(guān)注與討論。
機(jī)器之心經(jīng)授權(quán)轉(zhuǎn)載,讓我們看下他對Harness 的觀點
![]()
原文地址:https://zhuanlan.zhihu.com/p/2038669387150927679
其實長久以來,一直有一個問題沒有被定義清楚,到底什么是 Agent?LLM 和 Agent 的邊界在哪里?我也經(jīng)常會跟人討論,自主規(guī)劃、自己判斷、執(zhí)行任務(wù)……
但是其實一直也沒有個公論,隨著 LLM 的能力持續(xù)提升,甚至很多時候有一種 Base model as Agent 的趨勢,加上各種工具調(diào)用軌跡數(shù)據(jù)的回流后。比如問模型今天的日期和天氣,模型去讀取了本地的信息,這種時候,是叫它 LLM 還是叫它 Agent?
回到當(dāng)下,從 OpenClaw 出來,關(guān)于 Agent 到底是什么,應(yīng)該怎么做,長期演進(jìn)方向是什么的討論非常多,也衍生出來很多新的機(jī)會,無論是算法研究還是工程創(chuàng)新。
最早我跟人討論的是 Agent 已經(jīng)進(jìn)階到需要我們討論 AgentOS 層面(非通信、協(xié)議等)了,Agent = Base Models+AgentOS。很多人會聯(lián)想到上個時代的 OS,Android、Linux,但是此 OS 非彼 OS,AgentOS 里面包含了很多組件來進(jìn)一步釋放大模型本身的能力和拓展其應(yīng)用邊界。后來逐步大家收斂到 Harness Engineering 的概念 [r1],也就是 Agent = Model+Harness。到現(xiàn)在,也有了更多的關(guān)于 AgentOS 和 Harness 的討論和推演 [r2,r3],我覺得無論是 AgentOS 還是 Harness,都是在告訴我們,Base model 很重要,但是怎么把它使用的更好,可能,更重要。
另外一個值得深度思考的問題是,Harness 是否會長期存在,以及,Harness 會不會被模型吃掉?有人會說,Harness 只是一個新概念,像以前的 rag、向量數(shù)據(jù)庫一樣會隨著模型長序列能力的提升而消亡,但實際上呢?Rag 其實在升級而不是消失,加上了 prompt、工具調(diào)用、更多的知識等變成了 skills。很多 Harness 里面的元素都是一直存在的,并且隨著模型能力和業(yè)界的算法與工程算法創(chuàng)新不斷進(jìn)化。并且 Harness 真正意義上的把所有的圍繞模型的所有高價值元素都聯(lián)動在了一起,是 Agent 時代最重要的事情之一。
好了,那我們現(xiàn)在可以回答最初的問題了,就是 Agent 是 Base Model(可以是 LLM、VLM、VLA……)加上 Harness 層面的任何優(yōu)化,哪怕是多加一點點 prompt 優(yōu)化,多加了一點工具調(diào)用,而不是 Base Model as Agent。那回到我自己的觀點,我覺得 Agent 可能要更進(jìn)一步,還是要變成 Agent = Models+Harness,也就是說多模型配合可以產(chǎn)生更好的 Agent 能力。先講為什么:
1.模型 “七國八制”:我覺得模型的終局還早,先不談中美模型的差距,立足當(dāng)下國內(nèi)的模型格局,還是一個七國八制的情況,各家模型根據(jù)自己的業(yè)務(wù)屬性、根據(jù)自己的數(shù)據(jù)、根據(jù)自己最早 bet 的路線,一定會出現(xiàn)特異化的情況(有的生活娛樂類表現(xiàn)好、有的注重數(shù)學(xué)、有的 coding 能力強(qiáng)、有的長序列做的好),而且,價格也不一樣。Claude Code 內(nèi)部還會調(diào)用多款模型(opus、sonnet、haiku 等)來實現(xiàn)綜合最優(yōu)解。此外,不同模型盡管評測相差不大,但是在具體任務(wù)上的表現(xiàn)差異可能很大,甚至執(zhí)行結(jié)果會跟 benchmark 關(guān)聯(lián)度很小,還記得去年很火的 AI 量化的項目,qwen、deepseek、gpt、gemini、claude、grok 六個比拼的結(jié)果,最后勝出的是 deepseek 和 qwen,讓人大跌眼球的是 gpt。后來我也跟朋友們分析過,結(jié)論是 gpt 太安全了,遇到高風(fēng)險場景不敢做決策,但是往往那些才是收益率最大的地方。另外,服務(wù)于模型的 benchmark 也是非常多的,當(dāng)然也有主觀評測的榜單,這就導(dǎo)致了以不同基準(zhǔn)不同體系評價出來的最優(yōu)模型也是不一樣的。
2.模型中的任務(wù)會 “打架”:在機(jī)器學(xué)習(xí)中很多任務(wù)是沒法用一個統(tǒng)一的 loss function 來表達(dá)的,并且是不能用一個模型來學(xué)出來的。語言模型這塊有一點不一樣,首先 raw data 的 representation 是一致的,然后,通過 pre-training 和 scaling law 會抵消很多,但是還是有一些跡象。比如,快慢思考合一(非 prompt 切換)我們在 25 年 4 月份就努力的放到一起過,但是后來幾乎所有人都放棄了。其實關(guān)于這個很早做 IPT(Pretrained Image Processing Transformer [r4])的時候就遇到過,圖像超分和圖像去模糊是最容易沖突的兩個任務(wù),放在一個基模里面學(xué)不好,本質(zhì)上這兩個東西一個是高通濾波,一個是低通濾波,我覺得快慢思考從信號處理的角度也是一樣的,于是后面我們又做了 instruct IPT [r5]。所以,哪怕模型同質(zhì)化,不同的任務(wù)最優(yōu)的模型,也會有差異性,除非所有人都對所有任務(wù)給同樣的權(quán)重。
3.復(fù)雜任務(wù)更需要多模型:語言模型本身是個確定性的事情,大家在這個方向上已經(jīng)足夠卷了,排名靠前的幾個模型不存在顯著的性能上的差距。但是,Beyond LLM,未來還有更多復(fù)雜的任務(wù),比如多模態(tài)理解和生成,具身智能的 agent 等,需要多個模型來協(xié)同,比如短劇生成,文案轉(zhuǎn)寫用什么模型?視頻生成用什么模型?中間過程比如轉(zhuǎn)場后的穩(wěn)定性用什么模型和方法保障?具身智能更是需要多模型協(xié)同來做感知、決策、運控、預(yù)測、記憶等等。如果說基模的愿景是一個最強(qiáng)的模型吞噬掉所有的 Harness,那這個事情相較于上面兩條,給 Harness 這一層的時間窗更大,甚至要 3-5 年以上了。
回到我為什么要對 Harness 這件事極度感興趣,首先是各種模型能力的持續(xù)提升,尤其是 coding 和 planning 能力的爆發(fā),迎來了 OpenClaw 這么史無前例的開源項目,也涌現(xiàn)了非常多的生產(chǎn)力應(yīng)用,那如果進(jìn)一步思考 Agent 解決問題的能力,其實是要解決一個復(fù)雜的優(yōu)化問題的。比如,我們給定了一個任務(wù),和一些可以用的 Base Models,那對應(yīng)每一個模型,Harness 當(dāng)中的每一個模組需要調(diào)整的可能是不一樣的,也就是模型 vs agent 有很多子特性上的匹配。這也跟上面一段講的 “七國八制” 有關(guān)。比如,有的模型 prompt 可以增長補(bǔ)充提升精度、有些模型 rag 掛多了反而會影響精度、有的安全加多了模型能力會劇烈下降。
所以,我對 Harness 這一層的認(rèn)知是,這是一個非常非常非常復(fù)雜的,優(yōu)化和系統(tǒng)工程問題,值得投入。
![]()
光是求解這個復(fù)雜的優(yōu)化問題來帶來更好的 agent 就是一個令人覺得有趣且有價值的事情了。但是,從公式 1 的角度,M 也未嘗不可以被優(yōu)化,尤其是在 Harness 上積累的數(shù)據(jù),對下一階段的模型也至關(guān)重要。這二者一定不是互斥的,甚至 Anthropic 告訴我們的道理是,基模很重要,但是 Harness 做好了可以反哺基模的進(jìn)化,于是有了 opus 4-claude code 1.0-opus4.5-claude code2.0-opus4.6…… 的迭代。上一個時代,大家瞄著 AGI 要做的事情是,給定數(shù)據(jù)集,大家優(yōu)化模型參數(shù)。當(dāng)前這個階段,Agent 在干的所有事情其實,都是給定模型,大家優(yōu)化 Harness parameters。那如果,我們把 model parameters 也帶入進(jìn)來一起優(yōu)化呢?對應(yīng)的下一代 AGI 路徑很有可能就是
![]()
即,Model Parameters 和 Harness Parameters 迭代優(yōu)化,或者,聯(lián)合優(yōu)化。那么,Harness 最觸動我的事情是什么?
AI “靈魂” 之爭:廣義上,大家會覺得大模型才是真正智能的大腦,是所有應(yīng)用的核心源泉,就好比是汽車?yán)锏陌l(fā)動機(jī),手機(jī)里面的芯片一樣,然后 Harness 是駕馭大模型,是自動駕駛系統(tǒng),是整個手機(jī)的軟硬協(xié)同。但,如果公式 1 成立,要控制模型,甚至選擇模型,AI 的大腦,或者說靈魂到底是在 Base Model 還是 Harness 呢?如果公式 2 存在可能性,那就是我們還要基于 Harness 來進(jìn)一步增訓(xùn)模型,實現(xiàn) Agent 中的自主進(jìn)化,那靈魂到底屬于誰呢?
[r1] Trivedy, Vivek. "The Anatomy of an Agent Harness." LangChain Blog, 10 Mar. 2026, http://www.langchain.com/blog/the-anatomy-of-an-agent-harness.
[r2] Liu, Rui, et al. "AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem." arXiv preprint arXiv:2603.08938 (2026).
[r3] He, Chaoyue, et al. "Harness Engineering for Language Agents: The Harness Layer as Control, Agency, and Runtime." (2026).
[r4] Chen, Hanting, et al. "Pre-trained image processing transformer." CVPR 2021.
[r5] Tian, Yuchuan, et al. "Instruct-ipt: All-in-one image processing transformer via weight modulation." arXiv preprint arXiv:2407.00676 (2024).
[r6] Yang, Chengrun, et al. "Large language models as optimizers." ICLR 2024.
[r7] Trivedi, Prashant, et al. "Align-pro: A principled approach to prompt optimization for llm alignment." AAAI 2025.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.