<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      王云鶴眼中的Harness:復雜優化問題,AGI靈魂爭奪之戰

      0
      分享至



      機器之心轉載

      最近一段時間,Agent 又一次成為 AI 圈最熱的關鍵詞。

      OpenClaw 這類開源項目走紅之后,關于 Agent 的討論迅速升溫:Agent 到底是什么?應該怎么做?長期會演進到哪里?這些問題重新被擺到臺面上。

      近日,王云鶴在知乎上圍繞這一問題發表了一篇文章,討論了自己對Harness Engineering的看法,引起了AI 社區的關注與討論。

      機器之心經授權轉載,讓我們看下他對Harness 的觀點



      原文地址:https://zhuanlan.zhihu.com/p/2038669387150927679

      其實長久以來,一直有一個問題沒有被定義清楚,到底什么是 Agent?LLM 和 Agent 的邊界在哪里?我也經常會跟人討論,自主規劃、自己判斷、執行任務……

      但是其實一直也沒有個公論,隨著 LLM 的能力持續提升,甚至很多時候有一種 Base model as Agent 的趨勢,加上各種工具調用軌跡數據的回流后。比如問模型今天的日期和天氣,模型去讀取了本地的信息,這種時候,是叫它 LLM 還是叫它 Agent?

      回到當下,從 OpenClaw 出來,關于 Agent 到底是什么,應該怎么做,長期演進方向是什么的討論非常多,也衍生出來很多新的機會,無論是算法研究還是工程創新。

      最早我跟人討論的是 Agent 已經進階到需要我們討論 AgentOS 層面(非通信、協議等)了,Agent = Base Models+AgentOS。很多人會聯想到上個時代的 OS,Android、Linux,但是此 OS 非彼 OS,AgentOS 里面包含了很多組件來進一步釋放大模型本身的能力和拓展其應用邊界。后來逐步大家收斂到 Harness Engineering 的概念 [r1],也就是 Agent = Model+Harness。到現在,也有了更多的關于 AgentOS 和 Harness 的討論和推演 [r2,r3],我覺得無論是 AgentOS 還是 Harness,都是在告訴我們,Base model 很重要,但是怎么把它使用的更好,可能,更重要。

      另外一個值得深度思考的問題是,Harness 是否會長期存在,以及,Harness 會不會被模型吃掉?有人會說,Harness 只是一個新概念,像以前的 rag、向量數據庫一樣會隨著模型長序列能力的提升而消亡,但實際上呢?Rag 其實在升級而不是消失,加上了 prompt、工具調用、更多的知識等變成了 skills。很多 Harness 里面的元素都是一直存在的,并且隨著模型能力和業界的算法與工程算法創新不斷進化。并且 Harness 真正意義上的把所有的圍繞模型的所有高價值元素都聯動在了一起,是 Agent 時代最重要的事情之一。

      好了,那我們現在可以回答最初的問題了,就是 Agent 是 Base Model(可以是 LLM、VLM、VLA……)加上 Harness 層面的任何優化,哪怕是多加一點點 prompt 優化,多加了一點工具調用,而不是 Base Model as Agent。那回到我自己的觀點,我覺得 Agent 可能要更進一步,還是要變成 Agent = Models+Harness,也就是說多模型配合可以產生更好的 Agent 能力。先講為什么:

      1.模型 “七國八制”:我覺得模型的終局還早,先不談中美模型的差距,立足當下國內的模型格局,還是一個七國八制的情況,各家模型根據自己的業務屬性、根據自己的數據、根據自己最早 bet 的路線,一定會出現特異化的情況(有的生活娛樂類表現好、有的注重數學、有的 coding 能力強、有的長序列做的好),而且,價格也不一樣。Claude Code 內部還會調用多款模型(opus、sonnet、haiku 等)來實現綜合最優解。此外,不同模型盡管評測相差不大,但是在具體任務上的表現差異可能很大,甚至執行結果會跟 benchmark 關聯度很小,還記得去年很火的 AI 量化的項目,qwen、deepseek、gpt、gemini、claude、grok 六個比拼的結果,最后勝出的是 deepseek 和 qwen,讓人大跌眼球的是 gpt。后來我也跟朋友們分析過,結論是 gpt 太安全了,遇到高風險場景不敢做決策,但是往往那些才是收益率最大的地方。另外,服務于模型的 benchmark 也是非常多的,當然也有主觀評測的榜單,這就導致了以不同基準不同體系評價出來的最優模型也是不一樣的。

      2.模型中的任務會 “打架”:在機器學習中很多任務是沒法用一個統一的 loss function 來表達的,并且是不能用一個模型來學出來的。語言模型這塊有一點不一樣,首先 raw data 的 representation 是一致的,然后,通過 pre-training 和 scaling law 會抵消很多,但是還是有一些跡象。比如,快慢思考合一(非 prompt 切換)我們在 25 年 4 月份就努力的放到一起過,但是后來幾乎所有人都放棄了。其實關于這個很早做 IPT(Pretrained Image Processing Transformer [r4])的時候就遇到過,圖像超分和圖像去模糊是最容易沖突的兩個任務,放在一個基模里面學不好,本質上這兩個東西一個是高通濾波,一個是低通濾波,我覺得快慢思考從信號處理的角度也是一樣的,于是后面我們又做了 instruct IPT [r5]。所以,哪怕模型同質化,不同的任務最優的模型,也會有差異性,除非所有人都對所有任務給同樣的權重。

      3.復雜任務更需要多模型:語言模型本身是個確定性的事情,大家在這個方向上已經足夠卷了,排名靠前的幾個模型不存在顯著的性能上的差距。但是,Beyond LLM,未來還有更多復雜的任務,比如多模態理解和生成,具身智能的 agent 等,需要多個模型來協同,比如短劇生成,文案轉寫用什么模型?視頻生成用什么模型?中間過程比如轉場后的穩定性用什么模型和方法保障?具身智能更是需要多模型協同來做感知、決策、運控、預測、記憶等等。如果說基模的愿景是一個最強的模型吞噬掉所有的 Harness,那這個事情相較于上面兩條,給 Harness 這一層的時間窗更大,甚至要 3-5 年以上了。

      回到我為什么要對 Harness 這件事極度感興趣,首先是各種模型能力的持續提升,尤其是 coding 和 planning 能力的爆發,迎來了 OpenClaw 這么史無前例的開源項目,也涌現了非常多的生產力應用,那如果進一步思考 Agent 解決問題的能力,其實是要解決一個復雜的優化問題的。比如,我們給定了一個任務,和一些可以用的 Base Models,那對應每一個模型,Harness 當中的每一個模組需要調整的可能是不一樣的,也就是模型 vs agent 有很多子特性上的匹配。這也跟上面一段講的 “七國八制” 有關。比如,有的模型 prompt 可以增長補充提升精度、有些模型 rag 掛多了反而會影響精度、有的安全加多了模型能力會劇烈下降。

      所以,我對 Harness 這一層的認知是,這是一個非常非常非常復雜的,優化和系統工程問題,值得投入。



      光是求解這個復雜的優化問題來帶來更好的 agent 就是一個令人覺得有趣且有價值的事情了。但是,從公式 1 的角度,M 也未嘗不可以被優化,尤其是在 Harness 上積累的數據,對下一階段的模型也至關重要。這二者一定不是互斥的,甚至 Anthropic 告訴我們的道理是,基模很重要,但是 Harness 做好了可以反哺基模的進化,于是有了 opus 4-claude code 1.0-opus4.5-claude code2.0-opus4.6…… 的迭代。上一個時代,大家瞄著 AGI 要做的事情是,給定數據集,大家優化模型參數。當前這個階段,Agent 在干的所有事情其實,都是給定模型,大家優化 Harness parameters。那如果,我們把 model parameters 也帶入進來一起優化呢?對應的下一代 AGI 路徑很有可能就是



      即,Model Parameters 和 Harness Parameters 迭代優化,或者,聯合優化。那么,Harness 最觸動我的事情是什么?

      AI “靈魂” 之爭:廣義上,大家會覺得大模型才是真正智能的大腦,是所有應用的核心源泉,就好比是汽車里的發動機,手機里面的芯片一樣,然后 Harness 是駕馭大模型,是自動駕駛系統,是整個手機的軟硬協同。但,如果公式 1 成立,要控制模型,甚至選擇模型,AI 的大腦,或者說靈魂到底是在 Base Model 還是 Harness 呢?如果公式 2 存在可能性,那就是我們還要基于 Harness 來進一步增訓模型,實現 Agent 中的自主進化,那靈魂到底屬于誰呢?

      [r1] Trivedy, Vivek. "The Anatomy of an Agent Harness." LangChain Blog, 10 Mar. 2026, http://www.langchain.com/blog/the-anatomy-of-an-agent-harness.

      [r2] Liu, Rui, et al. "AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem." arXiv preprint arXiv:2603.08938 (2026).

      [r3] He, Chaoyue, et al. "Harness Engineering for Language Agents: The Harness Layer as Control, Agency, and Runtime." (2026).

      [r4] Chen, Hanting, et al. "Pre-trained image processing transformer." CVPR 2021.

      [r5] Tian, Yuchuan, et al. "Instruct-ipt: All-in-one image processing transformer via weight modulation." arXiv preprint arXiv:2407.00676 (2024).

      [r6] Yang, Chengrun, et al. "Large language models as optimizers." ICLR 2024.

      [r7] Trivedi, Prashant, et al. "Align-pro: A principled approach to prompt optimization for llm alignment." AAAI 2025.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      雅馬哈哭死了!60歲發動機大神被辭退,轉身幫張雪造出冠軍神機

      雅馬哈哭死了!60歲發動機大神被辭退,轉身幫張雪造出冠軍神機

      侃故事的阿慶
      2026-05-20 11:04:09
      “最佳甘油三酯”是多少?醫生:過55歲以后,甘油三酯控制這范圍

      “最佳甘油三酯”是多少?醫生:過55歲以后,甘油三酯控制這范圍

      今日養生之道
      2026-05-20 13:10:45
      萬項,中國足球終于等到了他的天才10號位

      萬項,中國足球終于等到了他的天才10號位

      中場陰謀家
      2026-05-17 20:58:27
      醫生發現:每天早起后先排便的人,用不了半年身體或迎來5改變

      醫生發現:每天早起后先排便的人,用不了半年身體或迎來5改變

      垚垚分享健康
      2026-05-15 16:59:08
      22分史詩級翻盤夜:阿特金森死保哈登防線,米切爾更衣室失控怒吼

      22分史詩級翻盤夜:阿特金森死保哈登防線,米切爾更衣室失控怒吼

      鴻錦籃球
      2026-05-20 12:55:28
      人民日報評價《給阿嬤的情書》,言辭犀利,狠狠打了馮小剛的臉

      人民日報評價《給阿嬤的情書》,言辭犀利,狠狠打了馮小剛的臉

      一娛三分地
      2026-05-20 14:18:50
      李冰冰自曝與妹妹李雪因工作吵架:刪除微信、最長3個多月不說話......

      李冰冰自曝與妹妹李雪因工作吵架:刪除微信、最長3個多月不說話......

      魯中晨報
      2026-05-19 11:30:04
      QClaw暴跌99.19%,從“AI革命”到“一地蝦殼”,誰在裸泳?

      QClaw暴跌99.19%,從“AI革命”到“一地蝦殼”,誰在裸泳?

      鈦媒體APP
      2026-05-19 11:58:13
      霸州x華為:立一個存力支點,撬動華北平原的數據富礦

      霸州x華為:立一個存力支點,撬動華北平原的數據富礦

      腦極體
      2026-04-30 12:15:24
      國民黨妄稱“臺灣不是中華人民共和國的一部分”,鄭麗文應解釋!

      國民黨妄稱“臺灣不是中華人民共和國的一部分”,鄭麗文應解釋!

      素衣讀史
      2026-05-19 21:01:52
      獨家視頻丨俄羅斯總統普京乘車抵達北京人民大會堂

      獨家視頻丨俄羅斯總統普京乘車抵達北京人民大會堂

      國際在線
      2026-05-20 11:53:36
      看完劉浩存《主角》,再看楊紫《家業》,只想說沒比較就沒傷害

      看完劉浩存《主角》,再看楊紫《家業》,只想說沒比較就沒傷害

      瑛派兒老黃
      2026-05-18 18:41:09
      后勁依然很大,白宮還在發圖回憶中國行

      后勁依然很大,白宮還在發圖回憶中國行

      三叔的裝備空間
      2026-05-19 07:29:29
      2026養老金調整被壓下?真相:錢已到賬,未來是提低和統籌

      2026養老金調整被壓下?真相:錢已到賬,未來是提低和統籌

      社保精算師
      2026-05-19 12:32:04
      必須嚴查!江蘇南京25歲女孩因私處腫痛就醫,被要求住院全麻

      必須嚴查!江蘇南京25歲女孩因私處腫痛就醫,被要求住院全麻

      荷蘭豆愛健康
      2026-05-20 13:02:03
      性,已成為職場流通的硬資源!

      性,已成為職場流通的硬資源!

      黯泉
      2026-05-18 17:46:44
      塞爾:馬競愿出售阿爾瓦雷斯套現

      塞爾:馬競愿出售阿爾瓦雷斯套現

      懂球帝
      2026-05-20 09:06:05
      曲終人散!歐冠結束,薩爾布呂肯俱樂部態度變了,樊振東錯付了?

      曲終人散!歐冠結束,薩爾布呂肯俱樂部態度變了,樊振東錯付了?

      林子說事
      2026-05-20 11:02:21
      56:50!賴清德彈劾案鎩羽而歸,大陸罕見將其定性為臺海最大亂源

      56:50!賴清德彈劾案鎩羽而歸,大陸罕見將其定性為臺海最大亂源

      生活魔術專家
      2026-05-20 13:19:42
      排號140桌!等位2小時!東莞知名燒鵝店大排長龍!

      排號140桌!等位2小時!東莞知名燒鵝店大排長龍!

      阿天愛旅行
      2026-05-20 10:32:24
      2026-05-20 15:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13041文章數 142651關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      媒體:特朗普不希望"臺獨"倚仗美 馬科斯堪稱回應得快

      頭條要聞

      媒體:特朗普不希望"臺獨"倚仗美 馬科斯堪稱回應得快

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      舒淇大方承認:卸了妝就是50 歲的模樣

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      旅游
      家居
      本地
      教育
      公開課

      旅游要聞

      念青唐古拉倒映,棕頭鷗斜飛,雪域納木錯解凍“開湖”

      家居要聞

      日常印記 靜謐溫馨

      本地新聞

      最近的潮汕人,堪比家里有人考上了清華北大

      教育要聞

      別等老師找你談話了,孩子早戀的5個反常信號,越早發現越好

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美日韩不卡视频合集| 国产AV大陆精品一区二区三区| 极品av在线播放| 亚洲色男人| 国产亚洲小视频线播放| 国厂精品114福利电影免费| 国产熟妇| 极品人妻少妇| 日韩一区二区三区女优丝袜| 精品无码日韩国产不卡av| 全免费A级毛片免费看网站 | 亚洲精品一区二区18禁| 激情综合婷婷丁香五月尤物| 一本色道久久综合狠狠躁中文| 欧美不卡无线在线一二三区观| 狼友综合网| 色人妻综合| AV毛片无码中文字幕不卡| 国产精品成人久久电影| 亚洲av激情五月性综合| 亚洲综合久久国产一区二区| 夜夜躁狠狠躁日日躁2022| www.五月天婷婷| 97精品伊人久久久大香线蕉| 亚洲色无码专区在线观看精品| 女同二区| 人人妻人人澡人人爽欧美一区| 亚洲综合日韩av在线| 激情99| 精品精品亚洲高清a毛片| 中文字幕在线观看免费| 成人大香蕉| 亚洲欧洲av一区二区久久| 高级无码| 无码视频区| 成人一区二区三区三州| 四虎成人高清永久免费看| 亚洲精品国产精品国自产观看 | 国产日产欧产系列| 亚洲一区二区三区日本| 中文字幕人妻伦伦|