<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      全球排名前三,復(fù)旦自進化Harness Engineering讓GPT5.4再漲7個點

      0
      分享至



      機器之心編輯部

      2026 年以來,OpenAI、Anthropic、LangChain 等機構(gòu)紛紛發(fā)布關(guān)于 Harness Engineering 的技術(shù)博客,OpenClaw、Hermes Agent 等項目的火爆更讓 Harness Engineering 成為業(yè)界熱詞。人們的共識正在形成:模型的能力釋放,依賴于一套精密的外部框架

      Harness 的開發(fā)與優(yōu)化是一個工程問題,需要結(jié)合模型能力、任務(wù)環(huán)境共同設(shè)計。然而,模型自身以月為單位進化,任務(wù)場景往長尾分布發(fā)展,Harness 的進化與迭代卻高度依賴人工經(jīng)驗。 這引出了一個核心問題:在 Harness Engineering 的迭代循環(huán)中,哪些部分可以被自動化?如何讓 Harness 自動地從經(jīng)驗中學(xué)習(xí)并改進?

      來自復(fù)旦大學(xué)、北京大學(xué)、上海奇績智峰的團隊提出Agentic Harness Engineering (AHE),這是一套可觀測性(Observability)驅(qū)動的 Harness 自動優(yōu)化方法,端到端貫穿 Harness Engineering 的全流程,實現(xiàn)了模型能動性的最大程度釋放。



      • 論文標題:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
      • 論文鏈接:arxiv.org/abs/2604.25850
      • 代碼倉庫:github.com/china-qijizhifeng/agentic-Harness-engineering
      • 項目博客:https://dawning-road.github.io/blog/agentic-Harness-engineering

      在實驗期間,使用 GPT?5.4,AHE 在 Terminal-Bench 2 上的分數(shù)從 69.7 迭代到 77.0。GPT-5.5發(fā)布后,AHE迅速迭代出與之適配的Harness,在 Leaderboard 上位列全球第三



      并且,自動迭代得到的 Harness 展現(xiàn)出良好的模型間泛化以及任務(wù)間泛化能力,確保不是在 overfit 評測集。

      目前論文在社交平臺 X 上收獲大量關(guān)注,已經(jīng)有 10w + 瀏覽討論。



      為什么要設(shè)計可觀測體系?

      Harness Engineering 的三個視角



      從形態(tài)上看,模型和 Harness 共同構(gòu)成一個主體和環(huán)境進行交互。模型的所有行為都發(fā)生在概率空間中,是信息壓縮、智能發(fā)生、不確定性的來源,而 Harness 是包裹在外的確定性組件:system prompt、工具定義與實現(xiàn)、middleware/hook、skill 文檔、sub-agent 編排、長期記憶、日志與觀測。在 agent 邁向長程、生產(chǎn)力任務(wù)過程中,Harness 是讓模型行為穩(wěn)定、一致、可控的重要保證。

      從目的上看,Harness 的職能之一是在模型和環(huán)境之間管理一條雙向的上下文流:一側(cè)在合適的時機把任務(wù)、用戶意圖、環(huán)境狀態(tài)、外部信息傳進模型,另一側(cè)把模型的動作忠實地記錄、校驗后交回環(huán)境執(zhí)行。

      過去,開發(fā)者需要手動設(shè)計 prompt、復(fù)制 terminal 輸出、復(fù)制外部文檔內(nèi)容給模型,上下文分布在互不相通的空間里,人類依據(jù)直覺和觀察來決定 context 的構(gòu)成。因此,Harness 的設(shè)計目標之一,就是讓 context 的流動可以更加精準、更加自主。

      基于以上的形態(tài)與目標,Harness Engineering 的方法論是什么?

      最直觀的,是獨立優(yōu)化各個組件代碼,或者稱之為 Agent Infra。開發(fā)者社區(qū)貢獻了大量有用的 Harness 組件,用于記憶、上下文管理、沙盒環(huán)境、軌跡管理,這依賴于扎實的工程開發(fā)與優(yōu)化,讓各個部分的獨立地變得更加高效、安全、穩(wěn)定。

      進一步地,對于任意一個特定環(huán)境,若要找到最優(yōu)的 Harness,這就成為了一個模型 x Harness x 環(huán)境的組合優(yōu)化問題。不再能像開發(fā)單獨組件那樣有一個明確的規(guī)則,不再能利用人類開發(fā)者的先驗知識一步到位找出最優(yōu)組合,而是要開發(fā)、觀測、迭代,根據(jù)模型的運行軌跡、評測分數(shù),反復(fù)調(diào)整。

      人類的注意力是稀缺的,因此,必須讓 agent 本身也參與到 Harness 優(yōu)化的過程中來。只要把優(yōu)化目標、動作空間、狀態(tài)空間都以一種 agent 可讀的方式呈現(xiàn),那么就可以引入 agent 進行自主優(yōu)化。這便是 AHE 設(shè)計可觀測體系的出發(fā)點。

      可觀測體系:組件、經(jīng)驗、決策

      Harness 的開發(fā)也分為幾個階段:編寫組件、運行 agent、收集反饋。這個過程反復(fù)迭代,持續(xù)運行。如果要想讓 agent 接手人類的工作,就需要在此過程中所產(chǎn)生的 context 可觀測,并且做好 context 結(jié)構(gòu)化、層次化。

      在此過程中,并不限制 agent 的自主決策空間,只依賴評測結(jié)果,以及更多分層信息來輔助它精準修改、準確歸因。

      AHE 方法由三個角色構(gòu)成:Coding Agent 負責運行測試,Agent Debugger 負責整理軌跡,Evolve Agent 負責修改 Coding Agent 的 Harness 實現(xiàn)進化。

      整個可觀測體系分三部分:

      1. NexAU 提供各部分解耦的 Harness,提供 Harness 組件的可觀測性;
      2. Agent Debugger 把 10M token 量級的 raw trace 提煉成分層的、可溯源的多維反饋意見,實現(xiàn)經(jīng)驗的可觀測性;
      3. Evolve Agent 基于 git 溯源的組件歷史、反饋結(jié)果,構(gòu)建證據(jù)驅(qū)動的完整修改鏈路,對相應(yīng)組件進行修改,實現(xiàn)優(yōu)化行為的可觀測性。



      (1)組件可觀測性:解耦的 “聲明式 Harness”

      Coding Agent 基于 NexAU 框架運行。AHE 把 Harness 拆成了七種正交的文件級組件:System Prompt、Tool Description、Tool Implementation、Middleware、Skill、Sub-agent Config、Long-term Memory。每個組件都是一個獨立的文件,有明確的掛載點,彼此之間結(jié)構(gòu)解耦。

      這種設(shè)計的巧妙之處在于:它讓 “失敗模式 - 單一組件” 的映射關(guān)系變得極其清晰。 所有修改通過 Git 進行版本管理,每次變更都是一次可追溯、可審計、可回滾的 commit。

      目標 Coding Agent 則故意從一個 “零先驗” 的極簡形態(tài)起步:只有一個 run_shell_command 工具,沒有任何 Middleware、Skill 或 Sub-agent。這樣做是為了確保后續(xù)每一次新增組件、每一次 Prompt 改寫,都能被干凈地歸因。

      (2)經(jīng)驗可觀測性:Agent Debugger 把軌跡變成可消費資產(chǎn)

      一次完整評測所產(chǎn)生的原始軌跡動輒數(shù)千萬 Token,如果把它們直接丟給 Evolve Agent,其上下文窗口將瞬間被淹沒,什么代碼都改不了。

      AHE 開發(fā)了一套名為 Agent Debugger 的分層提煉流水線:底層完整記錄所有原始軌跡;中層由 Cleaner 去除重復(fù)的工具輸出;上層則通過一個 QA Sub-agent,針對每道題的多次 rollout 結(jié)果,自動切換提問策略。最后,所有單題分析匯聚成一份約 10K Token 的概覽報告,交給 Evolve Agent 消費。

      本質(zhì)上,這是一種漸進式披露的設(shè)計。Evolve Agent 默認只需閱讀概覽,但隨時可以查看單題細節(jié),在需要核實結(jié)論時回溯原始軌跡。10M 級別的數(shù)據(jù)由此變成了可并發(fā)、可消費、可審計的經(jīng)驗資產(chǎn)。

      (3)決策可觀測性:Evolve Agent 的 “證據(jù)驅(qū)動修改”



      Evolve Agent 的設(shè)計原則極其克制,目的是為了實現(xiàn)穩(wěn)定進化:

      • 只能修改 workspace 內(nèi)的 Harness 組件文件,評測框架、LLM 配置、原始 System Prompt 均為只讀,杜絕任何繞過評測的 hacking 行為。
      • 每次修改必須附帶一份 “變更清單”,包括:失敗的證據(jù)(具體哪些任務(wù)失敗了)、推斷的根因、針對性的修改方案,以及自我聲明的預(yù)測(預(yù)計修復(fù)哪些任務(wù)、可能破壞哪些任務(wù))。每一輪修改后,由下一輪評測充當驗證者:預(yù)測正確的修改保留,預(yù)測錯誤的修改自主決定回滾。

      如此一來,每一次 Harness 變動都不再是工程師的直覺、抽象經(jīng)驗,而是一條可被下一輪實驗所證偽的假說。Harness 進化由此從藝術(shù)走向工程,從經(jīng)驗走向科學(xué)。

      實驗結(jié)果:超越人類專家,跨模型泛化



      在主實驗上,AHE 將 GPT-5.4 驅(qū)動的 Coding Agent 在 Terminal-Bench 2 上的 pass@1 分數(shù)從最初的 69.7% 提升到了 77.0%,絕對提升 7.3 個百分點,相對提升 10.5%。這一成績不僅超過了同樣使用 GPT-5.4 的 OpenAI 官方 Codex-CLI(71.9%),也顯著優(yōu)于 ACE 和 Training Free-GRPO 等主流基線。

      更讓人驚喜的是泛化能力。

      跨任務(wù)泛化: 將在 Terminal-Bench 2 上演化得到的 Harness 凍結(jié)后,直接遷移到 SWE-Bench Verified 上,AHE 以更少的 Token 消耗實現(xiàn)了比 ACE 和 TF-GRPO 更高的成功率。這表明演化學(xué)到的不是 “如何刷 Terminal-Bench 2” 的特化知識,而是可遷移的通用工程經(jīng)驗。



      跨模型泛化: 同樣一份由 GPT-5.4 演化得到的 Harness,分別配到 Qwen-3.6-Plus、Gemini-3.1-Flash 和 DeepSeek-V4 上,不做任何再演化直接評測。結(jié)果是三種模型均獲得 +5.1 到 +10.1 個百分點的顯著提升,且模型越弱,提升越大。這套 Harness 并非為某個特定模型量身定制,而是學(xué)到了一些真正普適的結(jié)構(gòu)性原則。



      價值到底沉淀在哪里?

      事實比策略更可遷移

      在博客中,作者還提到了一些前期的失敗探索。為了快速迭代,團隊最初只在 Terminal-Bench 2 的 30 道 hard 難度的題目上做 10 輪演化。結(jié)果題目通過數(shù)在 16-20 間反復(fù)震蕩,基本修一個壞一個。分析最終版本的 Harness 發(fā)現(xiàn),Evolve Agent 對特定任務(wù)寫了針對性的 hack:Golden Gate 的 splice-offset 檢測、Caffe 的完整工作流模板等等。這表明,過小的題集讓單一題目的信號過強,抑制不住 agent 的 hack 傾向

      團隊將題集擴到 89 題的全集,并在 Evolve Agent 的 System Prompt 中加入顯式的方法論指導(dǎo),比如 “Safety/Creativity/Generality” 原則和 “Middleware > Tool Desc > Skill > Prompt” 的約束層級排序。結(jié)果 overfit 確實緩解了,但訓(xùn)練曲線在 75.3% 就早早觸頂不再上升,78% 的修改都落在 Middleware 層。人工引入的行為先驗,恰恰成了進化的僵化之源

      最終版本做了兩個關(guān)鍵改動:一是在評測時每題跑兩次,通過 partial-pass 的 diff 定位最精準的診斷信號;二是刪掉所有行為指導(dǎo),只保留證據(jù)驅(qū)動過程要求和回滾規(guī)則。

      結(jié)果上,不僅分數(shù)上穩(wěn)步提升至 77.0%,修改分布也變得更加健康:middleware 37% + tool 48% + prompt 10%,沒有任何層級單獨占比超過一半,不同階段靈活調(diào)整。



      一個來自社區(qū)的慣性思維是 “先調(diào)整 Prompt”。然而,把 AHE 演化得到的四類組件(Memory、Tools、Middleware、System Prompt)逐一單獨放回最初的 Harness 上進行消融實驗時,結(jié)果卻截然相反:Memory 單獨就能恢復(fù)全局增幅的 95% 以上,Tool 在中等難度題目上提升顯著,而 System Prompt 單獨遷移反而導(dǎo)致性能下降。

      一個可能的原因是:Prompt 的語義是策略性的(你應(yīng)該這樣做),而 Memory 和 Tool 的語義是事實性的(這里有一段可復(fù)用代碼)。事實比策略遷移性好,它們保留了信息,同時維持了泛化性。這或許也解釋了為什么人類試圖通過注入方法論來指導(dǎo) Evolve Agent 時會遭遇失敗:開發(fā)者習(xí)慣于教策略,而模型更擅長學(xué)事實。

      結(jié)語:可觀測的進化循環(huán)會讓 AGI 加速到來

      AHE 帶來的最大啟示或許在于:當模型足夠強,搭建一個結(jié)構(gòu)化的、可觀測的演化環(huán)境,比直接開發(fā) Harness 更重要。搭建好觀測體系(讓 Evolve Agent 能訪問組件、軌跡、反饋),然后在全量數(shù)據(jù)上運行測試,就足夠演化出有競爭力的 Harness。無需替 Agent 思考任何方法論,只是給它一個清晰的 workspace、明確的修改接口和高質(zhì)量的反饋信號,Evolve Agent 的行為便自動向真實工程師收斂。

      是時候邁出第一步,讓 Harness 也開始進化了。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      某些人的良心徹底爛了!

      某些人的良心徹底爛了!

      胖胖說他不胖
      2026-05-19 11:50:06
      上海交大私吞獎金后續(xù):女生大有來頭,更多惡行被曝,拉老師下水

      上海交大私吞獎金后續(xù):女生大有來頭,更多惡行被曝,拉老師下水

      奇思妙想草葉君
      2026-05-19 23:30:48
      約合323.94億元!中國企業(yè)中標全球最大機場項目

      約合323.94億元!中國企業(yè)中標全球最大機場項目

      GA環(huán)球建筑
      2026-05-19 19:21:51
      湖人一夜3大動態(tài)!老詹不接受底薪+小里值5年2個億?東契奇成關(guān)鍵

      湖人一夜3大動態(tài)!老詹不接受底薪+小里值5年2個億?東契奇成關(guān)鍵

      鍋子籃球
      2026-05-20 20:55:10
      1949年毛澤東聽聞南京解放,一拍桌子:我看蔣介石還有多大本事

      1949年毛澤東聽聞南京解放,一拍桌子:我看蔣介石還有多大本事

      大運河時空
      2026-05-19 20:00:03
      沉睡3000年的西周女王開棺震驚:裸體下葬,渾身珠寶藏著文明密碼

      沉睡3000年的西周女王開棺震驚:裸體下葬,渾身珠寶藏著文明密碼

      文史道
      2026-05-20 18:12:48
      狼群從不碰蒙古包?牧民三招防狼,游牧先民的智慧太絕了!

      狼群從不碰蒙古包?牧民三招防狼,游牧先民的智慧太絕了!

      老達子
      2026-05-20 06:20:03
      官方:阿森納將在北京時間5月31日21點舉行奪冠游行

      官方:阿森納將在北京時間5月31日21點舉行奪冠游行

      懂球帝
      2026-05-20 18:28:24
      14個死亡火化信息流出!一近百萬人口區(qū)縣,撕開生活兩個扎心現(xiàn)實

      14個死亡火化信息流出!一近百萬人口區(qū)縣,撕開生活兩個扎心現(xiàn)實

      火山詩話
      2026-05-20 09:51:15
      華人老夫婦大鬧機艙?飛上海航班緊急備降西雅圖,近300人被迫深夜滯留...

      華人老夫婦大鬧機艙?飛上海航班緊急備降西雅圖,近300人被迫深夜滯留...

      新浪財經(jīng)
      2026-05-20 15:10:21
      看演員楊子姍的日常生活,才懂明星和普通人差距之大,難怪都仇富

      看演員楊子姍的日常生活,才懂明星和普通人差距之大,難怪都仇富

      林輕吟
      2026-05-20 19:32:56
      雙品牌煥新升級,昊鉑埃安BU兩條路線一條心

      雙品牌煥新升級,昊鉑埃安BU兩條路線一條心

      汽車觀察AUTO
      2026-05-08 09:14:34
      上海G3半場吊打北京!四首發(fā)齊爆主導(dǎo),趙睿+雙大外沒法看!

      上海G3半場吊打北京!四首發(fā)齊爆主導(dǎo),趙睿+雙大外沒法看!

      籃球資訊達人
      2026-05-20 20:28:47
      羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發(fā)和產(chǎn)品

      羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發(fā)和產(chǎn)品

      爆角追蹤
      2026-05-19 12:38:40
      馬家軍突襲咸陽,揚言共軍最怕馬家騎兵,彭德懷:把重機槍調(diào)上來

      馬家軍突襲咸陽,揚言共軍最怕馬家騎兵,彭德懷:把重機槍調(diào)上來

      興趣知識
      2026-05-20 13:13:06
      2.8萬億杠桿資金續(xù)創(chuàng)新高!誰在為歷史天量買單?主力已搶先離場

      2.8萬億杠桿資金續(xù)創(chuàng)新高!誰在為歷史天量買單?主力已搶先離場

      小白鴿財經(jīng)
      2026-05-20 10:35:45
      卡里克:B費日常生活中也很自律,每天吃早餐他都比我早到

      卡里克:B費日常生活中也很自律,每天吃早餐他都比我早到

      懂球帝
      2026-05-20 16:20:08
      余承東官宣全新問界M9:5月27日發(fā)布 140多項創(chuàng)新技術(shù)

      余承東官宣全新問界M9:5月27日發(fā)布 140多項創(chuàng)新技術(shù)

      CNMO科技
      2026-05-20 09:59:04
      上海交大私吞獎金后續(xù):處分落地,4個頭銜被擼,本人主動退暑校

      上海交大私吞獎金后續(xù):處分落地,4個頭銜被擼,本人主動退暑校

      奇思妙想草葉君
      2026-05-20 14:57:34
      你見過最慘的人生有多慘?網(wǎng)友:不會有人經(jīng)歷這些還不瘋吧!

      你見過最慘的人生有多慘?網(wǎng)友:不會有人經(jīng)歷這些還不瘋吧!

      夜深愛雜談
      2026-05-20 08:02:52
      2026-05-20 22:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13045文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰(zhàn)

      頭條要聞

      貨車司機剛運出34噸面粉就遇大雨淋濕大半 面粉廠免賠

      頭條要聞

      貨車司機剛運出34噸面粉就遇大雨淋濕大半 面粉廠免賠

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學(xué)不來的松弛

      財經(jīng)要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      28項升級 新紅旗HQ9上市 33.88萬元起

      態(tài)度原創(chuàng)

      手機
      本地
      游戲
      公開課
      軍事航空

      手機要聞

      首發(fā)天璣9500最強版本!iQOO 15T發(fā)布:3299元起

      本地新聞

      用云錦的方式,打開江蘇南京

      《GTA6》定價大烏龍!PS商店顯示竟僅賣16便士

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄媒盛贊中國軍人:身姿挺拔 站如松柏

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 中文字幕日韩有码av| 国产乱子影视频上线免费观看| 久久精品无码免费不卡| 亚洲国产精品久久久久秋霞| 中文字幕成人小说| 久久综合伊人 六十路| 国产精品久久久久9999赢消| 99久久99这里只有免费费精品| 久久亚洲精品中文字幕馆| 亚洲一级毛片免费看| 日韩人妻无码精无码中文字幕亚洲美夜棈 | 久青草影院在线观看国产| 亚洲中文人妻无码| 国产精品亚洲精品爽爽| 国内不卡一区二区三区| 激情 自拍 另类 亚洲| 国产成人高清亚洲一区91| 草久视频| 成人国产亚洲精品a区天堂| 国产1区| 2021亚洲国产精品无码| 国色天香中文字幕在线视频| 五月停停开心中文字幕| 亚洲第一页色| 国产第1页| 欧美一级A片免费观看网站| 亚洲精品国产精品国在线| 蜜臀91精品国产高清在线| 亚洲福利| 日韩精品一区二区三区中文| 西西444WWW无码精品| 无码专区天天躁天天躁在线| 亚洲中文字幕人妻| 国产av不卡一区二区| 亚洲线精品一区二区三八戒| 亚洲日本一区二区三区在线不卡| 任我爽精品视频在线播放| 亚洲精品在线观看毛片| 无码伊人久久大蕉中文无码| 欧美乱大交aaaa片if| 精品人妻午夜福利一区二区|