![]()
這項由Sylph.AI研究團隊完成的技術(shù)報告發(fā)表于2026年5月,論文編號為arXiv:2604.21003v3,有興趣深入了解的讀者可以通過該編號在arXiv上查閱完整原文。
一個困境:每次換新任務,就得重新搭一套"舞臺"
假設你是一家公司的IT主管,你剛剛花了三個月時間,請來一批頂尖工程師,給公司的AI助手精心打造了一套運行環(huán)境——包括它能用的工具、它理解任務的方式、它如何一步步執(zhí)行操作、遇到錯誤時如何反應。這套環(huán)境就像是專門為一臺精密機器量身定制的操作臺,少了任何一個螺絲,機器就運轉(zhuǎn)不靈。
好不容易搭好了,公司換了一個新業(yè)務場景。之前的那套操作臺全部作廢,工程師們又要從零開始,再花三個月。
這正是當前AI代理(AI agent)領域面臨的核心困境。AI模型本身已經(jīng)相當強大,但讓它們真正"干活",需要一整套被稱為"腳手架"(harness)的配套工程——包括給AI的指令、它能調(diào)用的工具、任務的執(zhí)行流程,以及判斷它干得好不好的評估標準。每換一個應用領域,這套腳手架就得重新設計、反復調(diào)試,耗費大量人力和專業(yè)知識。
Sylph.AI的研究團隊把這個問題看在眼里,提出了一個兩層嵌套的自動化框架,核心思想是:與其讓人來搭腳手架,不如讓AI自己學會搭腳手架;更進一步,讓AI學會如何更好地"學會搭腳手架"。論文的標題就很直白地表達了這個野心——"你最后一次需要手動搭建的腳手架"。
一、什么是"腳手架"?為什么它這么重要?
在講這篇論文的核心方法之前,有必要先弄清楚"腳手架"到底是什么。
研究團隊給出了一個簡潔的公式:**AI代理 = 模型 + 腳手架**。模型是那個經(jīng)過海量數(shù)據(jù)訓練、具備語言理解和推理能力的大腦,比如GPT-4或Claude。但光有大腦不夠,你還需要給它配上眼睛、手腳、工作臺和任務說明書——這些加在一起,就是腳手架。
腳手架涵蓋的范圍相當廣泛。最基礎的部分是給AI的"說明書":系統(tǒng)級的指令告訴AI它是誰、能做什么、有什么限制;任務級的指令告訴它當前這個具體任務的目標和成功標準是什么。然后是工具集:AI能調(diào)用哪些能力來跟環(huán)境交互,比如讀寫文件、執(zhí)行命令行操作、打開網(wǎng)頁、搜索信息。再往上是基礎設施:AI運行所在的執(zhí)行環(huán)境,包括文件系統(tǒng)、沙盒容器、瀏覽器等。
更復雜的腳手架還包括編排邏輯,也就是控制AI行為流程的規(guī)則:什么時候需要召喚一個子代理來協(xié)助,任務在多個AI之間怎么交接,遇到什么情況要回滾并重試。還有鉤子和中間件——夾在AI決策和實際執(zhí)行之間的"質(zhì)檢員",確保AI生成的代碼能通過語法檢查,或者在AI跑偏時強制糾正。最后是模型配置:用哪個模型、溫度參數(shù)設置多少(控制AI回答的隨機程度)、不同子任務分配給不同規(guī)格的模型。
這些東西加在一起,決定了一個AI代理能感知什么、能做什么、如何做。真實案例印證了這一點:OpenAI的Codex、Anthropic的Claude Code這些工具,本質(zhì)上都是把大語言模型包裹在一套精心設計的腳手架里。OpAgent這個用于網(wǎng)頁自動化操作的系統(tǒng),靠的是把規(guī)劃者、定位者、反思者、總結(jié)者四個AI角色串聯(lián)成一條流水線,在網(wǎng)頁瀏覽基準測試中取得了當時的最佳成績——驅(qū)動這一成績的,很大程度上是腳手架設計,而非模型本身有多強。
但問題在于,每一套優(yōu)秀的腳手架背后都有大量隱形的人工成本。研究人員引用的一個例子是OpenAI工程博客描述的腳手架工程實踐:工程師們需要為AI定制代碼檢查工具、搭建專門的日志監(jiān)控系統(tǒng)、集成瀏覽器開發(fā)者工具,并建立層次化的文檔結(jié)構(gòu),就為了讓AI能讀懂一個特定的代碼庫。另一個例子來自Anthropic:工程師們對評估提示詞反復校準,設計了四套評分維度來判斷AI產(chǎn)出的設計質(zhì)量是否過關,還為不同階段的任務在多個AI之間協(xié)商"沖刺合約"。這些工作需要深厚的領域知識和大量的試錯迭代,每換一個場景就得重來一遍。
二、內(nèi)層循環(huán):讓AI在"干—評—改"的循環(huán)中進化自己的腳手架
Sylph.AI的解法從一個樸素的觀察出發(fā):人類工程師調(diào)試腳手架的過程,其實也是一個循環(huán)——讓AI跑一遍任務,看哪里出了問題,根據(jù)問題改腳手架,再跑一遍。既然這個過程有規(guī)律可循,為什么不用另一個AI來自動完成這個循環(huán)?
這就是論文提出的第一層結(jié)構(gòu):**腳手架進化循環(huán)**(Harness Evolution Loop)。這個循環(huán)由三個角色協(xié)同運轉(zhuǎn)。
第一個角色是**工人代理**(Worker Agent)。它是被優(yōu)化的對象,配備著當前版本的腳手架,接到任務就去執(zhí)行,完事后留下一份"執(zhí)行日志",記錄它做了什么、看到了什么、每一步花了多長時間。
第二個角色是**評估代理**(Evaluator Agent)。它不參與任務執(zhí)行,專門扮演"挑剔的質(zhì)檢員"。收到工人代理的執(zhí)行日志后,它干四件事:對照真實環(huán)境狀態(tài),檢查工人代理的觀察記錄是否準確,揪出那些"以為自己做了但其實沒做"的情況;逐條核對任務的成功標準,給出每一條的通過或失敗判斷;把總執(zhí)行時間拆分為"AI思考時間"和"工具執(zhí)行時間"兩部分,判斷性能瓶頸出在哪里;最后給出一個綜合分數(shù),優(yōu)先看有沒有完成任務,完成任務的情況下再比誰用時更短。
第三個角色是**進化代理**(Evolution Agent)。它像一個經(jīng)驗豐富的高級工程師,讀遍所有歷史嘗試記錄——每一個版本的腳手架長什么樣、評估代理對它的診斷意見、得了多少分、比上一版是進步了還是退步了。基于這些信息,它識別反復出現(xiàn)的失敗模式,然后動手修改腳手架:可能是改一段系統(tǒng)提示詞,可能是修復一個工具的實現(xiàn)邏輯,可能是調(diào)整任務執(zhí)行的流程控制,可能是換一個更合適的底層模型。
這三個角色構(gòu)成一個閉環(huán),具體運轉(zhuǎn)方式體現(xiàn)在論文的算法一中。從一個初始的通用腳手架出發(fā),循環(huán)反復執(zhí)行K輪:每輪讓工人代理跑一遍任務,評估代理打分并診斷,進化代理基于完整歷史記錄改出新版腳手架。每次改版之后,系統(tǒng)會保留歷史上得分最高的那個版本作為"當前最佳",進化代理每次改版時都以這個最佳版本為基礎,而不是直接在上一輪的結(jié)果上繼續(xù)改——這樣可以防止一次失敗的嘗試讓系統(tǒng)一路跑偏。循環(huán)結(jié)束后,輸出歷史最佳腳手架及其完整的進化歷史。
這個過程的精妙之處在于兩點:其一,進化代理看到的不只是"最新失敗",而是完整的歷史記錄,這讓它能區(qū)分"偶發(fā)錯誤"和"系統(tǒng)性缺陷";其二,任務的"成功標準"被顯式定義為腳手架輸入的一部分,評估代理有明確的依據(jù),而不是憑感覺打分。
三、外層循環(huán):讓AI學會如何更好地"教會AI搭腳手架"
腳手架進化循環(huán)解決了"給單個任務自動調(diào)出好腳手架"的問題。但研究團隊注意到另一個問題:這個循環(huán)本身的效果,取決于評估代理和進化代理的提示詞寫得好不好、評分函數(shù)設計得合不合理、每次循環(huán)的執(zhí)行邏輯是否合適。換句話說,這個循環(huán)本身也是一套腳手架。
這套"循環(huán)腳手架"用符號表示為Λ,它包含四個組成部分:工人代理本身、初始腳手架的起點、評估代理、進化代理。目前,這四個部分是由人類工程師設計的,在整個進化循環(huán)過程中保持不變。
但如果Λ本身也能被自動優(yōu)化,會發(fā)生什么?
這就是論文提出的第二層結(jié)構(gòu):**元進化循環(huán)**(Meta-Evolution Loop)。它的核心思路是:把腳手架進化循環(huán)當作被優(yōu)化的對象,在大量不同類型的任務上運行它,觀察它收斂得快不快、最終效果好不好,然后用一個"元進化代理"(Meta-Evolution Agent)來修改Λ,讓這個循環(huán)在新任務上能更快、更好地收斂。
研究團隊特別指出,Λ和普通腳手架具有完全相同的結(jié)構(gòu):它有提示詞(評估代理和進化代理的指令),有工具(評分函數(shù)、版本管理操作、代碼編輯能力),有觀察內(nèi)容(從工人代理、評估代理、進化代理那里收集什么樣的信息),有編排邏輯(循環(huán)跑多少輪、什么時候提交或回滾、任務怎么選取和排序)。因此,優(yōu)化Λ和優(yōu)化普通腳手架在本質(zhì)上是同一件事,只是抽象層次更高了一層。
元進化代理可以調(diào)整的東西包括:評估代理的提示詞——要它重點關注哪些失敗模式,用什么標準打分,需要什么樣的證據(jù)才能判定某個條件通過;進化代理的提示詞——診斷失敗時按什么思路分析,優(yōu)先考慮哪類代碼改動,改動幅度該保守還是激進;工人代理的觀察結(jié)構(gòu)——從執(zhí)行過程中暴露哪些遙測數(shù)據(jù)和中間狀態(tài);評估代理和進化代理之間的信息流——每一步在兩個代理之間傳遞什么信息;評分函數(shù)的設計——是用當前的"完成與否優(yōu)先、再比用時"兩層結(jié)構(gòu),還是改成多維度評分;以及循環(huán)本身的超參數(shù)——迭代輪數(shù)、并行執(zhí)行的程度、觸發(fā)回滾的分數(shù)閾值,以及何時停止迭代。
算法二描述了元進化循環(huán)的具體運轉(zhuǎn)方式。從一個初始的Λ出發(fā),每一輪對所有訓練任務跑一遍腳手架進化循環(huán),匯總各個任務的最終得分取平均值作為Λ的綜合評分,然后元進化代理基于全部歷史記錄改出新版Λ。同樣地,系統(tǒng)保留歷史上綜合評分最高的Λ版本,元進化代理每次改版都以它為基礎。
四、這個框架和機器學習里的"元學習"有什么關系?
研究團隊在論文中明確指出,這個兩層框架和機器學習領域里一個被稱為"元學習"(meta-learning,也叫"學會學習")的概念高度對應,并給出了一張清晰的對照表。
在傳統(tǒng)元學習框架里,內(nèi)層循環(huán)是在單個任務上對模型參數(shù)做梯度更新;外層循環(huán)是在多個任務上評估當前的適應策略,然后更新這個策略本身,目標是找到一個好的初始參數(shù)和優(yōu)化過程,讓模型能在新任務上用極少的梯度步驟快速適應。
在本文的框架里,內(nèi)層循環(huán)是在單個任務上對腳手架H做迭代修改;外層循環(huán)是在多個訓練任務上評估當前的進化藍圖Λ,然后由元進化代理修改Λ,目標是找到一個好的藍圖,讓腳手架進化循環(huán)能在新任務上快速收斂到高性能。
元學習里的"模型參數(shù)"對應這里的"腳手架H";元學習里的"優(yōu)化過程(初始點+優(yōu)化器+損失函數(shù))"對應這里的"進化藍圖Λ";元學習里用梯度做參數(shù)更新,這里用大語言模型做腳手架修改;兩者的最終目標都是"快速適應新任務"。
這個對應關系不只是一個比喻,而是說明兩個系統(tǒng)解決的是結(jié)構(gòu)上同一類問題:如何設計一個適應過程,使得面對新任務時,適應的速度盡可能快、效果盡可能好。
五、怎么判斷這套框架是否真的管用?
論文提出了一套評估協(xié)議。框架學到的最佳進化藍圖Λ最終要接受"泛化測試"——把它用在訓練階段從未見過的新任務上,衡量它的真實表現(xiàn)。
衡量的維度有三個。一是收斂速度:腳手架進化循環(huán)需要跑多少輪,才能讓工人代理的表現(xiàn)達到一個預設的目標分數(shù)線?輪數(shù)越少,說明框架越高效。二是最終性能:在固定輪數(shù)內(nèi),工人代理能在新任務上達到多高的通過率?三是魯棒性:在不同類型的新任務上,收斂速度的波動有多大?波動越小,說明框架越穩(wěn)定可靠。
一個理想的Λ應該讓內(nèi)層的腳手架進化循環(huán),在任何新任務上都能以更少的迭代次數(shù)、更低的計算成本,產(chǎn)出比人工設計的進化循環(huán)更好的專用腳手架。
六、這項研究的起點和終點
研究團隊坦承,這篇論文目前還是一個框架性的理論提案,配合了算法描述和形式化定義,但尚未附上大規(guī)模實驗數(shù)據(jù)。他們在論文末尾明確說明,將用一篇后續(xù)論文來提供實驗驗證,測試場景會覆蓋那些即使用當前最先進的AI代理也難以自動化的復雜工作流程——包括企業(yè)定制化的客戶服務流程和各類專業(yè)領域的行業(yè)應用。
最終的產(chǎn)品愿景是:任何用戶,只要指向一個新的任務場景,系統(tǒng)就能自動進化出一個專門針對該場景調(diào)優(yōu)的高性能AI代理,全程不需要用戶懂任何腳手架工程知識。
歸根結(jié)底,這項研究在嘗試回答一個很有意思的遞歸問題:AI能不能替代人類來做"讓AI變得更好"這件事?在腳手架層面,答案似乎是肯定的——至少在理論框架上,這條路是通的。腳手架工程師的工作,可能真的會被一個足夠聰明的"腳手架進化機器"接管。而這個"進化機器"本身,也可以被更高一層的機器來優(yōu)化。
這種自我改進的循環(huán)能走多遠,是一個值得持續(xù)關注的問題。
**Q&A**
Q1:腳手架進化循環(huán)和傳統(tǒng)的提示詞優(yōu)化有什么不同?
A:傳統(tǒng)的提示詞優(yōu)化只調(diào)整AI收到的文字指令,而腳手架進化循環(huán)可以修改整個運行框架,包括工具實現(xiàn)、執(zhí)行流程控制、觀察數(shù)據(jù)結(jié)構(gòu)和底層模型配置。本質(zhì)區(qū)別是優(yōu)化對象的范圍:提示詞優(yōu)化是微調(diào)說明書的措辭,腳手架進化是重新設計整個操作臺。
Q2:元進化循環(huán)需要多少訓練任務才能學到有用的進化藍圖?
A:論文目前是理論框架,尚未給出具體的訓練任務數(shù)量要求。研究團隊計劃在后續(xù)論文中通過實驗回答這個問題,測試場景會覆蓋多種復雜的企業(yè)級工作流程,屆時才能給出量化的數(shù)據(jù)參考。
Q3:腳手架進化循環(huán)中的評估代理如何避免給出錯誤的診斷?
A:評估代理采用了對照真實環(huán)境狀態(tài)進行交叉驗證的機制,而不只依賴工人代理自己的執(zhí)行日志,這樣可以發(fā)現(xiàn)工人代理"以為自己做了但實際沒做到"的情況。此外,成功標準在任務定義階段就被明確列出,評估代理有具體條目可以逐一核對,減少了主觀判斷的空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.