Sylph.AI提出"最后一個你需要手動搭建的腳手架"

2026-05-06 17:02:26　來源: 科技行者

天津舉報

分享至

這項由Sylph.AI研究團隊完成的技術(shù)報告發(fā)表于2026年5月，論文編號為arXiv:2604.21003v3，有興趣深入了解的讀者可以通過該編號在arXiv上查閱完整原文。

一個困境：每次換新任務，就得重新搭一套"舞臺"

假設你是一家公司的IT主管，你剛剛花了三個月時間，請來一批頂尖工程師，給公司的AI助手精心打造了一套運行環(huán)境——包括它能用的工具、它理解任務的方式、它如何一步步執(zhí)行操作、遇到錯誤時如何反應。這套環(huán)境就像是專門為一臺精密機器量身定制的操作臺，少了任何一個螺絲，機器就運轉(zhuǎn)不靈。

好不容易搭好了，公司換了一個新業(yè)務場景。之前的那套操作臺全部作廢，工程師們又要從零開始，再花三個月。

這正是當前AI代理（AI agent）領域面臨的核心困境。AI模型本身已經(jīng)相當強大，但讓它們真正"干活"，需要一整套被稱為"腳手架"（harness）的配套工程——包括給AI的指令、它能調(diào)用的工具、任務的執(zhí)行流程，以及判斷它干得好不好的評估標準。每換一個應用領域，這套腳手架就得重新設計、反復調(diào)試，耗費大量人力和專業(yè)知識。

Sylph.AI的研究團隊把這個問題看在眼里，提出了一個兩層嵌套的自動化框架，核心思想是：與其讓人來搭腳手架，不如讓AI自己學會搭腳手架；更進一步，讓AI學會如何更好地"學會搭腳手架"。論文的標題就很直白地表達了這個野心——"你最后一次需要手動搭建的腳手架"。

一、什么是"腳手架"？為什么它這么重要？

在講這篇論文的核心方法之前，有必要先弄清楚"腳手架"到底是什么。

研究團隊給出了一個簡潔的公式：**AI代理 = 模型 + 腳手架**。模型是那個經(jīng)過海量數(shù)據(jù)訓練、具備語言理解和推理能力的大腦，比如GPT-4或Claude。但光有大腦不夠，你還需要給它配上眼睛、手腳、工作臺和任務說明書——這些加在一起，就是腳手架。

腳手架涵蓋的范圍相當廣泛。最基礎的部分是給AI的"說明書"：系統(tǒng)級的指令告訴AI它是誰、能做什么、有什么限制；任務級的指令告訴它當前這個具體任務的目標和成功標準是什么。然后是工具集：AI能調(diào)用哪些能力來跟環(huán)境交互，比如讀寫文件、執(zhí)行命令行操作、打開網(wǎng)頁、搜索信息。再往上是基礎設施：AI運行所在的執(zhí)行環(huán)境，包括文件系統(tǒng)、沙盒容器、瀏覽器等。

更復雜的腳手架還包括編排邏輯，也就是控制AI行為流程的規(guī)則：什么時候需要召喚一個子代理來協(xié)助，任務在多個AI之間怎么交接，遇到什么情況要回滾并重試。還有鉤子和中間件——夾在AI決策和實際執(zhí)行之間的"質(zhì)檢員"，確保AI生成的代碼能通過語法檢查，或者在AI跑偏時強制糾正。最后是模型配置：用哪個模型、溫度參數(shù)設置多少（控制AI回答的隨機程度）、不同子任務分配給不同規(guī)格的模型。

這些東西加在一起，決定了一個AI代理能感知什么、能做什么、如何做。真實案例印證了這一點：OpenAI的Codex、Anthropic的Claude Code這些工具，本質(zhì)上都是把大語言模型包裹在一套精心設計的腳手架里。OpAgent這個用于網(wǎng)頁自動化操作的系統(tǒng)，靠的是把規(guī)劃者、定位者、反思者、總結(jié)者四個AI角色串聯(lián)成一條流水線，在網(wǎng)頁瀏覽基準測試中取得了當時的最佳成績——驅(qū)動這一成績的，很大程度上是腳手架設計，而非模型本身有多強。

但問題在于，每一套優(yōu)秀的腳手架背后都有大量隱形的人工成本。研究人員引用的一個例子是OpenAI工程博客描述的腳手架工程實踐：工程師們需要為AI定制代碼檢查工具、搭建專門的日志監(jiān)控系統(tǒng)、集成瀏覽器開發(fā)者工具，并建立層次化的文檔結(jié)構(gòu)，就為了讓AI能讀懂一個特定的代碼庫。另一個例子來自Anthropic：工程師們對評估提示詞反復校準，設計了四套評分維度來判斷AI產(chǎn)出的設計質(zhì)量是否過關，還為不同階段的任務在多個AI之間協(xié)商"沖刺合約"。這些工作需要深厚的領域知識和大量的試錯迭代，每換一個場景就得重來一遍。

二、內(nèi)層循環(huán)：讓AI在"干—評—改"的循環(huán)中進化自己的腳手架

Sylph.AI的解法從一個樸素的觀察出發(fā)：人類工程師調(diào)試腳手架的過程，其實也是一個循環(huán)——讓AI跑一遍任務，看哪里出了問題，根據(jù)問題改腳手架，再跑一遍。既然這個過程有規(guī)律可循，為什么不用另一個AI來自動完成這個循環(huán)？

這就是論文提出的第一層結(jié)構(gòu)：**腳手架進化循環(huán)**（Harness Evolution Loop）。這個循環(huán)由三個角色協(xié)同運轉(zhuǎn)。

第一個角色是**工人代理**（Worker Agent）。它是被優(yōu)化的對象，配備著當前版本的腳手架，接到任務就去執(zhí)行，完事后留下一份"執(zhí)行日志"，記錄它做了什么、看到了什么、每一步花了多長時間。

第二個角色是**評估代理**（Evaluator Agent）。它不參與任務執(zhí)行，專門扮演"挑剔的質(zhì)檢員"。收到工人代理的執(zhí)行日志后，它干四件事：對照真實環(huán)境狀態(tài)，檢查工人代理的觀察記錄是否準確，揪出那些"以為自己做了但其實沒做"的情況；逐條核對任務的成功標準，給出每一條的通過或失敗判斷；把總執(zhí)行時間拆分為"AI思考時間"和"工具執(zhí)行時間"兩部分，判斷性能瓶頸出在哪里；最后給出一個綜合分數(shù)，優(yōu)先看有沒有完成任務，完成任務的情況下再比誰用時更短。

第三個角色是**進化代理**（Evolution Agent）。它像一個經(jīng)驗豐富的高級工程師，讀遍所有歷史嘗試記錄——每一個版本的腳手架長什么樣、評估代理對它的診斷意見、得了多少分、比上一版是進步了還是退步了。基于這些信息，它識別反復出現(xiàn)的失敗模式，然后動手修改腳手架：可能是改一段系統(tǒng)提示詞，可能是修復一個工具的實現(xiàn)邏輯，可能是調(diào)整任務執(zhí)行的流程控制，可能是換一個更合適的底層模型。

這三個角色構(gòu)成一個閉環(huán)，具體運轉(zhuǎn)方式體現(xiàn)在論文的算法一中。從一個初始的通用腳手架出發(fā)，循環(huán)反復執(zhí)行K輪：每輪讓工人代理跑一遍任務，評估代理打分并診斷，進化代理基于完整歷史記錄改出新版腳手架。每次改版之后，系統(tǒng)會保留歷史上得分最高的那個版本作為"當前最佳"，進化代理每次改版時都以這個最佳版本為基礎，而不是直接在上一輪的結(jié)果上繼續(xù)改——這樣可以防止一次失敗的嘗試讓系統(tǒng)一路跑偏。循環(huán)結(jié)束后，輸出歷史最佳腳手架及其完整的進化歷史。

這個過程的精妙之處在于兩點：其一，進化代理看到的不只是"最新失敗"，而是完整的歷史記錄，這讓它能區(qū)分"偶發(fā)錯誤"和"系統(tǒng)性缺陷"；其二，任務的"成功標準"被顯式定義為腳手架輸入的一部分，評估代理有明確的依據(jù)，而不是憑感覺打分。

三、外層循環(huán)：讓AI學會如何更好地"教會AI搭腳手架"

腳手架進化循環(huán)解決了"給單個任務自動調(diào)出好腳手架"的問題。但研究團隊注意到另一個問題：這個循環(huán)本身的效果，取決于評估代理和進化代理的提示詞寫得好不好、評分函數(shù)設計得合不合理、每次循環(huán)的執(zhí)行邏輯是否合適。換句話說，這個循環(huán)本身也是一套腳手架。

這套"循環(huán)腳手架"用符號表示為Λ，它包含四個組成部分：工人代理本身、初始腳手架的起點、評估代理、進化代理。目前，這四個部分是由人類工程師設計的，在整個進化循環(huán)過程中保持不變。

但如果Λ本身也能被自動優(yōu)化，會發(fā)生什么？

這就是論文提出的第二層結(jié)構(gòu)：**元進化循環(huán)**（Meta-Evolution Loop）。它的核心思路是：把腳手架進化循環(huán)當作被優(yōu)化的對象，在大量不同類型的任務上運行它，觀察它收斂得快不快、最終效果好不好，然后用一個"元進化代理"（Meta-Evolution Agent）來修改Λ，讓這個循環(huán)在新任務上能更快、更好地收斂。

研究團隊特別指出，Λ和普通腳手架具有完全相同的結(jié)構(gòu)：它有提示詞（評估代理和進化代理的指令），有工具（評分函數(shù)、版本管理操作、代碼編輯能力），有觀察內(nèi)容（從工人代理、評估代理、進化代理那里收集什么樣的信息），有編排邏輯（循環(huán)跑多少輪、什么時候提交或回滾、任務怎么選取和排序）。因此，優(yōu)化Λ和優(yōu)化普通腳手架在本質(zhì)上是同一件事，只是抽象層次更高了一層。

元進化代理可以調(diào)整的東西包括：評估代理的提示詞——要它重點關注哪些失敗模式，用什么標準打分，需要什么樣的證據(jù)才能判定某個條件通過；進化代理的提示詞——診斷失敗時按什么思路分析，優(yōu)先考慮哪類代碼改動，改動幅度該保守還是激進；工人代理的觀察結(jié)構(gòu)——從執(zhí)行過程中暴露哪些遙測數(shù)據(jù)和中間狀態(tài)；評估代理和進化代理之間的信息流——每一步在兩個代理之間傳遞什么信息；評分函數(shù)的設計——是用當前的"完成與否優(yōu)先、再比用時"兩層結(jié)構(gòu)，還是改成多維度評分；以及循環(huán)本身的超參數(shù)——迭代輪數(shù)、并行執(zhí)行的程度、觸發(fā)回滾的分數(shù)閾值，以及何時停止迭代。

算法二描述了元進化循環(huán)的具體運轉(zhuǎn)方式。從一個初始的Λ出發(fā)，每一輪對所有訓練任務跑一遍腳手架進化循環(huán)，匯總各個任務的最終得分取平均值作為Λ的綜合評分，然后元進化代理基于全部歷史記錄改出新版Λ。同樣地，系統(tǒng)保留歷史上綜合評分最高的Λ版本，元進化代理每次改版都以它為基礎。

四、這個框架和機器學習里的"元學習"有什么關系？

研究團隊在論文中明確指出，這個兩層框架和機器學習領域里一個被稱為"元學習"（meta-learning，也叫"學會學習"）的概念高度對應，并給出了一張清晰的對照表。

在傳統(tǒng)元學習框架里，內(nèi)層循環(huán)是在單個任務上對模型參數(shù)做梯度更新；外層循環(huán)是在多個任務上評估當前的適應策略，然后更新這個策略本身，目標是找到一個好的初始參數(shù)和優(yōu)化過程，讓模型能在新任務上用極少的梯度步驟快速適應。

在本文的框架里，內(nèi)層循環(huán)是在單個任務上對腳手架H做迭代修改；外層循環(huán)是在多個訓練任務上評估當前的進化藍圖Λ，然后由元進化代理修改Λ，目標是找到一個好的藍圖，讓腳手架進化循環(huán)能在新任務上快速收斂到高性能。

元學習里的"模型參數(shù)"對應這里的"腳手架H"；元學習里的"優(yōu)化過程（初始點+優(yōu)化器+損失函數(shù)）"對應這里的"進化藍圖Λ"；元學習里用梯度做參數(shù)更新，這里用大語言模型做腳手架修改；兩者的最終目標都是"快速適應新任務"。

這個對應關系不只是一個比喻，而是說明兩個系統(tǒng)解決的是結(jié)構(gòu)上同一類問題：如何設計一個適應過程，使得面對新任務時，適應的速度盡可能快、效果盡可能好。

五、怎么判斷這套框架是否真的管用？

論文提出了一套評估協(xié)議。框架學到的最佳進化藍圖Λ最終要接受"泛化測試"——把它用在訓練階段從未見過的新任務上，衡量它的真實表現(xiàn)。

衡量的維度有三個。一是收斂速度：腳手架進化循環(huán)需要跑多少輪，才能讓工人代理的表現(xiàn)達到一個預設的目標分數(shù)線？輪數(shù)越少，說明框架越高效。二是最終性能：在固定輪數(shù)內(nèi)，工人代理能在新任務上達到多高的通過率？三是魯棒性：在不同類型的新任務上，收斂速度的波動有多大？波動越小，說明框架越穩(wěn)定可靠。

一個理想的Λ應該讓內(nèi)層的腳手架進化循環(huán)，在任何新任務上都能以更少的迭代次數(shù)、更低的計算成本，產(chǎn)出比人工設計的進化循環(huán)更好的專用腳手架。

六、這項研究的起點和終點

研究團隊坦承，這篇論文目前還是一個框架性的理論提案，配合了算法描述和形式化定義，但尚未附上大規(guī)模實驗數(shù)據(jù)。他們在論文末尾明確說明，將用一篇后續(xù)論文來提供實驗驗證，測試場景會覆蓋那些即使用當前最先進的AI代理也難以自動化的復雜工作流程——包括企業(yè)定制化的客戶服務流程和各類專業(yè)領域的行業(yè)應用。

最終的產(chǎn)品愿景是：任何用戶，只要指向一個新的任務場景，系統(tǒng)就能自動進化出一個專門針對該場景調(diào)優(yōu)的高性能AI代理，全程不需要用戶懂任何腳手架工程知識。

歸根結(jié)底，這項研究在嘗試回答一個很有意思的遞歸問題：AI能不能替代人類來做"讓AI變得更好"這件事？在腳手架層面，答案似乎是肯定的——至少在理論框架上，這條路是通的。腳手架工程師的工作，可能真的會被一個足夠聰明的"腳手架進化機器"接管。而這個"進化機器"本身，也可以被更高一層的機器來優(yōu)化。

這種自我改進的循環(huán)能走多遠，是一個值得持續(xù)關注的問題。

**Q&A**

Q1：腳手架進化循環(huán)和傳統(tǒng)的提示詞優(yōu)化有什么不同？

A：傳統(tǒng)的提示詞優(yōu)化只調(diào)整AI收到的文字指令，而腳手架進化循環(huán)可以修改整個運行框架，包括工具實現(xiàn)、執(zhí)行流程控制、觀察數(shù)據(jù)結(jié)構(gòu)和底層模型配置。本質(zhì)區(qū)別是優(yōu)化對象的范圍：提示詞優(yōu)化是微調(diào)說明書的措辭，腳手架進化是重新設計整個操作臺。

Q2：元進化循環(huán)需要多少訓練任務才能學到有用的進化藍圖？

A：論文目前是理論框架，尚未給出具體的訓練任務數(shù)量要求。研究團隊計劃在后續(xù)論文中通過實驗回答這個問題，測試場景會覆蓋多種復雜的企業(yè)級工作流程，屆時才能給出量化的數(shù)據(jù)參考。

Q3：腳手架進化循環(huán)中的評估代理如何避免給出錯誤的診斷？

A：評估代理采用了對照真實環(huán)境狀態(tài)進行交叉驗證的機制，而不只依賴工人代理自己的執(zhí)行日志，這樣可以發(fā)現(xiàn)工人代理"以為自己做了但實際沒做到"的情況。此外，成功標準在任務定義階段就被明確列出，評估代理有具體條目可以逐一核對，減少了主觀判斷的空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.