網易首頁 > 網易號 > 正文申請入駐

Claude Code 的“/goals”將執行任務的代理與決定任務完成的代理區分開來。

2026-05-16 16:18:40　來源: 人工智能學家

北京舉報

分享至

https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done

代碼遷移代理程序運行完畢，管道狀態顯示正常。但實際上有幾段代碼從未編譯完成——而且花了數天時間才發現這個問題。這不是模型故障；而是代理程序在實際完成之前就判定任務已完成。

許多企業現在發現，生產環境中的AI代理流程失敗并非由于模型本身能力不足，而是因為代理背后的模型決定停止運行。LangChain、Google和OpenAI目前都提供了一些防止任務過早退出的方法，但這些方法通常依賴于獨立的評估系統。Anthropic公司在Claude Code上提出了最新的方法：/goals，該方法正式地將任務執行和任務評估分離。

編碼代理以循環方式工作：它們讀取文件、運行命令、編輯代碼，然后檢查任務是否完成。

Claude Code /goals 本質上是在該循環中添加了第二層。用戶定義目標后，Claude 會繼續逐輪執行，但每一步之后都會引入一個評估模型來審查并判斷目標是否已達成。

兩種模型的劃分

來自三家供應商的編排平臺都遇到了同樣的難題。但它們的解決方法卻不盡相同。OpenAI 不干預循環，讓模型自行決定何時結束，但允許用戶添加自己的評估節點。LangGraph 和 Google 的 Agent Development Kit 也支持獨立評估，但需要開發者定義評判節點、編寫終止邏輯并配置可觀測性。

Claude Code 的 `/goals` 參數用于設置獨立評估器的默認運行時間，即用戶希望評估器運行更長時間還是更短時間。基本上，開發者通過提示設置目標完成條件。例如，`/goal all tests in test/auth pass and lint step is clean`。然后 Claude Code 運行，每次代理嘗試結束工作時，評估模型（默認為 Haiku）都會檢查條件循環。如果條件不滿足，代理將繼續運行。如果條件滿足，則會將已達成的條件記錄到代理對話記錄中，并清除目標。評估器只做兩個決定，這也是為什么無論目標是否完成，較小的 Haiku 模型都能很好地工作的原因。

Claude Code 通過將嘗試完成任務的模型與確保任務實際完成的評估模型分離，實現了這一點。這可以防止智能體將已完成的任務與仍需完成的任務混淆。Anthropic 指出，使用這種方法，無需第三方可觀測性平臺（盡管企業可以繼續將第三方平臺與 Claude Code 結合使用），也無需自定義日志，并且減少了對事后重建的依賴。

像 Google ADK 這樣的競爭對手支持類似的評估模式。Google ADK 部署了 LoopAgent，但開發者需要自行設計相關邏輯。

人道組織在其文件中指出，最成功的條件通常具備以下特點：

一個可衡量的最終狀態：測試結果、構建退出代碼、文件計數、空隊列
明確說明檢查方式：Claude 應該如何證明，例如“npm test exits 0”或“git status is clean”。
重要的約束條件：任何在此過程中絕對不能改變的內容，例如“不得修改其他測試文件”。

在環可靠性

對于已經管理龐大工具棧的企業來說，其吸引力在于它是一個原生評估器，不會增加需要維護的另一個系統。

這是智能體領域更廣泛趨勢的一部分，尤其是在有狀態、長時間運行和自學習智能體的可能性日益成為現實的情況下。評估模型、驗證系統和其他獨立裁決系統開始出現在推理系統中，在某些情況下，也出現在像 Devin 或 SWE-agent 這樣的編碼智能體中。

Sprinklr 的解決方案總監 Sean Brownell 在一封電子郵件中告訴 VentureBeat，人們對這種任務和評判者分離的循環很感興趣，但他認為 Anthropic 的方法并沒有什么獨特之處。

“是的，這個循環有效。將構建者和評判者分開是合理的設計，因為從根本上講，你不能指望模型來評判它自己的作業。執行任務的模型往往最難判斷任務是否完成，”布朗內爾說道。“話雖如此，Anthropic 并非首家將此類技術推向市場的公司。這里最有趣的是，全球兩家最大的人工智能實驗室在短短幾天內發布了相同的指令，但它們對于誰有權宣布‘完成’卻得出了截然不同的結論。”

布朗內爾表示，該循環最適用于“具有可驗證最終狀態的確定性工作，例如遷移、修復損壞的測試套件、清理積壓工作”，但對于更細致的任務或需要設計判斷的任務，由人來做決定則更為重要。

將評估者/任務拆分到代理循環級別表明，像 Anthropic 這樣的公司正在推動代理和編排進一步朝著更可審計、可觀察的系統發展。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.