![]()
https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done
代碼遷移代理程序運行完畢,管道狀態顯示正常。但實際上有幾段代碼從未編譯完成——而且花了數天時間才發現這個問題。這不是模型故障;而是代理程序在實際完成之前就判定任務已完成。
許多企業現在發現,生產環境中的AI代理流程失敗并非由于模型本身能力不足,而是因為代理背后的模型決定停止運行。LangChain、Google和OpenAI目前都提供了一些防止任務過早退出的方法,但這些方法通常依賴于獨立的評估系統。Anthropic公司在Claude Code上提出了最新的方法:/goals,該方法正式地將任務執行和任務評估分離。
編碼代理以循環方式工作:它們讀取文件、運行命令、編輯代碼,然后檢查任務是否完成。
Claude Code /goals 本質上是在該循環中添加了第二層。用戶定義目標后,Claude 會繼續逐輪執行,但每一步之后都會引入一個評估模型來審查并判斷目標是否已達成。
兩種模型的劃分
來自三家供應商的編排平臺都遇到了同樣的難題。但它們的解決方法卻不盡相同。OpenAI 不干預循環,讓模型自行決定何時結束,但允許用戶添加自己的評估節點。LangGraph 和 Google 的 Agent Development Kit 也支持獨立評估,但需要開發者定義評判節點、編寫終止邏輯并配置可觀測性。
Claude Code 的 `/goals` 參數用于設置獨立評估器的默認運行時間,即用戶希望評估器運行更長時間還是更短時間。基本上,開發者通過提示設置目標完成條件。例如,`/goal all tests in test/auth pass and lint step is clean`。然后 Claude Code 運行,每次代理嘗試結束工作時,評估模型(默認為 Haiku)都會檢查條件循環。如果條件不滿足,代理將繼續運行。如果條件滿足,則會將已達成的條件記錄到代理對話記錄中,并清除目標。評估器只做兩個決定,這也是為什么無論目標是否完成,較小的 Haiku 模型都能很好地工作的原因。
Claude Code 通過將嘗試完成任務的模型與確保任務實際完成的評估模型分離,實現了這一點。這可以防止智能體將已完成的任務與仍需完成的任務混淆。Anthropic 指出,使用這種方法,無需第三方可觀測性平臺(盡管企業可以繼續將第三方平臺與 Claude Code 結合使用),也無需自定義日志,并且減少了對事后重建的依賴。
像 Google ADK 這樣的競爭對手支持類似的評估模式。Google ADK 部署了 LoopAgent,但開發者需要自行設計相關邏輯。
人道組織在其文件中指出,最成功的條件通常具備以下特點:
一個可衡量的最終狀態:測試結果、構建退出代碼、文件計數、空隊列
明確說明檢查方式:Claude 應該如何證明,例如“npm test exits 0”或“git status is clean”。
重要的約束條件:任何在此過程中絕對不能改變的內容,例如“不得修改其他測試文件”。
對于已經管理龐大工具棧的企業來說,其吸引力在于它是一個原生評估器,不會增加需要維護的另一個系統。
這是智能體領域更廣泛趨勢的一部分,尤其是在有狀態、長時間運行和自學習智能體的可能性日益成為現實的情況下。評估模型、驗證系統和其他獨立裁決系統開始出現在推理系統中,在某些情況下,也出現在像 Devin 或 SWE-agent 這樣的編碼智能體中。
Sprinklr 的解決方案總監 Sean Brownell 在一封電子郵件中告訴 VentureBeat,人們對這種任務和評判者分離的循環很感興趣,但他認為 Anthropic 的方法并沒有什么獨特之處。
“是的,這個循環有效。將構建者和評判者分開是合理的設計,因為從根本上講,你不能指望模型來評判它自己的作業。執行任務的模型往往最難判斷任務是否完成,”布朗內爾說道。“話雖如此,Anthropic 并非首家將此類技術推向市場的公司。這里最有趣的是,全球兩家最大的人工智能實驗室在短短幾天內發布了相同的指令,但它們對于誰有權宣布‘完成’卻得出了截然不同的結論。”
布朗內爾表示,該循環最適用于“具有可驗證最終狀態的確定性工作,例如遷移、修復損壞的測試套件、清理積壓工作”,但對于更細致的任務或需要設計判斷的任務,由人來做決定則更為重要。
將評估者/任務拆分到代理循環級別表明,像 Anthropic 這樣的公司正在推動代理和編排進一步朝著更可審計、可觀察的系統發展。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.