![]()
新智元報(bào)道
編輯:好困 KingZH
【新智元導(dǎo)讀】澳洲牧羊大叔隨手寫的三行bash,11天內(nèi)被OpenAI、Anthropic和Hermes集體收編了。
一覺醒來,Claude Code又更新!
為了讓Claude 持續(xù)工作直到任務(wù)完成,Claude Code最近推出的新功能:/goal 。
![]()
你只要設(shè)定條件,Claude不完成任務(wù)它絕不罷休!
![]()
用過AI編程工具的人都懂,這到底多重要!
你給Agent下了一個任務(wù),它跑了三個回合,改了兩個文件,突然停下來問你「接下來需要我做什么?」
不是,bug你這還沒修完呢啊!
![]()
Agent越來越聰明,寫代碼越來越快,但「從頭到尾把一件事干完」這件事,到2026年初都沒有一家能做到。
然后,一位來自澳大利亞的牧羊大叔Geoffrey Huntley,用三行bash解決了。
done他把它命名為Ralph Loop,致敬《辛普森一家》里那個永遠(yuǎn)搞不清狀況但從不放棄的小孩Ralph Wiggum。
邏輯極其粗暴,無限循環(huán),反復(fù)把同一個prompt喂給Agent。進(jìn)度寫在文件系統(tǒng)和Git歷史里,上下文滿了就開新實(shí)例,讀文件接著干。
![]()
原始,不優(yōu)雅,但十分有效。
有效到OpenAI看見了,Nous Research看見了,Anthropic也看見了。
11天,三家頂級AI實(shí)驗(yàn)室,不約而同地把這三行bash寫進(jìn)了官方產(chǎn)品。
這一刻,所有人都明白了一件事——
通用人工智能的臨門一腳,可能不是更聰明的模型,而是「把事做完」的模型。
換句話說,AI編程的核心戰(zhàn)場正在從「生成代碼」轉(zhuǎn)向「閉環(huán)交付」。
11天,三條線,同一個終點(diǎn)
4月30日,OpenAI的Codex率先上線/goal。
Greg Brockman在X上只丟了一句,「Codex現(xiàn)已內(nèi)置Ralph loop++」。
![]()
一周后,Hermes Agent跟上。又過4天,Claude Code也上了。
11天。三家。同一個命令。同一個功能。
但實(shí)現(xiàn)路徑,差了十萬八千里。
Codex「不忘事」,Hermes「不爛尾」,Claude Code「不自欺」。
![]()
Codex:
把目標(biāo)存成一條數(shù)據(jù)庫記錄
OpenAI是三家里最先出手的,方案也最簡潔。
在Codex里,/goal是一個持久化的工作流對象,存在本地的app-server狀態(tài)層里。
關(guān)掉終端、合上筆記本、甚至重啟系統(tǒng),目標(biāo)都不會丟。下次打開Codex,自動接上。
![]()
模型通過結(jié)構(gòu)化的update_goal工具匯報(bào)進(jìn)度狀態(tài),token預(yù)算耗盡時觸發(fā)「軟著陸」而非硬停。
有人用這個功能連續(xù)跑了14個小時,中間暫停5小時去睡覺,回來Codex從斷點(diǎn)續(xù)跑,把一個設(shè)備驅(qū)動項(xiàng)目做完了。
工程化,干凈,但克制。
![]()
Hermes Agent:
一個人干不完,那就上一個團(tuán)隊(duì)
Hermes Agent的野心最大。
在這里,/goal只是冰山一角。真正的重頭戲是多智能體看板系統(tǒng),Hermes把「讓AI把活干完」從單Agent問題升級成了團(tuán)隊(duì)協(xié)作問題。
![]()
看板的底層是本地SQLite,持久化存儲,跨重啟不丟。
你在上面創(chuàng)建一個任務(wù)卡片,Hermes會直接把它拆成多個子任務(wù),分配給不同的Agent worker。每個worker是一個獨(dú)立的OS進(jìn)程,有自己的身份、模型配置和工作目錄。
看板和/goal是兩套互補(bǔ)的系統(tǒng)。/goal管的是單個Agent的目標(biāo)鎖定(Ralph loop),看板管的是多個Agent之間的任務(wù)調(diào)度。一個縱向深入,一個橫向鋪開。
最后,是五層防爛尾機(jī)制。
第一層,心跳檢測。每個worker定期向看板報(bào)到,證明自己還活著。
第二層,僵尸回收。worker超時沒響應(yīng)?系統(tǒng)自動判定死亡,回收它手上的任務(wù)重新分配。macOS上還有專門的達(dá)爾文僵尸檢測邏輯。
第三層,退出攔截。worker沒完成任務(wù)就退出了?系統(tǒng)自動把它標(biāo)記為blocked,不讓它再接新活,防止「摸魚型Agent」反復(fù)領(lǐng)任務(wù)又不做。
第四層,幻覺攔截。這是最狠的一層。AI說「我做完了」不算數(shù),系統(tǒng)會驗(yàn)證它實(shí)際產(chǎn)出的代碼是否真的落盤了。Agent說自己創(chuàng)建了一個文件但實(shí)際上沒有?抓住,回滾,重來。
第五層,重試預(yù)算。每個任務(wù)有獨(dú)立的max_retries,最多重試N次,超過就上報(bào)人類。絕對不會無限循環(huán)到死機(jī)。
![]()
Claude Code:
做事的人和驗(yàn)收的人,不能是同一個
Anthropic是三家里最后出手的,但方案最巧妙。
本質(zhì)上,Claude Code的/goal是一個session級別的Stop Hook。
你設(shè)定一個完成條件(比如「test/auth目錄下所有測試通過且lint無報(bào)錯」),Claude就開始干活。
![]()
關(guān)鍵設(shè)計(jì)在驗(yàn)收環(huán)節(jié)。每干完一輪,系統(tǒng)不讓Claude自己判斷「我做完了沒有」。
它把對話記錄和你的完成條件一起發(fā)給一個獨(dú)立的小模型(默認(rèn)是Haiku),讓這個小模型來裁判。
小模型如果覺得沒完成,就需要返回一個具體理由(比如「test_login.py還有2個failure」)。然后這個理由會被注入Claude下一輪的上下文,指導(dǎo)它接著干。
如果小模型認(rèn)為完成了,目標(biāo)就會自動清除,任務(wù)結(jié)束。
值得一提的是,這個裁判模型不調(diào)用任何工具,不讀文件,不跑命令。它只看Claude在對話里產(chǎn)出的內(nèi)容。
所以,你的完成條件必須是Claude在對話中能證明的東西。
它最長支持4000字符,因此你可以寫得很細(xì)。
甚至,還可以在條件里加約束,比如「不修改其他測試文件」「20輪內(nèi)完成否則停止」等等。
![]()
決賽進(jìn)行時:工作流入口
把視角拉遠(yuǎn)一步。
Claude Code背后站著Anthropic,Codex背后站著OpenAI,Hermes Agent接入了兩邊的模型,同時也是DeepSeek V4等模型的主力分發(fā)渠道。
三條路徑,恰好覆蓋了ASI決賽的三個生態(tài)入口。
而他們爭的,也是同一樣?xùn)|西——工作流。
誰的Agent先讓開發(fā)者養(yǎng)成「設(shè)完目標(biāo)就走開」的習(xí)慣,誰就鎖死了工作流入口。
因?yàn)榱?xí)慣一旦形成,遷移成本是指數(shù)級的。
你不會輕易離開一個已經(jīng)跑通了看板調(diào)度、斷點(diǎn)續(xù)傳、checkpoint回滾的Agent基礎(chǔ)設(shè)施。
一個看似很小的/goal命令,背后卡的是整條Agent工作流的護(hù)城河。
參考資料:
https://code.claude.com/docs/en/goal
https://github.com/NousResearch/hermes-agent/releases/tag/v2026.5.7
https://github.com/anthropics/claude-code/releases/tag/v2.1.139
https://developers.openai.com/codex/changelog
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.