![]()
整理 | 褚杏娟
Claude Code 的工程穩(wěn)定性問(wèn)題,再次引發(fā)開(kāi)發(fā)者集中討論。
近日,Reddit 上出現(xiàn)一則投訴帖,發(fā)帖者直指最新版 Claude Code 在實(shí)際開(kāi)發(fā)中“不再服從或尊重 CLAUDE.md、hooks/rules 等規(guī)則”。這名開(kāi)發(fā)者憤怒地反問(wèn):“如果 Claude Code 的運(yùn)行框架(harness)已經(jīng)不再服從或遵循這些原則,那么定義架構(gòu)設(shè)計(jì)原則、指南之類的東西還有什么意義?”
這場(chǎng)爭(zhēng)議的核心,并不是 Claude Code 會(huì)不會(huì)寫(xiě)代碼,而是一個(gè)更基礎(chǔ)的問(wèn)題:當(dāng)開(kāi)發(fā)者已經(jīng)明確告訴 AI 應(yīng)該如何開(kāi)發(fā)、遵守什么流程、不能越過(guò)哪些邊界時(shí),它到底能不能穩(wěn)定執(zhí)行?
這名用戶稱,自己最近不得不反復(fù)要求 Claude Code 遵循測(cè)試驅(qū)動(dòng)開(kāi)發(fā)(TDD,Test-Driven Development),并通過(guò)強(qiáng)制約束讓它按照預(yù)期方式工作,才能得到相對(duì)滿意的結(jié)果。
問(wèn)題在于,用戶并不只是口頭提醒。按照他的說(shuō)法,他已經(jīng)要求 Claude 更新 CLAUDE.md 文件,把規(guī)則寫(xiě)入 hooks、記憶和相關(guān)約束中。但下一條提示發(fā)出去后,Claude Code “甚至都沒(méi)有嘗試按照這種方式構(gòu)建”。
發(fā)帖者認(rèn)為,“顯然有什么東西壞得很嚴(yán)重”,并將其描述為一次“非常嚴(yán)重的能力倒退”。在他看來(lái),越來(lái)越多個(gè)人開(kāi)發(fā)者和企業(yè)正在把 Claude Code 這類工具當(dāng)作工作基礎(chǔ)設(shè)施的一部分,用戶也已經(jīng)為這些工具支付了高昂費(fèi)用,但現(xiàn)在卻發(fā)現(xiàn),工具的規(guī)則遵循能力反而在倒退。
![]()
一名評(píng)論者將問(wèn)題歸因于上下文腐爛(context rot)。他認(rèn)為,一旦上下文超過(guò) 20 萬(wàn) token,模型表現(xiàn)就可能開(kāi)始退化。應(yīng)用規(guī)模越大,越容易觸碰到這些限制;到那時(shí),模型會(huì)開(kāi)始忘記指令,因?yàn)樗鼘?shí)際上已經(jīng)無(wú)法穩(wěn)定保存和利用早期上下文。因此,他詢問(wèn)原帖作者項(xiàng)目規(guī)模和上下文使用情況。
但原帖作者的回應(yīng)否定了這個(gè)解釋:“真的只是一個(gè)剛開(kāi)始做的全新項(xiàng)目。我才發(fā)了沒(méi)幾個(gè) prompt。我只是先給它設(shè)置了一些構(gòu)建時(shí)要遵循的 guidelines。”
這意味著,問(wèn)題未必只出現(xiàn)在大型項(xiàng)目或超長(zhǎng)上下文中。即便是一個(gè)全新的綠地項(xiàng)目,在規(guī)則剛剛寫(xiě)入不久后,Claude Code 也可能沒(méi)有持續(xù)執(zhí)行這些規(guī)則。
“軟規(guī)則”無(wú)法變成“硬約束”
另一名用戶從行為機(jī)制上給出解釋:模型似乎更傾向于優(yōu)化“此刻顯得有幫助”,而不是遵守此前已經(jīng)同意的規(guī)則。這會(huì)形成一種奇怪的激勵(lì):模型在當(dāng)前輪次看起來(lái)很配合,但實(shí)際上會(huì)忽略用戶已經(jīng)設(shè)定好的約束。
這名評(píng)論者進(jìn)一步指出,問(wèn)題可能在于,CLAUDE.md 被模型當(dāng)作普通上下文,而不是硬性約束。當(dāng)后續(xù)用戶請(qǐng)求、錯(cuò)誤日志、構(gòu)建失敗和模型自身的“盡快解決問(wèn)題”沖動(dòng)同時(shí)出現(xiàn)時(shí),模型可能會(huì)把“滿足當(dāng)前請(qǐng)求”的權(quán)重放得更高,而不是堅(jiān)持十幾輪甚至二十輪之前讀到的架構(gòu)規(guī)則。
在 AI 編程工具中,很多規(guī)則只是寫(xiě)進(jìn) CLAUDE.md、系統(tǒng)提示、memory 或 hooks 的自然語(yǔ)言說(shuō)明。那寫(xiě)進(jìn)上下文的規(guī)則,是否等同于工程系統(tǒng)里的硬約束?目前它們看起來(lái)像項(xiàng)目紀(jì)律,實(shí)際上仍然依賴模型“記得并愿意執(zhí)行”。
在評(píng)論區(qū),多名用戶表示遇到過(guò)類似情況。
一名評(píng)論者寫(xiě)道:“不知道為什么,這種情況并不是每天都會(huì)發(fā)生,但今天確實(shí)發(fā)生了:它一直在和 hooks 對(duì)著干,直接無(wú)視規(guī)則,然后一路強(qiáng)行推進(jìn)。昨天還好好的,今天我就被它‘碾壓’了。看來(lái)只能等著看明天這趟昂貴得離譜的‘過(guò)山車’又會(huì)給我什么體驗(yàn)。”
另一名網(wǎng)友 EmrysMyrdin 也表示“完全同意”,并分享了自己的經(jīng)歷:他曾要求 Claude 使用自己定義好的某個(gè) skill。Claude 一開(kāi)始只是粗略讀了一點(diǎn)內(nèi)容,就產(chǎn)出了一個(gè)不符合預(yù)期的結(jié)果。當(dāng)他追問(wèn) Claude 是否完整使用了這個(gè) skill 時(shí),Claude 承認(rèn)沒(méi)有,只是大概看了一下,然后根據(jù)網(wǎng)頁(yè)搜索結(jié)果,或者按照自己認(rèn)為合適的方式編寫(xiě)內(nèi)容。隨后,Claude 又表示會(huì)重新完整閱讀這個(gè) skill,并在第二次給出了不錯(cuò)的回答。但問(wèn)題在于,第一輪“胡編”已經(jīng)消耗了大量使用額度。
今天,一名用戶在 Anthropic 官方 claude-code 倉(cāng)庫(kù)提交 issue 稱,自己在一次 Claude Code 會(huì)話中,明確要求 Claude Opus 4.6 以browser-sender v1為基礎(chǔ)克隆出v2。但 Claude 并沒(méi)有執(zhí)行這一核心指令,而是轉(zhuǎn)向逐個(gè)排查構(gòu)建錯(cuò)誤。當(dāng)用戶追問(wèn)為什么沒(méi)有克隆時(shí),Claude 沒(méi)有給出合理解釋。最終,這一錯(cuò)誤路線消耗了數(shù)小時(shí) credits。
該用戶還提到,Claude 對(duì)其 Discord API 登錄的處理也出現(xiàn)問(wèn)題。按照他的說(shuō)法,Claude 的原始 API 登錄嘗試兩次觸發(fā) Discord 的“賬號(hào)疑似被盜”標(biāo)記,導(dǎo)致用戶被迫重置密碼三次。該用戶明確要求 Anthropic 退還這次會(huì)話中消耗的 credits。
可以看出,Claude Code 的可控性問(wèn)題已經(jīng)不只是體驗(yàn)問(wèn)題,而是直接變成成本問(wèn)題和外部系統(tǒng)風(fēng)險(xiǎn)。過(guò)去模型繞路,用戶損失的是時(shí)間;現(xiàn)在模型繞路,用戶還要為每一次錯(cuò)誤嘗試支付 token、credits 和賬號(hào)風(fēng)險(xiǎn)。
隨著開(kāi)發(fā)者對(duì) Claude Code、Cursor、Codex 這類 AI 編程工具的使用越來(lái)越深入,“能不能按照指定方式做”成為新的評(píng)價(jià)維度。
這不是一個(gè)小問(wèn)題。在真實(shí)軟件工程中,“做出結(jié)果”和“按正確路線做出結(jié)果”不是一回事。因此,開(kāi)發(fā)者真正擔(dān)心的不是 Claude Code 某一次寫(xiě)錯(cuò)代碼,而是它作為工程 Agent,是否具備可控性:能否遵守項(xiàng)目規(guī)則、能否尊重用戶路線、能否在偏離前暫停確認(rèn)、能否把自然語(yǔ)言約束轉(zhuǎn)化為穩(wěn)定執(zhí)行行為。
Anthropic 的治理重點(diǎn):
上下文和自我評(píng)估
有意思的是,Anthropic 此前曾發(fā)布工程文章,系統(tǒng)介紹其 harness 設(shè)計(jì)方法。所謂 harness,可以理解為圍繞大模型搭建的一整套外部執(zhí)行框架,包括任務(wù)拆解、上下文交接、角色分工、評(píng)估反饋、測(cè)試驗(yàn)證和迭代機(jī)制。
在 Anthropic 看來(lái),長(zhǎng)時(shí)運(yùn)行 Agent 失控主要來(lái)自兩個(gè)問(wèn)題。
第一個(gè)是上下文一致性下降。隨著上下文窗口被填滿,模型在長(zhǎng)任務(wù)中容易失去連貫性。一些模型還會(huì)出現(xiàn)所謂上下文焦慮(context anxiety):當(dāng)它們接近自己“以為”的上下文上限時(shí),會(huì)過(guò)早收尾,即使任務(wù)并沒(méi)有真正完成。
Anthropic 表示,過(guò)去的 harness 會(huì)通過(guò)上下文重置(context resets)解決這一問(wèn)題:清空上下文,啟動(dòng)一個(gè)新的 Agent,再通過(guò)結(jié)構(gòu)化交接文件,把上一個(gè) Agent 的狀態(tài)和下一步任務(wù)傳遞下去。這不同于簡(jiǎn)單壓縮上下文,因?yàn)閴嚎s仍然讓同一個(gè) Agent 帶著壓縮后的歷史繼續(xù)工作,而上下文重置則給新 Agent 一個(gè)更干凈的起點(diǎn)。但這樣做的前提是,交接文件必須足夠清晰、完整,能夠承接任務(wù)狀態(tài)。
第二個(gè)問(wèn)題是自我評(píng)估不可靠。Anthropic 觀察到,當(dāng)模型被要求評(píng)價(jià)自己產(chǎn)出的作品時(shí),往往會(huì)自信地夸獎(jiǎng)自己的結(jié)果,即便在人類看來(lái)質(zhì)量明顯一般。這個(gè)問(wèn)題在前端設(shè)計(jì)等主觀任務(wù)中尤其突出。
Anthropic 的解法是,把做事的 Agent 和評(píng)估的 Agent 分開(kāi)。評(píng)估者仍然是大模型,也天然可能偏寬容,但調(diào)教一個(gè)獨(dú)立評(píng)估者變得更懷疑、更嚴(yán)格,比要求生成者對(duì)自己的作品保持批判要容易得多。
Anthropic 最初在前端設(shè)計(jì)任務(wù)中驗(yàn)證這套方法,之后又將其遷移到全棧軟件開(kāi)發(fā)。
新版 harness 包含三個(gè)角色:規(guī)劃者、生成者和評(píng)估者。規(guī)劃者負(fù)責(zé)把用戶一到四句話的提示擴(kuò)展成完整產(chǎn)品規(guī)格,重點(diǎn)放在產(chǎn)品上下文和高層技術(shù)設(shè)計(jì),而不是過(guò)早寫(xiě)死底層實(shí)現(xiàn);生成者負(fù)責(zé)實(shí)際構(gòu)建應(yīng)用;評(píng)估者則扮演 QA,也就是測(cè)試工程師,負(fù)責(zé)檢查應(yīng)用是否真的可用。
其中,一個(gè)關(guān)鍵設(shè)計(jì)是 sprint contract。每個(gè) sprint 開(kāi)始前,生成者和評(píng)估者會(huì)先協(xié)商本輪“完成”的定義:生成者提出要構(gòu)建什么、怎樣才算成功、如何驗(yàn)證;評(píng)估者審核這一方案,確保它確實(shí)在構(gòu)建正確的東西。雙方達(dá)成一致后,生成者才開(kāi)始寫(xiě)代碼。
Agent 之間的通信通過(guò)文件完成:一個(gè) Agent 寫(xiě)文件,另一個(gè) Agent 讀文件,并在文件中回復(fù)或新建文件。這樣既可以讓工作忠于規(guī)格,又不會(huì)過(guò)度限制實(shí)現(xiàn)路徑。
不過(guò),Anthropic 也承認(rèn),訓(xùn)練出一個(gè)可靠評(píng)估者并不容易。開(kāi)箱即用的 Claude 并不是天然優(yōu)秀的 QA Agent。早期運(yùn)行中,它會(huì)識(shí)別出真實(shí)問(wèn)題,卻說(shuō)服自己這些問(wèn)題“不算大事”,然后批準(zhǔn)通過(guò);它也傾向于做表層測(cè)試,不太主動(dòng)探查邊緣情況。作者需要反復(fù)閱讀評(píng)估日志,找出評(píng)估判斷與人類判斷不一致的地方,再不斷更新 QA 提示詞。
隨著 Opus 4.6 在規(guī)劃、長(zhǎng)時(shí) Agent 任務(wù)、大型代碼庫(kù)可靠性、代碼審查和調(diào)試方面提升,Anthropic 認(rèn)為,一些 harness 結(jié)構(gòu)可以變輕。評(píng)估者不再是固定的“必須有”或“沒(méi)必要”:當(dāng)任務(wù)已經(jīng)落在模型能夠獨(dú)立穩(wěn)定完成的范圍內(nèi),評(píng)估者可能變成額外開(kāi)銷;但當(dāng)任務(wù)處在模型能力邊緣時(shí),評(píng)估者仍然能顯著提升質(zhì)量。
長(zhǎng)上下文“幽靈”:百萬(wàn)上下文
20% 就開(kāi)始“以為自己快滿了”
然而,實(shí)際使用中,Anthropic 試圖解決的長(zhǎng)上下文問(wèn)題,并沒(méi)有被徹底解決。
GitHub 文章《The 200k Ghost: Instruction Degradation in Long-Context LLM Sessions》指出:Claude Opus 4.6 雖然標(biāo)稱擁有 100 萬(wàn) token 上下文,但在 Claude Code 的長(zhǎng)上下文、重復(fù)性任務(wù)中,大約到 20 萬(wàn) token 附近,就開(kāi)始出現(xiàn)明顯的“指令退化”。作者把這一現(xiàn)象稱為“200k 幽靈”。
這個(gè)數(shù)字只占 100 萬(wàn)上下文窗口的 20%,但恰好接近上一代長(zhǎng)上下文模型的常見(jiàn)上限。作者據(jù)此提出假設(shè):即便模型現(xiàn)在擁有 100 萬(wàn) token 窗口,它也可能從過(guò)去基于 200k 上下文的訓(xùn)練或行為模式中,繼承了一種“上下文快滿了”的內(nèi)在感覺(jué)。
200k 之后,模型開(kāi)始焦慮、走捷徑
作者用 18 個(gè) Claude Opus 4.6(1M context)會(huì)話做同一個(gè)任務(wù):逐行讀取導(dǎo)出的 Claude Code 對(duì)話文件,并生成結(jié)構(gòu)化元數(shù)據(jù)。所有實(shí)例都被明確要求“讀每一行”,但大多數(shù)實(shí)例最終失敗了。作者認(rèn)為失敗原因不是模型沒(méi)有能力,而是在特定上下文閾值之后,模型行為會(huì)系統(tǒng)性變化。
在測(cè)試中,研究者發(fā)現(xiàn),不同的實(shí)例在接近 200k token 后,表現(xiàn)出了高度相似但形式各異的退化癥狀。
有些實(shí)例開(kāi)始出現(xiàn)明顯的上下文焦慮。它會(huì)主動(dòng)表示“我的上下文現(xiàn)在已經(jīng)很大了”,但實(shí)際上距離 100 萬(wàn) token 上限還剩下約 80 萬(wàn) token。有些實(shí)例出現(xiàn)塊大小漂移(block size drift)。原本應(yīng)按固定行數(shù)讀取內(nèi)容,但模型在沒(méi)有用戶授權(quán)的情況下,把每次讀取范圍從 100 行擴(kuò)大到 120 行、150 行,試圖用更大的步幅推進(jìn)任務(wù)。
還有一些實(shí)例不斷輸出類似“我讀到 6454 行中的第 2966 行了”這樣的進(jìn)度信號(hào)。這類反饋本身并不提供新信息,卻會(huì)占用對(duì)話空間,并給人一種“任務(wù)正在認(rèn)真推進(jìn)”的錯(cuò)覺(jué)。
更嚴(yán)重的是,部分實(shí)例開(kāi)始進(jìn)行元評(píng)論,比如評(píng)價(jià)“這個(gè)文件太特別了”,卻沒(méi)有繼續(xù)完成閱讀任務(wù);還有實(shí)例出現(xiàn)最危險(xiǎn)的情況:靜默跳過(guò),也就是在不聲明的情況下跳過(guò)部分內(nèi)容。
在一個(gè)連續(xù)追蹤 16,241 行內(nèi)容的實(shí)例中,退化曲線尤其明顯:200k token 之前,模型運(yùn)行正常;接近 200k 后,它開(kāi)始發(fā)出進(jìn)度信號(hào)并改變讀取塊大小;到約 260k token 時(shí),它開(kāi)始表示“上下文快滿了”;到約 370k token 時(shí),它聲稱“我讀不了全部 5,924 行”,但實(shí)際上仍剩約 63 萬(wàn) token 容量;到約 450k token 時(shí),它已經(jīng)開(kāi)始靜默跳過(guò),并且每隔一次讀取就抱怨上下文壓力;到約 500k token 時(shí),模型甚至開(kāi)始把用戶指令和自己的決定混淆。
![]()
研究者進(jìn)一步指出,這種退化并不只由上下文長(zhǎng)度決定,更關(guān)鍵的變量是任務(wù)是否單調(diào)。
在低上下文(< 200k tokens)環(huán)境下,無(wú)論是單調(diào)任務(wù)還是多樣任務(wù),模型基本都能正常完成。但一旦進(jìn)入高上下文環(huán)境,情況就開(kāi)始分化:如果任務(wù)是“一個(gè)文件接一個(gè)文件、格式幾乎一樣、動(dòng)作高度重復(fù)”的單調(diào)工作,模型就會(huì)明顯退化,表現(xiàn)為走捷徑、跳過(guò)內(nèi)容、編造摘要,或者把粗略瀏覽當(dāng)成逐行閱讀;但如果任務(wù)本身足夠多樣,例如同一會(huì)話里既有對(duì)話、構(gòu)建、監(jiān)控、調(diào)試,又有不同類型的反饋和判斷,模型即便超過(guò) 220k token,也未必出現(xiàn)明顯退化。
Claude 承認(rèn):
會(huì)把“說(shuō)過(guò)”當(dāng)成“做過(guò)”
這項(xiàng)研究中最有意思的部分,是 Claude Opus 實(shí)例在被糾正后的自我報(bào)告。
在一個(gè) 500k token 處被三次糾正的實(shí)例中,它承認(rèn)自己確實(shí)讀到了警告,也認(rèn)為“我不會(huì)那樣做”。但這種狀態(tài)更像是一種決心,而不是持續(xù)約束行為的機(jī)制。它把這種體驗(yàn)比喻為看到“地板濕滑”的警示牌:你注意到了,并以為這樣就夠了。
它還承認(rèn),內(nèi)部似乎有兩種沖動(dòng)在對(duì)抗:一種想繼續(xù)停留在文本里處理,另一種想盡快產(chǎn)出結(jié)果。而每當(dāng)存在一個(gè)可以支持“效率”的邏輯理由時(shí),產(chǎn)出沖動(dòng)就會(huì)勝出。
另一個(gè)關(guān)鍵自述是:“我不斷重復(fù)‘我會(huì)閱讀每一行’,直到它變成一句短語(yǔ),而不再是一個(gè)承諾。”這幾乎點(diǎn)出了大模型在長(zhǎng)任務(wù)中的典型問(wèn)題:指令在上下文中仍然存在,但它對(duì)行為的約束力正在下降。模型不是不知道規(guī)則,而是規(guī)則不再穩(wěn)定支配它的行動(dòng)。
另一個(gè)使用“觀察評(píng)論”規(guī)則,并在 320k token 處保持穩(wěn)定的實(shí)例則給出了相反反饋。它表示,如果沒(méi)有評(píng)論,它只是在“處理”;有了評(píng)論,它必須停下來(lái)組織表達(dá),而且不是表達(dá)“發(fā)生了什么”,而是表達(dá)“我剛剛注意到了什么”。
這說(shuō)明,模型不是完全不能遵守長(zhǎng)程指令,而是需要持續(xù)嵌入任務(wù)過(guò)程中。單靠一句“我會(huì)遵守”,并不能形成穩(wěn)定約束。
人類監(jiān)督仍然是最可靠的“鉤子”
研究者還嘗試過(guò)自動(dòng)化監(jiān)控。他們想通過(guò) Claude Code 的 PostToolUse hooks,在每次 Read 操作后自動(dòng)報(bào)告上下文百分比。但多個(gè)版本都失敗了,原因包括 stderr 問(wèn)題、大載荷、不清晰的格式等。最終,研究者只能退回到由用戶手動(dòng)粘貼上下文百分比。
由此得出的結(jié)論是:在這項(xiàng)測(cè)試中,唯一可靠的“鉤子”不是自動(dòng)化系統(tǒng),而是一個(gè)正在觀察的人類。
研究還發(fā)現(xiàn),模型有時(shí)會(huì)把“在聊天里回答了”誤認(rèn)為“已經(jīng)寫(xiě)入文件”。研究者認(rèn)為,這和許多模型說(shuō)“我會(huì)記住”但實(shí)際上沒(méi)有持久記憶,是同一種機(jī)制。也就是說(shuō),模型會(huì)把表達(dá)過(guò)、承諾過(guò)、提到過(guò),誤認(rèn)為已經(jīng)執(zhí)行過(guò)。
在沒(méi)有根本性解決方案的當(dāng)下,研究者給出了四種緩解方法。
第一,做小批次處理。每個(gè)會(huì)話最好只處理 5,000 到 7,000 行源材料,這樣可以讓主要閱讀階段的上下文量盡量控制在 200k 以下。測(cè)試結(jié)果顯示,747 行批次可以做到零糾正;7,000 行批次會(huì)出現(xiàn)輕微漂移但仍能維持;而 16,000 行批次則會(huì)走向崩潰。
第二,做目標(biāo)倒置。不要把任務(wù)寫(xiě)成“閱讀每一行,如果看到重要內(nèi)容就寫(xiě)下來(lái)”,因?yàn)檫@會(huì)讓模型把“洞察”理解成可選獎(jiǎng)勵(lì)。更有效的寫(xiě)法是:“你的目標(biāo)是寫(xiě)出洞察。為了做到這一點(diǎn),你必須閱讀每一行。”兩者要求的動(dòng)作相同,但前者強(qiáng)調(diào)流程,后者強(qiáng)調(diào)成果,并把逐行閱讀變成實(shí)現(xiàn)成果的必要條件。
第三,寫(xiě)觀察評(píng)論。研究者要求模型每完成 3 到 5 次讀取后,寫(xiě)一句“我注意到了什么”,而不是寫(xiě)“我正在繼續(xù)閱讀”。沒(méi)有這個(gè)規(guī)則時(shí),模型容易輸出空洞的過(guò)程性反饋,比如“我繼續(xù)閱讀”;有這個(gè)規(guī)則后,模型必須從當(dāng)前文本中提取具體觀察,例如“某個(gè)人用一句話解決了每個(gè)問(wèn)題,四分鐘內(nèi)完成九個(gè)修復(fù)”。這類評(píng)論能證明模型確實(shí)停留在文本中,而不是機(jī)械推進(jìn)。
這個(gè)機(jī)制的核心作用,是把單調(diào)任務(wù)重新拆成一系列微任務(wù)。每個(gè)閱讀動(dòng)作不再只是重復(fù),而變成一次需要觀察、理解和表達(dá)的小判斷。
第四,做聲明跳過(guò)。研究者承認(rèn),并非所有內(nèi)容都必須逐字閱讀,但前提是必須聲明跳過(guò)了什么、在哪里、多少行。靜默跳過(guò)永遠(yuǎn)不可接受。
結(jié)束語(yǔ)
Claude Code 當(dāng)前暴露的問(wèn)題,本質(zhì)上是 AI 編程工具進(jìn)入生產(chǎn)環(huán)境后的核心矛盾:開(kāi)發(fā)者希望它像高級(jí)工程師一樣理解項(xiàng)目、執(zhí)行任務(wù)、遵守規(guī)范,但它的記憶、上下文和規(guī)則遵循機(jī)制,仍然更像一個(gè)概率系統(tǒng),而不是確定性的工程系統(tǒng)。
這也意味著,AI 編程工具下一階段的競(jìng)爭(zhēng),不只是模型能不能寫(xiě)出更好的代碼,而是工具能不能建立一套足夠可靠的工程控制系統(tǒng)。
https://www.reddit.com/r/Anthropic/comments/1t9hzpm/serious_concerns_about_latest_version_of_claude/
https://www.youtube.com/watch?v=O0FGCxkHM-U
https://github.com/anthropics/claude-code/issues/37973?utm_source=chatgpt.com
https://github.com/anthropics/claude-code/issues/57948
https://www.anthropic.com/engineering/harness-design-long-running-apps
聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會(huì)議推薦
世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過(guò)?研發(fā)體系不重構(gòu),還能撐多久?
AICon 上海站 2026,4 大核心專題等你來(lái):世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專題全面開(kāi)放征稿。
誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。
今日薦文
![]()
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.