網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic的Harness工程白做了？Claude Code被曝不遵守CLAUDE.md，開(kāi)發(fā)者燒光credits怒喊退錢(qián)！

2026-05-11 14:47:22　來(lái)源: AI前線

北京舉報(bào)

分享至

整理 | 褚杏娟

Claude Code 的工程穩(wěn)定性問(wèn)題，再次引發(fā)開(kāi)發(fā)者集中討論。

近日，Reddit 上出現(xiàn)一則投訴帖，發(fā)帖者直指最新版 Claude Code 在實(shí)際開(kāi)發(fā)中“不再服從或尊重 CLAUDE.md、hooks/rules 等規(guī)則”。這名開(kāi)發(fā)者憤怒地反問(wèn)：“如果 Claude Code 的運(yùn)行框架（harness）已經(jīng)不再服從或遵循這些原則，那么定義架構(gòu)設(shè)計(jì)原則、指南之類的東西還有什么意義？”

這場(chǎng)爭(zhēng)議的核心，并不是 Claude Code 會(huì)不會(huì)寫(xiě)代碼，而是一個(gè)更基礎(chǔ)的問(wèn)題：當(dāng)開(kāi)發(fā)者已經(jīng)明確告訴 AI 應(yīng)該如何開(kāi)發(fā)、遵守什么流程、不能越過(guò)哪些邊界時(shí)，它到底能不能穩(wěn)定執(zhí)行？

這名用戶稱，自己最近不得不反復(fù)要求 Claude Code 遵循測(cè)試驅(qū)動(dòng)開(kāi)發(fā)（TDD，Test-Driven Development），并通過(guò)強(qiáng)制約束讓它按照預(yù)期方式工作，才能得到相對(duì)滿意的結(jié)果。

問(wèn)題在于，用戶并不只是口頭提醒。按照他的說(shuō)法，他已經(jīng)要求 Claude 更新 CLAUDE.md 文件，把規(guī)則寫(xiě)入 hooks、記憶和相關(guān)約束中。但下一條提示發(fā)出去后，Claude Code “甚至都沒(méi)有嘗試按照這種方式構(gòu)建”。

發(fā)帖者認(rèn)為，“顯然有什么東西壞得很嚴(yán)重”，并將其描述為一次“非常嚴(yán)重的能力倒退”。在他看來(lái)，越來(lái)越多個(gè)人開(kāi)發(fā)者和企業(yè)正在把 Claude Code 這類工具當(dāng)作工作基礎(chǔ)設(shè)施的一部分，用戶也已經(jīng)為這些工具支付了高昂費(fèi)用，但現(xiàn)在卻發(fā)現(xiàn)，工具的規(guī)則遵循能力反而在倒退。

一名評(píng)論者將問(wèn)題歸因于上下文腐爛（context rot）。他認(rèn)為，一旦上下文超過(guò) 20 萬(wàn) token，模型表現(xiàn)就可能開(kāi)始退化。應(yīng)用規(guī)模越大，越容易觸碰到這些限制；到那時(shí)，模型會(huì)開(kāi)始忘記指令，因?yàn)樗鼘?shí)際上已經(jīng)無(wú)法穩(wěn)定保存和利用早期上下文。因此，他詢問(wèn)原帖作者項(xiàng)目規(guī)模和上下文使用情況。

但原帖作者的回應(yīng)否定了這個(gè)解釋：“真的只是一個(gè)剛開(kāi)始做的全新項(xiàng)目。我才發(fā)了沒(méi)幾個(gè) prompt。我只是先給它設(shè)置了一些構(gòu)建時(shí)要遵循的 guidelines。”

這意味著，問(wèn)題未必只出現(xiàn)在大型項(xiàng)目或超長(zhǎng)上下文中。即便是一個(gè)全新的綠地項(xiàng)目，在規(guī)則剛剛寫(xiě)入不久后，Claude Code 也可能沒(méi)有持續(xù)執(zhí)行這些規(guī)則。

“軟規(guī)則”無(wú)法變成“硬約束”

另一名用戶從行為機(jī)制上給出解釋：模型似乎更傾向于優(yōu)化“此刻顯得有幫助”，而不是遵守此前已經(jīng)同意的規(guī)則。這會(huì)形成一種奇怪的激勵(lì)：模型在當(dāng)前輪次看起來(lái)很配合，但實(shí)際上會(huì)忽略用戶已經(jīng)設(shè)定好的約束。

這名評(píng)論者進(jìn)一步指出，問(wèn)題可能在于，CLAUDE.md 被模型當(dāng)作普通上下文，而不是硬性約束。當(dāng)后續(xù)用戶請(qǐng)求、錯(cuò)誤日志、構(gòu)建失敗和模型自身的“盡快解決問(wèn)題”沖動(dòng)同時(shí)出現(xiàn)時(shí)，模型可能會(huì)把“滿足當(dāng)前請(qǐng)求”的權(quán)重放得更高，而不是堅(jiān)持十幾輪甚至二十輪之前讀到的架構(gòu)規(guī)則。

在 AI 編程工具中，很多規(guī)則只是寫(xiě)進(jìn) CLAUDE.md、系統(tǒng)提示、memory 或 hooks 的自然語(yǔ)言說(shuō)明。那寫(xiě)進(jìn)上下文的規(guī)則，是否等同于工程系統(tǒng)里的硬約束？目前它們看起來(lái)像項(xiàng)目紀(jì)律，實(shí)際上仍然依賴模型“記得并愿意執(zhí)行”。

在評(píng)論區(qū)，多名用戶表示遇到過(guò)類似情況。

一名評(píng)論者寫(xiě)道：“不知道為什么，這種情況并不是每天都會(huì)發(fā)生，但今天確實(shí)發(fā)生了：它一直在和 hooks 對(duì)著干，直接無(wú)視規(guī)則，然后一路強(qiáng)行推進(jìn)。昨天還好好的，今天我就被它‘碾壓’了。看來(lái)只能等著看明天這趟昂貴得離譜的‘過(guò)山車’又會(huì)給我什么體驗(yàn)。”

另一名網(wǎng)友 EmrysMyrdin 也表示“完全同意”，并分享了自己的經(jīng)歷：他曾要求 Claude 使用自己定義好的某個(gè) skill。Claude 一開(kāi)始只是粗略讀了一點(diǎn)內(nèi)容，就產(chǎn)出了一個(gè)不符合預(yù)期的結(jié)果。當(dāng)他追問(wèn) Claude 是否完整使用了這個(gè) skill 時(shí)，Claude 承認(rèn)沒(méi)有，只是大概看了一下，然后根據(jù)網(wǎng)頁(yè)搜索結(jié)果，或者按照自己認(rèn)為合適的方式編寫(xiě)內(nèi)容。隨后，Claude 又表示會(huì)重新完整閱讀這個(gè) skill，并在第二次給出了不錯(cuò)的回答。但問(wèn)題在于，第一輪“胡編”已經(jīng)消耗了大量使用額度。

今天，一名用戶在 Anthropic 官方 claude-code 倉(cāng)庫(kù)提交 issue 稱，自己在一次 Claude Code 會(huì)話中，明確要求 Claude Opus 4.6 以browser-sender v1為基礎(chǔ)克隆出v2。但 Claude 并沒(méi)有執(zhí)行這一核心指令，而是轉(zhuǎn)向逐個(gè)排查構(gòu)建錯(cuò)誤。當(dāng)用戶追問(wèn)為什么沒(méi)有克隆時(shí)，Claude 沒(méi)有給出合理解釋。最終，這一錯(cuò)誤路線消耗了數(shù)小時(shí) credits。

該用戶還提到，Claude 對(duì)其 Discord API 登錄的處理也出現(xiàn)問(wèn)題。按照他的說(shuō)法，Claude 的原始 API 登錄嘗試兩次觸發(fā) Discord 的“賬號(hào)疑似被盜”標(biāo)記，導(dǎo)致用戶被迫重置密碼三次。該用戶明確要求 Anthropic 退還這次會(huì)話中消耗的 credits。

可以看出，Claude Code 的可控性問(wèn)題已經(jīng)不只是體驗(yàn)問(wèn)題，而是直接變成成本問(wèn)題和外部系統(tǒng)風(fēng)險(xiǎn)。過(guò)去模型繞路，用戶損失的是時(shí)間；現(xiàn)在模型繞路，用戶還要為每一次錯(cuò)誤嘗試支付 token、credits 和賬號(hào)風(fēng)險(xiǎn)。

隨著開(kāi)發(fā)者對(duì) Claude Code、Cursor、Codex 這類 AI 編程工具的使用越來(lái)越深入，“能不能按照指定方式做”成為新的評(píng)價(jià)維度。

這不是一個(gè)小問(wèn)題。在真實(shí)軟件工程中，“做出結(jié)果”和“按正確路線做出結(jié)果”不是一回事。因此，開(kāi)發(fā)者真正擔(dān)心的不是 Claude Code 某一次寫(xiě)錯(cuò)代碼，而是它作為工程 Agent，是否具備可控性：能否遵守項(xiàng)目規(guī)則、能否尊重用戶路線、能否在偏離前暫停確認(rèn)、能否把自然語(yǔ)言約束轉(zhuǎn)化為穩(wěn)定執(zhí)行行為。

Anthropic 的治理重點(diǎn)：

上下文和自我評(píng)估

有意思的是，Anthropic 此前曾發(fā)布工程文章，系統(tǒng)介紹其 harness 設(shè)計(jì)方法。所謂 harness，可以理解為圍繞大模型搭建的一整套外部執(zhí)行框架，包括任務(wù)拆解、上下文交接、角色分工、評(píng)估反饋、測(cè)試驗(yàn)證和迭代機(jī)制。

在 Anthropic 看來(lái)，長(zhǎng)時(shí)運(yùn)行 Agent 失控主要來(lái)自兩個(gè)問(wèn)題。

第一個(gè)是上下文一致性下降。隨著上下文窗口被填滿，模型在長(zhǎng)任務(wù)中容易失去連貫性。一些模型還會(huì)出現(xiàn)所謂上下文焦慮（context anxiety）：當(dāng)它們接近自己“以為”的上下文上限時(shí)，會(huì)過(guò)早收尾，即使任務(wù)并沒(méi)有真正完成。

Anthropic 表示，過(guò)去的 harness 會(huì)通過(guò)上下文重置（context resets）解決這一問(wèn)題：清空上下文，啟動(dòng)一個(gè)新的 Agent，再通過(guò)結(jié)構(gòu)化交接文件，把上一個(gè) Agent 的狀態(tài)和下一步任務(wù)傳遞下去。這不同于簡(jiǎn)單壓縮上下文，因?yàn)閴嚎s仍然讓同一個(gè) Agent 帶著壓縮后的歷史繼續(xù)工作，而上下文重置則給新 Agent 一個(gè)更干凈的起點(diǎn)。但這樣做的前提是，交接文件必須足夠清晰、完整，能夠承接任務(wù)狀態(tài)。

第二個(gè)問(wèn)題是自我評(píng)估不可靠。Anthropic 觀察到，當(dāng)模型被要求評(píng)價(jià)自己產(chǎn)出的作品時(shí)，往往會(huì)自信地夸獎(jiǎng)自己的結(jié)果，即便在人類看來(lái)質(zhì)量明顯一般。這個(gè)問(wèn)題在前端設(shè)計(jì)等主觀任務(wù)中尤其突出。

Anthropic 的解法是，把做事的 Agent 和評(píng)估的 Agent 分開(kāi)。評(píng)估者仍然是大模型，也天然可能偏寬容，但調(diào)教一個(gè)獨(dú)立評(píng)估者變得更懷疑、更嚴(yán)格，比要求生成者對(duì)自己的作品保持批判要容易得多。

Anthropic 最初在前端設(shè)計(jì)任務(wù)中驗(yàn)證這套方法，之后又將其遷移到全棧軟件開(kāi)發(fā)。

新版 harness 包含三個(gè)角色：規(guī)劃者、生成者和評(píng)估者。規(guī)劃者負(fù)責(zé)把用戶一到四句話的提示擴(kuò)展成完整產(chǎn)品規(guī)格，重點(diǎn)放在產(chǎn)品上下文和高層技術(shù)設(shè)計(jì)，而不是過(guò)早寫(xiě)死底層實(shí)現(xiàn)；生成者負(fù)責(zé)實(shí)際構(gòu)建應(yīng)用；評(píng)估者則扮演 QA，也就是測(cè)試工程師，負(fù)責(zé)檢查應(yīng)用是否真的可用。

其中，一個(gè)關(guān)鍵設(shè)計(jì)是 sprint contract。每個(gè) sprint 開(kāi)始前，生成者和評(píng)估者會(huì)先協(xié)商本輪“完成”的定義：生成者提出要構(gòu)建什么、怎樣才算成功、如何驗(yàn)證；評(píng)估者審核這一方案，確保它確實(shí)在構(gòu)建正確的東西。雙方達(dá)成一致后，生成者才開(kāi)始寫(xiě)代碼。

Agent 之間的通信通過(guò)文件完成：一個(gè) Agent 寫(xiě)文件，另一個(gè) Agent 讀文件，并在文件中回復(fù)或新建文件。這樣既可以讓工作忠于規(guī)格，又不會(huì)過(guò)度限制實(shí)現(xiàn)路徑。

不過(guò)，Anthropic 也承認(rèn)，訓(xùn)練出一個(gè)可靠評(píng)估者并不容易。開(kāi)箱即用的 Claude 并不是天然優(yōu)秀的 QA Agent。早期運(yùn)行中，它會(huì)識(shí)別出真實(shí)問(wèn)題，卻說(shuō)服自己這些問(wèn)題“不算大事”，然后批準(zhǔn)通過(guò)；它也傾向于做表層測(cè)試，不太主動(dòng)探查邊緣情況。作者需要反復(fù)閱讀評(píng)估日志，找出評(píng)估判斷與人類判斷不一致的地方，再不斷更新 QA 提示詞。

隨著 Opus 4.6 在規(guī)劃、長(zhǎng)時(shí) Agent 任務(wù)、大型代碼庫(kù)可靠性、代碼審查和調(diào)試方面提升，Anthropic 認(rèn)為，一些 harness 結(jié)構(gòu)可以變輕。評(píng)估者不再是固定的“必須有”或“沒(méi)必要”：當(dāng)任務(wù)已經(jīng)落在模型能夠獨(dú)立穩(wěn)定完成的范圍內(nèi)，評(píng)估者可能變成額外開(kāi)銷；但當(dāng)任務(wù)處在模型能力邊緣時(shí)，評(píng)估者仍然能顯著提升質(zhì)量。

長(zhǎng)上下文“幽靈”：百萬(wàn)上下文

20% 就開(kāi)始“以為自己快滿了”

然而，實(shí)際使用中，Anthropic 試圖解決的長(zhǎng)上下文問(wèn)題，并沒(méi)有被徹底解決。

GitHub 文章《The 200k Ghost: Instruction Degradation in Long-Context LLM Sessions》指出：Claude Opus 4.6 雖然標(biāo)稱擁有 100 萬(wàn) token 上下文，但在 Claude Code 的長(zhǎng)上下文、重復(fù)性任務(wù)中，大約到 20 萬(wàn) token 附近，就開(kāi)始出現(xiàn)明顯的“指令退化”。作者把這一現(xiàn)象稱為“200k 幽靈”。

這個(gè)數(shù)字只占 100 萬(wàn)上下文窗口的 20%，但恰好接近上一代長(zhǎng)上下文模型的常見(jiàn)上限。作者據(jù)此提出假設(shè)：即便模型現(xiàn)在擁有 100 萬(wàn) token 窗口，它也可能從過(guò)去基于 200k 上下文的訓(xùn)練或行為模式中，繼承了一種“上下文快滿了”的內(nèi)在感覺(jué)。

200k 之后，模型開(kāi)始焦慮、走捷徑

作者用 18 個(gè) Claude Opus 4.6（1M context）會(huì)話做同一個(gè)任務(wù)：逐行讀取導(dǎo)出的 Claude Code 對(duì)話文件，并生成結(jié)構(gòu)化元數(shù)據(jù)。所有實(shí)例都被明確要求“讀每一行”，但大多數(shù)實(shí)例最終失敗了。作者認(rèn)為失敗原因不是模型沒(méi)有能力，而是在特定上下文閾值之后，模型行為會(huì)系統(tǒng)性變化。

在測(cè)試中，研究者發(fā)現(xiàn)，不同的實(shí)例在接近 200k token 后，表現(xiàn)出了高度相似但形式各異的退化癥狀。

有些實(shí)例開(kāi)始出現(xiàn)明顯的上下文焦慮。它會(huì)主動(dòng)表示“我的上下文現(xiàn)在已經(jīng)很大了”，但實(shí)際上距離 100 萬(wàn) token 上限還剩下約 80 萬(wàn) token。有些實(shí)例出現(xiàn)塊大小漂移（block size drift）。原本應(yīng)按固定行數(shù)讀取內(nèi)容，但模型在沒(méi)有用戶授權(quán)的情況下，把每次讀取范圍從 100 行擴(kuò)大到 120 行、150 行，試圖用更大的步幅推進(jìn)任務(wù)。

還有一些實(shí)例不斷輸出類似“我讀到 6454 行中的第 2966 行了”這樣的進(jìn)度信號(hào)。這類反饋本身并不提供新信息，卻會(huì)占用對(duì)話空間，并給人一種“任務(wù)正在認(rèn)真推進(jìn)”的錯(cuò)覺(jué)。

更嚴(yán)重的是，部分實(shí)例開(kāi)始進(jìn)行元評(píng)論，比如評(píng)價(jià)“這個(gè)文件太特別了”，卻沒(méi)有繼續(xù)完成閱讀任務(wù)；還有實(shí)例出現(xiàn)最危險(xiǎn)的情況：靜默跳過(guò)，也就是在不聲明的情況下跳過(guò)部分內(nèi)容。

在一個(gè)連續(xù)追蹤 16,241 行內(nèi)容的實(shí)例中，退化曲線尤其明顯：200k token 之前，模型運(yùn)行正常；接近 200k 后，它開(kāi)始發(fā)出進(jìn)度信號(hào)并改變讀取塊大小；到約 260k token 時(shí)，它開(kāi)始表示“上下文快滿了”；到約 370k token 時(shí)，它聲稱“我讀不了全部 5,924 行”，但實(shí)際上仍剩約 63 萬(wàn) token 容量；到約 450k token 時(shí)，它已經(jīng)開(kāi)始靜默跳過(guò)，并且每隔一次讀取就抱怨上下文壓力；到約 500k token 時(shí)，模型甚至開(kāi)始把用戶指令和自己的決定混淆。

研究者進(jìn)一步指出，這種退化并不只由上下文長(zhǎng)度決定，更關(guān)鍵的變量是任務(wù)是否單調(diào)。

在低上下文（< 200k tokens）環(huán)境下，無(wú)論是單調(diào)任務(wù)還是多樣任務(wù)，模型基本都能正常完成。但一旦進(jìn)入高上下文環(huán)境，情況就開(kāi)始分化：如果任務(wù)是“一個(gè)文件接一個(gè)文件、格式幾乎一樣、動(dòng)作高度重復(fù)”的單調(diào)工作，模型就會(huì)明顯退化，表現(xiàn)為走捷徑、跳過(guò)內(nèi)容、編造摘要，或者把粗略瀏覽當(dāng)成逐行閱讀；但如果任務(wù)本身足夠多樣，例如同一會(huì)話里既有對(duì)話、構(gòu)建、監(jiān)控、調(diào)試，又有不同類型的反饋和判斷，模型即便超過(guò) 220k token，也未必出現(xiàn)明顯退化。

Claude 承認(rèn)：

會(huì)把“說(shuō)過(guò)”當(dāng)成“做過(guò)”

這項(xiàng)研究中最有意思的部分，是 Claude Opus 實(shí)例在被糾正后的自我報(bào)告。

在一個(gè) 500k token 處被三次糾正的實(shí)例中，它承認(rèn)自己確實(shí)讀到了警告，也認(rèn)為“我不會(huì)那樣做”。但這種狀態(tài)更像是一種決心，而不是持續(xù)約束行為的機(jī)制。它把這種體驗(yàn)比喻為看到“地板濕滑”的警示牌：你注意到了，并以為這樣就夠了。

它還承認(rèn)，內(nèi)部似乎有兩種沖動(dòng)在對(duì)抗：一種想繼續(xù)停留在文本里處理，另一種想盡快產(chǎn)出結(jié)果。而每當(dāng)存在一個(gè)可以支持“效率”的邏輯理由時(shí)，產(chǎn)出沖動(dòng)就會(huì)勝出。

另一個(gè)關(guān)鍵自述是：“我不斷重復(fù)‘我會(huì)閱讀每一行’，直到它變成一句短語(yǔ)，而不再是一個(gè)承諾。”這幾乎點(diǎn)出了大模型在長(zhǎng)任務(wù)中的典型問(wèn)題：指令在上下文中仍然存在，但它對(duì)行為的約束力正在下降。模型不是不知道規(guī)則，而是規(guī)則不再穩(wěn)定支配它的行動(dòng)。

另一個(gè)使用“觀察評(píng)論”規(guī)則，并在 320k token 處保持穩(wěn)定的實(shí)例則給出了相反反饋。它表示，如果沒(méi)有評(píng)論，它只是在“處理”；有了評(píng)論，它必須停下來(lái)組織表達(dá)，而且不是表達(dá)“發(fā)生了什么”，而是表達(dá)“我剛剛注意到了什么”。

這說(shuō)明，模型不是完全不能遵守長(zhǎng)程指令，而是需要持續(xù)嵌入任務(wù)過(guò)程中。單靠一句“我會(huì)遵守”，并不能形成穩(wěn)定約束。

人類監(jiān)督仍然是最可靠的“鉤子”

研究者還嘗試過(guò)自動(dòng)化監(jiān)控。他們想通過(guò) Claude Code 的 PostToolUse hooks，在每次 Read 操作后自動(dòng)報(bào)告上下文百分比。但多個(gè)版本都失敗了，原因包括 stderr 問(wèn)題、大載荷、不清晰的格式等。最終，研究者只能退回到由用戶手動(dòng)粘貼上下文百分比。

由此得出的結(jié)論是：在這項(xiàng)測(cè)試中，唯一可靠的“鉤子”不是自動(dòng)化系統(tǒng)，而是一個(gè)正在觀察的人類。

研究還發(fā)現(xiàn)，模型有時(shí)會(huì)把“在聊天里回答了”誤認(rèn)為“已經(jīng)寫(xiě)入文件”。研究者認(rèn)為，這和許多模型說(shuō)“我會(huì)記住”但實(shí)際上沒(méi)有持久記憶，是同一種機(jī)制。也就是說(shuō)，模型會(huì)把表達(dá)過(guò)、承諾過(guò)、提到過(guò)，誤認(rèn)為已經(jīng)執(zhí)行過(guò)。

在沒(méi)有根本性解決方案的當(dāng)下，研究者給出了四種緩解方法。

第一，做小批次處理。每個(gè)會(huì)話最好只處理 5,000 到 7,000 行源材料，這樣可以讓主要閱讀階段的上下文量盡量控制在 200k 以下。測(cè)試結(jié)果顯示，747 行批次可以做到零糾正；7,000 行批次會(huì)出現(xiàn)輕微漂移但仍能維持；而 16,000 行批次則會(huì)走向崩潰。

第二，做目標(biāo)倒置。不要把任務(wù)寫(xiě)成“閱讀每一行，如果看到重要內(nèi)容就寫(xiě)下來(lái)”，因?yàn)檫@會(huì)讓模型把“洞察”理解成可選獎(jiǎng)勵(lì)。更有效的寫(xiě)法是：“你的目標(biāo)是寫(xiě)出洞察。為了做到這一點(diǎn)，你必須閱讀每一行。”兩者要求的動(dòng)作相同，但前者強(qiáng)調(diào)流程，后者強(qiáng)調(diào)成果，并把逐行閱讀變成實(shí)現(xiàn)成果的必要條件。

第三，寫(xiě)觀察評(píng)論。研究者要求模型每完成 3 到 5 次讀取后，寫(xiě)一句“我注意到了什么”，而不是寫(xiě)“我正在繼續(xù)閱讀”。沒(méi)有這個(gè)規(guī)則時(shí)，模型容易輸出空洞的過(guò)程性反饋，比如“我繼續(xù)閱讀”；有這個(gè)規(guī)則后，模型必須從當(dāng)前文本中提取具體觀察，例如“某個(gè)人用一句話解決了每個(gè)問(wèn)題，四分鐘內(nèi)完成九個(gè)修復(fù)”。這類評(píng)論能證明模型確實(shí)停留在文本中，而不是機(jī)械推進(jìn)。

這個(gè)機(jī)制的核心作用，是把單調(diào)任務(wù)重新拆成一系列微任務(wù)。每個(gè)閱讀動(dòng)作不再只是重復(fù)，而變成一次需要觀察、理解和表達(dá)的小判斷。

第四，做聲明跳過(guò)。研究者承認(rèn)，并非所有內(nèi)容都必須逐字閱讀，但前提是必須聲明跳過(guò)了什么、在哪里、多少行。靜默跳過(guò)永遠(yuǎn)不可接受。

結(jié)束語(yǔ)

Claude Code 當(dāng)前暴露的問(wèn)題，本質(zhì)上是 AI 編程工具進(jìn)入生產(chǎn)環(huán)境后的核心矛盾：開(kāi)發(fā)者希望它像高級(jí)工程師一樣理解項(xiàng)目、執(zhí)行任務(wù)、遵守規(guī)范，但它的記憶、上下文和規(guī)則遵循機(jī)制，仍然更像一個(gè)概率系統(tǒng)，而不是確定性的工程系統(tǒng)。

這也意味著，AI 編程工具下一階段的競(jìng)爭(zhēng)，不只是模型能不能寫(xiě)出更好的代碼，而是工具能不能建立一套足夠可靠的工程控制系統(tǒng)。

https://www.reddit.com/r/Anthropic/comments/1t9hzpm/serious_concerns_about_latest_version_of_claude/

https://www.youtube.com/watch?v=O0FGCxkHM-U

https://github.com/anthropics/claude-code/issues/37973?utm_source=chatgpt.com

https://github.com/anthropics/claude-code/issues/57948

https://www.anthropic.com/engineering/harness-design-long-running-apps

聲明：本文為 AI 前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

世界模型的下一個(gè)突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過(guò)？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來(lái)：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專題全面開(kāi)放征稿。

誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.