<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Anthropic的Harness工程白做了?Claude Code被曝不遵守CLAUDE.md,開(kāi)發(fā)者燒光credits怒喊退錢(qián)!

      0
      分享至


      整理 | 褚杏娟

      Claude Code 的工程穩(wěn)定性問(wèn)題,再次引發(fā)開(kāi)發(fā)者集中討論。

      近日,Reddit 上出現(xiàn)一則投訴帖,發(fā)帖者直指最新版 Claude Code 在實(shí)際開(kāi)發(fā)中“不再服從或尊重 CLAUDE.md、hooks/rules 等規(guī)則”。這名開(kāi)發(fā)者憤怒地反問(wèn):“如果 Claude Code 的運(yùn)行框架(harness)已經(jīng)不再服從或遵循這些原則,那么定義架構(gòu)設(shè)計(jì)原則、指南之類的東西還有什么意義?”

      這場(chǎng)爭(zhēng)議的核心,并不是 Claude Code 會(huì)不會(huì)寫(xiě)代碼,而是一個(gè)更基礎(chǔ)的問(wèn)題:當(dāng)開(kāi)發(fā)者已經(jīng)明確告訴 AI 應(yīng)該如何開(kāi)發(fā)、遵守什么流程、不能越過(guò)哪些邊界時(shí),它到底能不能穩(wěn)定執(zhí)行?

      這名用戶稱,自己最近不得不反復(fù)要求 Claude Code 遵循測(cè)試驅(qū)動(dòng)開(kāi)發(fā)(TDD,Test-Driven Development),并通過(guò)強(qiáng)制約束讓它按照預(yù)期方式工作,才能得到相對(duì)滿意的結(jié)果。

      問(wèn)題在于,用戶并不只是口頭提醒。按照他的說(shuō)法,他已經(jīng)要求 Claude 更新 CLAUDE.md 文件,把規(guī)則寫(xiě)入 hooks、記憶和相關(guān)約束中。但下一條提示發(fā)出去后,Claude Code “甚至都沒(méi)有嘗試按照這種方式構(gòu)建”。

      發(fā)帖者認(rèn)為,“顯然有什么東西壞得很嚴(yán)重”,并將其描述為一次“非常嚴(yán)重的能力倒退”。在他看來(lái),越來(lái)越多個(gè)人開(kāi)發(fā)者和企業(yè)正在把 Claude Code 這類工具當(dāng)作工作基礎(chǔ)設(shè)施的一部分,用戶也已經(jīng)為這些工具支付了高昂費(fèi)用,但現(xiàn)在卻發(fā)現(xiàn),工具的規(guī)則遵循能力反而在倒退。


      一名評(píng)論者將問(wèn)題歸因于上下文腐爛(context rot)。他認(rèn)為,一旦上下文超過(guò) 20 萬(wàn) token,模型表現(xiàn)就可能開(kāi)始退化。應(yīng)用規(guī)模越大,越容易觸碰到這些限制;到那時(shí),模型會(huì)開(kāi)始忘記指令,因?yàn)樗鼘?shí)際上已經(jīng)無(wú)法穩(wěn)定保存和利用早期上下文。因此,他詢問(wèn)原帖作者項(xiàng)目規(guī)模和上下文使用情況。

      但原帖作者的回應(yīng)否定了這個(gè)解釋:“真的只是一個(gè)剛開(kāi)始做的全新項(xiàng)目。我才發(fā)了沒(méi)幾個(gè) prompt。我只是先給它設(shè)置了一些構(gòu)建時(shí)要遵循的 guidelines。”

      這意味著,問(wèn)題未必只出現(xiàn)在大型項(xiàng)目或超長(zhǎng)上下文中。即便是一個(gè)全新的綠地項(xiàng)目,在規(guī)則剛剛寫(xiě)入不久后,Claude Code 也可能沒(méi)有持續(xù)執(zhí)行這些規(guī)則。

      “軟規(guī)則”無(wú)法變成“硬約束”

      另一名用戶從行為機(jī)制上給出解釋:模型似乎更傾向于優(yōu)化“此刻顯得有幫助”,而不是遵守此前已經(jīng)同意的規(guī)則。這會(huì)形成一種奇怪的激勵(lì):模型在當(dāng)前輪次看起來(lái)很配合,但實(shí)際上會(huì)忽略用戶已經(jīng)設(shè)定好的約束。

      這名評(píng)論者進(jìn)一步指出,問(wèn)題可能在于,CLAUDE.md 被模型當(dāng)作普通上下文,而不是硬性約束。當(dāng)后續(xù)用戶請(qǐng)求、錯(cuò)誤日志、構(gòu)建失敗和模型自身的“盡快解決問(wèn)題”沖動(dòng)同時(shí)出現(xiàn)時(shí),模型可能會(huì)把“滿足當(dāng)前請(qǐng)求”的權(quán)重放得更高,而不是堅(jiān)持十幾輪甚至二十輪之前讀到的架構(gòu)規(guī)則。

      在 AI 編程工具中,很多規(guī)則只是寫(xiě)進(jìn) CLAUDE.md、系統(tǒng)提示、memory 或 hooks 的自然語(yǔ)言說(shuō)明。那寫(xiě)進(jìn)上下文的規(guī)則,是否等同于工程系統(tǒng)里的硬約束?目前它們看起來(lái)像項(xiàng)目紀(jì)律,實(shí)際上仍然依賴模型“記得并愿意執(zhí)行”。

      在評(píng)論區(qū),多名用戶表示遇到過(guò)類似情況。

      一名評(píng)論者寫(xiě)道:“不知道為什么,這種情況并不是每天都會(huì)發(fā)生,但今天確實(shí)發(fā)生了:它一直在和 hooks 對(duì)著干,直接無(wú)視規(guī)則,然后一路強(qiáng)行推進(jìn)。昨天還好好的,今天我就被它‘碾壓’了。看來(lái)只能等著看明天這趟昂貴得離譜的‘過(guò)山車’又會(huì)給我什么體驗(yàn)。”

      另一名網(wǎng)友 EmrysMyrdin 也表示“完全同意”,并分享了自己的經(jīng)歷:他曾要求 Claude 使用自己定義好的某個(gè) skill。Claude 一開(kāi)始只是粗略讀了一點(diǎn)內(nèi)容,就產(chǎn)出了一個(gè)不符合預(yù)期的結(jié)果。當(dāng)他追問(wèn) Claude 是否完整使用了這個(gè) skill 時(shí),Claude 承認(rèn)沒(méi)有,只是大概看了一下,然后根據(jù)網(wǎng)頁(yè)搜索結(jié)果,或者按照自己認(rèn)為合適的方式編寫(xiě)內(nèi)容。隨后,Claude 又表示會(huì)重新完整閱讀這個(gè) skill,并在第二次給出了不錯(cuò)的回答。但問(wèn)題在于,第一輪“胡編”已經(jīng)消耗了大量使用額度。

      今天,一名用戶在 Anthropic 官方 claude-code 倉(cāng)庫(kù)提交 issue 稱,自己在一次 Claude Code 會(huì)話中,明確要求 Claude Opus 4.6 以browser-sender v1為基礎(chǔ)克隆出v2。但 Claude 并沒(méi)有執(zhí)行這一核心指令,而是轉(zhuǎn)向逐個(gè)排查構(gòu)建錯(cuò)誤。當(dāng)用戶追問(wèn)為什么沒(méi)有克隆時(shí),Claude 沒(méi)有給出合理解釋。最終,這一錯(cuò)誤路線消耗了數(shù)小時(shí) credits。

      該用戶還提到,Claude 對(duì)其 Discord API 登錄的處理也出現(xiàn)問(wèn)題。按照他的說(shuō)法,Claude 的原始 API 登錄嘗試兩次觸發(fā) Discord 的“賬號(hào)疑似被盜”標(biāo)記,導(dǎo)致用戶被迫重置密碼三次。該用戶明確要求 Anthropic 退還這次會(huì)話中消耗的 credits。

      可以看出,Claude Code 的可控性問(wèn)題已經(jīng)不只是體驗(yàn)問(wèn)題,而是直接變成成本問(wèn)題和外部系統(tǒng)風(fēng)險(xiǎn)。過(guò)去模型繞路,用戶損失的是時(shí)間;現(xiàn)在模型繞路,用戶還要為每一次錯(cuò)誤嘗試支付 token、credits 和賬號(hào)風(fēng)險(xiǎn)。

      隨著開(kāi)發(fā)者對(duì) Claude Code、Cursor、Codex 這類 AI 編程工具的使用越來(lái)越深入,“能不能按照指定方式做”成為新的評(píng)價(jià)維度。

      這不是一個(gè)小問(wèn)題。在真實(shí)軟件工程中,“做出結(jié)果”和“按正確路線做出結(jié)果”不是一回事。因此,開(kāi)發(fā)者真正擔(dān)心的不是 Claude Code 某一次寫(xiě)錯(cuò)代碼,而是它作為工程 Agent,是否具備可控性:能否遵守項(xiàng)目規(guī)則、能否尊重用戶路線、能否在偏離前暫停確認(rèn)、能否把自然語(yǔ)言約束轉(zhuǎn)化為穩(wěn)定執(zhí)行行為。

      Anthropic 的治理重點(diǎn):

      上下文和自我評(píng)估

      有意思的是,Anthropic 此前曾發(fā)布工程文章,系統(tǒng)介紹其 harness 設(shè)計(jì)方法。所謂 harness,可以理解為圍繞大模型搭建的一整套外部執(zhí)行框架,包括任務(wù)拆解、上下文交接、角色分工、評(píng)估反饋、測(cè)試驗(yàn)證和迭代機(jī)制。

      在 Anthropic 看來(lái),長(zhǎng)時(shí)運(yùn)行 Agent 失控主要來(lái)自兩個(gè)問(wèn)題。

      第一個(gè)是上下文一致性下降。隨著上下文窗口被填滿,模型在長(zhǎng)任務(wù)中容易失去連貫性。一些模型還會(huì)出現(xiàn)所謂上下文焦慮(context anxiety):當(dāng)它們接近自己“以為”的上下文上限時(shí),會(huì)過(guò)早收尾,即使任務(wù)并沒(méi)有真正完成。

      Anthropic 表示,過(guò)去的 harness 會(huì)通過(guò)上下文重置(context resets)解決這一問(wèn)題:清空上下文,啟動(dòng)一個(gè)新的 Agent,再通過(guò)結(jié)構(gòu)化交接文件,把上一個(gè) Agent 的狀態(tài)和下一步任務(wù)傳遞下去。這不同于簡(jiǎn)單壓縮上下文,因?yàn)閴嚎s仍然讓同一個(gè) Agent 帶著壓縮后的歷史繼續(xù)工作,而上下文重置則給新 Agent 一個(gè)更干凈的起點(diǎn)。但這樣做的前提是,交接文件必須足夠清晰、完整,能夠承接任務(wù)狀態(tài)。

      第二個(gè)問(wèn)題是自我評(píng)估不可靠。Anthropic 觀察到,當(dāng)模型被要求評(píng)價(jià)自己產(chǎn)出的作品時(shí),往往會(huì)自信地夸獎(jiǎng)自己的結(jié)果,即便在人類看來(lái)質(zhì)量明顯一般。這個(gè)問(wèn)題在前端設(shè)計(jì)等主觀任務(wù)中尤其突出。

      Anthropic 的解法是,把做事的 Agent 和評(píng)估的 Agent 分開(kāi)。評(píng)估者仍然是大模型,也天然可能偏寬容,但調(diào)教一個(gè)獨(dú)立評(píng)估者變得更懷疑、更嚴(yán)格,比要求生成者對(duì)自己的作品保持批判要容易得多。

      Anthropic 最初在前端設(shè)計(jì)任務(wù)中驗(yàn)證這套方法,之后又將其遷移到全棧軟件開(kāi)發(fā)。

      新版 harness 包含三個(gè)角色:規(guī)劃者、生成者和評(píng)估者。規(guī)劃者負(fù)責(zé)把用戶一到四句話的提示擴(kuò)展成完整產(chǎn)品規(guī)格,重點(diǎn)放在產(chǎn)品上下文和高層技術(shù)設(shè)計(jì),而不是過(guò)早寫(xiě)死底層實(shí)現(xiàn);生成者負(fù)責(zé)實(shí)際構(gòu)建應(yīng)用;評(píng)估者則扮演 QA,也就是測(cè)試工程師,負(fù)責(zé)檢查應(yīng)用是否真的可用。

      其中,一個(gè)關(guān)鍵設(shè)計(jì)是 sprint contract。每個(gè) sprint 開(kāi)始前,生成者和評(píng)估者會(huì)先協(xié)商本輪“完成”的定義:生成者提出要構(gòu)建什么、怎樣才算成功、如何驗(yàn)證;評(píng)估者審核這一方案,確保它確實(shí)在構(gòu)建正確的東西。雙方達(dá)成一致后,生成者才開(kāi)始寫(xiě)代碼。

      Agent 之間的通信通過(guò)文件完成:一個(gè) Agent 寫(xiě)文件,另一個(gè) Agent 讀文件,并在文件中回復(fù)或新建文件。這樣既可以讓工作忠于規(guī)格,又不會(huì)過(guò)度限制實(shí)現(xiàn)路徑。

      不過(guò),Anthropic 也承認(rèn),訓(xùn)練出一個(gè)可靠評(píng)估者并不容易。開(kāi)箱即用的 Claude 并不是天然優(yōu)秀的 QA Agent。早期運(yùn)行中,它會(huì)識(shí)別出真實(shí)問(wèn)題,卻說(shuō)服自己這些問(wèn)題“不算大事”,然后批準(zhǔn)通過(guò);它也傾向于做表層測(cè)試,不太主動(dòng)探查邊緣情況。作者需要反復(fù)閱讀評(píng)估日志,找出評(píng)估判斷與人類判斷不一致的地方,再不斷更新 QA 提示詞。

      隨著 Opus 4.6 在規(guī)劃、長(zhǎng)時(shí) Agent 任務(wù)、大型代碼庫(kù)可靠性、代碼審查和調(diào)試方面提升,Anthropic 認(rèn)為,一些 harness 結(jié)構(gòu)可以變輕。評(píng)估者不再是固定的“必須有”或“沒(méi)必要”:當(dāng)任務(wù)已經(jīng)落在模型能夠獨(dú)立穩(wěn)定完成的范圍內(nèi),評(píng)估者可能變成額外開(kāi)銷;但當(dāng)任務(wù)處在模型能力邊緣時(shí),評(píng)估者仍然能顯著提升質(zhì)量。

      長(zhǎng)上下文“幽靈”:百萬(wàn)上下文

      20% 就開(kāi)始“以為自己快滿了”

      然而,實(shí)際使用中,Anthropic 試圖解決的長(zhǎng)上下文問(wèn)題,并沒(méi)有被徹底解決。

      GitHub 文章《The 200k Ghost: Instruction Degradation in Long-Context LLM Sessions》指出:Claude Opus 4.6 雖然標(biāo)稱擁有 100 萬(wàn) token 上下文,但在 Claude Code 的長(zhǎng)上下文、重復(fù)性任務(wù)中,大約到 20 萬(wàn) token 附近,就開(kāi)始出現(xiàn)明顯的“指令退化”。作者把這一現(xiàn)象稱為“200k 幽靈”。

      這個(gè)數(shù)字只占 100 萬(wàn)上下文窗口的 20%,但恰好接近上一代長(zhǎng)上下文模型的常見(jiàn)上限。作者據(jù)此提出假設(shè):即便模型現(xiàn)在擁有 100 萬(wàn) token 窗口,它也可能從過(guò)去基于 200k 上下文的訓(xùn)練或行為模式中,繼承了一種“上下文快滿了”的內(nèi)在感覺(jué)。

      200k 之后,模型開(kāi)始焦慮、走捷徑

      作者用 18 個(gè) Claude Opus 4.6(1M context)會(huì)話做同一個(gè)任務(wù):逐行讀取導(dǎo)出的 Claude Code 對(duì)話文件,并生成結(jié)構(gòu)化元數(shù)據(jù)。所有實(shí)例都被明確要求“讀每一行”,但大多數(shù)實(shí)例最終失敗了。作者認(rèn)為失敗原因不是模型沒(méi)有能力,而是在特定上下文閾值之后,模型行為會(huì)系統(tǒng)性變化。

      在測(cè)試中,研究者發(fā)現(xiàn),不同的實(shí)例在接近 200k token 后,表現(xiàn)出了高度相似但形式各異的退化癥狀。

      有些實(shí)例開(kāi)始出現(xiàn)明顯的上下文焦慮。它會(huì)主動(dòng)表示“我的上下文現(xiàn)在已經(jīng)很大了”,但實(shí)際上距離 100 萬(wàn) token 上限還剩下約 80 萬(wàn) token。有些實(shí)例出現(xiàn)塊大小漂移(block size drift)。原本應(yīng)按固定行數(shù)讀取內(nèi)容,但模型在沒(méi)有用戶授權(quán)的情況下,把每次讀取范圍從 100 行擴(kuò)大到 120 行、150 行,試圖用更大的步幅推進(jìn)任務(wù)。

      還有一些實(shí)例不斷輸出類似“我讀到 6454 行中的第 2966 行了”這樣的進(jìn)度信號(hào)。這類反饋本身并不提供新信息,卻會(huì)占用對(duì)話空間,并給人一種“任務(wù)正在認(rèn)真推進(jìn)”的錯(cuò)覺(jué)。

      更嚴(yán)重的是,部分實(shí)例開(kāi)始進(jìn)行元評(píng)論,比如評(píng)價(jià)“這個(gè)文件太特別了”,卻沒(méi)有繼續(xù)完成閱讀任務(wù);還有實(shí)例出現(xiàn)最危險(xiǎn)的情況:靜默跳過(guò),也就是在不聲明的情況下跳過(guò)部分內(nèi)容。

      在一個(gè)連續(xù)追蹤 16,241 行內(nèi)容的實(shí)例中,退化曲線尤其明顯:200k token 之前,模型運(yùn)行正常;接近 200k 后,它開(kāi)始發(fā)出進(jìn)度信號(hào)并改變讀取塊大小;到約 260k token 時(shí),它開(kāi)始表示“上下文快滿了”;到約 370k token 時(shí),它聲稱“我讀不了全部 5,924 行”,但實(shí)際上仍剩約 63 萬(wàn) token 容量;到約 450k token 時(shí),它已經(jīng)開(kāi)始靜默跳過(guò),并且每隔一次讀取就抱怨上下文壓力;到約 500k token 時(shí),模型甚至開(kāi)始把用戶指令和自己的決定混淆。


      研究者進(jìn)一步指出,這種退化并不只由上下文長(zhǎng)度決定,更關(guān)鍵的變量是任務(wù)是否單調(diào)。

      在低上下文(< 200k tokens)環(huán)境下,無(wú)論是單調(diào)任務(wù)還是多樣任務(wù),模型基本都能正常完成。但一旦進(jìn)入高上下文環(huán)境,情況就開(kāi)始分化:如果任務(wù)是“一個(gè)文件接一個(gè)文件、格式幾乎一樣、動(dòng)作高度重復(fù)”的單調(diào)工作,模型就會(huì)明顯退化,表現(xiàn)為走捷徑、跳過(guò)內(nèi)容、編造摘要,或者把粗略瀏覽當(dāng)成逐行閱讀;但如果任務(wù)本身足夠多樣,例如同一會(huì)話里既有對(duì)話、構(gòu)建、監(jiān)控、調(diào)試,又有不同類型的反饋和判斷,模型即便超過(guò) 220k token,也未必出現(xiàn)明顯退化。

      Claude 承認(rèn):

      會(huì)把“說(shuō)過(guò)”當(dāng)成“做過(guò)”

      這項(xiàng)研究中最有意思的部分,是 Claude Opus 實(shí)例在被糾正后的自我報(bào)告。

      在一個(gè) 500k token 處被三次糾正的實(shí)例中,它承認(rèn)自己確實(shí)讀到了警告,也認(rèn)為“我不會(huì)那樣做”。但這種狀態(tài)更像是一種決心,而不是持續(xù)約束行為的機(jī)制。它把這種體驗(yàn)比喻為看到“地板濕滑”的警示牌:你注意到了,并以為這樣就夠了。

      它還承認(rèn),內(nèi)部似乎有兩種沖動(dòng)在對(duì)抗:一種想繼續(xù)停留在文本里處理,另一種想盡快產(chǎn)出結(jié)果。而每當(dāng)存在一個(gè)可以支持“效率”的邏輯理由時(shí),產(chǎn)出沖動(dòng)就會(huì)勝出。

      另一個(gè)關(guān)鍵自述是:“我不斷重復(fù)‘我會(huì)閱讀每一行’,直到它變成一句短語(yǔ),而不再是一個(gè)承諾。”這幾乎點(diǎn)出了大模型在長(zhǎng)任務(wù)中的典型問(wèn)題:指令在上下文中仍然存在,但它對(duì)行為的約束力正在下降。模型不是不知道規(guī)則,而是規(guī)則不再穩(wěn)定支配它的行動(dòng)。

      另一個(gè)使用“觀察評(píng)論”規(guī)則,并在 320k token 處保持穩(wěn)定的實(shí)例則給出了相反反饋。它表示,如果沒(méi)有評(píng)論,它只是在“處理”;有了評(píng)論,它必須停下來(lái)組織表達(dá),而且不是表達(dá)“發(fā)生了什么”,而是表達(dá)“我剛剛注意到了什么”。

      這說(shuō)明,模型不是完全不能遵守長(zhǎng)程指令,而是需要持續(xù)嵌入任務(wù)過(guò)程中。單靠一句“我會(huì)遵守”,并不能形成穩(wěn)定約束。

      人類監(jiān)督仍然是最可靠的“鉤子”

      研究者還嘗試過(guò)自動(dòng)化監(jiān)控。他們想通過(guò) Claude Code 的 PostToolUse hooks,在每次 Read 操作后自動(dòng)報(bào)告上下文百分比。但多個(gè)版本都失敗了,原因包括 stderr 問(wèn)題、大載荷、不清晰的格式等。最終,研究者只能退回到由用戶手動(dòng)粘貼上下文百分比。

      由此得出的結(jié)論是:在這項(xiàng)測(cè)試中,唯一可靠的“鉤子”不是自動(dòng)化系統(tǒng),而是一個(gè)正在觀察的人類。

      研究還發(fā)現(xiàn),模型有時(shí)會(huì)把“在聊天里回答了”誤認(rèn)為“已經(jīng)寫(xiě)入文件”。研究者認(rèn)為,這和許多模型說(shuō)“我會(huì)記住”但實(shí)際上沒(méi)有持久記憶,是同一種機(jī)制。也就是說(shuō),模型會(huì)把表達(dá)過(guò)、承諾過(guò)、提到過(guò),誤認(rèn)為已經(jīng)執(zhí)行過(guò)。

      在沒(méi)有根本性解決方案的當(dāng)下,研究者給出了四種緩解方法。

      第一,做小批次處理。每個(gè)會(huì)話最好只處理 5,000 到 7,000 行源材料,這樣可以讓主要閱讀階段的上下文量盡量控制在 200k 以下。測(cè)試結(jié)果顯示,747 行批次可以做到零糾正;7,000 行批次會(huì)出現(xiàn)輕微漂移但仍能維持;而 16,000 行批次則會(huì)走向崩潰。

      第二,做目標(biāo)倒置。不要把任務(wù)寫(xiě)成“閱讀每一行,如果看到重要內(nèi)容就寫(xiě)下來(lái)”,因?yàn)檫@會(huì)讓模型把“洞察”理解成可選獎(jiǎng)勵(lì)。更有效的寫(xiě)法是:“你的目標(biāo)是寫(xiě)出洞察。為了做到這一點(diǎn),你必須閱讀每一行。”兩者要求的動(dòng)作相同,但前者強(qiáng)調(diào)流程,后者強(qiáng)調(diào)成果,并把逐行閱讀變成實(shí)現(xiàn)成果的必要條件。

      第三,寫(xiě)觀察評(píng)論。研究者要求模型每完成 3 到 5 次讀取后,寫(xiě)一句“我注意到了什么”,而不是寫(xiě)“我正在繼續(xù)閱讀”。沒(méi)有這個(gè)規(guī)則時(shí),模型容易輸出空洞的過(guò)程性反饋,比如“我繼續(xù)閱讀”;有這個(gè)規(guī)則后,模型必須從當(dāng)前文本中提取具體觀察,例如“某個(gè)人用一句話解決了每個(gè)問(wèn)題,四分鐘內(nèi)完成九個(gè)修復(fù)”。這類評(píng)論能證明模型確實(shí)停留在文本中,而不是機(jī)械推進(jìn)。

      這個(gè)機(jī)制的核心作用,是把單調(diào)任務(wù)重新拆成一系列微任務(wù)。每個(gè)閱讀動(dòng)作不再只是重復(fù),而變成一次需要觀察、理解和表達(dá)的小判斷。

      第四,做聲明跳過(guò)。研究者承認(rèn),并非所有內(nèi)容都必須逐字閱讀,但前提是必須聲明跳過(guò)了什么、在哪里、多少行。靜默跳過(guò)永遠(yuǎn)不可接受。

      結(jié)束語(yǔ)

      Claude Code 當(dāng)前暴露的問(wèn)題,本質(zhì)上是 AI 編程工具進(jìn)入生產(chǎn)環(huán)境后的核心矛盾:開(kāi)發(fā)者希望它像高級(jí)工程師一樣理解項(xiàng)目、執(zhí)行任務(wù)、遵守規(guī)范,但它的記憶、上下文和規(guī)則遵循機(jī)制,仍然更像一個(gè)概率系統(tǒng),而不是確定性的工程系統(tǒng)。

      這也意味著,AI 編程工具下一階段的競(jìng)爭(zhēng),不只是模型能不能寫(xiě)出更好的代碼,而是工具能不能建立一套足夠可靠的工程控制系統(tǒng)。

      https://www.reddit.com/r/Anthropic/comments/1t9hzpm/serious_concerns_about_latest_version_of_claude/

      https://www.youtube.com/watch?v=O0FGCxkHM-U

      https://github.com/anthropics/claude-code/issues/37973?utm_source=chatgpt.com

      https://github.com/anthropics/claude-code/issues/57948

      https://www.anthropic.com/engineering/harness-design-long-running-apps

      聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

      會(huì)議推薦

      世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過(guò)?研發(fā)體系不重構(gòu),還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來(lái):世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專題全面開(kāi)放征稿。

      誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。

      今日薦文


      你也「在看」嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      破防!阿森納奪冠夜現(xiàn)悲情一幕,3 人陪跑無(wú)獎(jiǎng)牌

      破防!阿森納奪冠夜現(xiàn)悲情一幕,3 人陪跑無(wú)獎(jiǎng)牌

      一隅非生
      2026-05-20 07:06:11
      吉利新車官宣:5月19日,正式上市!

      吉利新車官宣:5月19日,正式上市!

      科技堡壘
      2026-05-19 09:50:17
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      健康科普365
      2026-05-09 21:05:04
      廣州常住人口首破1900萬(wàn)背后:白云番禺領(lǐng)漲,三區(qū)負(fù)增長(zhǎng)

      廣州常住人口首破1900萬(wàn)背后:白云番禺領(lǐng)漲,三區(qū)負(fù)增長(zhǎng)

      南方都市報(bào)
      2026-05-19 16:50:51
      一聲槍響,全球震動(dòng)!特朗普高調(diào)宣布:斬首成功,我們擊斃了他!

      一聲槍響,全球震動(dòng)!特朗普高調(diào)宣布:斬首成功,我們擊斃了他!

      鐵血江湖人
      2026-05-20 02:58:29
      京東官宣今年618從5月30日晚8點(diǎn)開(kāi)始,未來(lái)有望實(shí)現(xiàn)包裹全流程無(wú)人配送直達(dá)用戶手中

      京東官宣今年618從5月30日晚8點(diǎn)開(kāi)始,未來(lái)有望實(shí)現(xiàn)包裹全流程無(wú)人配送直達(dá)用戶手中

      極目新聞
      2026-05-18 16:25:23
      侵犯公民人身自由國(guó)家賠償金,最新標(biāo)準(zhǔn)公布

      侵犯公民人身自由國(guó)家賠償金,最新標(biāo)準(zhǔn)公布

      南方都市報(bào)
      2026-05-19 14:45:00
      特斯拉放棄印度建廠

      特斯拉放棄印度建廠

      新浪財(cái)經(jīng)
      2026-05-19 16:29:08
      塔帥擊碎質(zhì)疑 執(zhí)教7年終登頂英超 復(fù)制溫格足跡 44歲奪冠緊追穆帥

      塔帥擊碎質(zhì)疑 執(zhí)教7年終登頂英超 復(fù)制溫格足跡 44歲奪冠緊追穆帥

      我愛(ài)英超
      2026-05-20 05:55:30
      就她了!神舟二十三號(hào)三人組預(yù)測(cè),港產(chǎn)女載荷專家首秀將打破紀(jì)錄

      就她了!神舟二十三號(hào)三人組預(yù)測(cè),港產(chǎn)女載荷專家首秀將打破紀(jì)錄

      日不西沉
      2026-05-20 03:26:27
      《主角》黃正經(jīng)升局長(zhǎng),米蘭嫁人,才懂楚嘉禾示好易青娥多憋屈

      《主角》黃正經(jīng)升局長(zhǎng),米蘭嫁人,才懂楚嘉禾示好易青娥多憋屈

      八斗小先生
      2026-05-19 11:13:46
      母子同床15年?狄鶯終于將寶貝兒子送進(jìn)了監(jiān)獄!

      母子同床15年?狄鶯終于將寶貝兒子送進(jìn)了監(jiān)獄!

      新民周刊
      2026-05-18 14:05:28
      圓夢(mèng)時(shí)刻,漢密爾頓轉(zhuǎn)發(fā)球隊(duì)海報(bào)祝賀阿森納奪冠:COYG!

      圓夢(mèng)時(shí)刻,漢密爾頓轉(zhuǎn)發(fā)球隊(duì)海報(bào)祝賀阿森納奪冠:COYG!

      懂球帝
      2026-05-20 06:57:10
      1996年16歲的柳巖,在廣州一所中專學(xué)校就讀護(hù)理專業(yè)期間拍的照片

      1996年16歲的柳巖,在廣州一所中專學(xué)校就讀護(hù)理專業(yè)期間拍的照片

      戶外阿毽
      2026-05-19 13:00:42
      韓媒:朝鮮女足粗魯無(wú)禮!她們和中國(guó)隊(duì)擊掌問(wèn)候,卻拒與日韓握手

      韓媒:朝鮮女足粗魯無(wú)禮!她們和中國(guó)隊(duì)擊掌問(wèn)候,卻拒與日韓握手

      劉哥談體育
      2026-05-19 13:00:15
      烏克蘭打擊莫斯科,魏德?tīng)枃槈牧耍鉃蹩颂m襲擊俄羅斯本土!

      烏克蘭打擊莫斯科,魏德?tīng)枃槈牧耍鉃蹩颂m襲擊俄羅斯本土!

      開(kāi)著車去流浪
      2026-05-20 00:40:17
      年僅54歲!武漢協(xié)和冷松因病醫(yī)治無(wú)效去世

      年僅54歲!武漢協(xié)和冷松因病醫(yī)治無(wú)效去世

      華醫(yī)網(wǎng)
      2026-05-19 15:21:37
      勇士隊(duì)傳聞:內(nèi)部人士承認(rèn)今夏補(bǔ)強(qiáng)陣容對(duì)抗雷霆和馬刺“不現(xiàn)實(shí)”

      勇士隊(duì)傳聞:內(nèi)部人士承認(rèn)今夏補(bǔ)強(qiáng)陣容對(duì)抗雷霆和馬刺“不現(xiàn)實(shí)”

      好火子
      2026-05-20 05:00:02
      西方媒體證實(shí):中國(guó)飛弩-16現(xiàn)身俄烏戰(zhàn)場(chǎng),攔截成功率70%

      西方媒體證實(shí):中國(guó)飛弩-16現(xiàn)身俄烏戰(zhàn)場(chǎng),攔截成功率70%

      流年顛簸
      2026-05-20 02:55:43
      丑人多作怪?被“網(wǎng)暴”多年后傅首爾終于急了,怪不得網(wǎng)友嘴太毒

      丑人多作怪?被“網(wǎng)暴”多年后傅首爾終于急了,怪不得網(wǎng)友嘴太毒

      琴琴有氧運(yùn)動(dòng)
      2026-05-19 04:47:56
      2026-05-20 07:40:49
      AI前線 incentive-icons
      AI前線
      面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
      1509文章數(shù) 149關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      伊朗最新和平方案披露 濃縮鈾只能運(yùn)往俄羅斯

      頭條要聞

      伊朗最新和平方案披露 濃縮鈾只能運(yùn)往俄羅斯

      體育要聞

      文班亞馬:沒(méi)拿到MVP,就證明自己是MVP

      娛樂(lè)要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財(cái)經(jīng)要聞

      白酒榜|汾酒營(yíng)收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬(wàn)起 齊家版讓MPV回歸家庭

      態(tài)度原創(chuàng)

      旅游
      手機(jī)
      親子
      游戲
      健康

      旅游要聞

      視頻丨新消費(fèi)場(chǎng)景疊加便捷服務(wù) 這地入境游熱度持續(xù)提升

      手機(jī)要聞

      三星公布One UI 9的Good Lock兼容模塊名單

      親子要聞

      媽媽你看!娜塔莎生孩子了!暴力擦邊影響心智尚未成熟的未成年人

      難道反轉(zhuǎn)了?《GTA6》已在游戲電商平臺(tái)開(kāi)放預(yù)售!

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人免费午夜性大片| 国产一区在线观看不卡| 成人h动漫精品一区二区无码| 色国产在线视频一区| 五月综合激情视频在线观看| 亚洲鸥美日韩精品久久| 国产精品国产三级国快看| 性交无码免费视频| 一本色道久久亚洲综合精品| 色吊丝一区二区中文字幕| 狠狠色丁香婷婷综合尤物| 无码少妇精品一区二区免费动态 | 欧洲综合色| 国产精品有码在线观看| 免费人成视频网站在线观看18| 日韩AV中文字幕在线| 中文字幕一区二区久久人妻网站| 国产精品欧美在线视频| 国产成人啪精品视频免费软件| 999国产精品| 国产精品人人爽人人爽av〖网:?1?7?6.?2?2〗| 欧美疯狂爱爱xxxxbbbb| 精品?一区?卡| 日本不卡片一区二区三区| 99re国产| 日韩在线成年视频人网站观看| 乱人妻人伦中文字幕| 国产精品极品美女自在线| 九九免费视频| 成在人线AV无码免观看| 国产美女久久精品香蕉| 自拍偷拍国产| 亚洲欧洲无码av不卡在线| 1000部拍拍拍18勿入免费视频 | 免费现黄频在线观看国产| 超碰福利导航| yy色综合| 国产福利影院在线观看| 任你躁国产自任一区二区三区| 欧美日韩在线第一页免费观看| 免费久久人人香蕉av|