網易首頁 > 網易號 > 正文申請入駐

模型不是壁壘，Harness 也不是

2026-04-10 09:27:32　來源: 智遠同學

北京舉報

分享至

文：王智遠 | ID:Z201440

先說明下，這篇文章有點費腦。

適合對AI趨勢感興趣、想搞懂2026年開發者圈在吵什么的人，得稍微跟著動動腦筋。

咱們從一個大家都有過的感受說起：用過 AI 寫代碼的人，多半經歷過同一條情緒曲線：第一天覺得這玩意兒要革命，第三天開始罵街。

它會跑偏、反復犯同一個錯、忘了你三分鐘前說的要求，甚至項目做到一半，就突然跟你說「大功告成」。

大部分人的第一反應：這模型不行，換一個更強的；但 2026 年初，海外開發者社區突然認為，也許問題在模型外面那一圈東西。

他們給這圈東西起了個名字，叫 Harness。

01

Harness本意是馬具，就是韁繩、馬鞍、嚼子、馬蹄鐵那一套，用來駕馭馬匹的裝備。用在 AI 這兒，意思也差不多。比如：管理大模型的運行環境、工具接口、驗證機制、反饋回路、約束規則等等。

這個詞的走紅，有一條很清晰的時間線：

2026年2月5日，HashiCorp聯合創始人Mitchell Hashimoto發了一篇博客。這人很厲害，做過Terraform，全球開發者都在用的基礎設施工具，在基礎設施圈子里算是教父級人物。

他在博客里分享了自己用AI編程的經歷，寫到第五步時說了一句話，大意是：Agent每次犯錯，別在提示詞里加一句「請你下次注意」，沒用。

不如去改環境，寫一條規則、加一個腳本，讓它從結構上就沒法再犯同樣的錯；他管這叫Engineer the Harness（去設計那套駕馭系統）。

六天后，OpenAI跟進了。2月11日，他們發了一篇實驗報告，標題直接用了Harness Engineering。

報告里說，三個工程師從空倉庫開始，五個月沒寫一行手動代碼，全靠OpenAI的編程Agent（Codex Agent生成），最后倉庫里攢了約一百萬行代碼，合并了1500個代碼合并請求，產品還有真實的日活用戶。

這三個人五個月里沒干啥別的，就是設計讓Agent寫代碼的環境。

之后，Martin Fowler站臺、LangChain（做AI應用開發框架的公司）跟進，一個月之內，這個詞就從一篇個人博客，變成了開發者圈的黑話。

那Harness具體能干嘛？最直觀的理解就是：讓Agent干不了壞事、記得住東西、做完有檢查、搞砸能回滾。

比如：約束這件事，OpenAI的實驗里，工程師要求代碼必須遵守分層架構，每個模塊只能引用相鄰層。注意，這不是在提示詞里寫一句「請遵守分層架構」，那沒用，Agent下一秒就忘。

他們把這條規則寫成了CI流水線里的自動化代碼檢查，Agent敢違反，代碼合并請求直接過不了。一條程序化的規則，比提示詞里一萬句叮囑都管用。

再比如記憶，大模型天生只有一種記憶，就是上下文窗口，滿了前面的內容就被擠掉。OpenAI的做法是在倉庫里維護一套結構化文檔，設計規范、架構決策、執行計劃全放里面，Agent隨時能查。

說白了，別指望金魚能記住事兒，你得在魚缸外面貼滿便簽。

最有意思的是驗證。Agent做完一件事，你問它「做得怎么樣」，它幾乎永遠會說「我做得很好」，這不是Anthropic的段子，是真的。

Agent評估自己的產出，總是盲目自信，哪怕在人看來質量很一般。怎么辦？

Anthropic的解法有點像生成對抗網絡（一種讓兩個AI互相博弈的技術）：做事的和評判的分開，一個Agent寫，另一個專門挑毛病，選手和裁判不能是同一個人。

還有糾錯。Anthropic在做長時間運行的Agent時發現，Agent跑一半掉進死胡同是常事，硬做只會越錯越遠。他們的做法簡單粗暴但有效：

每次改動都走Git，卡住了就用Git回滾到上一個干凈狀態，然后直接換一個新Agent接手，只給它一張交接單，寫清楚前面做了什么、接下來該做什么。

不指望金魚能自我修復，直接換一條新的，再塞給它一張紙條，這些加起來，就是Harness。

聽起來好像也沒什么了不起，無非是規則、文檔、測試、回滾，都是軟件工程里早就有的東西。

但看一個數字你就懂了：LangChain用同一個模型，提示詞一個字沒改，只調整了外面那一圈，換了工具定義、改了上下文管理、加了錯誤恢復循環。

結果，在主流的編程能力基準測試TerminalBench 2.0里，得分從52.8%漲到66.5%，排名從30名開外沖進前5。馬沒換，就換了套馬具，這個數字比任何解釋都有說服力。

02

概念火了之后，開發者社區迅速分成兩派，吵得挺兇的。

一派覺得 Harness 被吹過頭了。好玩的是，這派最猛的代言人，來自 Anthropic 自己家。

Boris Cherny，Claude Code 的創造者，就是那個目前市面上最火的 AI 編程工具，他做的，他在AI 工程圈很有影響力的播客社區的討論里，說了一段讓對面很不舒服的話，大意是：

Claude Code 的所有秘訣都在模型本身，它是模型上最薄的一層包裝，我們不可能做得比這更精簡了。

你品品，一幫人在喊「Harness就是一切」，結果做出最成功的Agent產品之一的人告訴你，他的產品基本沒有Harness，這多少有點打臉。

OpenAI的Noam Brown更直接，他說在推理模型上搭腳手架，很多時候都是添亂；模型的推理能力一直在飛速進步，你今天費半天勁搭的編排邏輯，過幾個月新模型出來，就成了絆腳石。

獨立測試也在幫這派說話：

專門做AI能力評估的機構METR做了嚴格對比，結論是Claude Code和Codex，并沒有顯著贏過一個基礎腳手架。

Scale AI的SWE-Atlas測試結論更扎心，你換哪個Harness框架，差距基本在誤差范圍內，說白了，折騰半天跟沒折騰一樣。

聽到這，你可能會想，得，Harness就是個營銷概念吧？

別急，還有更離譜的實驗。安全研究員Can Boluk做了個叫Hashline的實驗，他沒碰模型、沒改提示詞，就改了一件事，Agent編輯代碼的格式。

怎么改的？他給每行代碼加了2到3個字符的哈希標識，Agent改代碼時不用復述整行，只需要說「把2:f1那行換成這個」就行。

就這一個小改動，一個模型的編程得分從6.7%漲到了68.3%，模型權重一個字節沒動過。你說Harness有沒有用？

另一家做AI應用框架的公司LlamaIndex，創始人直接喊口號：模型的駕馭系統就是一切。他說自己一個下午優化Harness，15個大模型的編碼能力全漲了。

這派還有一張最硬的商業牌，Cursor。

這家公司沒有自己的基礎模型，底層用Anthropic和OpenAI的能力，相當于用別人的馬，但它靠模型上面那一層Harness，2025年底估值到了293億美元，2026年3月在談500億，年化收入突破20億美元，超過半數財富500強都在用來。

它的護城河在哪？在馬具。

所以到底誰對？我覺得他們在說不同層面的東西，你把兩邊的論據攤開看，會發現一個很有意思的事情。

Boris Cherny 說 Claude Code 是「最薄的包裝」，這確實沒撒謊。Claude Code 的產品架構就是簡單，沒有什么花哨的多步編排邏輯。

但你去看Boris Cherny自己怎么用Claude Code，就不一樣了：他日常同時開10到15個Claude Code會話，5個在終端里跑，5到10個在瀏覽器里，還有幾個在手機上。

他用自動化鉤子，每次保存代碼后自動格式化；用規劃模式，強制Agent先出方案再動手，方案沒批準就不能寫一行代碼；甚至用子Agent做代碼審查，讓Agent檢查Agent的活；還把Agent接上瀏覽器自動化工具，讓它自己打開瀏覽器跑測試，看看寫的東西能不能用。

他自己都說：給模型一種驗證自身工作的方式，質量能提升兩到三倍。你說這不是Harness？

說白了，Boris Cherny說的「薄」，是產品架構層面的??；而對面說的「厚」，是工程實踐層面的厚。

產品可以很薄，實際用時，必須在模型周圍建立規則、驗證、反饋循環，它才能在真實項目里不翻車，這兩件事一點都不矛盾。

就像賽車手說「我的車底盤結構很簡單」，但每次上賽道前，都要花三個小時調懸掛、調胎壓、調剎車平衡。

其實爭論「模型重要還是Harness重要」，本身就有點無聊，就像爭論發動機重要還是底盤重要一樣，開過車的人都不會問這種問題。

03

但是，等一下，如果 Harness 真有那么重要，有一件事就說不通了：為什么做得最好的那些團隊，反而一直在拆掉自己搭的 Harness？

Manus 你應該聽過。

他們半年重寫了五次Harness，每次都是砍功能，用通用的Shell執行，替換掉復雜的工具定義；用結構化的交接文件，替換掉管理型Agent，越做越簡單。

Next.js背后的公司，在他們的v0產品里刪掉了80%的Agent工具，效果反而更好；Anthropic自己也在干這事，Boris Cherny說Claude Code的代碼每三到四周就重寫一次。

為什么要重寫？

因為新版本模型出來后，上一版Harness里的很多邏輯，已經被模型內化了，那些代碼就成了多余的，不切掉反而礙事。

這就和前面說的「Harness就是一切」矛盾了。如果它是壁壘，為什么大家都在拆？因為Harness本身，根本不是壁壘。

Anthropic的研究員Nicholas Carlini，用Claude的上一代旗艦模型Opus 4.5時，做出了一個能用的編譯器；后來換成Opus 4.6，同樣的任務，產出能編譯Linux內核了。

關鍵是，每升一級模型，他都得重新設計Harness。

因為模型變強了，舊Harness里那些「保護性」的邏輯，就變成了約束，限制了新模型本來能自主完成的事。他反復強調：設計Harness時，得站在Claude的角度想。

這揭示了一個不太舒服的真相：

今天精心設計的Harness，大概率會被下一代模型「吃掉」；今天你需要規則防止Agent搞亂架構，明天新模型可能天生就知道不該這么做；今天你得用專門的評審Agent檢查質量，后天模型自己的自我評估可能就靠譜了。

反過來也成立。

LangChain在調Harness的過程中，積累了大量執行軌跡數據：哪些路徑成功、哪些模式失敗、工具調用的序列是什么、Agent卡在哪一步、為什么卡??？

這些數據很有價值，能反饋回模型訓練，讓下一代模型更適配這個工作環境；LangChain自己也說：模型和Harness，正在共同進化。

所以真正的情況是：

模型在吃Harness，Harness也在喂模型，它們像一條咬住自己尾巴的蛇，誰也停不下來。

真正壁壘在于蛇轉動的速度，誰能更快發現Agent的失敗模式，把它編碼進環境，再用環境跑出來的數據喂給下一代模型，讓這個飛輪再轉一圈，誰就贏了。

Cursor 值那么多錢，因為幾百萬開發者每天在上面寫代碼，每一次使用都在給這個飛輪加燃料，它積累的不是 Harness，是飛輪的轉速。

說到底，所有人都在爭「馬重要還是馬具重要」，但真正跑在前面的人，早就不關心這個了；他們關心，換馬具的速度有多快，以及換下來的舊馬具里攢下的經驗，能不能讓馬跑得更快。

這條蛇還在轉，而且越轉越快。嗯，整個事情就是這樣；就在我寫完這篇文章的時候，Anthropic 昨天把 Harness 做成產品發布了出來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Agent-World：擴展真實世界環境，讓智能體與環境協同進化！

機器之心Pro 2026-05-06 12:40:24
0 跟貼 0
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
0 跟貼 0

做AI漫劇的、搞Agent的、投硅谷的，5.20這些賽道頂流碰頭了

量子位 2026-05-11 18:32:24
0 跟貼 0
施耐德、森馬和釘釘：Agent該如何扛起企業KPI？

虎嗅APP 2026-05-11 20:42:15
0 跟貼 0

AI經濟基礎設施競賽開啟，Stripe落子后出海企業增長飛輪如何轉動？｜出海參考

鈦媒體APP 2026-05-11 17:22:30
0 跟貼 0

字節砍掉30%的AI項目？背后的真假與焦慮

鈦媒體APP 2026-05-11 18:15:28
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
高通CEO：智能手機不會死，但明年AI眼鏡等將承接大量日常事務

智東西 2026-05-11 20:05:19
0 跟貼 0
正確卸大飛輪方法

雅彝果果 2026-05-10 16:44:16
1 跟貼 1
PS3模擬器團隊請求玩家不要再給他們發“屎山代碼”

后竹游戲 2026-05-11 12:57:11
0 跟貼 0
公司斥巨資挖來的程序員，老板都不敢惹她，直到有幸看到她的技術

陌陌說時尚 2026-05-09 09:48:18
8 跟貼 8
一汽修店主只修特斯拉：其他新能源車三電不修怕被告

第一財經資訊 2026-05-11 16:52:11
4983 跟貼 4983
奢侈品牌MIU MIU多款產品被指也有“限購區”，杭州多個街道地址無法下單

澎湃新聞 2026-05-11 10:22:28
4856 跟貼 4856
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
小伙刮刮樂中了一百萬，中獎當天花了三四百元

今日女報 2026-05-11 05:37:35
386 跟貼 386
皮帶輪直接安裝到飛輪上可以嗎

追綜搞笑配音 2026-05-09 10:14:57
1 跟貼 1
Agent評測的下半場：為什么需要一個「活的」Benchmark？

新智元 2026-05-11 13:08:40
0 跟貼 0
拒絕大力出奇跡，PRISM框架讓dLLM也能高效Test-Time Scaling

機器之心Pro 2026-05-11 14:28:29
0 跟貼 0
程序員面試變天了：AI輔助編程成必考題

賽博蘭博 2026-05-11 12:32:14
0 跟貼 0
Codex不只敲代碼！教你幾分鐘全自動搞定視頻

王子健 2026-05-08 23:37:52
5 跟貼 5
豆包付費是字節整理Agent生態的開始

鈦媒體APP 2026-05-11 17:00:17
0 跟貼 0
不用屏幕也能學編程？日本這檔節目把代碼思維拆成了紙和玩具

宇宙來信2 2026-05-11 20:11:10
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
象棋神少帥：海峽兩岸杯鄭惟桐曲線攻城三車鬧士擒陳泓盛

街邊福 2026-05-10 02:45:04
1 跟貼 1
掌握這兩大心理學定律，人生處處開掛

心理觀察局 2026-05-11 08:36:10
13 跟貼 13
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
99 跟貼 99
年內上市別克至境L7純電版申報圖曝光

車質網 2026-05-11 09:09:16
3 跟貼 3
太勵志！北大表彰多名保安：讀研上岸、自學代碼守護校園網絡

快科技 2026-05-11 17:17:19
0 跟貼 0
視頻版Vision-Banana來了？大一統框架UniVidX刷新視頻任務SOTA

機器之心Pro 2026-05-11 16:59:36
0 跟貼 0
2026年求職，AI技能成了“必選項”

實習僧 2026-05-11 17:20:08
0 跟貼 0
王勵勤總結世乒賽：男隊陣容不是最強但最拼，女隊經受對手超水平發揮考驗，點贊孫穎莎王楚欽力挽狂瀾

紅網 2026-05-11 11:59:00
640 跟貼 640
?；鸷蟮降装l生了什么？梳理伊朗破局美軍封鎖的戰術邏輯

北山戰史 2026-05-09 20:21:15
1 跟貼 1
不用寫代碼也能做個小游戲？實測Hy3 preview 模型

泡泡網 2026-05-07 20:27:49
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
終于做到了！LEGO推出全新Icons系列公路車

單車志 2026-05-11 17:56:02
0 跟貼 0
青島科創大走廊·科創解碼｜地鐵節能降耗，有個“能量管家”節電超30%減碳超40%，已在青島多條地鐵線推廣

半島官網 2026-05-11 09:09:20
0 跟貼 0

智遠同學

暢銷書《復利思維》作者；精神生活與商業探索，關注科技人文、消費電商、品牌營銷、商業認知思維等方面。

695文章數 163關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

游戲

手機

親子

手機 / 數碼

房產 / 家居

模型不是壁壘，Harness 也不是

01

02

03

黃仁勛：你們趕上了一代人一次的大機會

外交部介紹特朗普訪華具體安排和中方期待

外交部介紹特朗普訪華具體安排和中方期待

梁靖崑：可能是最后一屆了，想讓大家記住這個我

“孕婦墜崖案”王暖暖稱被霸凌協商解約

宗馥莉罷免銷售負責人 部分業務將外包

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

產業賦能教育！翰林府與北師大的這場簽約，絕不那么簡單！

高考志愿填報，選院校比選專業更重要！

絕美日本風光！日產官方聯手XBOX宣傳《FZ地平線6》

消息稱某廠Pro Max新機有望搭載2億主攝、2nm天璣芯

亞太生殖年會重磅發布LILY研究 科學循證守護母嬰安全

模型不是壁壘，Harness 也不是

梁靖崑：可能是最后一屆了，想讓大家記住這個我

宗馥莉罷免銷售負責人部分業務將外包

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

高考志愿填報，選院校比選專業更重要！

絕美日本風光！日產官方聯手XBOX宣傳《FZ地平線6》

亞太生殖年會重磅發布LILY研究科學循證守護母嬰安全