<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude、GPT、Gemini 全滅,SWE-Bench作者新作把AI圈干沉默了

      0
      分享至

      編輯|Sia

      SWE-Bench 的創(chuàng)建者,剛剛又放出了一個地獄級新 benchmark。

      結(jié)果相當震撼:

      Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——這一代幾乎所有最強的一線模型,全部 0% 完成率。





      沒有一個模型,能夠真正完整重建一個軟件項目。

      這意味著什么?

      今天的大模型,已經(jīng)很會寫代碼了,但依然不會做軟件工程。

      最近,Meta FAIR 聯(lián)合斯坦福、哈佛等機構(gòu)發(fā)布了一項很有意思的新 benchmark,本質(zhì)上是在重新定義 AI Coding 的評估方式:

      ProgramBench: Can Language Models Rebuild Programs From Scratch?



      過去的大模型編程 benchmark,大多測的是局部能力:補全函數(shù)、修復(fù) bug、實現(xiàn) feature……本質(zhì)上,仍然是在已有代碼結(jié)構(gòu)里做局部修改。

      而 ProgramBench 第一次把問題推進到了真正的軟件工程層面:如果只給 AI 一個程序的功能描述和 usage docs,它能不能像真正的工程師一樣,從零開始,重新構(gòu)建一個真實、可執(zhí)行的軟件系統(tǒng)?比如 ffmpeg、SQLite、ripgrep。

      而且——不能聯(lián)網(wǎng)。

      換句話說:模型到底有沒有工程智能?

      為了測試這一點,研究團隊直接刪除了原始源碼和測試,只保留 executable 和 usage docs,模型需要自己決定語言、架構(gòu)、模塊拆分、數(shù)據(jù)結(jié)構(gòu)乃至整個 repo 的組織方式。

      更關(guān)鍵的是,ProgramBench 不再按照源碼相似度打分。它采用的是 behavioral equivalence,行為等價。也就是說,你可以用完全不同的語言、算法、架構(gòu),甚至完全不同的工程實現(xiàn)。只要最終輸入輸出行為與原程序一致,就算通過。

      研究團隊甚至使用了 agent-driven fuzzing,自動生成大量端到端行為測試。

      這是第一次,一個 benchmark 真正開始逼近現(xiàn)實世界的軟件工程,而不再只是代碼做題。結(jié)果出來之后,整個 AI 圈都沉默了。

      所有模型:0% 完成率。



      Table 2 負責制造震撼,那么 Figure 4 負責解釋震撼背后的細節(jié)。它告訴我們,模型并不是完全不會做,而是經(jīng)常能做出一部分,甚至在少數(shù)任務(wù)上接近完成;但只要要求 100% 行為等價,所有模型都會倒下。但這最后一公里,正是軟件工程和普通代碼生成最大的區(qū)別。另外,如果矮子里面拔將軍,Claude 系列(尤其是 Opus 4.7 和 4.6)表現(xiàn)相對最好。

      即便論文專門增加了一個Almost指標——統(tǒng)計那些完成度超過 95% 的任務(wù)。目前表現(xiàn)最強的 Claude Opus 4.7,也只有 3% 的任務(wù)接近完成。

      論文里,有一句特別關(guān)鍵的話:

      Models favor monolithic, single-file implementations that diverge sharply from human-written code.

      翻譯過來就是:模型極度傾向于生成單體化代碼。大量邏輯被塞進單文件;目錄結(jié)構(gòu)極淺;模塊拆分極少;函數(shù)超長;整個 repo 看起來像一坨巨型腳本。

      這和優(yōu)秀人類工程師的習慣,幾乎完全相反。

      后者往往講究模塊和關(guān)注點分離,會把代碼拆得很優(yōu)雅——配置放config.json,工具函數(shù)放utils.py,數(shù)據(jù)庫操作放db.py,然后通過import相互調(diào)用。

      這其實暴露出了一個非常核心的問題:AI 擅長的是局部代碼生成,但不擅長全局系統(tǒng)規(guī)劃。而真實的軟件工程,本質(zhì)上恰恰是后者。

      這也是為什么模型在 LeetCode、SWE-Bench、Copilot 場景里已經(jīng)非常強,一旦進入真實世界的大型工程系統(tǒng),就會迅速掉進深水區(qū)。

      當前 AI Coding 的真正瓶頸已經(jīng)不再是代碼生成能力,而是長期的軟件系統(tǒng)構(gòu)建能力。

      另一個很有意思的結(jié)果,是不同語言之間的表現(xiàn)差異。

      研究團隊分別統(tǒng)計了模型在 C/C++、Go、Rust 等不同語言項目上的表現(xiàn)。可以明顯看到,傳統(tǒng) C/C++ 項目完成度最高,而 Rust 表現(xiàn)最差。



      不同模型在任務(wù)難度上的排序高度一致:nnn、fzf、gron 這類相對簡單的 CLI 工具,模型普遍能拿到更高通過率;但 FFmpeg、php-src、typst、ast-grep 這類復(fù)雜系統(tǒng),幾乎所有模型都很難推進。這說明 ProgramBench 測到的不是某個模型偶然失手,而是復(fù)雜軟件系統(tǒng)本身對當前模型形成了穩(wěn)定壓制。

      這其實并不讓人意外。

      互聯(lián)網(wǎng)里關(guān)于 C/C++ 的歷史代碼、工程實踐和 Stack Overflow 內(nèi)容實在太多了,模型已經(jīng)被這些模式浸泡了很多年。

      而 Rust 的工程哲學本身就更強調(diào)模塊化、ownership、trait system 和長期可維護性,這些恰恰是當前模型最不擅長的東西。

      某種意義上,Rust 測出來的,其實不是代碼能力,而是工程能力。



      隨著 ProgramBench 引發(fā)熱議,圍繞這項 benchmark 的爭論也開始迅速擴散。其中最主要的質(zhì)疑之一是:這不就是在考模型有沒有背過 FFmpeg 嗎?畢竟,ProgramBench 里的很多項目本身就是公開開源軟件。

      對此,知名硅谷投資人 Deedy Das 專門發(fā)文回應(yīng):任何 benchmark 都可能被 overfit。



      SWE-Bench 可以被記住 bug,LeetCode 可以被背題,甚至 ARC-AGI 未來也可能通過隱藏題庫來避免泄漏。單純討論是否存在記憶本身,其實并不能否定 benchmark 的價值。

      他認為:如果模型真的試圖用 brute force 的方式去硬背這些程序,它往往會在別的地方明顯退化。

      因為真正的大模型訓練,并不是簡單把整個 FFmpeg 塞進參數(shù)里。更何況,研究人員還可以通過比對生成代碼與原始源碼的相似度,去檢測是否存在直接 memorization。

      他真正想強調(diào)的,從底層重建一個真實世界的軟件系統(tǒng),本身就是一種高 utility、長時間跨度的復(fù)雜任務(wù)。如果模型真的能夠推理并完成這類任務(wù),那么這種能力很可能會泛化到大量其他工程場景中

      另一類爭議則更有意思。有人吐槽說:連人類都不可能從零重寫 FFmpeg,這 benchmark 根本不合理。

      Deedy Das 回應(yīng),那又怎樣?今天很多 LLM 能做到的事情,人類平均水平也做不到。



      benchmark 的目標,從來不是模擬普通人的平均能力,而是推動模型向更高層次的智能逼近。人類做不到,并不意味著 benchmark 沒價值。

      比如,AlphaGo 下棋超過絕大多數(shù)人,并不影響它推動了 AI;同樣,一個遠高于普通工程師能力邊界的 benchmark,也可能是未來 Agent 系統(tǒng)必須攻克的問題。

      當然,他也承認,ProgramBench 仍然存在不少缺陷。比如,目前它沒有測試 Claude Code、Codex 這類完整的 agent harness;只統(tǒng)計是否完成,沒有更細粒度地衡量進展。

      同時還限制了聯(lián)網(wǎng)能力,以避免一些明顯作弊行為。



      Deedy Das 同意,這可能導(dǎo)致模型為了在特定指標上得分而走偏(Hill-climbing on the wrong thing)。不過,人們也隨時可以增加一項在有網(wǎng)絡(luò)訪問權(quán)限下的性能測試作為對比。



      還有人建議:為什么不用真正沒人解決過的新問題?對此,Deedy Das 表示,因為那會讓 benchmark 幾乎無法構(gòu)建。

      你很難為一個沒有標準答案的問題設(shè)計完備測試;也很難判斷任務(wù)是否真的屬于現(xiàn)實世界工程任務(wù),還是研究者憑空捏造出來的 challenge。



      但這些問題,其實都可以隨著 benchmark 演進繼續(xù)修正。

      真正重要的是:ProgramBench 第一次把 AI Coding 的評估,從函數(shù)級拉到了系統(tǒng)級。它暴露出的,也是整個行業(yè)當前最大的斷層:真正的軟件開發(fā),從來都不是寫一個函數(shù),而是如何做出一個能被維護、被擴展、被團隊協(xié)作的工程系統(tǒng)。

      今天的大模型,已經(jīng)非常擅長生成局部代碼。但依然缺乏長期、一致、穩(wěn)定地維護復(fù)雜系統(tǒng)的能力。

      所以你會發(fā)現(xiàn),最近整個行業(yè)都開始瘋狂研究另一批關(guān)鍵詞:memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering。

      因為下一階段的競爭,可能已經(jīng)不再是誰能一次性生成更長的代碼,而是誰能在長時間、多輪交互、復(fù)雜上下文中,持續(xù)穩(wěn)定地維護一個活著的軟件系統(tǒng)。

      論文鏈接:

      https://programbench.com/static/paper.pdf

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      4個老婆,全家移民,享受正師級待遇,潘長江身上哪個標簽是真的

      4個老婆,全家移民,享受正師級待遇,潘長江身上哪個標簽是真的

      用冷眼洞悉世界
      2026-02-14 18:07:26
      凱特·貝金賽爾紅毯狀態(tài)碾壓00后,網(wǎng)友:這姐是吃了防腐劑?

      凱特·貝金賽爾紅毯狀態(tài)碾壓00后,網(wǎng)友:這姐是吃了防腐劑?

      小燕烹那魚
      2026-05-06 11:41:00
      恩怨持續(xù)發(fā)酵!小里弗斯約戰(zhàn)追夢單挑:有種跟我來場一對一

      恩怨持續(xù)發(fā)酵!小里弗斯約戰(zhàn)追夢單挑:有種跟我來場一對一

      羅說NBA
      2026-05-08 06:29:15
      浙江3歲被撞男娃火了!小名叫彬彬,單親家庭,與爺爺奶奶不親厚

      浙江3歲被撞男娃火了!小名叫彬彬,單親家庭,與爺爺奶奶不親厚

      天氣觀察站
      2026-05-07 17:18:33
      脫歐十年后,英國房產(chǎn)買家版圖徹底變了:當美國人涌入,中國投資者的機會在哪里?

      脫歐十年后,英國房產(chǎn)買家版圖徹底變了:當美國人涌入,中國投資者的機會在哪里?

      英國那些事兒
      2026-05-06 23:35:25
      蘋果包攬全球銷量前三,安卓5000元陣地告急

      蘋果包攬全球銷量前三,安卓5000元陣地告急

      互聯(lián)網(wǎng)放大鏡
      2026-05-06 20:57:52
      終于回過味!德國媒體揭示:中國如何悄然崛起成為全球霸主!

      終于回過味!德國媒體揭示:中國如何悄然崛起成為全球霸主!

      清沐執(zhí)筆
      2026-05-07 16:37:58
      泰康保險銷冠被抓,青島有錢人慌了:窮人家孩子不要幻想掙快錢了

      泰康保險銷冠被抓,青島有錢人慌了:窮人家孩子不要幻想掙快錢了

      別人都叫我阿腈
      2026-05-07 19:38:01
      全廠停工等我修機,我 通宵修好老板只給12元,次日流水線停他慌 了

      全廠停工等我修機,我 通宵修好老板只給12元,次日流水線停他慌 了

      麥子情感故事
      2026-05-07 18:23:17
      楊玉環(huán)陵墓出土,專家打開棺槨后發(fā)現(xiàn),千年前的“傳言”或被證實

      楊玉環(huán)陵墓出土,專家打開棺槨后發(fā)現(xiàn),千年前的“傳言”或被證實

      浩渺青史
      2026-05-02 22:49:18
      阿Sa新婚僅9天!百億前任石恒聰現(xiàn)身豪門聚餐,神秘女伴全程打碼

      阿Sa新婚僅9天!百億前任石恒聰現(xiàn)身豪門聚餐,神秘女伴全程打碼

      人間煙火記事本
      2026-05-08 08:19:38
      惋惜!30歲德國國腳宣布退役 遭第3次韌帶撕裂 曾在拜仁5年奪14冠

      惋惜!30歲德國國腳宣布退役 遭第3次韌帶撕裂 曾在拜仁5年奪14冠

      我愛英超
      2026-05-07 12:35:29
      福建省一國企黨委委員、副總經(jīng)理涉嫌嚴重違紀違法被查

      福建省一國企黨委委員、副總經(jīng)理涉嫌嚴重違紀違法被查

      大閩門戶
      2026-05-07 19:02:07
      1953年,黃金榮的葬禮,只有9桌酒席17個門徒參加,沒其他動靜

      1953年,黃金榮的葬禮,只有9桌酒席17個門徒參加,沒其他動靜

      比利
      2026-05-08 03:21:08
      真相炸裂!宗慶后3個私生子并非同一母親,小兒子是別墅管家所生

      真相炸裂!宗慶后3個私生子并非同一母親,小兒子是別墅管家所生

      派大星紀錄片
      2025-07-15 13:28:11
      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

      夢在深巷qw
      2026-05-07 07:46:01
      休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應(yīng)終到來

      休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應(yīng)終到來

      南書房
      2026-05-04 15:50:05
      特朗普定檔5月訪華,普京緊隨其后?北京或?qū)⑸涎莺币娨荒唬?>
    </a>
        <h3>
      <a href=絕對軍評
      2026-05-08 08:43:08
      中新社評:不是中國離不開世界杯,而是世界杯更需要中國

      中新社評:不是中國離不開世界杯,而是世界杯更需要中國

      懂球帝
      2026-05-07 12:51:40
      懟網(wǎng)友、秀身材!熱依扎的‘豐乳肥臀’,憑什么讓人無法抗拒?

      懟網(wǎng)友、秀身材!熱依扎的‘豐乳肥臀’,憑什么讓人無法抗拒?

      馬拉松跑步健身
      2026-05-07 21:03:42
      2026-05-08 10:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12939文章數(shù) 142645關(guān)注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業(yè)火箭離SpaceX有多遠?

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯(lián)酋被指首次參戰(zhàn)

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯(lián)酋被指首次參戰(zhàn)

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      家居
      游戲
      健康
      藝術(shù)
      公開課

      家居要聞

      破繭成蝶 土味精裝房爆改

      《GTA6》NS2版重磅傳聞!R星希望首發(fā)上線 機能太強

      干細胞治燒燙傷面臨這些“瓶頸”

      藝術(shù)要聞

      21 歲徐悲鴻畫的 “天價仙女”,被網(wǎng)友罵 “生無可戀”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 3P视频免费在线观看| 美女无遮挡免费视频网站| 国自产偷精品不卡在线| 制服丝袜美腿一区二区| 成人av午夜在线观看| 亚洲精品香蕉一区二区| 六十路老熟妇乱子伦视频| 亚洲日韩天堂| 狠狠干狠狠插| 67194欧洲| 日韩中文字幕人妻精品| 午夜爽爽爽男女免费观看影院| 亚洲自拍偷拍福利小视频| 象州县| 日韩av激情在线观看| 亚洲欧美?va天堂人熟伦| 日韩美av一区二区三区| 亚州无码熟女| 久久精品亚洲精品国产色婷| 久久精品国产亚洲AV麻豆长发| 天天摸天天操免费播放小视频| 日韩欧美亚洲综合久久| 妺妺窝人体色www聚色窝仙踪| www.亚洲555久久久| 制服丝袜人妻日韩| av无码天堂一区二区三区| 久久精品国产无限资源| 一区二区三区无码高清视频| 日韩永久永久永久黄色大片| 深夜福利网站| 少妇高潮毛片免费看| 91人妻中文字幕在线精品| 美女裸体18禁免费网站| 国产电影一区二区三区| 欧美亚洲精品中文字幕乱码| 丁香激情网| 国产乱色国产精品播放视频| 成人精品蜜臀在线观看| 丁香五月天导航| 午夜欧美精品久久久久久久 | 激情综合区|