網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

42%的代碼是AI寫(xiě)的，可96%的開(kāi)發(fā)者不信它：誰(shuí)敢拍板說(shuō)“上線(xiàn)”？這成了2026年最大挑戰(zhàn)

2026-05-05 10:36:25　來(lái)源: InfoQ

北京舉報(bào)

分享至

作者丨SEDaily

譯者丨明知山

策劃丨Tina

“我批準(zhǔn)將這段代碼投入生產(chǎn)環(huán)境，并承擔(dān)隨之而來(lái)的所有風(fēng)險(xiǎn)。”2026 年最大的挑戰(zhàn)，就是找到愿意說(shuō)出這句話(huà)的人。

AI 編碼已經(jīng)不是嘗鮮工具，而是進(jìn)入了生產(chǎn)環(huán)境。Sonar 每天分析 7500 億行代碼，他們?cè)谧钚隆堕_(kāi)發(fā)者代碼現(xiàn)狀調(diào)查報(bào)告》中看到一個(gè)很刺眼的矛盾：72% 的開(kāi)發(fā)者每天使用 AI 編碼工具，42% 的代碼已經(jīng)由 AI 生成或輔助完成，但 96% 的開(kāi)發(fā)者仍然無(wú)法完全信任 AI 生成的代碼。

這意味著，軟件工程正在從“怎么寫(xiě)出更多代碼”，轉(zhuǎn)向另一個(gè)更棘手的問(wèn)題：代碼可以由 AI 批量生成，但誰(shuí)來(lái)確認(rèn)它足夠安全、可靠、可維護(hù)？誰(shuí)敢簽字讓它上線(xiàn)？這也成了 2026 年工程團(tuán)隊(duì)繞不開(kāi)的挑戰(zhàn)。

Sonar 是一家專(zhuān)注代碼質(zhì)量與安全分析的公司，核心產(chǎn)品 SonarQube 已被全球超過(guò) 700 萬(wàn)開(kāi)發(fā)者使用。在本期節(jié)目中，Sonar 企業(yè)營(yíng)銷(xiāo)高級(jí)副總裁 Chris Grams、產(chǎn)品營(yíng)銷(xiāo)與開(kāi)發(fā)者關(guān)系副總裁 Manish Kapur，與擁有二十余年工程管理經(jīng)驗(yàn)的 Matt Merrill 討論了這份報(bào)告背后的真實(shí)信號(hào)：AI 為什么讓代碼生成更快，卻讓審核、測(cè)試、治理變得更重？為什么 35% 的開(kāi)發(fā)者會(huì)繞過(guò)企業(yè)授權(quán)工具使用“影子 AI”？為什么 AI 生成代碼不一定需要重造審核流程，反而更需要確定性校驗(yàn)、質(zhì)量門(mén)禁和人工責(zé)任制？

當(dāng) AI 從實(shí)驗(yàn)工具變成開(kāi)發(fā)基礎(chǔ)設(shè)施，真正的瓶頸不再是代碼產(chǎn)出，而是信任、質(zhì)量和責(zé)任。

1 AI 代碼的信任鴻溝：42% 生成率與 96% 不信任”

Matt Merrill：今天我和來(lái)自 Sonar 的兩位嘉賓一起聊聊《開(kāi)發(fā)者代碼現(xiàn)狀調(diào)查報(bào)告》。開(kāi)始之前，Manish、Chris，二位能否先簡(jiǎn)單介紹一下自己，聊聊個(gè)人背景以及各自在 Sonar 負(fù)責(zé)的工作？

Chris Grams：我是 Chris Grams，在 Sonar 擔(dān)任企業(yè)營(yíng)銷(xiāo)副總裁——這個(gè)頭銜聽(tīng)起來(lái)或許會(huì)讓人失去收聽(tīng)興趣，但我想說(shuō)的是，我同時(shí)也是公司內(nèi)部的數(shù)據(jù)與調(diào)研負(fù)責(zé)人，所以我對(duì)這份調(diào)查報(bào)告的熟悉程度可能超過(guò)大多數(shù)人。我在企業(yè)技術(shù)領(lǐng)域工作了很久。職業(yè)生涯早期我在 Red Hat 待了大約十年，之后在多家軟件公司擔(dān)任顧問(wèn)，后來(lái)又成為 Tidelift 的早期員工之一——這家公司為開(kāi)源維護(hù)者提供贊助，大約一年前被 Sonar 收購(gòu)。我也正是在一年多前正式加入 Sonar 任職。

Manish Kapur：我是 Manish，目前在奧斯汀工作。我加入 Sonar 已有兩年半左右，馬上就要滿(mǎn)三年了。和 Chris 一樣，我也擁有多年企業(yè)軟件行業(yè)從業(yè)背景。我最初在 Sun Microsystems，之后加入 Oracle，現(xiàn)在來(lái)到了 Sonar。我職業(yè)生涯中扮演過(guò)多種角色。目前我是 Sonar 的產(chǎn)品營(yíng)銷(xiāo)與開(kāi)發(fā)者關(guān)系副總裁，但也曾擔(dān)任過(guò)產(chǎn)品經(jīng)理、開(kāi)發(fā)者關(guān)系負(fù)責(zé)人和其他售前等技術(shù)崗位。我算是比較偏技術(shù)、愛(ài)動(dòng)手的類(lèi)型。很期待今天與你交流。

Matt Merrill：那 Sonar 呢？如果有聽(tīng)眾不太熟悉 Sonar，二位能簡(jiǎn)單介紹一下這家公司是做什么的、都提供哪些產(chǎn)品嗎？

Chris Grams：我們的核心產(chǎn)品是 SonarQube，已經(jīng)存在很長(zhǎng)時(shí)間了，全球有超過(guò) 700 萬(wàn)開(kāi)發(fā)者在使用。簡(jiǎn)單來(lái)說(shuō)，你可以把 Sonar 理解為代碼的必備驗(yàn)證層——無(wú)論是 AI 生成的代碼，還是開(kāi)發(fā)者手寫(xiě)的代碼，我們都能幫助確保代碼的質(zhì)量和安全。現(xiàn)在，隨著 AI 智能體越來(lái)越多地參與編碼，我們的作用也延伸到了這個(gè)領(lǐng)域。

為了讓大家直觀(guān)了解 Sonar 的業(yè)務(wù)規(guī)模：我們每天分析 7500 億行代碼。我們的使命是幫助各類(lèi)企業(yè)確保部署到生產(chǎn)環(huán)境的代碼具備高質(zhì)量、高安全性且易于維護(hù)。

Matt Merrill：我認(rèn)真閱讀了這份調(diào)查報(bào)告，非常有意思。作為一個(gè)有工程領(lǐng)導(dǎo)背景、之前主要從事后端工程等工作的人，我的第一反應(yīng)是：怎么又來(lái)了一份調(diào)查報(bào)告？它和的 Stack Overflow 調(diào)查報(bào)告有什么不同？但深入閱讀后，我發(fā)現(xiàn)這份報(bào)告真的很獨(dú)特。如果可以的話(huà)，你們認(rèn)為從這份調(diào)查中能收獲哪些 Stack Overflow 調(diào)查無(wú)法提供的內(nèi)容？

Chris Grams：首先，能與 Stack Overflow 調(diào)查報(bào)告被一同提及，我們感到很榮幸。我們的目標(biāo)是躋身 Stack Overflow 調(diào)查報(bào)告、GitHub Octoverse 報(bào)告等優(yōu)質(zhì)開(kāi)發(fā)者調(diào)研行列。在我們看來(lái)，這類(lèi)行業(yè)調(diào)研能夠引領(lǐng)行業(yè)方向，幫助開(kāi)發(fā)者與技術(shù)管理者掌握有效信息，做出合理決策。如果我們的調(diào)查報(bào)告能取得成功，就能成為這些優(yōu)質(zhì)的開(kāi)發(fā)者調(diào)查報(bào)告行列中的一員。我們希望能夠提供增量的價(jià)值——Sonar 能夠輸出哪些獨(dú)一無(wú)二的行業(yè)視角？

我認(rèn)為究其根本原因在于：我們非常了解代碼——正如我剛才所說(shuō)，我們每天分析 7500 億行代碼。今年早些時(shí)候，我們啟動(dòng)了“代碼現(xiàn)狀”系列研究工作，做了大量的分析。希望稍后有機(jī)會(huì)聊聊我們?cè)谔骄恐髁鞔笳Z(yǔ)言模型編碼特性方面所做的研究。我們還從可維護(hù)性、安全性等角度分析了代碼，并發(fā)布了一系列相關(guān)報(bào)告。對(duì)于這份報(bào)告，我們的想法是：我們已經(jīng)從可維護(hù)性、安全性、可靠性等角度審視了代碼；我們也研究了大語(yǔ)言模型生成的代碼。現(xiàn)在我們想關(guān)注的是：每天使用這些新編碼工具的開(kāi)發(fā)者們是怎么看的？他們對(duì)當(dāng)前的技術(shù)發(fā)展現(xiàn)狀有什么看法？

這可以說(shuō)是 Sonar 版本的“代碼現(xiàn)狀”人文視角——深入了解開(kāi)發(fā)者對(duì)這個(gè)正飛速變化的世界有何看法，認(rèn)清我們當(dāng)下所處的階段。最后我想要強(qiáng)調(diào)的是：這份調(diào)查是在去年 10 月左右進(jìn)行的，而在那之后行業(yè)環(huán)境又發(fā)生了巨大變化。在討論過(guò)程中，我們會(huì)花一點(diǎn)時(shí)間談?wù)勀切┪覀冋J(rèn)為仍然具有參考價(jià)值的數(shù)據(jù)，以及我和 Manish 認(rèn)為自調(diào)查以來(lái)已經(jīng)發(fā)生了哪些變化。

Matt Merrill：我很喜歡你提到的“人文視角”，這也正是我的感受——你們用這些數(shù)據(jù)講述了一個(gè)很好的故事。我很好奇，能否介紹一下這份數(shù)據(jù)的收集與分析方式？不得不說(shuō)，這份報(bào)告做得十分出色。

Chris Grams：我做這類(lèi)調(diào)查已經(jīng)有很長(zhǎng)時(shí)間了。實(shí)際上，我大概 20 多年前在 Red Hat 就開(kāi)始做開(kāi)發(fā)者調(diào)查了，還參與了 Red Hat 最早的一些研究數(shù)據(jù)工作。我一直認(rèn)為，好的研究不只是堆砌數(shù)據(jù)。我始終秉持這樣的理念：不要只羅列數(shù)據(jù)，而是要輸出有效結(jié)論。核心要點(diǎn)是什么，或是有哪些關(guān)鍵的發(fā)現(xiàn)？我們?cè)谠O(shè)計(jì)調(diào)查報(bào)告時(shí)也會(huì)帶著一些強(qiáng)烈的假設(shè)和觀(guān)點(diǎn)，認(rèn)為部分現(xiàn)象是大概率真實(shí)存在的。我們想驗(yàn)證人們是否同意我們的看法，這是否也是他們的視角，或者有哪些地方我們可能錯(cuò)了。本次調(diào)研中，就有幾處案例印證我們?cè)鹊募僭O(shè)并不成立。

我們會(huì)帶著預(yù)設(shè)的調(diào)研視角開(kāi)展項(xiàng)目，但有時(shí)也會(huì)發(fā)掘出新的內(nèi)容。這次調(diào)研便是兩者兼而有之：部分?jǐn)?shù)據(jù)印證了我們的判斷，也有不少結(jié)果出乎我們的意料。

Matt Merrill：我們已經(jīng)聊了很多關(guān)于調(diào)查的背景內(nèi)容，接下來(lái)就正式進(jìn)入調(diào)研結(jié)果部分。我們先從重磅的發(fā)現(xiàn)開(kāi)始。這個(gè)問(wèn)題想請(qǐng)二位都聊聊。Chris，你可以先來(lái)講講。你最直觀(guān)、最深刻的收獲是什么？哪些內(nèi)容最能引發(fā)你們的共鳴？

Chris Grams：我認(rèn)為從整體層面來(lái)看，有幾項(xiàng)數(shù)據(jù)在我們初次看到時(shí)十分令人震驚。例如，有 72% 使用過(guò) AI 工具的開(kāi)發(fā)者如今已經(jīng)做到每日高頻使用。如果現(xiàn)在這個(gè)數(shù)字比 72% 更高，我不會(huì)感到驚訝。但在去年秋天我們初次拿到這份數(shù)據(jù)時(shí)，72% 這個(gè)數(shù)字已經(jīng)相當(dāng)驚人，也大致印證驗(yàn)證了我們預(yù)判的趨勢(shì)。此外，我們還讓開(kāi)發(fā)者如實(shí)說(shuō)明，日常編寫(xiě)的代碼當(dāng)中，由 AI 生成的占比有多少——我們還詢(xún)問(wèn)了他們當(dāng)前的現(xiàn)狀和對(duì)未來(lái)的預(yù)期，比如幾年后他們認(rèn)為這個(gè)比例會(huì)是多少。

我們得到的結(jié)果是：目前開(kāi)發(fā)者編寫(xiě)的代碼中已有 42% 是 AI 生成或 AI 輔助完成的。42%，這個(gè)比例很瘋狂。到 2027 年，開(kāi)發(fā)者預(yù)計(jì)這個(gè)數(shù)字將攀升至約 65%。回想一下，去年 1 月我剛加入 Sonar 時(shí)，絕大多數(shù)開(kāi)發(fā)者還對(duì) AI 工具產(chǎn)出的代碼心存疑慮。而截至去年秋天，已有 42% 的代碼由 AI 生成，這非常有趣。我還要補(bǔ)充另一個(gè)數(shù)據(jù)：當(dāng)我們?cè)儐?wèn)開(kāi)發(fā)者他們對(duì) AI 生成代碼的準(zhǔn)確性抱有多大信任時(shí)，96% 的開(kāi)發(fā)者表示他們并不完全信任 AI 生成的代碼。

這就形成了一種鮮明反差：42% 的代碼由 AI 編寫(xiě)，未來(lái)幾年還將攀升至 65%，但開(kāi)發(fā)者卻并不真正信任這些代碼。由此便產(chǎn)生了一道亟待解決的驗(yàn)證鴻溝，也可以說(shuō)是信任鴻溝。這或許就是本次調(diào)研最重要的發(fā)現(xiàn)。

2 代碼快了，工程慢了

Matt Merrill：結(jié)合我的經(jīng)驗(yàn)與日常工作來(lái)看，這個(gè)結(jié)論完全合理。我越來(lái)越多地聽(tīng)到關(guān)于智能體代碼審查的事，甚至出現(xiàn)了讓智能體互相校驗(yàn)、交叉驗(yàn)證的做法。這是一項(xiàng)非常有意思的發(fā)現(xiàn)。Manish，你最大的收獲是什么？

Manish Kapur：我認(rèn)同 Chris 的觀(guān)點(diǎn)。整體而言，我對(duì)此倍感意外。最讓我吃驚的是，AI 編碼場(chǎng)景的落地與普及速度極快。回首來(lái)看，初代 GPT 模型問(wèn)世不過(guò)兩年半左右，而現(xiàn)如今，超 72% 的開(kāi)發(fā)者每天都在使用 AI 編碼工具，這已然成為他們的日常工作常態(tài)。這個(gè)數(shù)據(jù)來(lái)源于上個(gè)季度，我確信目前這一占比仍在持續(xù)攀升，未來(lái)甚至?xí)_(dá)到 80%、90%，開(kāi)發(fā)者的日常工作早已離不開(kāi)這類(lèi)工具。

AI 編碼應(yīng)用場(chǎng)景的爆發(fā)速度以及在全行業(yè)的普及程度都超乎想象。我還發(fā)現(xiàn)，AI 雖然大幅加快了代碼生成效率，卻拖慢了代碼生成之后的全流程工作，而這部分恰恰是軟件工程中占比極高、不可或缺的環(huán)節(jié)。代碼生成只是第一步，后續(xù)還有代碼審核、校驗(yàn)、調(diào)試、集成測(cè)試以及長(zhǎng)期維護(hù)等一系列工作。目前，這些配套環(huán)節(jié)的效率提升速度完全跟不上 AI 代碼的產(chǎn)出速度。

智能體還會(huì)進(jìn)一步放大這種影響。正如 Matt 剛才所說(shuō)的，隨著各類(lèi)編碼工具持續(xù)迭代，智能體技術(shù)也隨之快速發(fā)展，未來(lái)會(huì)出現(xiàn)大批協(xié)同運(yùn)轉(zhuǎn)、相互交互的智能體集群。整個(gè)行業(yè)的技術(shù)演進(jìn)節(jié)奏都會(huì)因此大幅提速。最終的發(fā)展走向仍有待觀(guān)察，我十分期待后續(xù)的變化。對(duì)我而言，手寫(xiě)編碼早已不再是難題，真正的挑戰(zhàn)在于代碼寫(xiě)完之后的各項(xiàng)工作；以及在智能體互聯(lián)互通、開(kāi)發(fā)者逐步脫離日常編碼與完整開(kāi)發(fā)流程的大環(huán)境下行業(yè)會(huì)迎來(lái)怎樣的變革。

Matt Merrill：我同樣滿(mǎn)懷期待，迫切想要見(jiàn)證后續(xù)的發(fā)展。談及 AI 工具的快速普及，我在日常工作中發(fā)現(xiàn)一個(gè)現(xiàn)象：開(kāi)發(fā)者們普遍主動(dòng)想要使用這類(lèi)工具。一方面，行業(yè)環(huán)境帶來(lái)了無(wú)形的推動(dòng)壓力；另一方面，大家自身的探索意愿也在不斷增強(qiáng)。不少開(kāi)發(fā)者會(huì)使用個(gè)人賬號(hào)處理工作事務(wù)、訪(fǎng)問(wèn) AI 工具，只為提升工作效率、嘗試新興技術(shù)。你們的報(bào)告中也提到了不少有意思的調(diào)研結(jié)論，方便和我們分享一下嗎？

Manish Kapur：這一調(diào)研結(jié)果同樣出乎我們的意料。目前企業(yè)內(nèi)普遍存在大量影子 AI 的使用行為。這里所說(shuō)的影子 AI，具體是指近 35% 的開(kāi)發(fā)者會(huì)繞過(guò)企業(yè)官方授權(quán)工具使用個(gè)人賬號(hào)登錄第三方 AI 平臺(tái)開(kāi)展工作。其實(shí)這一點(diǎn)不難理解，Matt，你本身就是技術(shù)從業(yè)者，我也擁有技術(shù)背景，雖算不上專(zhuān)職開(kāi)發(fā)者，但也長(zhǎng)期編寫(xiě)代碼。開(kāi)發(fā)者天生樂(lè)于創(chuàng)造、熱衷探索與嘗試，所有人都想體驗(yàn)前沿頂尖的技術(shù)與工具，緊跟行業(yè)的前沿發(fā)展趨勢(shì)。

行業(yè)變革日新月異，這正是開(kāi)發(fā)者不愿局限于企業(yè)指定工具的核心原因。隨著智能體逐步落地，這類(lèi)現(xiàn)象愈發(fā)普遍：開(kāi)發(fā)者開(kāi)始借助智能體掃描代碼倉(cāng)庫(kù)、編寫(xiě)遷移腳本、重構(gòu)老舊代碼模塊，這類(lèi)操作早已成為日常。但這也暗藏風(fēng)險(xiǎn)，開(kāi)發(fā)者向第三方非合規(guī)工具、影子 IT 平臺(tái)傳輸代碼、提示詞、業(yè)務(wù)數(shù)據(jù)及上下文信息時(shí)，會(huì)直接導(dǎo)致企業(yè)知識(shí)產(chǎn)權(quán)與數(shù)據(jù)隱私面臨泄露隱患。

遺憾的是，現(xiàn)階段企業(yè)針對(duì)這類(lèi)行為的管理制度與管控體系尚不完善。未來(lái)隨著大量智能體實(shí)現(xiàn)協(xié)同工作，整體管控難度還會(huì)大幅增加，短期內(nèi)行業(yè)必將面臨一系列管理難題，但我相信，和過(guò)往各類(lèi)技術(shù)難題一樣，我們最終都能找到解決方案。

在管控治理層面，有一條核心原則始終不變：無(wú)論使用企業(yè)合規(guī)工具還是個(gè)人第三方工具，所有 AI 生成的代碼都必須經(jīng)過(guò)嚴(yán)格核驗(yàn)，后續(xù)的全流程管控環(huán)節(jié)缺一不可。企業(yè)需要進(jìn)一步強(qiáng)化審核力度，全面校驗(yàn)代碼可靠性，確保代碼能夠直接投入生產(chǎn)環(huán)境使用。

Matt Merrill：就在今天，公司隱私合規(guī)部門(mén)的同事還專(zhuān)門(mén)強(qiáng)調(diào)，若團(tuán)隊(duì)使用 AI 工具，務(wù)必將相關(guān)合規(guī)要求納入合作協(xié)議，與軟件開(kāi)發(fā)行業(yè)的規(guī)范標(biāo)準(zhǔn)保持一致。當(dāng)下明顯呈現(xiàn)出本末倒置的現(xiàn)狀：全員都在被迫擁抱 AI 工具，但對(duì)應(yīng)的合規(guī)管控、風(fēng)險(xiǎn)約束機(jī)制卻嚴(yán)重滯后。這個(gè)問(wèn)題確實(shí)值得重視。Chris，針對(duì)這份調(diào)研結(jié)論，你還有其他內(nèi)容想要補(bǔ)充嗎？

Chris Grams：我再補(bǔ)充一點(diǎn)，主要圍繞企業(yè)內(nèi)部工具的使用數(shù)量展開(kāi)。目前各大企業(yè)普遍在試水各類(lèi)不同的 AI 工具，調(diào)研數(shù)據(jù)顯示，人均會(huì)同時(shí)使用四款不同的 AI 工具。

Matt Merrill：這個(gè)數(shù)量超出了我的預(yù)期。

Chris Grams：不同從業(yè)者的工具使用數(shù)量存在明顯差異，有人使用得多，有人使用得少。結(jié)合去年秋季的調(diào)研數(shù)據(jù)來(lái)看，當(dāng)下 AI 工具賽道尚未決出絕對(duì)頭部產(chǎn)品。不過(guò)近一兩個(gè)月，Claude 的市場(chǎng)競(jìng)爭(zhēng)力大幅提升，表現(xiàn)十分亮眼。整體來(lái)看，行業(yè)依舊處于多方工具測(cè)試、百花齊放的階段。

Matt Merrill：確實(shí)如此。直到去年 11 月，我還無(wú)法判定哪款工具更具優(yōu)勢(shì)，但體驗(yàn)過(guò) Claude 之后，不得不承認(rèn)它的表現(xiàn)極為出色。除此之外，企業(yè)的流程迭代速度遠(yuǎn)遠(yuǎn)跟不上技術(shù)變革節(jié)奏，開(kāi)發(fā)者自行注冊(cè)試用新興工具也就成了必然，這種現(xiàn)象的出現(xiàn)并不難理解。

Chris Grams：如果企業(yè)采購(gòu)的官方工具已經(jīng)淪為市場(chǎng)中下游產(chǎn)品，想要更換新工具，還要走完繁瑣的企業(yè)采購(gòu)審批流程，而使用第三方工具能夠數(shù)倍提升工作效率。即便從企業(yè)風(fēng)控角度來(lái)看存在隱患，也不難理解開(kāi)發(fā)者做出這類(lèi)冒險(xiǎn)選擇的原因。

3 AI 消滅了重復(fù)勞動(dòng)，但新的低效工作正在生成

Matt Merrill：確實(shí)是這樣。我們換個(gè)話(huà)題。這份報(bào)告里有兩個(gè)內(nèi)容讓我格外關(guān)注，其中一個(gè)是“低效工作轉(zhuǎn)移”這一概念。能否為我們解讀一下這個(gè)概念，以及相關(guān)的調(diào)研發(fā)現(xiàn)？

Chris Grams：這也是我們調(diào)研中意外發(fā)現(xiàn)的結(jié)論之一。我們?cè)绢A(yù)設(shè) AI 會(huì)大幅削減開(kāi)發(fā)者的重復(fù)性低效工作，比如編寫(xiě)文檔、撰寫(xiě)測(cè)試用例這類(lèi)耗時(shí)繁瑣、流程化的基礎(chǔ)工作。當(dāng)我們直接詢(xún)問(wèn)受訪(fǎng)者 AI 是否減少了日常低效工作時(shí)，超七成受訪(fǎng)者給出了肯定答案。75% 的人表示，AI 確實(shí)降低了重復(fù)性工作負(fù)擔(dān)。

但實(shí)際情況遠(yuǎn)比表面上看的更為復(fù)雜。結(jié)合工具使用頻率展開(kāi)進(jìn)一步調(diào)研后發(fā)現(xiàn)：低頻使用 AI 的開(kāi)發(fā)者依舊被傳統(tǒng)低效工作束縛；而高頻使用 AI 的開(kāi)發(fā)者雖然擺脫了舊有的繁瑣工作，卻面臨新的低效任務(wù)。值得注意的是，兩類(lèi)開(kāi)發(fā)者花費(fèi)在低效工作上的總時(shí)長(zhǎng)基本持平，只是工作內(nèi)容發(fā)生了變化。以往編寫(xiě)文檔這類(lèi)基礎(chǔ)工作如今都可以交由 AI 高效完成，徹底解放了人力。

隨之而來(lái)的新的工作難題：AI 極速批量生成代碼后，開(kāi)發(fā)者需要投入大量精力逐一核驗(yàn)代碼質(zhì)量、排查安全漏洞，代碼審核校驗(yàn)成為了新的低效工作。究其根本，AI 無(wú)需為生成代碼的質(zhì)量承擔(dān)責(zé)任，所有風(fēng)險(xiǎn)與責(zé)任最終都會(huì)落到人類(lèi)開(kāi)發(fā)者身上。這也是當(dāng)下低效工作轉(zhuǎn)型背后最大的挑戰(zhàn)。既然責(zé)任無(wú)法轉(zhuǎn)嫁，人工逐行核驗(yàn) AI 生成代碼就成了硬性要求，這類(lèi)工作往往枯燥繁瑣，卻又必不可少，畢竟在責(zé)任認(rèn)定層面，AI 產(chǎn)出的代碼等同于開(kāi)發(fā)者親自編寫(xiě)。

Matt Merrill：我經(jīng)常用一個(gè)類(lèi)比和身邊人探討這類(lèi)問(wèn)題，或許不算完全貼切，但很貼合當(dāng)下的現(xiàn)狀：電子表格問(wèn)世之后，會(huì)計(jì)行業(yè)并沒(méi)有消失，只是工作內(nèi)容發(fā)生了變化。AI 之于開(kāi)發(fā)行業(yè)，也是同樣的道理。“低效工作轉(zhuǎn)移”這個(gè)定義十分貼切，我之后也會(huì)沿用這個(gè)說(shuō)法。

Manish Kapur：38% 的開(kāi)發(fā)者認(rèn)為，審核 AI 生成代碼的難度遠(yuǎn)高于人工編寫(xiě)的代碼。這一點(diǎn)在代碼審核環(huán)節(jié)體現(xiàn)得尤為明顯，也是讓我感觸很深的一個(gè)細(xì)節(jié)。

Matt Merrill：理解 AI 生成代碼的邏輯脈絡(luò)、梳理完整業(yè)務(wù)鏈路確實(shí)要困難得多，這個(gè)結(jié)論完全合理。

Chris Grams：我們還發(fā)現(xiàn)，審核 AI 生成代碼如同大海撈針。隨著大模型持續(xù)迭代，AI 產(chǎn)出代碼的性能、安全性與整體質(zhì)量不斷優(yōu)化，潛藏的漏洞與問(wèn)題也變得更加隱蔽。人工審核他人編寫(xiě)的代碼尚且存在難度，更何況是無(wú)人工參與、由 AI 獨(dú)立生成的代碼。這類(lèi)代碼的整體問(wèn)題數(shù)量或許有所減少，但殘留的隱患往往更具隱蔽性與危害性，排查難度大幅增加。

Matt Merrill：完全認(rèn)同。Sonar 的核心產(chǎn)品之一是靜態(tài)代碼分析工具。能否分享一下目前客戶(hù)在借助靜態(tài)分析技術(shù)時(shí)都通過(guò)哪些創(chuàng)新方式應(yīng)對(duì) AI 編碼帶來(lái)的各類(lèi)隱患與挑戰(zhàn)？

Manish Kapur：過(guò)去 17 年里，很多企業(yè)一直選擇并將我們視作業(yè)界公認(rèn)的代碼質(zhì)量標(biāo)桿。事實(shí)上，我們的能力遠(yuǎn)不止代碼質(zhì)量管控。我們的分析引擎不僅會(huì)從代碼質(zhì)量、安全、可靠性、可維護(hù)性和復(fù)雜度等維度審核代碼，還新增架構(gòu)檢測(cè)能力，可對(duì)代碼庫(kù)整體架構(gòu)進(jìn)行研判，監(jiān)測(cè)系統(tǒng)從合規(guī)架構(gòu)逐步劣化為不良架構(gòu)的演變速度。

我們的客戶(hù)正以多種不同方式使用我們的產(chǎn)品。在智能體技術(shù)蓬勃發(fā)展的時(shí)代，我們已全面適配各類(lèi)主流 AI 原生開(kāi)發(fā)環(huán)境，包括 Windsor、Cursor、GitHub Copilot 等主流集成開(kāi)發(fā)環(huán)境，以及各類(lèi)命令行工具。Matt，你也清楚，如今命令行工具的使用熱度正持續(xù)攀升，無(wú)論是 Gemini 命令行工具、代碼編解碼工具、云開(kāi)發(fā)命令行工具等，我們均已完成適配。簡(jiǎn)單來(lái)說(shuō)，市面上主流的相關(guān)工具我們都已支持。我們?yōu)檫@些工具提供了一套獨(dú)立、結(jié)果可確定的通知底層能力。

AI 可以編寫(xiě)代碼、審核代碼，但往往存在固有的局限：AI 會(huì)默認(rèn)自己生成的代碼完全合規(guī)無(wú)誤，且難以排查出全部的潛在問(wèn)題。究其原因，AI 訓(xùn)練所依賴(lài)的數(shù)據(jù)集同時(shí)服務(wù)于代碼生成與代碼審核這兩個(gè)場(chǎng)景。而我們擁有一套結(jié)果精準(zhǔn)可控的代碼審核機(jī)制，并深度嵌入現(xiàn)代軟件開(kāi)發(fā)生命周期。無(wú)論是 AI 在開(kāi)發(fā)環(huán)境、命令行工具中編寫(xiě)代碼，還是智能體提交合并請(qǐng)求等待審核的場(chǎng)景，我們都能介入檢測(cè)，深度融入完整的研發(fā)流程。

我們還推出了 MCP 服務(wù)器，目前不少大型企業(yè)客戶(hù)都在使用 SonarQube 的 MCP 服務(wù)器。該服務(wù)器相當(dāng)于智能體對(duì)接 SonarQube 代碼分析能力的網(wǎng)關(guān)，采用了智能體通用通信協(xié)議，可為智能體開(kāi)發(fā)環(huán)境、命令行工具等各類(lèi)平臺(tái)提供服務(wù)。除常規(guī)代碼分析外，我們也在持續(xù)優(yōu)化檢測(cè)引擎，專(zhuān)門(mén)針對(duì) AI 引發(fā)的漏洞添加識(shí)別能力。我們的產(chǎn)品支持自定義規(guī)則配置，已有部分客戶(hù)通過(guò)添加自定義規(guī)則專(zhuān)門(mén)識(shí)別 AI 編碼帶來(lái)的風(fēng)險(xiǎn)模式。同時(shí)，我們也內(nèi)置了多條專(zhuān)屬檢測(cè)規(guī)則，用于防范 AI 衍生風(fēng)險(xiǎn)，例如提示詞注入攻擊、規(guī)則文件后門(mén)攻擊。這類(lèi)風(fēng)險(xiǎn)完全由 AI 的編碼行為產(chǎn)生，傳統(tǒng)人工開(kāi)發(fā)模式下基本不會(huì)出現(xiàn)。

4 不需要重造流程，老的審核體系依然有效

Matt Merrill：你剛剛最后提到的那個(gè)風(fēng)險(xiǎn)是什么？

Manish Kapur：規(guī)則文件后門(mén)攻擊是一類(lèi)特定攻擊途徑，具體是指編碼智能體和開(kāi)發(fā)環(huán)境所依賴(lài)的配置文件、規(guī)則文件，例如 MDC 格式的文件、MD 格式的文件等。攻擊者可以在這類(lèi)文件中植入隱藏的特殊 Unicode 字符，這類(lèi)隱蔽字符很難被 AI 識(shí)別檢測(cè)到。我們專(zhuān)門(mén)開(kāi)發(fā)了對(duì)應(yīng)規(guī)則，能夠精準(zhǔn)排查配置文件、規(guī)則文件中暗藏的此類(lèi)隱患。除此之外，針對(duì)大語(yǔ)言模型提示詞注入攻擊，我們也配置了專(zhuān)門(mén)的檢測(cè)規(guī)則，可有效識(shí)別相關(guān)安全問(wèn)題。這些都是在原有基礎(chǔ)能力之上新增的、專(zhuān)門(mén)針對(duì)大語(yǔ)言模型的安全檢測(cè)能力。

Matt Merrill：我大概明白了這類(lèi)后門(mén)攻擊的原理。比如從 Claude 平臺(tái)或其他地方復(fù)制了一份配置文件，無(wú)意間帶入大量隱蔽的 Unicode 字符，進(jìn)而篡改指令提示詞，大致是這個(gè)邏輯吧？

Manish Kapur：就是這樣。不法攻擊者正是通過(guò)在這類(lèi)文件中植入隱藏 Unicode 字符實(shí)施惡意操作。

Matt Merrill：這確實(shí)值得關(guān)注。結(jié)合實(shí)際場(chǎng)景來(lái)看，如果我自主編寫(xiě)功能配置、設(shè)計(jì)持續(xù)集成與持續(xù)交付流程，就可以接入你們的 MCP 服務(wù)器及其他集成工具，將靜態(tài)代碼分析納入自動(dòng)化校驗(yàn)環(huán)節(jié)，同步輸出檢測(cè)結(jié)果。一旦檢測(cè)出指定問(wèn)題，即可終止構(gòu)建流程，這類(lèi)操作是否能夠?qū)崿F(xiàn)？

Manish Kapur：完全可行。我們提供了質(zhì)量門(mén)禁機(jī)制，企業(yè)可自主制定判定策略，自定義構(gòu)建任務(wù)通過(guò)或攔截的觸發(fā)條件。

不同應(yīng)用場(chǎng)景的管控標(biāo)準(zhǔn)可以靈活區(qū)分。面向企業(yè)內(nèi)部使用、無(wú)對(duì)外暴露風(fēng)險(xiǎn)、非敏感業(yè)務(wù)、無(wú)需投產(chǎn)的小型項(xiàng)目無(wú)需設(shè)置嚴(yán)苛的強(qiáng)制校驗(yàn)規(guī)則。但如果是銀行系統(tǒng)、醫(yī)療系統(tǒng)這類(lèi)核心應(yīng)用，一旦系統(tǒng)故障或數(shù)據(jù)泄露將會(huì)造成極高損失，就需要啟用更高標(biāo)準(zhǔn)的管控策略，升級(jí)質(zhì)量門(mén)禁門(mén)檻。這類(lèi)高風(fēng)險(xiǎn)項(xiàng)目，哪怕是一處安全漏洞也會(huì)直接攔截，無(wú)法通過(guò)校驗(yàn)。

反之，對(duì)于非核心、不影響業(yè)務(wù)運(yùn)轉(zhuǎn)的內(nèi)部輕量化應(yīng)用，即便存在低優(yōu)先級(jí)漏洞，企業(yè)也可靈活放行。團(tuán)隊(duì)能夠根據(jù)自身業(yè)務(wù)需求自定義質(zhì)量門(mén)禁與管控策略，這也是我們客戶(hù)高頻使用的核心場(chǎng)景之一。

Chris Grams：確實(shí)如此。有一點(diǎn)我感觸很深，數(shù)月前，我們和一位業(yè)內(nèi)知名的科技行業(yè)分析師交流，探討 AI 時(shí)代的代碼審核流程。對(duì)方提出了一個(gè)建議：作為權(quán)威分析機(jī)構(gòu)，我們應(yīng)該建議企業(yè)沿用傳統(tǒng)的人工代碼審核流程來(lái)校驗(yàn) AI 生成的代碼。如果企業(yè)原本就搭建了成熟的人工代碼審核體系，再加入質(zhì)量門(mén)禁等全套管控機(jī)制，這套成熟的流程完全可以高效復(fù)用在 AI 生成代碼的審核工作中。因?yàn)闅w根結(jié)底，AI 產(chǎn)出的內(nèi)容本質(zhì)上依舊是代碼。

這個(gè)觀(guān)點(diǎn)我十分認(rèn)同。現(xiàn)在市面上涌現(xiàn)出各類(lèi) AI 專(zhuān)屬代碼審核工具，這一點(diǎn)也讓我心存疑惑。當(dāng)下很多人陷入了誤區(qū)，單純因?yàn)榇a由 AI 生成就認(rèn)為必須搭建全新的審核流程。誠(chéng)然，部分場(chǎng)景下專(zhuān)屬流程會(huì)更具優(yōu)勢(shì)，但大量經(jīng)過(guò)長(zhǎng)期驗(yàn)證、成熟穩(wěn)定的標(biāo)準(zhǔn)化靜態(tài)分析流程同樣適用于 AI 代碼審核，并且能夠穩(wěn)定輸出可復(fù)現(xiàn)、高一致的檢測(cè)結(jié)果。

Manish Kapur：我十分認(rèn)同。其中關(guān)鍵問(wèn)題在于誤報(bào)率。我體驗(yàn)過(guò)多款第三方 AI 代碼審核工具，同時(shí)也長(zhǎng)期使用我們自研的產(chǎn)品。我發(fā)現(xiàn)，在部分場(chǎng)景中，純 AI 審核的誤報(bào)率比較高。在我看來(lái)，最優(yōu)解是融合兩類(lèi)技術(shù)的優(yōu)勢(shì)，結(jié)合不同場(chǎng)景的適配性，按需選用合適的技術(shù)方案。Chris 說(shuō)得完全正確，當(dāng)下客戶(hù)的核心訴求是引入一套結(jié)果穩(wěn)定一致、低誤報(bào)率的確定性檢測(cè)體系，并將其作為最終的核驗(yàn)防線(xiàn)。

在部分特定場(chǎng)景中，正如你和 Chris 剛才所說(shuō)，大語(yǔ)言模型會(huì)是更優(yōu)選擇。例如文檔編寫(xiě)、合并請(qǐng)求描述文案撰寫(xiě)等工作，大語(yǔ)言模型的處理效果遠(yuǎn)超傳統(tǒng)工具，我們也會(huì)充分發(fā)揮大語(yǔ)言模型在這類(lèi)場(chǎng)景中的優(yōu)勢(shì)。

5 大模型寫(xiě)代碼各有脾氣，怎么選比“誰(shuí)更強(qiáng)”更重要

Matt Merrill：沒(méi)錯(cuò)。你們?cè)凇堕_(kāi)發(fā)者代碼現(xiàn)狀調(diào)查報(bào)告》中還提及并引用了一份關(guān)于大語(yǔ)言模型編碼特征的專(zhuān)項(xiàng)報(bào)告，內(nèi)容十分有價(jià)值。希望你能簡(jiǎn)單介紹這份報(bào)告，以及目前的調(diào)研得出的相關(guān)結(jié)論。

Manish Kapur：一年前，我們便啟動(dòng)了大語(yǔ)言模型的專(zhuān)項(xiàng)測(cè)評(píng)工作，重點(diǎn)評(píng)估代碼編寫(xiě)質(zhì)量、安全性能與代碼復(fù)雜度。行業(yè)內(nèi)目前存在各類(lèi)通用的測(cè)評(píng)基準(zhǔn)，幾乎所有大語(yǔ)言模型廠(chǎng)商都會(huì)依賴(lài)通用基準(zhǔn)開(kāi)展測(cè)試。例如，人工評(píng)估數(shù)據(jù)集等行業(yè)通用標(biāo)準(zhǔn)主要用于檢驗(yàn)?zāi)Ｐ偷幕A(chǔ)編碼能力。這類(lèi)基準(zhǔn)測(cè)評(píng)具備參考價(jià)值，是基礎(chǔ)的評(píng)估手段，但我們認(rèn)為，它們只能覆蓋一半的評(píng)估維度。原因在于，通用基準(zhǔn)僅考核代碼最終結(jié)果的正確性，檢驗(yàn)?zāi)Ｐ湍芊裢瓿芍付ㄋ惴ǖ木帉?xiě)、解決特定的編程問(wèn)題，以及答案是否準(zhǔn)確。

但它們忽略了一個(gè)核心的點(diǎn)：不同大語(yǔ)言模型在解決同類(lèi)算法問(wèn)題、應(yīng)對(duì)編程挑戰(zhàn)時(shí)編碼的實(shí)現(xiàn)方式與邏輯差異。為此，我們搭建了一套專(zhuān)門(mén)的評(píng)估體系，選取了 4400 道編程測(cè)試題，對(duì)主流大語(yǔ)言模型進(jìn)行全維度測(cè)評(píng)。這些題目不屬于任何一個(gè)通用基準(zhǔn)題庫(kù)，都是全新的未知考題，各大模型此前均未接觸過(guò)，因此能夠客觀(guān)檢驗(yàn)?zāi)Ｐ偷恼鎸?shí)編碼能力。

我們會(huì)參照所有基準(zhǔn)測(cè)試的統(tǒng)一標(biāo)準(zhǔn)進(jìn)行評(píng)分，考核維度包括生成頻次、通過(guò)率是否達(dá)標(biāo)、代碼功能是否合規(guī)無(wú)誤等。我們的評(píng)估還不止于此，我們還會(huì)進(jìn)一步統(tǒng)計(jì)每千行、每萬(wàn)行乃至每百萬(wàn)行代碼中出現(xiàn)的漏洞數(shù)量、安全問(wèn)題數(shù)量，以及代碼整體的復(fù)雜度水平，包括認(rèn)知復(fù)雜度與圈復(fù)雜度兩大核心指標(biāo)，全面衡量大語(yǔ)言模型生成代碼的綜合質(zhì)量。

基準(zhǔn)測(cè)試固然也是不錯(cuò)的參考，但我們實(shí)現(xiàn)了評(píng)估體系的全面升級(jí)，因?yàn)槲覀兊暮诵臉I(yè)務(wù)始終是代碼健康度審查與代碼評(píng)審。我們?yōu)榱呖畲笳Z(yǔ)言模型劃分了專(zhuān)門(mén)的特質(zhì)風(fēng)格，發(fā)現(xiàn)不同的模型具有截然不同的特質(zhì)表現(xiàn)，我們將其定義為模型特質(zhì)原型。部分模型產(chǎn)出的代碼功能表現(xiàn)極為出色，但認(rèn)知復(fù)雜度與圈復(fù)雜度嚴(yán)重超標(biāo)；還有一類(lèi)模型生成的代碼復(fù)雜度極低、代碼行數(shù)精簡(jiǎn)，同時(shí)還能保障功能準(zhǔn)確性。我們以此為依據(jù)，完成了這批大語(yǔ)言模型的特質(zhì)劃分。

不同大語(yǔ)言模型的代碼生成風(fēng)格差異顯著，體現(xiàn)在抽象設(shè)計(jì)程度、表述泛化方式、錯(cuò)誤處理邏輯、冗余代碼占比、代碼壞味道以及安全漏洞類(lèi)型等多個(gè)維度。我們針對(duì)模型生成的各類(lèi)代碼缺陷開(kāi)展了全面且細(xì)致的深度分析。項(xiàng)目最初以模型特質(zhì)報(bào)告為核心載體，如今已迭代升級(jí)為大語(yǔ)言模型排行榜，大家可前往 sonar.com/leaderboard 頁(yè)面查看。截至目前，榜單已收錄約 35 款主流大模型，從安全性、可靠性、可維護(hù)性、圈復(fù)雜度、認(rèn)知復(fù)雜度、問(wèn)題密度等多個(gè)維度完成全面測(cè)評(píng)，各項(xiàng)關(guān)鍵指標(biāo)均會(huì)詳細(xì)標(biāo)注。

不僅如此，我們還會(huì)清晰標(biāo)注模型產(chǎn)生的安全漏洞數(shù)量，并細(xì)分漏洞類(lèi)型，包括路徑遍歷風(fēng)險(xiǎn)、機(jī)密信息泄露問(wèn)題等，所有問(wèn)題都會(huì)形成完整的詳細(xì)報(bào)告。礙于時(shí)間限制，我們無(wú)法逐一展開(kāi)講解，但非常推薦大家自行前往 sonar.com/leaderboard 頁(yè)面查閱，深入了解這 35 款大語(yǔ)言模型的各項(xiàng)特質(zhì)與綜合表現(xiàn)。

Matt Merrill：你剛才提到了模型特質(zhì)，能否詳細(xì)聊聊這部分內(nèi)容？有沒(méi)有比較特別、有意思的案例？

Chris Grams：去年夏天我們啟動(dòng)這項(xiàng)研究時(shí)，核心重點(diǎn)就是挖掘每款模型獨(dú)有的特質(zhì)風(fēng)格。但后來(lái)我們逐漸意識(shí)到，大模型迭代速度極快，全新模型持續(xù)不斷推出。這也是我們放棄特質(zhì)劃分、轉(zhuǎn)而推出綜合排行榜的核心原因——模型特質(zhì)更新迭代過(guò)于頻繁，根本無(wú)法為 Claude 代碼模型固定標(biāo)簽。我甚至已經(jīng)記不清去年夏天為 Claude 代碼定義的特質(zhì)，如今這個(gè)模型已成長(zhǎng)為全球頂尖的編碼專(zhuān)家。所有模型的共性變化十分明顯：隨著綜合性能不斷提升，代碼輸出愈發(fā)冗長(zhǎng)，行數(shù)持續(xù)增加，進(jìn)而導(dǎo)致認(rèn)知復(fù)雜度同步走高。這一趨勢(shì)一直延續(xù)至去年十一月左右。

而近期大家查閱排行榜數(shù)據(jù)就能發(fā)現(xiàn)，部分模型實(shí)現(xiàn)了雙向優(yōu)化，在保證出色性能的同時(shí)，有效控制了代碼復(fù)雜度，漏洞問(wèn)題也大幅減少。去年很長(zhǎng)一段時(shí)間里，行業(yè)呈現(xiàn)出線(xiàn)性規(guī)律：模型性能越強(qiáng)，代碼行數(shù)越多，整體復(fù)雜度越高。但如今行業(yè)發(fā)展愈發(fā)精細(xì)化，不少頂尖模型的綜合能力實(shí)現(xiàn)了質(zhì)的飛躍。頭部模型的特質(zhì)逐漸趨同，全都成長(zhǎng)為專(zhuān)業(yè)級(jí)編碼高手。Manish，你還有什么內(nèi)容想要補(bǔ)充嗎？

Manish Kapur：你說(shuō)得很對(duì)。早期我們僅測(cè)評(píng)了六款模型，并完成了特質(zhì)定義，其中就包含 GPT-5、Claude Sonnet 4、Claude Sonnet 3.7 等版本。測(cè)評(píng)樣本兼顧不同的規(guī)格，既有 80 億參數(shù)的開(kāi)源編碼小模型，也有 GPT-5 這種超大模型。結(jié)合兩端模型的表現(xiàn)差異，我們制定了首批特質(zhì)標(biāo)簽。例如，開(kāi)源編碼小模型被我們稱(chēng)作快速原型搭建者，原因在于這類(lèi)模型能夠高效解決基礎(chǔ)問(wèn)題、精簡(jiǎn)代碼行數(shù)，但代碼嚴(yán)謹(jǐn)性不足，容易遺留各類(lèi)隱性問(wèn)題。

它采用了原型方案，原型方案難免存在漏洞，但卻能快速高效地驗(yàn)證核心構(gòu)想。我們稱(chēng)之為“快速原型構(gòu)建者”。而 Claude Sonnet 系列模型更像是資深架構(gòu)師，它們?cè)诰帉?xiě)代碼時(shí)會(huì)綜合考量應(yīng)用可擴(kuò)展性、用戶(hù)承載量、運(yùn)行性能等多諸多因素。我們稱(chēng)之為"資深架構(gòu)師"。我們?cè)鵀樽畛醯牧鶄€(gè)模型起過(guò)一些名字，但現(xiàn)在我們已經(jīng)有超過(guò) 35 個(gè)模型了，很難為所有這些模型都命名。隨著模型不斷迭代，我們正在逐漸放棄為它們賦予個(gè)性化名字的做法。

Chris Grams：不過(guò)不得不說(shuō)，給大語(yǔ)言模型賦予擬人化特質(zhì)是一件十分有趣的事。

Matt Merrill：確實(shí)很有意思，這種方式也更容易讓人記住各個(gè)模型的特點(diǎn)。現(xiàn)如今行業(yè)早已告別小眾定制化，進(jìn)入規(guī)模標(biāo)準(zhǔn)化階段。我發(fā)現(xiàn) Opus 4.5 的邏輯思考能力小幅領(lǐng)先 Opus 4.6，這個(gè)細(xì)節(jié)十分耐人尋味。從安全維度，也就是每百萬(wàn)行代碼的安全漏洞數(shù)量來(lái)看，高配版 GPT 5.2 位居榜首；從可靠性維度，即漏洞嚴(yán)重程度與百萬(wàn)行代碼問(wèn)題密度方面，高配版 Gemini 3 Pro 表現(xiàn)最優(yōu)，不同模型的優(yōu)勢(shì)領(lǐng)域差異十分鮮明。另外我還注意到，本次測(cè)評(píng)全部基于 Java 語(yǔ)言。

這一點(diǎn)至關(guān)重要，不同模型針對(duì)不同編程語(yǔ)言的訓(xùn)練側(cè)重點(diǎn)存在明顯差異。

即便如此，這份測(cè)評(píng)結(jié)果依舊極具參考價(jià)值。在結(jié)束這個(gè)話(huà)題之前，兩位還有沒(méi)有關(guān)于排行榜或模型特質(zhì)的內(nèi)容想要補(bǔ)充？

Manish Kapur：如果有聽(tīng)眾希望測(cè)評(píng)特定模型，排行榜頁(yè)面內(nèi)設(shè)有專(zhuān)屬提交表單，我們可以按需完成定制測(cè)評(píng)。

我們一直有收到大量的測(cè)評(píng)需求。團(tuán)隊(duì)也在盡力跟進(jìn)，但目前幾乎每?jī)芍芫蜁?huì)有新模型發(fā)布，更新的壓力巨大。如果某個(gè)熱門(mén)模型暫未收錄，只要市場(chǎng)關(guān)注度足夠高，我們都會(huì)優(yōu)先安排補(bǔ)充測(cè)評(píng)。

Matt Merrill：?jiǎn)渭兒闷嫦雴?wèn)一下，完成一輪完整的基準(zhǔn)測(cè)試需要多久？原本我以為會(huì)耗費(fèi)很久，實(shí)際情況是不是這樣？

Manish Kapur：初期測(cè)評(píng)周期確實(shí)較長(zhǎng)，不過(guò)現(xiàn)在我們搭建了成熟的自動(dòng)化測(cè)評(píng)框架，能夠快速完成各類(lèi)大模型的性能評(píng)估。

上幾輪測(cè)評(píng)最大的瓶頸出現(xiàn)在 Opus 4.6 發(fā)布時(shí)，當(dāng)時(shí)針對(duì)該模型的接口請(qǐng)求量暴增，服務(wù)器出現(xiàn)過(guò)載，響應(yīng)速度大幅下降，還頻繁出現(xiàn)超時(shí)問(wèn)題，我們只能反復(fù)重啟測(cè)試任務(wù)。

Chris Grams：結(jié)合過(guò)去六個(gè)月的研究成果，我想分享一個(gè)核心結(jié)論：企業(yè)與團(tuán)隊(duì)在選擇大語(yǔ)言模型時(shí)切勿只關(guān)注單一性能指標(biāo)，需要建立全局評(píng)估思維，綜合考量代碼冗余程度、安全隱患數(shù)量。編碼測(cè)試成績(jī)只是參考維度之一，實(shí)際評(píng)估需要兼顧更多細(xì)節(jié)。不少性能頂尖的模型，一旦結(jié)合認(rèn)知復(fù)雜度、代碼冗余度、調(diào)用成本等維度綜合評(píng)判，綜合性?xún)r(jià)比就會(huì)大打折扣，這些都是不可忽視的關(guān)鍵因素。

成本高低完全取決于調(diào)用模型所需的詞元消耗成本。企業(yè)需要綜合考量所有因素，而不能只單純關(guān)注性能表現(xiàn)，我認(rèn)為此前業(yè)界在評(píng)估模型時(shí)大多都將重心放在了性能層面。

Manish Kapur：除了成本之外，推理能力也至關(guān)重要。每款模型都支持不同的推理模式，一般有兩到四種可選模式。推理等級(jí)越高，成本越高，問(wèn)題求解耗時(shí)也越長(zhǎng)，但分析推導(dǎo)的詳盡程度會(huì)更高。

6 AI 讓新人更快，也讓經(jīng)驗(yàn)更值錢(qián)

Matt Merrill：我內(nèi)心同樣抱有顧慮，不禁會(huì)想：這類(lèi)工具的定價(jià)會(huì)不會(huì)大幅暴漲？廠(chǎng)商是不是想先牢牢鎖住用戶(hù)，搶占行業(yè)龍頭地位？在規(guī)劃自身團(tuán)隊(duì)與業(yè)務(wù)發(fā)展時(shí)，這也是我一直在思考的問(wèn)題。

接下來(lái)我們聊聊從業(yè)年限，以及從業(yè)經(jīng)驗(yàn)如何影響本次的調(diào)研結(jié)果。我深耕這個(gè)行業(yè)已有二十余年，我發(fā)現(xiàn)其中有一個(gè)現(xiàn)象十分值得深究。能否談?wù)勯_(kāi)發(fā)者的從業(yè)年限會(huì)如何影響他們對(duì) AI 工具的認(rèn)知？

Chris Grams：本次調(diào)研中有一項(xiàng)結(jié)果讓我們頗為意外：不同從業(yè)經(jīng)驗(yàn)層級(jí)的開(kāi)發(fā)者在 AI 工具的使用方式上存在巨大差異。初級(jí)開(kāi)發(fā)者表示，AI 能讓他們的工作效率提升 40%，但其中 66% 的人也坦言，AI 生成的代碼看似無(wú)誤，實(shí)則暗藏漏洞。他們上手寫(xiě)代碼的速度更快，卻常常陷入困惑，無(wú)法真正信任工具產(chǎn)出的結(jié)果。

反觀(guān)資深開(kāi)發(fā)者，他們的態(tài)度則更為謹(jǐn)慎理性。二者的使用方式截然不同。這份數(shù)據(jù)來(lái)自去年秋季的調(diào)研，65% 的資深開(kāi)發(fā)者主要借助 AI 理解老舊復(fù)雜代碼、編寫(xiě)文檔、梳理歷史遺留項(xiàng)目，或是用來(lái)校驗(yàn)內(nèi)容準(zhǔn)確性；而初級(jí)開(kāi)發(fā)者往往過(guò)度依賴(lài)工具，直接讓 AI 包攬全部編碼工作。

另外我想說(shuō)，如今 AI 代碼生成的質(zhì)量已有大幅提升。關(guān)注相關(guān)討論的人應(yīng)該能發(fā)現(xiàn)，去年 12 月中旬左右形成了普遍共識(shí)：恰逢年末假期，大批開(kāi)發(fā)者有時(shí)間體驗(yàn)各類(lèi)全新的大模型，切實(shí)感受到這類(lèi)工具的能力實(shí)現(xiàn)了質(zhì)的飛躍。即便是資深開(kāi)發(fā)者也開(kāi)始用它們來(lái)完成更復(fù)雜的工作。二者的核心差異在于，初級(jí)開(kāi)發(fā)者愿意貿(mào)然嘗試新工具，資深開(kāi)發(fā)者則更為克制，他們更清楚劣質(zhì)代碼上線(xiàn)的潛在風(fēng)險(xiǎn)，明白遺留問(wèn)題會(huì)在后續(xù)帶來(lái)巨大隱患。這就是兩類(lèi)開(kāi)發(fā)者最關(guān)鍵的區(qū)別，也和我們最初的調(diào)研預(yù)判有所出入。

Manish Kapur：資深開(kāi)發(fā)者會(huì)將 AI 工具當(dāng)作推理輔助工具，能夠讀懂并校驗(yàn)工具生成的代碼，具備獨(dú)立甄別判斷的能力。而初級(jí)開(kāi)發(fā)者恰恰缺少這份審慎，他們會(huì)直接照搬生成代碼，這正是從業(yè)經(jīng)驗(yàn)帶來(lái)的本質(zhì)區(qū)別。經(jīng)驗(yàn)豐富的開(kāi)發(fā)者習(xí)慣多方求證、多角度審視問(wèn)題，而新生代開(kāi)發(fā)者對(duì)新興技術(shù)的接納度更高、信任感更強(qiáng)。

Chris Grams：對(duì)于初級(jí)開(kāi)發(fā)者而言，當(dāng)下的處境其實(shí)充滿(mǎn)焦慮。自己耗費(fèi)數(shù)年苦心鉆研的編碼技能如今 AI 可以輕松實(shí)現(xiàn)，而應(yīng)用架構(gòu)設(shè)計(jì)這類(lèi)高階工程能力恰恰是他們的經(jīng)驗(yàn)短板，這也正是人類(lèi)開(kāi)發(fā)者區(qū)別于 AI 的核心競(jìng)爭(zhēng)力。對(duì)于資深開(kāi)發(fā)者來(lái)說(shuō)，當(dāng)下是機(jī)遇滿(mǎn)滿(mǎn)的階段，只要轉(zhuǎn)型成為 AI 調(diào)度統(tǒng)籌者就能把握優(yōu)勢(shì)。就像 Manish 提到的智能體集群概念，如何統(tǒng)籌調(diào)度多智能體協(xié)同工作也是近期社交平臺(tái)的熱門(mén)話(huà)題，不少人開(kāi)始搭建專(zhuān)屬智能體團(tuán)隊(duì)，拆分獨(dú)立任務(wù)、優(yōu)化多智能體協(xié)作與協(xié)同調(diào)度模式。不難預(yù)見(jiàn)，初級(jí)開(kāi)發(fā)者不能再局限于基礎(chǔ)編碼能力，必須向上學(xué)習(xí)高階技能才能保持職場(chǎng)競(jìng)爭(zhēng)力。

Matt Merrill：報(bào)告中還有一點(diǎn)值得關(guān)注，調(diào)研顯示，借助 AI 編碼工具，初級(jí)開(kāi)發(fā)者的工作滿(mǎn)意度顯著提升。結(jié)合你們的分享，這個(gè)結(jié)論也合乎情理。我平時(shí)不使用社交平臺(tái)，但你們提到的假期體驗(yàn)大模型這件事我深有同感。當(dāng)時(shí)平臺(tái)發(fā)放了免費(fèi)體驗(yàn)額度，我親自試用后徹底改變了對(duì)這類(lèi)工具效能的認(rèn)知，即便我從業(yè)多年，也深受震撼。看來(lái)有相同感受的人并不在少數(shù)，這一點(diǎn)十分有意思。

Chris Grams：確實(shí)如此，很多人都有同樣的感受。如今幾乎每天都能看到行業(yè)資深工程師、技術(shù)大牛分享相關(guān)體驗(yàn)，不少業(yè)內(nèi)頂尖開(kāi)發(fā)者都表示，如今已經(jīng)不再手動(dòng)編寫(xiě)代碼，核心工作變成了架構(gòu)設(shè)計(jì)、定制化訓(xùn)練專(zhuān)屬智能體、拆分和分配任務(wù)，以及推動(dòng)智能體之間的協(xié)作與代碼互審。行業(yè)變革的速度超乎想象。

Matt Merrill：沒(méi)錯(cuò)，發(fā)展速度著實(shí)令人震驚。你提到初級(jí)開(kāi)發(fā)者對(duì)這類(lèi)工具抱有極高的熱情，而我在體驗(yàn)過(guò)后，也對(duì)其改觀(guān)并充滿(mǎn)期待。我們聊到了去年 10 月至今的變化，我很好奇，資深開(kāi)發(fā)者的態(tài)度與認(rèn)知是否也在同步發(fā)生轉(zhuǎn)變？從 10 月至今，你們是否觀(guān)察到了相關(guān)變化？

Chris Grams：我們正計(jì)劃開(kāi)展新一輪短期抽樣調(diào)研，正是因?yàn)樾袠I(yè)變化節(jié)奏過(guò)快，需要持續(xù)跟進(jìn)一線(xiàn)市場(chǎng)動(dòng)態(tài)、補(bǔ)充調(diào)研數(shù)據(jù)，形成對(duì)比基準(zhǔn)，清晰捕捉行業(yè)變化。后續(xù)調(diào)研完成后，我們會(huì)同步分享新增數(shù)據(jù)，敬請(qǐng)期待。去年秋季開(kāi)展調(diào)研時(shí)，我們帶著諸多預(yù)設(shè)假設(shè)，如今隨著行業(yè)發(fā)展，我也誕生了許多新的猜想。社交平臺(tái)上的相關(guān)討論熱度居高不下，說(shuō)實(shí)話(huà)，我很好奇，這些前沿探討究竟只屬于小眾先鋒群體，還是廣大企業(yè)研發(fā)團(tuán)隊(duì)都已開(kāi)始落地智能體技術(shù)。

去年秋季的調(diào)研數(shù)據(jù)顯示，已有大量企業(yè)開(kāi)始試水智能體工具，而在過(guò)去一個(gè)半月里，相關(guān)落地規(guī)模大概率還在持續(xù)擴(kuò)張。我們需要通過(guò)新一輪調(diào)研驗(yàn)證實(shí)際情況，拿到精準(zhǔn)結(jié)論。

7 快而不穩(wěn)，不如不快

Matt Merrill：結(jié)合我服務(wù)大型企業(yè)客戶(hù)的經(jīng)驗(yàn)，過(guò)去半年里，企業(yè)對(duì)智能體與 AI 編碼工具的落地使用率大幅攀升，變化十分明顯。還有一個(gè)有趣的發(fā)現(xiàn)：AI 在全新開(kāi)發(fā)項(xiàng)目與老舊存量項(xiàng)目中的落地效果差異顯著。報(bào)告中是否提及 AI 在哪類(lèi)場(chǎng)景的落地效果更好、認(rèn)可度更高？

Manish Kapur：數(shù)據(jù)顯示，AI 最適合從零開(kāi)始的新項(xiàng)目，90% 的開(kāi)發(fā)者都會(huì)在新項(xiàng)目中使用 AI 工具。但在對(duì)接現(xiàn)有存量代碼庫(kù)時(shí)，效能會(huì)大幅下降，尤其是那些使用小眾老舊開(kāi)發(fā)語(yǔ)言構(gòu)建的項(xiàng)目，短板尤為突出。大語(yǔ)言模型對(duì)主流編程語(yǔ)言適配性極佳，例如 Python、JavaScript、TypeScript、Java 等，但面對(duì)老舊應(yīng)用系統(tǒng)與冷門(mén)技術(shù)棧的遺留代碼，表現(xiàn)往往差強(qiáng)人意。僅有 43% 的開(kāi)發(fā)者認(rèn)為，AI 能夠高效完成老舊框架、冷門(mén)語(yǔ)言的代碼迭代與優(yōu)化工作，這是本次調(diào)研得出的觀(guān)察結(jié)論之一。

核心問(wèn)題還在于代碼準(zhǔn)確性。新項(xiàng)目業(yè)務(wù)邏輯簡(jiǎn)單、代碼體量小，現(xiàn)階段頂尖大語(yǔ)言模型能夠保障極高的輸出準(zhǔn)確率；而老舊存量項(xiàng)目存在大量非顯性代碼耦合、無(wú)文檔隱性規(guī)則、老舊接口邏輯限制等問(wèn)題，僅依靠代碼文本很難梳理清楚底層邏輯，這也是 AI 難以適配存量改造場(chǎng)景的主要原因。目前，大語(yǔ)言模型在老舊存量項(xiàng)目中的應(yīng)用普及率整體偏低。

Matt Merrill：這個(gè)結(jié)論完全符合客觀(guān)邏輯。還有一個(gè)我很好奇但尚未驗(yàn)證的問(wèn)題：自 10 月以來(lái)，有沒(méi)有團(tuán)隊(duì)嘗試借助智能體 MD 說(shuō)明文檔或是同類(lèi)輔助文件為老舊項(xiàng)目提供邏輯參考？你們是否了解這類(lèi)落地實(shí)踐？

Manish Kapur：目前暫未聽(tīng)說(shuō)專(zhuān)門(mén)針對(duì)老舊存量項(xiàng)目的相關(guān)方案，但這個(gè)思路具備可行性與合理性。云原生代碼工具中已經(jīng)引入規(guī)則、技能、鉤子機(jī)制，鉤子可以保障代碼基礎(chǔ)規(guī)范，規(guī)則能夠劃定開(kāi)發(fā)約束。依靠這類(lèi)配套機(jī)制，AI 未來(lái)完全有機(jī)會(huì)實(shí)現(xiàn)老舊項(xiàng)目改造。

Matt Merrill：我十分期待這類(lèi)方案的落地。我們正在對(duì)接的一家合作企業(yè)有一套運(yùn)行二十年、主要基于 C++ 開(kāi)發(fā)的老舊系統(tǒng)，技術(shù)負(fù)責(zé)人長(zhǎng)期深陷維護(hù)難題。我建議對(duì)方進(jìn)行試點(diǎn)嘗試，將系統(tǒng)沉淀的隱性業(yè)務(wù)經(jīng)驗(yàn)、團(tuán)隊(duì)專(zhuān)屬業(yè)務(wù)邏輯整理錄入到智能體配套文件中，看看實(shí)際落地效果。后續(xù)我們會(huì)結(jié)合本輪抽樣調(diào)研結(jié)果同步跟進(jìn)并反饋試點(diǎn)的進(jìn)展。

Manish Kapur：正如你所說(shuō)，上下文信息至關(guān)重要。為智能體補(bǔ)充完善的項(xiàng)目文檔、業(yè)務(wù)背景與代碼上下文信息必然能有效提升其在老舊存量項(xiàng)目中的適配能力。

Matt Merrill：簡(jiǎn)單再問(wèn)最后一個(gè)小問(wèn)題。本次調(diào)研受訪(fǎng)者覆蓋全球各地，不同地區(qū)的開(kāi)發(fā)者之間是否存在明顯的地域化使用差異？

Chris Grams：我們暫未統(tǒng)計(jì)并發(fā)布相關(guān)結(jié)論。整體來(lái)看，全球開(kāi)發(fā)者面臨的行業(yè)環(huán)境與技術(shù)變革趨勢(shì)基本一致。我們專(zhuān)門(mén)篩選過(guò)具備統(tǒng)計(jì)學(xué)意義的差異化數(shù)據(jù)，但并沒(méi)有找到足夠顯著的地域特征。無(wú)論身處全球哪個(gè)地區(qū)，所有人都在同步經(jīng)歷這場(chǎng) AI 技術(shù)變革。

Matt Merrill：可以理解，我只是單純好奇。本次分享接近尾聲，這次調(diào)研內(nèi)容讓我收獲滿(mǎn)滿(mǎn)。我脫離一線(xiàn)開(kāi)發(fā)崗位、轉(zhuǎn)入管理崗位已有一段時(shí)間，雖然仍會(huì)編寫(xiě)代碼，但核心工作以管理為主。換位思考來(lái)看，當(dāng)下很多企業(yè)管理者會(huì)強(qiáng)制要求團(tuán)隊(duì)落地 AI 工具，部分目標(biāo)切合實(shí)際，也有不少要求脫離了現(xiàn)實(shí)。對(duì)于廣大從業(yè)者而言，如果上級(jí)制定了不切實(shí)際的 AI 落地目標(biāo)，你會(huì)給出哪些建議？

Chris Grams：企業(yè)需要厘清核心訴求：使用 AI 是追求編碼速度的提升還是整體交付上線(xiàn)效率的提升？二者截然不同，后者落地難度要大得多。很多企業(yè)沒(méi)能兌現(xiàn) AI 的落地價(jià)值，根源就在于只聚焦代碼提速，卻忽略了核心環(huán)節(jié)。在 AI 時(shí)代，代碼交付前的質(zhì)量校驗(yàn)、安全風(fēng)控才是關(guān)鍵。對(duì)于具備完善傳統(tǒng)代碼審核流程的企業(yè)而言，落地 AI 編碼工具會(huì)更加順暢，搭配自動(dòng)化代碼審核工具、代碼質(zhì)量檢測(cè)平臺(tái)，就能構(gòu)建出完整的風(fēng)控體系。

總而言之，企業(yè)必須建立完善的 AI 生成代碼質(zhì)檢與安全審核流程。如果暫時(shí)缺失這套機(jī)制，研發(fā)人員需要主動(dòng)向上溝通，讓管理層明白：AI 快速產(chǎn)出的代碼不代表可以直接投產(chǎn)上線(xiàn)。劣質(zhì)代碼會(huì)拉高企業(yè)運(yùn)營(yíng)風(fēng)險(xiǎn)、產(chǎn)生難以維護(hù)的冗余代碼，衍生各類(lèi)后續(xù)問(wèn)題。

Manish Kapur：核心就是堅(jiān)守質(zhì)量底線(xiàn)。提速增效固然重要，但絕不能犧牲代碼質(zhì)量、軟件穩(wěn)定性與應(yīng)用安全性，這一點(diǎn)絕對(duì)不能妥協(xié)。

Matt Merrill：正所謂凡事過(guò)猶不及。這讓我想到一個(gè)經(jīng)典橋段，流水線(xiàn)上的巧克力源源不斷產(chǎn)出，一旦速度過(guò)快，就會(huì)難以把控品質(zhì)，AI 編碼工具的使用也是同理。

Chris Grams：確實(shí)是這樣。

8 2026 年，管理者必須正視代碼信任危機(jī)

Matt Merrill：站在普通開(kāi)發(fā)者的角度，本次調(diào)研最重要的啟發(fā)是什么？

Manish Kapur：對(duì)于開(kāi)發(fā)者而言，核心技能已經(jīng)不再是單純的編寫(xiě)代碼，編碼已經(jīng)成為可被工具替代的基礎(chǔ)能力。未來(lái)的核心能力是讀懂、校驗(yàn)智能體與 AI 工具生成的代碼，完善審核機(jī)制、搭建開(kāi)發(fā)約束規(guī)則。無(wú)論代碼由誰(shuí)產(chǎn)出，最終的責(zé)任歸屬依舊在開(kāi)發(fā)者身上。從業(yè)者需要恪守開(kāi)發(fā)規(guī)范、做好代碼校驗(yàn)、把控產(chǎn)出質(zhì)量，不必再一味執(zhí)著于學(xué)習(xí)新的編程語(yǔ)言。

Chris Grams：結(jié)合我剛才的觀(guān)點(diǎn)再補(bǔ)充一點(diǎn)：想要保持職場(chǎng)競(jìng)爭(zhēng)力、緊跟行業(yè)發(fā)展，開(kāi)發(fā)者當(dāng)下最需要掌握的能力是管理、調(diào)度、訓(xùn)練各類(lèi)智能體。熟練運(yùn)用頂尖大模型工具、保持持續(xù)學(xué)習(xí)的好奇心至關(guān)重要，行業(yè)迭代速度極快，剛掌握的技術(shù)可能短時(shí)間內(nèi)就會(huì)被新技術(shù)淘汰。從業(yè)者需要保持敏銳，每周固定留出時(shí)間學(xué)習(xí)、測(cè)試、嘗試新工具與新方案。近日我看到一個(gè)觀(guān)點(diǎn)：今年或?qū)⒊蔀樗屑夹g(shù)人職業(yè)生涯的關(guān)鍵轉(zhuǎn)折點(diǎn)，行業(yè)變革空前迅速，一旦停止學(xué)習(xí)、固步自封，很快就會(huì)被行業(yè)淘汰，且很難實(shí)現(xiàn)追趕。

我也時(shí)常以此自省，督促自己堅(jiān)持學(xué)習(xí)。每天工作結(jié)束之前都會(huì)嘗試接觸新工具、新用法，對(duì)比每日實(shí)操效果，就能切實(shí)感受到技術(shù)的快速迭代與進(jìn)步。

我十分認(rèn)同兩個(gè)核心觀(guān)點(diǎn)：一個(gè)是不能脫離基礎(chǔ)底線(xiàn)，代碼漏洞、質(zhì)量問(wèn)題永遠(yuǎn)是重中之重；一個(gè)是必須緊跟前沿技術(shù)趨勢(shì)，二者兼顧，才能長(zhǎng)久保持競(jìng)爭(zhēng)力。最后一個(gè)問(wèn)題，對(duì)于研發(fā)管理者、技術(shù)負(fù)責(zé)人來(lái)說(shuō)，本次調(diào)研最大的借鑒意義是什么？

管理者必須正視代碼信任危機(jī)。如今 AI 技術(shù)持續(xù)發(fā)展，但調(diào)研初期的一組核心數(shù)據(jù)值得所有人重視：96% 的開(kāi)發(fā)者無(wú)法完全信任 AI 生成的代碼。并非工具產(chǎn)出的代碼質(zhì)量不佳，事實(shí)上其水準(zhǔn)一直在穩(wěn)步提升，核心原因在于：代碼故障、安全漏洞產(chǎn)生的后果不會(huì)由 AI 承擔(dān)，最終責(zé)任仍歸屬企業(yè)與團(tuán)隊(duì)管理者。作為負(fù)責(zé)人，必須明確代碼的人工責(zé)任制，搭建完善的審核體系，嚴(yán)守上線(xiàn)關(guān)口，杜絕盲目直接上線(xiàn) AI 生成的代碼。除非是追求極致創(chuàng)新、能夠承擔(dān)試錯(cuò)風(fēng)險(xiǎn)的初創(chuàng)團(tuán)隊(duì)，普通企業(yè)手握大量用戶(hù)數(shù)據(jù)與核心業(yè)務(wù)信息，必須審慎校驗(yàn)每一段代碼的可靠性。

過(guò)去的難題是如何產(chǎn)出更多代碼，這個(gè)問(wèn)題早已解決。如今我們能夠生成質(zhì)量相當(dāng)不錯(cuò)的優(yōu)質(zhì)代碼，且代碼質(zhì)量還在持續(xù)提升。

但關(guān)鍵難點(diǎn)在于，必須要有專(zhuān)人審核，愿意簽字確認(rèn)：“我批準(zhǔn)將這段代碼投入生產(chǎn)環(huán)境，并承擔(dān)隨之而來(lái)的所有風(fēng)險(xiǎn)。”這，將會(huì)是 2026 年面臨的最大挑戰(zhàn)。

Matt Merrill：說(shuō)得很有道理。作為管理者，我會(huì)想到，既然調(diào)研顯示 66% 的開(kāi)發(fā)者并不信任 AI 生成的代碼，那就必須加入人工審核。我覺(jué)得以這個(gè)引人深思的觀(guān)點(diǎn)收尾恰到好處。今晚的交流里，還有沒(méi)有什么內(nèi)容是你們想補(bǔ)充提及的？

Chris Grams：我們之前提到的大模型排行榜項(xiàng)目也在持續(xù)推進(jìn)，我們每天都會(huì)關(guān)注新上線(xiàn)的模型、實(shí)測(cè)數(shù)據(jù)，親眼見(jiàn)證這類(lèi)技術(shù)在不斷進(jìn)步。當(dāng)下是變革迅猛的一段時(shí)期。我的職業(yè)生涯經(jīng)歷過(guò)數(shù)次行業(yè)轉(zhuǎn)折，相信你們二位也是，但像如今這樣的變革盛況，前所未有。身處這個(gè)行業(yè)，既充滿(mǎn)挑戰(zhàn)，又樂(lè)趣十足。前路略帶未知與忐忑，但整體充滿(mǎn)意義，非常感謝你的邀約與交流。

Matt Merrill：非常感謝二位的精彩分享。

查看英文原文：

https://softwareengineeringdaily.com/2026/04/23/hype-and-reality-of-the-ai-coding-shift

聲明：本文為 InfoQ 編譯，不代表平臺(tái)觀(guān)點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

世界模型的下一個(gè)突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過(guò)？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，4 大核心專(zhuān)題等你來(lái)：世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專(zhuān)題全面開(kāi)放征稿。

誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026，期待與你同行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.