![]()
作者 | Leela Kumili
譯者 | 田橙
Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質(zhì)量。該方法在代碼評審期間動態(tài)生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據(jù) Meta 的工程博客及相關研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。
這一轉(zhuǎn)變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。
正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:
AI 生成代碼和測試的速度已經(jīng)超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。
JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗證不同,該系統(tǒng)會推斷開發(fā)者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現(xiàn)的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。
正如 Meta 研究科學家 Mark Harman 所 指出 的:
這項工作體現(xiàn)了一種根本性的轉(zhuǎn)變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉(zhuǎn)向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。
一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會分析 diff,以提取行為意圖和風險區(qū)域,然后執(zhí)行意圖重建和變更風險建模,以理解哪些內(nèi)容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現(xiàn)結果。
Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質(zhì)量。該方法在代碼評審期間動態(tài)生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據(jù) Meta 的工程博客及相關研究,這一方法在 AI 輔助開發(fā)環(huán)境中將缺陷檢測能力提升了約 4 倍。
這一轉(zhuǎn)變源于代理式工作流的興起,在這種工作流中,AI 系統(tǒng)越來越多地生成或修改大段代碼。在這種環(huán)境下,傳統(tǒng)測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。
正如 ICT 系統(tǒng)測試工程師 Ankit K. 所 觀察到的:
AI 生成代碼和測試的速度已經(jīng)超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。
JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態(tài)驗證不同,該系統(tǒng)會推斷開發(fā)者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現(xiàn)的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。
正如 Meta 研究科學家 Mark Harman 所 指出 的:
這項工作體現(xiàn)了一種根本性的轉(zhuǎn)變:不再只是讓現(xiàn)有測試更穩(wěn),而是轉(zhuǎn)向去發(fā)現(xiàn)未來可能出現(xiàn)的問題。
一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統(tǒng)會分析 diff,以提取行為意圖和風險區(qū)域,然后執(zhí)行意圖重建和變更風險建模,以理解哪些內(nèi)容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現(xiàn)結果。
![]()
Dodgy diff 和意圖感知工作流用于生成即時捕獲(Just-in-Time Catches)的架構
Meta 表示,該系統(tǒng)在超過 22,000 個生成測試上進行了評估。結果顯示,與基線生成測試相比,缺陷檢測能力提升了 4 倍;與偶然結果相比,在檢測有意義失敗方面最高提升達 20 倍。在一個評估子集中,共識別出 41 個問題,其中 8 個被確認是真實缺陷,包括若干可能影響生產(chǎn)環(huán)境的問題。
Mark Harman 在另一篇 LinkedIn 帖子 中強調(diào):
變異測試在學術圈沉寂了幾十年之后,終于開始走向工業(yè)界,并正在重塑實用且可擴展的軟件測試 2.0。
捕獲型 JiT 測試專為 AI 驅(qū)動的開發(fā)設計,按每次變更生成,用于在無需持續(xù)維護的情況下檢測嚴重且意外的缺陷。它們通過隨著代碼演進自動適配并將工作從人類轉(zhuǎn)移到機器,從而減少脆弱的測試套件。只有在發(fā)現(xiàn)有意義的問題時才需要人工審查。這將測試從靜態(tài)正確性驗證重新定義為面向特定變更的故障檢測。
https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/
聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構,還能撐多久?
AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構。14 個專題全面開放征稿。
誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.