<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      生成率從8%到60%:快手智能測試用例生成系統的四階進化

      0
      分享至


      轉載來源 | 快手技術

      概 況

      在《采納率從 7.9% 到 54%:快手智能 Code Review 的三階進化》中,快手研發效能團隊重點分享了智能代碼審查系統如何通過質量過濾與知識沉淀,將 AI 能力嵌入研發交付鏈路,使其從個人輔助工具升級為團隊級的協作生產力。但要真正實現從“個人提效”到“組織效能”的閉環,僅優化代碼合并前的質量關口仍然不夠,AI 能力還需要進一步向研發流程的前后環節延展。

      在全面推進「AI 研發范式升級」的進程中,如何將個人 AI 工具的零散提效沉淀為組織級的交付能力,是當前效能升級的核心命題。在需求評審之后、測試執行之前,用例設計這一關鍵環節,正是影響交付質量與效率的另一瓶頸。圍繞這一問題,我們構建了智能用例生成系統,實現從手動編寫到審核校驗的模式轉變,這種轉變不僅釋放了測試人員的構思壓力,更讓 AI 升級為流程中穩定、可信的生產力環節。

      以往寫用例全靠人工硬磨,效率低且難保全。為此,快手研發效能團隊復盤了智能用例生成系統的演進路徑,總結了快手智能用例生成系統從「Prompt 工程探索」到「Multi-Agent 人機協作」,再到「知識增強策略」,最終走向「自檢測 & 自進化」的四階架構演進。

      針對生成質量不穩、業務理解淺、維護成本高這三大難題,我們通過「人機協作」兜底質量、「知識工程」對齊業務場景、「自檢測 & 自進化」降低人工維護負擔。這套思路直接將用例生成率從 8% 拉升至 60%+,累計生成測試用例逾 120 萬條;該系統已經成為全公司測試人員日常使用的標準化生產力工具,真正跑通了從個人 AI 提效到組織交付效能提升的閉環路徑。


      背 景

      在快手持續推進研發效能提升的過程中,我們對測試階段各環節的耗時進行了深入分析,測試用例設計階段(即測試用例編寫階段)在整個測試周期中占據了 13.69% 的時間成本,與用例執行、回歸測試并列為耗時最高的三大環節;這一數據揭示了傳統測試模式下的瓶頸:測試人員將大量精力投入在重復性的用例撰寫工作中,而非聚焦于更具價值的測試策略設計和缺陷挖掘。


      在用例設計提效方面,快手此前主要通過 KCase 平臺的用例編寫在線化能力進行優化。該方案實現了用例模板的規范化與標準化、多人協作編輯與版本管理、用例資產的結構化沉淀。

      然而,這種模式本質上仍依賴人工逐條編寫,效率提升存在明顯天花板。面對快手業務的高速迭代和海量的功能需求,測試團隊面臨以下挑戰:


      2023 年以來,以 GPT 系列為代表的大語言模型(LLM)在代碼理解、邏輯推理和文本生成方面實現了質的飛躍。快手質量工程團隊敏銳捕捉到這一技術拐點,從 2024 年正式開始啟動 AI 生成手工測試用例的探索項目,目標是將「人工編寫」升級為「AI 生成 + 人工審核」的全新模式,釋放測試人員的生產力。

      效 果

      快手智能用例生成系統從 V1.0 到 V4.0 的演進歷程,涵蓋從初期的 Prompt 工程探索(生成率 8%),到 Multi-Agent 人機協作模式(生成率 12%),再到知識增強策略(生成率 35%),最終通過自檢測與自進化實現突破性提升(生成率超 60%)。目前,該系統已在快手實現公司級 60% 以上的用例生成率,累計生成測試用例逾 120 萬條。


      從 8% 到 60%+ 的生成率躍升,體現了快手技術理念的持續演進:

      1. V1.0:驗證了“AI 能夠生成測試用例”的可行性

      2. V2.0:確立了“人機協作生成優于純自動化生成”的實踐路徑

      3. V3.0:揭示了“知識比算法更關鍵”的本質規律

      4. V4.0:實現了“AI 自我進化”的能力突破

      我們不再糾結于 AI 是否能夠替代人類,而是為“AI 如何賦能人類更高效工作”尋求解法。

      實踐 1:從 V1.0 到 V4.0 的技術架構演進實踐

      3.1 V1.0 版本:Prompt 工程探索階段

      3.1.1 初版設計思路

      • 核心假設:大模型已具備足夠的“測試常識”,只需通過精心設計的 Prompt 引導,即可生成高質量測試用例。

      • 技術方案:V1.0 單體生成流程


      3.1.2 核心技術實現

      • 技術架構


      • Prompt 結構設計

        • 初版 Prompt 架構


      • 存在的問題


      • 第一輪優化:Few-shot Learning

      • 問題分析:生成的用例質量仍參差不齊,主要原因是模型對“高質量用例”的標準理解不足。

      • 解決方案:引入來自業務真實場景的高質量測試用例作為樣本,提升模型輸出的一致性和專業性。

      • Few-shot Prompt 架構:


      • 關鍵發現:

        • 提供 3 個樣例為性價比最優選擇(邊際收益趨于平緩)

        • 樣例質量遠重于數量(1 個高質量樣例 > 5 個低質量樣例)

      • 實際生成效果對比:


      • 第二輪優化:場景化 Prompt 模板

      • 問題分析:不同類型的需求文檔(如 PRD、技術方案 等)需要匹配差異化的測試策略,通用 Prompt 難以覆蓋多樣化測試目標與表達要求。

      • 解決方案:構建多場景路由機制,依據輸入文檔的類型自動匹配最優的 Prompt 模板,實現精準化、專業化測試用例生成。



      3.1.3 效果測評

      為了驗證 Prompt 優化策略的有效性,我們針對多個關鍵動作開展了系統性測評。測評基于真實業務場景中的 PRD 和技術方案文檔,采用統一測試集進行對比評估。


      • 測評一:Few-shot Learning 效果驗證

        • 測試場景: 基于 PRD 生成功能測試用例(禮物貼紙玩法模塊)

        • 對比組:

        • 對照組: 無 Few-shot 的初始版本 Prompt

        • 實驗組:引入 3 個高質量樣例的 Few-shot Prompt

        • 測評結果:


      • 關鍵發現:


      • 測評二:場景化 Prompt 模板效果驗證

        • 測試場景: 基于不同類型文檔生成測試用例

        • 對比組:

        • 對照組:通用 Prompt(不區分文檔類型)

        • 實驗組: 場景化 Prompt(根據文檔類型自動匹配專用模板)

      場景 1:PRD 功能用例生成


      典型改進案例:


      場景 2:技術方案用例生成


      典型改進案例:


      3.1.4 核心問題

      盡管經過多輪優化,V1.0 仍面臨三大難以突破的瓶頸:

      • 問題 1:長文檔理解能力不足


      • 問題 2:缺乏業務背景知識


      • 問題 3:生成過程“黑盒”


      3.1.5 階段總結


      結論:需要從系統架構層面重新設計解決方案

      3.2 V2.0 版本:Multi-Agent 協作與人機交互階段

      3.2.1 設計理念轉變

      QA 編寫測試用例的真實思維過程并非“一步到位”,而是分階段逐步推進的,具體如下:


      1. QA 會先“拆解測試點(模塊)”再“細化為具體用例”

      2. 每個階段都存在 Review 環節,便于及時糾偏

      3. 若前期階段出現偏差,后續將越走越偏

      基于此,我們對于 V2.0 采用了新的設計思路,即模擬人類思維方式,引入 Multi-Agent 協作機制,并在關鍵節點支持人工介入。

      3.2.2 Multi-Agent 架構設計

      • 業務流程


      • 技術架構


      3.2.3 核心 Agent

      • 文檔解析 Agent

      這一 Agent 的職責是,對多種格式的輸入文檔進行標準化處理,提取其中的有效信息。

      • 文檔解析流程:


      • 實際案例:


      • 效果示例:


      • 模塊生成 Agent

      這一 Agent 的職責是從清洗后的文檔中提取測試點,生成結構化的測試模塊樹。


      • 用例生成 Agent

      這一 Agent 的職責是,基于用戶確認的測試模塊,生成詳細的測試用例。


      3.2.4 效果測評

      為驗證 Multi-Agent 架構與人機協作機制的有效性,我們針對 V2.0 版本的關鍵動作開展了基于真實業務場景的系統性測評,從多個維度對比 V1.0 與 V2.0 的表現差異。

      • 測評指標說明


      • 測評一:文檔解析 Agent 效果驗證

      • 測試場景: 處理不同長度和復雜度的 PRD 文檔

      • 對比組:

      • 對照組:V1.0 直接輸入完整文檔

      • 實驗組:V2.0 經文檔解析 Agent 預處理后輸入

      • 測評結果:


      • 關鍵發現:


      • 測評二:模塊生成 Agent 效果驗證

        • 測試場景: 基于預處理后的文檔生成測試模塊樹

        • 測評結果:


      • 關鍵發現:


      • 測評三:人機協作機制效果驗證

        • 測試場景: 對比 V1.0(黑盒模式)與 V2.0(分階段 Review)的用戶體驗與效率

        • 測評結果:


      • 關鍵發現:


      3.2.5 階段總結


      3.3 V3.0 版本:知識工程階段

      3.3.1 設計動機

      我們發現,V2.0 遺留著一個核心問題,即生成的用例缺乏“業務深度”。


      基于此,我們調整了 V3.0 的設計目標,即構建體系化的知識引入機制,使 AI 具備“懂業務”的能力。

      3.3.2 架構設計

      • 技術架構


      • 知識引入的四個維度


      3.3.3 RAG 檢索增強生成

      • RAG 整體架構


      召回結果的價值:

      1. 提供了詳細的步驟參考(如“URL 參數攜帶 need_amount”)

      2. 補充了業務規則(如“充值后自動返回”)

      3. 最重要:帶入了歷史缺陷經驗(并發重復扣款、支付超時重復訂單)

      • 基于 RAG 增強的用例生成


      3.3.4 效果測評

      為驗證體系化知識引入機制的有效性,我們針對 V3.0 的關鍵功能進行了基于真實業務場景的系統性測評,從多個維度對比 V2.0 與 V3.0 的表現差異。

      • 測評指標說明


      • 測評一:RAG 檢索增強生成效果驗證

        • 測試場景: 基于 PRD 生成測試用例,對比有無 RAG 增強的效果

        • 對比組:

        • 對照組:V2.0 僅基于 PRD + Few-shot 樣例生成用例

        • 實驗組:V3.0 基于 PRD + RAG 檢索的歷史用例和業務知識生成用例

        • 測評結果:


      • 關鍵發現:


      • 測評二:知識引入綜合效果驗證

        • 測試場景: 對比 V2.0 和 V3.0 在整體用例生成質量上的差異

        • 測評結果:


      典型改進案例:【直播禮物需求】


      3.3.5 階段總結


      3.4 V4.0 版本:自主性 & 自進化階段

      3.4.1 技術架構


      3.4.2 核心突破一:自主評審,Review-Critique 生成模式

      • 設計動機

      傳統的 AI 生成采用“單次直出”模式,類似于只會答題而不會檢查的學生。為提升生成質量,需賦予 AI “自我反思”能力,構建“生成 - 評審 - 優化”的自主評審閉環機制。

      關鍵設計理念:


      • Critic(判別):AI 扮演“評審員”角色,對生成結果進行系統性審查并給出專業指導建議

      • Generator(生成):根據評審意見自動調整與優化輸出內容

      • 離線異步:因多輪迭代耗時較長,采用后臺處理結合通知機制,保障效率與響應性

      • 完整技術流程

        • 整體架構


      階段一:模塊級評審 ->優化閉環(結構治理)

      自主評審 Agent —— 模塊審查維度詳解:


      輸出示例(未通過):


      階段二:用例級評審 ->優化閉環(細節打磨)

      自主評審 Agent

      • 用例審查策略:全局 Review + 逐條細節檢查

      • 用例審查維度:


      輸出示例(未通過):


      • 質量指標與效果

      對比傳統模式的提升:


      3.4.3 核心突破二:基于測試計劃的自進化場景規則模板

      • 問題背景:知識維護的困境

      在 V3.0 階段,為了讓 AI 理解業務,需人工編寫大量團隊業務模板(業務已維護 170+ 套業務定制的團隊模板),但該模式存在三大痛點:

      1. 維護成本高:每個新業務場景均需人工梳理規則

      2. 知識更新慢:歷史缺陷經驗無法及時同步至模板

      3. 專家依賴強:需資深 QA 才能總結高質量模板

      因此,我們的核心設計理念是讓系統從歷史數據中自動學習,實現隱性知識顯性化。

      • 技術方案:雙層模板體系

      我們構建了兩種層級的自進化模板:


      • 單一場景知識:精準規則提取

        • 定位:針對特定微場景(如“直播間送禮”、“評論輸入框”)的精確規則

        • 作用:作為 RAG 鏈路中的上下文參考;自動補齊測試點,降低遺漏率

        • 場景模版生成流程


      • RAG 召回流程


      • 通用場景模板:聚類與抽象

        • 定位:多個相似場景聚合而成的通用規范(如“消費端評論發布通用模板”)

        • 作用:支持手動召回的 RAG 鏈路;作為明確的生成規則,提升精度

        • 生成策略:


      • AI 聚合核心邏輯:

        • 提取共性:保留出現在兩個及以上場景中的規則

        • 去除個性:過濾僅屬于特定需求的特殊邏輯

        • 保留具體細節:避免籠統表述如“參考歷史模板”,必須明確列出具體的驗證點

      • 核心價值與成效

        • 降低知識維護成本


      • 提升生成質量


      3.4.4 階段總結


      實踐 2: 四層架構驅動的方法論實踐

      圖片

      AI 測試用例生成系統的成功,往往依賴于一套分層遞進的架構體系。基于此,我們在實踐中提煉出“四層架構”模型:場景分層 → 用戶運營 → 知識運營 → Agentic 架構,自上而下指導決策方向,自下向上提供能力支撐。

      4.1 四層架構全景


      4.2 場景分層 —— 選對戰場

      我們的核心原則是不追求“全覆蓋”,而是基于價值 x 復雜度矩陣進行精準突破。


      4.3 用戶運營 —— Badcase 驅動閉環

      Badcase 是最好的老師,通過系統化收集與分析用戶反饋,驅動持續迭代優化。

      • Badcase 分類與解決路徑


      • 閉環運營流程


      關鍵指標演進:


      4.4 四層協同:從 Badcase 到系統進化

      我們以一個 Badcase 如何驅動四層協同進化來示例。

      • 【觸發】用戶反饋:直播送禮場景缺少“并發送禮”測試點

      • 【第一層 - 場景分層】

        判定:直播送禮屬于“高價值”場景,值得深入優化

      • 【第二層 - 用戶運營】

        Badcase 分類:覆蓋類問題

        根因分析:知識庫缺少并發場景的歷史缺陷數據

      • 【第三層 - 知識運營】

        補充缺陷庫:新增“并發送禮重復扣款”歷史 Bug 記錄

        更新規則庫:提取“支付場景必須驗證并發”規則

        自動更新模板:直播送禮模板中新增并發測試點

      • 【第四層 - Agentic 架構】

        RAG 檢索:后續生成自動召回并發相關知識

        Critique Agent:自動檢查是否覆蓋并發場景

      • 【結果】同類 Badcase 不再出現,場景覆蓋率提升至 92%

      4.5 方法論總結


      核心啟示:

      • 自頂向下做決策:通過場景分層明確資源投入方向,確保戰略聚焦

      • 自底向上建能力:以 Agentic 架構支撐知識運營,推動能力持續沉淀與復用

      • Badcase 是進化燃料:每個問題都是優化契機,形成“反饋→改進→提升”的持續進化飛輪

      展 望

      經過從 V1.0 到 V4.0 的持續演進,快手智能測試用例生成系統已完成了從「實驗性工具」到「標準化生產力工具」的跨越。


      然而,我們也認識到,測試效率提升空間遠不止于「生成」環節,測試人員仍需投入大量時間在手工用例執行上,這是下一階段的核心突破方向。未來,我們將核心突破聚焦于「AI 智能執行用例」場景,構建從用例生成到用例執行的全鏈路智能化能力。

      具體包含如下三個方向:


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      電動車電池終于要變了:半固態電池真的來了

      電動車電池終于要變了:半固態電池真的來了

      像素與芯片
      2026-05-08 23:31:19
      得了文班亞馬還不知足,還惦記文班亞昕,馬刺管理層我勸你善良

      得了文班亞馬還不知足,還惦記文班亞昕,馬刺管理層我勸你善良

      兵哥籃球故事
      2026-05-09 22:18:27
      全網瘋傳的“八段錦神話”破滅了,網友:太毒了……

      全網瘋傳的“八段錦神話”破滅了,網友:太毒了……

      人格志
      2026-05-09 20:17:27
      解放前特務用很小的電臺就能向臺灣發報,可如今為什么沒法做到?

      解放前特務用很小的電臺就能向臺灣發報,可如今為什么沒法做到?

      宅家伍菇涼
      2026-05-09 09:41:53
      上海綠捷,串標行為情節特別嚴重!涉金額約3.23億元、9.6萬多名中小學生餐食供應

      上海綠捷,串標行為情節特別嚴重!涉金額約3.23億元、9.6萬多名中小學生餐食供應

      野渡商業評論
      2026-05-09 18:23:36
      這出黑色幽默,沒人笑得出來

      這出黑色幽默,沒人笑得出來

      梳子姐
      2026-05-09 09:23:35
      李嘉誠兒子拿下世界杯轉播權,全網炸鍋

      李嘉誠兒子拿下世界杯轉播權,全網炸鍋

      新浪財經
      2026-05-09 18:37:21
      熱搜上引眾怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

      熱搜上引眾怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

      小椰子專欄
      2026-05-09 13:25:28
      141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

      141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

      書紀文譚
      2026-05-08 15:05:30
      中國U17 vs 日本U17:帥惟浩搭檔趙松源,萬項、謝晉首發

      中國U17 vs 日本U17:帥惟浩搭檔趙松源,萬項、謝晉首發

      懂球帝
      2026-05-09 23:15:06
      他套現百億,留下27萬股民和一張ST廢紙,聞泰科技給投資者上了一課

      他套現百億,留下27萬股民和一張ST廢紙,聞泰科技給投資者上了一課

      A活著
      2026-05-09 20:47:26
      為什么飯后不能立即洗碗?提醒:3個科學道理,避免低級錯誤

      為什么飯后不能立即洗碗?提醒:3個科學道理,避免低級錯誤

      芹姐說生活
      2026-05-08 12:32:51
      難以饒恕!榴蓮僅退款女孩過分言論曝光:臉真大,不知羞恥的東西

      難以饒恕!榴蓮僅退款女孩過分言論曝光:臉真大,不知羞恥的東西

      小徐講八卦
      2026-05-09 10:31:23
      泰康銷冠任曉敏被立案:光環之下,誰在透支信任?

      泰康銷冠任曉敏被立案:光環之下,誰在透支信任?

      新民周刊
      2026-05-08 19:46:57
      駐加爾各答總領館再次提醒中國公民避免自尼泊爾誤入印度國境

      駐加爾各答總領館再次提醒中國公民避免自尼泊爾誤入印度國境

      環球網資訊
      2026-05-09 21:42:17
      尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

      尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

      火山詩話
      2026-05-09 19:50:52
      求救也晚了,伊朗宣布對美艦開火,話音剛落,土耳其擺出洲際導彈

      求救也晚了,伊朗宣布對美艦開火,話音剛落,土耳其擺出洲際導彈

      潮鹿逐夢
      2026-05-09 18:49:49
      別吃!寄生蟲多達6000條,上海近期正大量出現,嚴重可致死

      別吃!寄生蟲多達6000條,上海近期正大量出現,嚴重可致死

      新民周刊
      2026-05-09 13:15:09
      深圳6歲男童吃生菜包烤肉后,全身出現大片青斑、血腫

      深圳6歲男童吃生菜包烤肉后,全身出現大片青斑、血腫

      聽心堂
      2026-05-09 18:11:29
      香港富豪孫女被綁架,綁匪拿到2800萬后逃跑,警方最新透露:女事主鎮定、有條理,一個線索成破案關鍵

      香港富豪孫女被綁架,綁匪拿到2800萬后逃跑,警方最新透露:女事主鎮定、有條理,一個線索成破案關鍵

      南方都市報
      2026-05-09 15:00:26
      2026-05-10 03:11:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12350文章數 51880關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      手機
      本地
      時尚
      親子
      房產

      手機要聞

      華為Mate 90首發!鴻蒙7定檔6月:和iOS安卓三分天下

      本地新聞

      用蘇繡的方式,打開江西婺源

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      親子要聞

      媽媽說女兒休學一年,我教她3個笨辦法

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最新中文字幕国产精品| 国产精品亚洲专区无码web| 国产精品高清中文字幕| 国产成人亚洲欧美日韩| 国产情侣草莓视频在线| 给我播放片在线观看| 在线播放成人网站| 俺去俺来也www色官网cms| 国产免费午夜福利蜜芽无码| 国产在线拍揄自揄视频不卡99| 麻豆一区二区三区精品视频| www.婷婷| YOUJIZZJIZZJIZZ18| 在线欧美中文字幕农村电影| 一区二区亚洲人妻精品| 国产福利深夜在线观看| 五月综合激情婷婷六月| 日韩av无码午夜福利电影| 欧美亚洲影音先锋| 色av综合av综合无码网站| 欧美日韩成人| 成人精品午夜无码福利区| 国产激情久久久久影院老熟女免费| 影音先锋制服色| 19国产精品麻豆免费观看| 亚洲国产精品ⅴa在线观看| 视频一区视频二区卡通动漫| 日韩一区二区大尺度在线| 欧美视频在线观看第一页| 狠狠婷婷色五月中文字幕| 国精产品一区一区二区三区mba| 色亚洲在线| 国内精品久久久久影| 国产SUV精品一区二区88L| 麻豆一区二区中文字幕| 免费观看全黄做爰的视频| 中文字幕av熟女人妻| 在线观看无码av五月花| 国产精品午夜福利在线观看| 国产无遮挡18禁网站免费| 欧美最猛黑人XXXXX猛交|