快手OneSearch-V2全量上線，生成式搜索進(jìn)入「懂你」時(shí)代

2026-05-13 18:45:51　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

針對生成式檢索范式在電商搜索場景下面臨的復(fù)雜查詢理解不足、用戶潛在意圖挖掘乏力、獎(jiǎng)勵(lì)系統(tǒng)易過擬合歷史窄偏好等落地瓶頸，快手技術(shù)團(tuán)隊(duì)在已規(guī)模化部署的工業(yè)級生成式搜索框架 OneSearch 基礎(chǔ)上，發(fā)布了一篇系統(tǒng)性升級的研究論文，正式推出新一代框架 OneSearch-V2。

該論文詳盡闡述了以潛空間推理增強(qiáng)與自蒸餾訓(xùn)練為核心的端到端演進(jìn)方案，創(chuàng)新性地提出了思維增強(qiáng)的復(fù)雜查詢理解、推理內(nèi)化的自蒸餾訓(xùn)練 pipeline，以及基于真實(shí)用戶行為反饋的偏好對齊優(yōu)化體系的原生化設(shè)計(jì)。

目前，該系統(tǒng)已在快手電商搜索平臺全量上線，在不增加任何推理成本與服務(wù)時(shí)延的前提下，取得了商品 CTR 提升 3.98%、買家數(shù)提升 2.07%、訂單量提升 2.11% 的顯著業(yè)務(wù)收益，并有效緩解了搜索系統(tǒng)長期存在的信息繭房與長尾稀疏問題。

論文標(biāo)題：《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
論文地址：https://arxiv.org/abs/2603.24422
代碼地址：https://github.com/benchen4395/onesearch-family

一、背景

1.1 OneSearch V1 回顧與成果

OneSearch V1 通過端到端生成式架構(gòu)在顯著降低推理成本的同時(shí)，大幅提升了中高頻query 的在線效果與轉(zhuǎn)化效率，尤其是針對中高頻的 query 和中長尾用戶偏好的推理能力有著比較顯著的提升（OneSearch：電商搜索端到端生成式建模）。

1.2 V1 仍存在的核心瓶頸

隨著用戶偏好日趨多樣化、搜索 query 日益復(fù)雜，我們識別出制約 OneSearch 進(jìn)一步提升的三個(gè)關(guān)鍵限制：

復(fù)雜 query 的理解不足：大量短 query 未指定具體商品（如 “室內(nèi)健身器材” 可能是跑步機(jī)或啞鈴，但不應(yīng)是山地車），長尾 query 則存在顯著詞匯差異（如否定型 “緩解疲勞，不要保健品” 或問答型 “游泳需要準(zhǔn)備什么”）。這類復(fù)雜 query 在平臺占總 PV 約 1/3，卻僅貢獻(xiàn) 8% 的轉(zhuǎn)化，V1 難以處理這種泛 / 弱意圖。
用戶上下文的個(gè)性化意圖推理不足：模型過度依賴歷史共現(xiàn)模式和日志擬合，導(dǎo)致淺層匹配。例如對花粉過敏的用戶搜索 “當(dāng)季鮮花”，模型無法推理出應(yīng)規(guī)避致敏品種。
脆弱的獎(jiǎng)勵(lì)系統(tǒng)與分布偏差：多階段更新的混合排序框架（依賴獨(dú)立 Reward Model）更新遲緩，易受采樣偏差影響，過擬合于狹窄的歷史偏好。

1.3 OneSearch V2 的核心思路

針對上述瓶頸，OneSearch V2 提出Latent Reasoning Enhanced Self-distillation（基于自蒸餾隱式推理增強(qiáng)）框架：

Thought-augmented Query Understanding（思維增強(qiáng)的 query 理解）：利用 LLM 生成緊湊的關(guān)鍵詞級 CoT（keyword-based CoT），在提升信息密度的同時(shí)避免長文本開銷，作為 SFT 對齊語料和后續(xù)蒸餾的 “教師端” 特權(quán)輸入。
Reasoning-internalized Self-distillation（推理內(nèi)化的自蒸餾）：無需引入額外參數(shù)，通過信息不對稱的自蒸餾機(jī)制，將顯式推理能力直接編碼進(jìn)模型權(quán)重中，轉(zhuǎn)化為 “直覺”。
Behavior Feedback Preference Alignment（行為反饋偏好對齊）：拋棄獨(dú)立 Reward Model，引入直接用戶交互反饋。提出 TPMA-GRPO（Token-Position Marginal Advantage），針對 SID 序列的層次因果結(jié)構(gòu)，實(shí)現(xiàn)基于生成位置的精準(zhǔn)信用分配。

二、實(shí)驗(yàn)方案

2.1 編碼方案（沿用 V1）

OneSearch-V2 中沿用 V1 的編碼方案 KHQE+RQ-OPQ。

近期研究將 SID 編碼方法分為單模態(tài)與多模態(tài)兩類。不同于推薦系統(tǒng)，搜索引擎需在統(tǒng)一分詞體系下對齊 query 與商品，保障語義約束的魯棒性，這對單模態(tài) query 與多模態(tài)商品（含文本、多視角圖片、講解視頻）間的表征差異提出精細(xì)建模要求。V1 采用 Qwen-VL 從多源信息中提取商品核心關(guān)鍵詞，構(gòu)建統(tǒng)一文本表征；其他方法則嘗試聯(lián)合輸入或多模態(tài)分別編碼后拼接。但多圖易呈現(xiàn)互斥屬性（如連衣裙不同顏色），冗余屬性（如 T 恤紐扣數(shù)量 / 位置）易引入偏差，導(dǎo)致關(guān)鍵屬性被淹沒。為此，V2 開展大量實(shí)驗(yàn)，系統(tǒng)評估不同編碼范式在電商生成式搜索中的適用性。

為全面比較多模態(tài)與單模態(tài) embedding 的效果，我們在多種模型配置下開展了對比實(shí)驗(yàn)，包括：

僅使用文本描述的單模態(tài)編碼；
多模態(tài)編碼，涵蓋統(tǒng)一編碼（聯(lián)合處理）和分別編碼后拼接兩種方式；
OneSearch 的關(guān)鍵詞層次量化方案 KHQE（使用單模態(tài)表征多模態(tài)信息）。

為簡化實(shí)驗(yàn)，我們收集約 500 萬條線上點(diǎn)擊的 < query, item > 對，商品輸入僅含標(biāo)題和兩張主圖；所有 embedding 統(tǒng)一采用 RQ-OPQ 分詞。結(jié)果表明：單模態(tài)方法顯著優(yōu)于多模態(tài)（如小規(guī)模 bge-base 優(yōu)于大規(guī)模 Qwen3-VL），主因跨模態(tài)表征差異與冗余屬性削弱了多模態(tài)編碼有效性；“先分離后拼接” 策略表現(xiàn)最差，進(jìn)一步驗(yàn)證該挑戰(zhàn)；KHQE 效果最佳，兼具強(qiáng)關(guān)鍵屬性提取與層級表征能力，且模型輕量，支持實(shí)時(shí) query 處理，在性能與效率間取得良好平衡。結(jié)論指出：電商搜索編碼需聚焦兩大關(guān)鍵 —— 緩解跨模態(tài)差異、增強(qiáng)關(guān)鍵信息。

2.2 Thought-augmented Query Understanding（思維增強(qiáng)的 query 理解）

2.2.1 動(dòng)機(jī)

電商搜索引擎日均處理海量 query，用戶意圖復(fù)雜：頭部 query（如 “室內(nèi)健身器材”）表達(dá)模糊、意圖發(fā)散，導(dǎo)致候選過寬；尾部 query 類型多樣（問答 / 推薦 / 排行榜 / 知識 / 否定 / 平替等），語義約束強(qiáng)、行為信號稀疏，意圖識別與商品匹配難度高。在快手商城，此類復(fù)雜 query 占 PV 約 1/3，但轉(zhuǎn)化率僅 8%，效率偏低。OneSearch-V1 通過表征對齊與增強(qiáng)緩解語義鴻溝，但 CTR 增益呈 “倒 U 型”，頭部與尾部提升有限 —— 頭部瓶頸在于 “檢索哪個(gè)”，尾部在于 “能檢索什么”。顯式 CoT 雖提升可解釋性，但輸出冗長、小模型難復(fù)現(xiàn)；SID 與文本 CoT 異構(gòu)性強(qiáng)；且電商更需聚焦意圖對齊的關(guān)鍵詞，而非全鏈路推理。亟需輕量、高效、意圖導(dǎo)向的語義增強(qiáng)方法。

2.2.2 思維增強(qiáng) pipeline

我們基于 Qwen3-32B 在語義約束下生成精準(zhǔn) CoT，提取高信息密度關(guān)鍵詞（確保意圖、類目、屬性一致），作為訓(xùn)練階段的補(bǔ)充語義信號，提升 query 意圖識別與用戶偏好校準(zhǔn)；同時(shí)以關(guān)鍵詞驅(qū)動(dòng) CoT，顯著降低推理開銷。整體采用三步推理 Pipeline。

Step 1. query 分析。包含四個(gè)組成部分：

意圖理解，識別主要檢索目標(biāo)（即商品、店鋪或直播主播）；
類目識別，按從粗到細(xì)的粒度進(jìn)行層級類目匹配；
屬性識別，從 query 中抽取屬性類型及其對應(yīng)值；
話題推薦，推測滿足用戶需求的潛在候選話題。

Step 2. 關(guān)鍵詞提取。針對商品檢索意圖的 query，從分析結(jié)果中提取關(guān)鍵詞，并施加意圖、類目與屬性一致性約束；再經(jīng)同義合并與冗余剔除，最終按商品熱度降序輸出；其余意圖 query 由專用引擎處理，Pipeline 直接終止。

Step 3. 偏好校準(zhǔn)。基于用戶畫像與歷史行為（如搜索詞、交互商品序列），LLM 動(dòng)態(tài)感知偏好，對關(guān)鍵詞集合進(jìn)行個(gè)性化過濾或增補(bǔ)；訓(xùn)練時(shí)注入當(dāng)前會話已交互商品作為強(qiáng)信號，確保關(guān)聯(lián)真實(shí)標(biāo)注商品的關(guān)鍵詞被保留或顯式引入。

2.2.3 部署方式

上述第二步和第三步構(gòu)建 < query, keywords > 和 < query, user, keywords > 訓(xùn)練語料；設(shè)計(jì) 4 個(gè) CoT 任務(wù)，融入 OneSearch-V1 SFT 第一階段（語義對齊），使模型超越日志學(xué)習(xí) query 知識，并結(jié)合用戶偏好挖掘其感興趣的商品話題，提升復(fù)雜性與個(gè)性化推理能力；在線部署時(shí)，關(guān)鍵詞驅(qū)動(dòng)的 CoT 生成異步執(zhí)行，結(jié)果用于流式訓(xùn)練與近線推理；相同 query 或 < query, user > 可復(fù)用緩存，顯著降低算力開銷且零延遲。

注："\+" 表示在前一行模型基礎(chǔ)上累加新組件（逐步疊加），"+" 表示在 CoT tasks 完成后的模型上單獨(dú)添加組件。

結(jié)果顯示：在規(guī)模相當(dāng)時(shí)，單模態(tài)顯著優(yōu)于多模態(tài)（即使小規(guī)模的 bge-base 也優(yōu)于更大規(guī)模的 Qwen3-VL），這源于跨模態(tài)表征差異與冗余屬性；先分離后拼接策略表現(xiàn)最差，進(jìn)一步印證上述挑戰(zhàn)。KHQE 取得最佳結(jié)果，展現(xiàn)出卓越的核心屬性提取與層級表征能力；其較小規(guī)模還支持實(shí)時(shí)處理 query，在性能與效率間達(dá)成良好平衡。這也印證了電商搜索編碼的兩個(gè)關(guān)鍵點(diǎn)：緩解跨模態(tài)差異、增強(qiáng)關(guān)鍵信息。

2.3 Reasoning-internalized Self-distillation（推理內(nèi)化的自蒸餾）

2.3.1 動(dòng)機(jī)：保留推理增益，消除推理開銷

直覺方案（OneSearch 先生成推理關(guān)鍵詞再生成 SID）因離散 SID 與文本關(guān)鍵詞表征異質(zhì)性強(qiáng)，小模型難以建模，實(shí)驗(yàn)顯示顯式 CoT 推理反而顯著降低性能，甚至不如 baseline。替代方案（將關(guān)鍵詞作為 query 補(bǔ)充信息 + RAG）雖提升檢索與排序效果，但需在線調(diào)用 thought-augmented query understanding 模塊，帶來不可接受的延遲，不滿足電商搜索嚴(yán)苛的實(shí)時(shí)性要求；且關(guān)鍵詞覆蓋有限，易導(dǎo)致模型僅聚焦于關(guān)鍵詞顯式涵蓋的商品，泛化能力受限。

核心問題：能否保留甚至進(jìn)一步增強(qiáng)推理帶來的性能增益，同時(shí)不承擔(dān)推理帶來的開銷？

2.3.2 自蒸餾的核心機(jī)制

我們提出推理內(nèi)化自蒸餾機(jī)制，將關(guān)鍵詞引導(dǎo)的深思型 CoT 推理能力直接編碼至模型參數(shù)，轉(zhuǎn)化為快速直覺式推理；無需修改架構(gòu)、不增參數(shù)、不加推理 token，僅通過定制化蒸餾將推理能力注入原模型權(quán)重。

信息不對稱的自蒸餾公式

學(xué)生接收不含關(guān)鍵詞的相同輸入：

為驗(yàn)證自蒸餾相對于其他推理內(nèi)化方案的優(yōu)越性，對比了四種替代策略：

特殊 token 蒸餾，在學(xué)生輸入中插入專用標(biāo)記 token；
CODI 風(fēng)格隱狀態(tài)對齊，通過連續(xù)思維向量和 L1 損失對齊隱層表征；
EMA 教師模式，教師權(quán)重為學(xué)生的指數(shù)移動(dòng)平均；
聯(lián)合訓(xùn)練模式，教師與學(xué)生雙向互學(xué)習(xí)共同更新。

緩解表征不穩(wěn)定性

教師與學(xué)生之間的信息不對稱引入根本性挑戰(zhàn)：學(xué)生必須從嚴(yán)格更少信息的輸入中產(chǎn)生同樣自信的預(yù)測，這迫使損失曲面在關(guān)鍵詞缺失輸入的鄰域變尖銳：嵌入空間的微小擾動(dòng)可能導(dǎo)致輸出分布不成比例的大變化。我們識別出兩種互補(bǔ)失敗模式，并用針對性正則化應(yīng)對：

輸入魯棒性：FGM 對抗擾動(dòng)。補(bǔ)充 R-Drop 的輸出空間正則化，我們對輸入嵌入空間應(yīng)用 FGM。第一次反向傳播后，沿梯度方向擾動(dòng)共享嵌入層：

總優(yōu)化目標(biāo)

此外，用 focal loss 替換標(biāo)準(zhǔn)交叉熵，緩解 SID 詞表中的長尾類別不均衡問題。

2.3.3 關(guān)鍵實(shí)驗(yàn)結(jié)論

自蒸餾是主要性能驅(qū)動(dòng)：單項(xiàng)最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%）；
Self-Distill (S) 優(yōu)于 Base (T)：即使推理時(shí)從未觀察到關(guān)鍵詞，自蒸餾后的學(xué)生仍持續(xù)優(yōu)于使用關(guān)鍵詞增強(qiáng)訓(xùn)練與評估的教師，證實(shí)推理能力已被編碼進(jìn)模型權(quán)重；
self-mode 優(yōu)于所有替代方案：相比 special-token、CODI 式隱狀態(tài)對齊、EMA-mode、joint-mode，完全共享權(quán)重 + 輸入層信息不對稱是最有效的范式；
三種正則化協(xié)同增效：R-Drop+FGM+focal loss 的組合效果超過各自貢獻(xiàn)之和，表明信息不對稱導(dǎo)致的表征不穩(wěn)定是多維度的。

2.4 Behavior Feedback Preference Alignment（行為反饋偏好對齊）

2.4.1 動(dòng)機(jī)：替換獨(dú)立 Reward Model，直接利用用戶行為反饋

OneSearch-V2 以直接行為反饋替代獨(dú)立 Reward Model，構(gòu)建偏好對齊系統(tǒng)：

設(shè)計(jì)復(fù)合獎(jiǎng)勵(lì)，兼顧 query-item 相關(guān)性與多階轉(zhuǎn)化目標(biāo)；
引入 Token-Position Marginal Advantage（TPMA）機(jī)制，按 SID 序列位置差異分配信用，適配其粗→細(xì)的層次因果結(jié)構(gòu)；
支持流式更新與靈活業(yè)務(wù)干預(yù)。

2.4.2 復(fù)合獎(jiǎng)勵(lì)設(shè)計(jì)

2.4.3 標(biāo)準(zhǔn) GRPO 及其局限

2.4.4 TPMA-GRPO：Token-Position Marginal Advantage

為解決信用分配問題，提出 TPMA-GRPO，將序列級獎(jiǎng)勵(lì)分解為位置級邊際貢獻(xiàn)，并基于前綴正確性門控梯度流。

前綴獎(jiǎng)勵(lì)（Prefix Reward）

前綴門控（Prefix Gate）

該機(jī)制自然實(shí)現(xiàn)了層次化課程學(xué)習(xí)：模型先學(xué)習(xí)生成正確的粗粒度 token，再訓(xùn)練細(xì)粒度 token。

使模型同時(shí)學(xué)習(xí)生成什么（通過 TPMA）和生成的價(jià)值（通過商品級獎(jiǎng)勵(lì)）。

TPMA-GRPO Loss

三、效果評測

3.1 離線效果評測

3.1.1 主實(shí)驗(yàn)

我們從用戶搜索日志中選取 30,000 個(gè)有有效交互的 PV 作為測試集，包含 30,000 次點(diǎn)擊與 7,229 次下單。對每個(gè) PV 提取 Top-10 生成商品進(jìn)行公平對比，所有模型基于相同原始預(yù)訓(xùn)練模型訓(xùn)練，采用 HitRate@10 與 MRR@10 評估。離線實(shí)驗(yàn)分為 SFT 階段逐步優(yōu)化、RL 階段對齊優(yōu)化、以及最終完整模型三部分。

注："\+" 表示在前一行模型基礎(chǔ)上累加新組件（逐步疊加），"+" 表示在 SFT 完成后的模型上單獨(dú)添加對齊任務(wù)。最優(yōu)結(jié)果加粗。

離線實(shí)驗(yàn)分析：

OneSearch (baseline)：V1 基線模型，作為所有實(shí)驗(yàn)對照基準(zhǔn)。
+ CoT tasks：SFT Stage 1 引入四項(xiàng) CoT 任務(wù)后 Order HR@10 +0.48%，驗(yàn)證關(guān)鍵詞級 CoT 對 query 語義歧義的有效緩解。
+ self-distill：單項(xiàng)最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%），確認(rèn)將推理能力編碼進(jìn)權(quán)重是主要驅(qū)動(dòng)。
+ R-Drop：MRR@10 由 0.1017 升至 0.1045，預(yù)測一致性約束有效緩解信息不對稱導(dǎo)致的輸出分布波動(dòng)。
+ FGM：Order HR@10 升至 0.2180，Click HR@10 升至 0.2422，輸入魯棒性進(jìn)一步增強(qiáng)。
+ focal loss：緩解 SID 長尾類別不均衡，Order HR@10 達(dá) 0.2214，Click HR@10 達(dá) 0.2471，三種正則化組合效果超過各自貢獻(xiàn)之和，SFT 階段收尾。
+ PARS：V1 原有自適應(yīng)獎(jiǎng)勵(lì)系統(tǒng)作 RL 基線，Click HR@10 0.2538，但 Order MRR@10 相對偏低。
+ GRPO：替換 PARS 后 Order HR@10 0.2248、MRR@10 0.1106，驗(yàn)證復(fù)合獎(jiǎng)勵(lì)與組相對優(yōu)化。
+ TPMA：Order MRR@10 進(jìn)一步升至 0.1136，體現(xiàn)層次化信用分配對細(xì)粒度 token 生成的增益。
OneSearch-V2：Listwise DPO + TPMA-GRPO 聯(lián)合優(yōu)化，達(dá)全指標(biāo)最優(yōu)（Order HR@10 0.2314，Click HR@10 0.2568），相比 baseline 平均 HR@10 +2.68%、MRR@10 +1.66%。DPO 學(xué)基礎(chǔ)偏好擬合、TPMA 平衡多維獎(jiǎng)勵(lì)與泛化，二者互補(bǔ)達(dá)到最佳效果。

3.1.2 消融實(shí)驗(yàn)（自蒸餾模型 vs. 獨(dú)立訓(xùn)練的教師 / 學(xué)生模型）

為驗(yàn)證自蒸餾是否真正將推理能力內(nèi)化進(jìn)模型權(quán)重（而非僅依賴關(guān)鍵詞輸入），我們對比三種配置：Base (S) 不含關(guān)鍵詞訓(xùn)練 + 評估的學(xué)生模型，Base (T) 含關(guān)鍵詞訓(xùn)練 + 評估的教師模型，以及自蒸餾模型分別在教師端與學(xué)生端的評估結(jié)果。

? Student 模型：不含關(guān)鍵詞訓(xùn)練和評估。? Teacher 模型：含關(guān)鍵詞增強(qiáng)數(shù)據(jù)訓(xùn)練和評估。

消融實(shí)驗(yàn)分析：

Base (S)：不含關(guān)鍵詞的基線學(xué)生，僅依賴原始 query 與用戶特征推理，作為信息劣勢下的性能下界。
Base (T)：含關(guān)鍵詞增強(qiáng)的基線教師，蒸餾前全面優(yōu)于 Base (S)，符合 "更多信息帶來更好性能" 的直覺。
Self-Distill (T)：自蒸餾后在教師端（含關(guān)鍵詞）評估，相比 Base (T) 仍有提升，但略低于 Self-Distill (S)。原因是 self-mode 下教師與學(xué)生共享參數(shù)，梯度完全由學(xué)生損失驅(qū)動(dòng)（含鼓勵(lì)從截?cái)噍斎霚?zhǔn)確預(yù)測的 KL 約束），優(yōu)化方向偏向信息缺失條件下的魯棒性。
Self-Distill (S)：自蒸餾后在學(xué)生端（不含關(guān)鍵詞）評估，在推理時(shí)從未觀察到關(guān)鍵詞的情況下仍持續(xù)優(yōu)于 Base (T)，有力證實(shí)推理能力已被編碼進(jìn)模型權(quán)重、內(nèi)化為 "直覺" 式推理。

3.2 在線 A/B 測試

為了驗(yàn)證線下收益能否轉(zhuǎn)化為實(shí)際的生產(chǎn)價(jià)值，我們將 OneSearch-V2 與 V1 進(jìn)行了嚴(yán)格的 A/B 測試。在關(guān)鍵業(yè)務(wù)指標(biāo)方面，OneSearch-V2 取得了統(tǒng)計(jì)學(xué)意義上的顯著提升（p < 0.05）：商品點(diǎn)擊率提升 3.98%，頁面點(diǎn)擊率提升 1.17%，頁面轉(zhuǎn)化率提升 2.90%，買家數(shù)提升 2.07%，訂單量提升 2.11%。三個(gè)逐步啟用的部署版本（V2_RAG、V2_Reason、V2 (full)）也呈現(xiàn)清晰的單調(diào)遞增趨勢。

OneSearch V1 OneSearch V2

3.3 人工 GSB 評測

對 3,200 個(gè) q-i 查詢項(xiàng)對進(jìn)行人工評估，進(jìn)一步證實(shí)了搜索體驗(yàn)的提升，具體表現(xiàn)為：頁面良好率提高了 1.37%，商品質(zhì)量提高了 0.55%，q-i 相關(guān)性提高了 1.65%。

OneSearch V1 OneSearch V2

四、深入分析

4.1 分用戶 /query 頻次 / 商品冷啟動(dòng)維度下探

在所有用戶群體、query 頻率類別和 item 熱度級別上，OneSearch-V2 均展現(xiàn)出持續(xù)且顯著的 CTR 提升，體現(xiàn)了模型的魯棒性和泛化性。
對于低活用戶和冷啟商品，OneSearch-V2 的提升尤為顯著。
從 query 頻率維度分析，相較于 V1 的倒 U 型曲線，V2 呈現(xiàn)出U 型曲線，彌補(bǔ)了 V1 在頭部、長尾 query 上的理解不足，這表明了基于 CoT 的思維增強(qiáng)在處理模糊或罕見 query 方面的突出能力。

4.2 分行業(yè) CTR 增益分析

幾乎所有行業(yè)的 CTR 都得到了提升，平均增益為 3.98%，其中排名前十、中間十和后十的行業(yè)的 CTR 相對增益，如下圖所示。
另一個(gè)有趣的發(fā)現(xiàn)是，在標(biāo)題內(nèi)容豐富但存在歧義的 query 類別中，例如服裝、鞋類、化妝品和五金電器，CTR 的提升更為顯著，這表明新模型具有更準(zhǔn)確的語義理解和更個(gè)性化的預(yù)測能力。

4.3 CoT 關(guān)鍵詞覆蓋率下鉆

CoT keyword 是論文關(guān)鍵信號來源，但其覆蓋質(zhì)量直接影響 self-distillation 效果。
在線部署中，我們對線上實(shí)時(shí) query 采用近線推理的方式更新到語料庫中。我們下鉆了 2026 年 3 月復(fù)雜 query 的 CoT 覆蓋率，整體覆蓋率持續(xù)上漲，保證了自蒸餾的穩(wěn)定更新。

4.4 相關(guān)性和轉(zhuǎn)化率的 Trade-off

OneSearch_V2_RAG/FULL 的相關(guān)性和轉(zhuǎn)化指標(biāo)都顯著高于 OneSearch_V1；
比較有趣的是，OneSearch_V2_FULL 的相關(guān)性、ctr 均低于 OneSearch_V2_RAG，但最終的 ctcvr 轉(zhuǎn)化指標(biāo)卻大幅提升（0.231% -> 0.242%）。這與我們設(shè)計(jì)自蒸餾隱式推理的出發(fā)點(diǎn)一致，模型應(yīng)該學(xué)習(xí)的是推理的能力，而非推理的結(jié)果。RAG 雖然能提升模型的相關(guān)性指標(biāo)，但卻縮小了潛在商品空間，不利于最終的 order 目標(biāo)。

4.5 TPMA 的靈活目標(biāo)調(diào)節(jié)能力（3.18 大促實(shí)驗(yàn)）

如何針對動(dòng)態(tài)優(yōu)化目標(biāo)進(jìn)行實(shí)時(shí)干預(yù)和自適應(yīng)訓(xùn)練，一直是生成式檢索系統(tǒng)面臨的長期挑戰(zhàn)。

五、下一步計(jì)劃

未來方向應(yīng)遵循三大核心原則：業(yè)務(wù)需求、場景多樣性和以用戶為中心的需求。我們發(fā)現(xiàn)了幾個(gè)值得進(jìn)一步研究的有前景的方向：

對于歷史交互數(shù)據(jù)有限的長尾 query，我們應(yīng)該設(shè)計(jì)更有效的超越日志（Beyond Logs）的訓(xùn)練策略來解決樣本不足的問題。
電子商務(wù)平臺的內(nèi)容形式日益多樣化，包括視頻、直播和傳統(tǒng)商品列表。一個(gè)根本性的挑戰(zhàn)是如何構(gòu)建一個(gè)統(tǒng)一的 SID 編碼方案，既能有效地表示異構(gòu)內(nèi)容類型，又能保留它們的獨(dú)特特征和跨模態(tài)關(guān)系。
向智能體搜索系統(tǒng)（Agentic Search Systems）的演進(jìn)是另一個(gè)充滿前景的前沿領(lǐng)域。這種范式轉(zhuǎn)變需要高效的在線學(xué)習(xí)機(jī)制的創(chuàng)新，以便在不影響系統(tǒng)延

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.