![]()
針對生成式檢索范式在電商搜索場景下面臨的復(fù)雜查詢理解不足、用戶潛在意圖挖掘乏力、獎(jiǎng)勵(lì)系統(tǒng)易過擬合歷史窄偏好等落地瓶頸,快手技術(shù)團(tuán)隊(duì)在已規(guī)模化部署的工業(yè)級生成式搜索框架 OneSearch 基礎(chǔ)上,發(fā)布了一篇系統(tǒng)性升級的研究論文,正式推出新一代框架 OneSearch-V2。
該論文詳盡闡述了以潛空間推理增強(qiáng)與自蒸餾訓(xùn)練為核心的端到端演進(jìn)方案,創(chuàng)新性地提出了思維增強(qiáng)的復(fù)雜查詢理解、推理內(nèi)化的自蒸餾訓(xùn)練 pipeline,以及基于真實(shí)用戶行為反饋的偏好對齊優(yōu)化體系的原生化設(shè)計(jì)。
目前,該系統(tǒng)已在快手電商搜索平臺全量上線,在不增加任何推理成本與服務(wù)時(shí)延的前提下,取得了商品 CTR 提升 3.98%、買家數(shù)提升 2.07%、訂單量提升 2.11% 的顯著業(yè)務(wù)收益,并有效緩解了搜索系統(tǒng)長期存在的信息繭房與長尾稀疏問題。
![]()
- 論文標(biāo)題:《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
- 論文地址:https://arxiv.org/abs/2603.24422
- 代碼地址:https://github.com/benchen4395/onesearch-family
一、背景
1.1 OneSearch V1 回顧與成果
OneSearch V1 通過端到端生成式架構(gòu)在顯著降低推理成本的同時(shí),大幅提升了中高頻query 的在線效果與轉(zhuǎn)化效率,尤其是針對中高頻的 query 和中長尾用戶偏好的推理能力有著比較顯著的提升(OneSearch:電商搜索端到端生成式建模)。
![]()
1.2 V1 仍存在的核心瓶頸
隨著用戶偏好日趨多樣化、搜索 query 日益復(fù)雜,我們識別出制約 OneSearch 進(jìn)一步提升的三個(gè)關(guān)鍵限制:
- 復(fù)雜 query 的理解不足:大量短 query 未指定具體商品(如 “室內(nèi)健身器材” 可能是跑步機(jī)或啞鈴,但不應(yīng)是山地車),長尾 query 則存在顯著詞匯差異(如否定型 “緩解疲勞,不要保健品” 或問答型 “游泳需要準(zhǔn)備什么”)。這類復(fù)雜 query 在平臺占總 PV 約 1/3,卻僅貢獻(xiàn) 8% 的轉(zhuǎn)化,V1 難以處理這種泛 / 弱意圖。
- 用戶上下文的個(gè)性化意圖推理不足:模型過度依賴歷史共現(xiàn)模式和日志擬合,導(dǎo)致淺層匹配。例如對花粉過敏的用戶搜索 “當(dāng)季鮮花”,模型無法推理出應(yīng)規(guī)避致敏品種。
- 脆弱的獎(jiǎng)勵(lì)系統(tǒng)與分布偏差:多階段更新的混合排序框架(依賴獨(dú)立 Reward Model)更新遲緩,易受采樣偏差影響,過擬合于狹窄的歷史偏好。
1.3 OneSearch V2 的核心思路
![]()
針對上述瓶頸,OneSearch V2 提出Latent Reasoning Enhanced Self-distillation(基于自蒸餾隱式推理增強(qiáng))框架:
- Thought-augmented Query Understanding(思維增強(qiáng)的 query 理解):利用 LLM 生成緊湊的關(guān)鍵詞級 CoT(keyword-based CoT),在提升信息密度的同時(shí)避免長文本開銷,作為 SFT 對齊語料和后續(xù)蒸餾的 “教師端” 特權(quán)輸入。
- Reasoning-internalized Self-distillation(推理內(nèi)化的自蒸餾):無需引入額外參數(shù),通過信息不對稱的自蒸餾機(jī)制,將顯式推理能力直接編碼進(jìn)模型權(quán)重中,轉(zhuǎn)化為 “直覺”。
- Behavior Feedback Preference Alignment(行為反饋偏好對齊):拋棄獨(dú)立 Reward Model,引入直接用戶交互反饋。提出 TPMA-GRPO(Token-Position Marginal Advantage),針對 SID 序列的層次因果結(jié)構(gòu),實(shí)現(xiàn)基于生成位置的精準(zhǔn)信用分配。
二、實(shí)驗(yàn)方案
2.1 編碼方案(沿用 V1)
![]()
OneSearch-V2 中沿用 V1 的編碼方案 KHQE+RQ-OPQ。
近期研究將 SID 編碼方法分為單模態(tài)與多模態(tài)兩類。不同于推薦系統(tǒng),搜索引擎需在統(tǒng)一分詞體系下對齊 query 與商品,保障語義約束的魯棒性,這對單模態(tài) query 與多模態(tài)商品(含文本、多視角圖片、講解視頻)間的表征差異提出精細(xì)建模要求。V1 采用 Qwen-VL 從多源信息中提取商品核心關(guān)鍵詞,構(gòu)建統(tǒng)一文本表征;其他方法則嘗試聯(lián)合輸入或多模態(tài)分別編碼后拼接。但多圖易呈現(xiàn)互斥屬性(如連衣裙不同顏色),冗余屬性(如 T 恤紐扣數(shù)量 / 位置)易引入偏差,導(dǎo)致關(guān)鍵屬性被淹沒。為此,V2 開展大量實(shí)驗(yàn),系統(tǒng)評估不同編碼范式在電商生成式搜索中的適用性。
為全面比較多模態(tài)與單模態(tài) embedding 的效果,我們在多種模型配置下開展了對比實(shí)驗(yàn),包括:
- 僅使用文本描述的單模態(tài)編碼;
- 多模態(tài)編碼,涵蓋統(tǒng)一編碼(聯(lián)合處理)和分別編碼后拼接兩種方式;
- OneSearch 的關(guān)鍵詞層次量化方案 KHQE(使用單模態(tài)表征多模態(tài)信息)。
![]()
為簡化實(shí)驗(yàn),我們收集約 500 萬條線上點(diǎn)擊的 < query, item > 對,商品輸入僅含標(biāo)題和兩張主圖;所有 embedding 統(tǒng)一采用 RQ-OPQ 分詞。結(jié)果表明:單模態(tài)方法顯著優(yōu)于多模態(tài)(如小規(guī)模 bge-base 優(yōu)于大規(guī)模 Qwen3-VL),主因跨模態(tài)表征差異與冗余屬性削弱了多模態(tài)編碼有效性;“先分離后拼接” 策略表現(xiàn)最差,進(jìn)一步驗(yàn)證該挑戰(zhàn);KHQE 效果最佳,兼具強(qiáng)關(guān)鍵屬性提取與層級表征能力,且模型輕量,支持實(shí)時(shí) query 處理,在性能與效率間取得良好平衡。結(jié)論指出:電商搜索編碼需聚焦兩大關(guān)鍵 —— 緩解跨模態(tài)差異、增強(qiáng)關(guān)鍵信息。
2.2 Thought-augmented Query Understanding(思維增強(qiáng)的 query 理解)
2.2.1 動(dòng)機(jī)
電商搜索引擎日均處理海量 query,用戶意圖復(fù)雜:頭部 query(如 “室內(nèi)健身器材”)表達(dá)模糊、意圖發(fā)散,導(dǎo)致候選過寬;尾部 query 類型多樣(問答 / 推薦 / 排行榜 / 知識 / 否定 / 平替等),語義約束強(qiáng)、行為信號稀疏,意圖識別與商品匹配難度高。在快手商城,此類復(fù)雜 query 占 PV 約 1/3,但轉(zhuǎn)化率僅 8%,效率偏低。OneSearch-V1 通過表征對齊與增強(qiáng)緩解語義鴻溝,但 CTR 增益呈 “倒 U 型”,頭部與尾部提升有限 —— 頭部瓶頸在于 “檢索哪個(gè)”,尾部在于 “能檢索什么”。顯式 CoT 雖提升可解釋性,但輸出冗長、小模型難復(fù)現(xiàn);SID 與文本 CoT 異構(gòu)性強(qiáng);且電商更需聚焦意圖對齊的關(guān)鍵詞,而非全鏈路推理。亟需輕量、高效、意圖導(dǎo)向的語義增強(qiáng)方法。
2.2.2 思維增強(qiáng) pipeline
我們基于 Qwen3-32B 在語義約束下生成精準(zhǔn) CoT,提取高信息密度關(guān)鍵詞(確保意圖、類目、屬性一致),作為訓(xùn)練階段的補(bǔ)充語義信號,提升 query 意圖識別與用戶偏好校準(zhǔn);同時(shí)以關(guān)鍵詞驅(qū)動(dòng) CoT,顯著降低推理開銷。整體采用三步推理 Pipeline。
Step 1. query 分析。包含四個(gè)組成部分:
- 意圖理解,識別主要檢索目標(biāo)(即商品、店鋪或直播主播);
- 類目識別,按從粗到細(xì)的粒度進(jìn)行層級類目匹配;
- 屬性識別,從 query 中抽取屬性類型及其對應(yīng)值;
- 話題推薦,推測滿足用戶需求的潛在候選話題。
Step 2. 關(guān)鍵詞提取。針對商品檢索意圖的 query,從分析結(jié)果中提取關(guān)鍵詞,并施加意圖、類目與屬性一致性約束;再經(jīng)同義合并與冗余剔除,最終按商品熱度降序輸出;其余意圖 query 由專用引擎處理,Pipeline 直接終止。
Step 3. 偏好校準(zhǔn)。基于用戶畫像與歷史行為(如搜索詞、交互商品序列),LLM 動(dòng)態(tài)感知偏好,對關(guān)鍵詞集合進(jìn)行個(gè)性化過濾或增補(bǔ);訓(xùn)練時(shí)注入當(dāng)前會話已交互商品作為強(qiáng)信號,確保關(guān)聯(lián)真實(shí)標(biāo)注商品的關(guān)鍵詞被保留或顯式引入。
![]()
2.2.3 部署方式
上述第二步和第三步構(gòu)建 < query, keywords > 和 < query, user, keywords > 訓(xùn)練語料;設(shè)計(jì) 4 個(gè) CoT 任務(wù),融入 OneSearch-V1 SFT 第一階段(語義對齊),使模型超越日志學(xué)習(xí) query 知識,并結(jié)合用戶偏好挖掘其感興趣的商品話題,提升復(fù)雜性與個(gè)性化推理能力;在線部署時(shí),關(guān)鍵詞驅(qū)動(dòng)的 CoT 生成異步執(zhí)行,結(jié)果用于流式訓(xùn)練與近線推理;相同 query 或 < query, user > 可復(fù)用緩存,顯著降低算力開銷且零延遲。
![]()
![]()
注:"\+" 表示在前一行模型基礎(chǔ)上累加新組件(逐步疊加),"+" 表示在 CoT tasks 完成后的模型上單獨(dú)添加組件。
結(jié)果顯示:在規(guī)模相當(dāng)時(shí),單模態(tài)顯著優(yōu)于多模態(tài)(即使小規(guī)模的 bge-base 也優(yōu)于更大規(guī)模的 Qwen3-VL),這源于跨模態(tài)表征差異與冗余屬性;先分離后拼接策略表現(xiàn)最差,進(jìn)一步印證上述挑戰(zhàn)。KHQE 取得最佳結(jié)果,展現(xiàn)出卓越的核心屬性提取與層級表征能力;其較小規(guī)模還支持實(shí)時(shí)處理 query,在性能與效率間達(dá)成良好平衡。這也印證了電商搜索編碼的兩個(gè)關(guān)鍵點(diǎn):緩解跨模態(tài)差異、增強(qiáng)關(guān)鍵信息。
2.3 Reasoning-internalized Self-distillation(推理內(nèi)化的自蒸餾)
2.3.1 動(dòng)機(jī):保留推理增益,消除推理開銷
直覺方案(OneSearch 先生成推理關(guān)鍵詞再生成 SID)因離散 SID 與文本關(guān)鍵詞表征異質(zhì)性強(qiáng),小模型難以建模,實(shí)驗(yàn)顯示顯式 CoT 推理反而顯著降低性能,甚至不如 baseline。替代方案(將關(guān)鍵詞作為 query 補(bǔ)充信息 + RAG)雖提升檢索與排序效果,但需在線調(diào)用 thought-augmented query understanding 模塊,帶來不可接受的延遲,不滿足電商搜索嚴(yán)苛的實(shí)時(shí)性要求;且關(guān)鍵詞覆蓋有限,易導(dǎo)致模型僅聚焦于關(guān)鍵詞顯式涵蓋的商品,泛化能力受限。
核心問題:能否保留甚至進(jìn)一步增強(qiáng)推理帶來的性能增益,同時(shí)不承擔(dān)推理帶來的開銷?
2.3.2 自蒸餾的核心機(jī)制
我們提出推理內(nèi)化自蒸餾機(jī)制,將關(guān)鍵詞引導(dǎo)的深思型 CoT 推理能力直接編碼至模型參數(shù),轉(zhuǎn)化為快速直覺式推理;無需修改架構(gòu)、不增參數(shù)、不加推理 token,僅通過定制化蒸餾將推理能力注入原模型權(quán)重。
![]()
- 信息不對稱的自蒸餾公式
![]()
![]()
學(xué)生接收不含關(guān)鍵詞的相同輸入:
![]()
![]()
![]()
![]()
![]()
![]()
為驗(yàn)證自蒸餾相對于其他推理內(nèi)化方案的優(yōu)越性,對比了四種替代策略:
- 特殊 token 蒸餾,在學(xué)生輸入中插入專用標(biāo)記 token;
- CODI 風(fēng)格隱狀態(tài)對齊,通過連續(xù)思維向量和 L1 損失對齊隱層表征;
- EMA 教師模式,教師權(quán)重為學(xué)生的指數(shù)移動(dòng)平均;
- 聯(lián)合訓(xùn)練模式,教師與學(xué)生雙向互學(xué)習(xí)共同更新。
![]()
- 緩解表征不穩(wěn)定性
教師與學(xué)生之間的信息不對稱引入根本性挑戰(zhàn):學(xué)生必須從嚴(yán)格更少信息的輸入中產(chǎn)生同樣自信的預(yù)測,這迫使損失曲面在關(guān)鍵詞缺失輸入的鄰域變尖銳:嵌入空間的微小擾動(dòng)可能導(dǎo)致輸出分布不成比例的大變化。我們識別出兩種互補(bǔ)失敗模式,并用針對性正則化應(yīng)對:
![]()
![]()
輸入魯棒性:FGM 對抗擾動(dòng)。 補(bǔ)充 R-Drop 的輸出空間正則化,我們對輸入嵌入空間應(yīng)用 FGM。第一次反向傳播后,沿梯度方向擾動(dòng)共享嵌入層:
![]()
![]()
![]()
- 總優(yōu)化目標(biāo)
![]()
此外,用 focal loss 替換標(biāo)準(zhǔn)交叉熵,緩解 SID 詞表中的長尾類別不均衡問題。
2.3.3 關(guān)鍵實(shí)驗(yàn)結(jié)論
- 自蒸餾是主要性能驅(qū)動(dòng):單項(xiàng)最大提升(Order HR@10 +1.17%,Click HR@10 +1.67%);
- Self-Distill (S) 優(yōu)于 Base (T):即使推理時(shí)從未觀察到關(guān)鍵詞,自蒸餾后的學(xué)生仍持續(xù)優(yōu)于使用關(guān)鍵詞增強(qiáng)訓(xùn)練與評估的教師,證實(shí)推理能力已被編碼進(jìn)模型權(quán)重;
- self-mode 優(yōu)于所有替代方案:相比 special-token、CODI 式隱狀態(tài)對齊、EMA-mode、joint-mode,完全共享權(quán)重 + 輸入層信息不對稱是最有效的范式;
- 三種正則化協(xié)同增效:R-Drop+FGM+focal loss 的組合效果超過各自貢獻(xiàn)之和,表明信息不對稱導(dǎo)致的表征不穩(wěn)定是多維度的。
2.4 Behavior Feedback Preference Alignment(行為反饋偏好對齊)
![]()
2.4.1 動(dòng)機(jī):替換獨(dú)立 Reward Model,直接利用用戶行為反饋
OneSearch-V2 以直接行為反饋替代獨(dú)立 Reward Model,構(gòu)建偏好對齊系統(tǒng):
- 設(shè)計(jì)復(fù)合獎(jiǎng)勵(lì),兼顧 query-item 相關(guān)性與多階轉(zhuǎn)化目標(biāo);
- 引入 Token-Position Marginal Advantage(TPMA)機(jī)制,按 SID 序列位置差異分配信用,適配其粗→細(xì)的層次因果結(jié)構(gòu);
- 支持流式更新與靈活業(yè)務(wù)干預(yù)。
2.4.2 復(fù)合獎(jiǎng)勵(lì)設(shè)計(jì)
![]()
![]()
![]()
2.4.3 標(biāo)準(zhǔn) GRPO 及其局限
![]()
![]()
![]()
2.4.4 TPMA-GRPO:Token-Position Marginal Advantage
為解決信用分配問題,提出 TPMA-GRPO,將序列級獎(jiǎng)勵(lì)分解為位置級邊際貢獻(xiàn),并基于前綴正確性門控梯度流。
- 前綴獎(jiǎng)勵(lì)(Prefix Reward)
![]()
![]()
![]()
![]()
![]()
![]()
- 前綴門控(Prefix Gate)
![]()
![]()
![]()
該機(jī)制自然實(shí)現(xiàn)了層次化課程學(xué)習(xí):模型先學(xué)習(xí)生成正確的粗粒度 token,再訓(xùn)練細(xì)粒度 token。
![]()
使模型同時(shí)學(xué)習(xí)生成什么(通過 TPMA)和生成的價(jià)值(通過商品級獎(jiǎng)勵(lì))。
- TPMA-GRPO Loss
![]()
![]()
三、效果評測
3.1 離線效果評測
3.1.1 主實(shí)驗(yàn)
我們從用戶搜索日志中選取 30,000 個(gè)有有效交互的 PV 作為測試集,包含 30,000 次點(diǎn)擊與 7,229 次下單。對每個(gè) PV 提取 Top-10 生成商品進(jìn)行公平對比,所有模型基于相同原始預(yù)訓(xùn)練模型訓(xùn)練,采用 HitRate@10 與 MRR@10 評估。離線實(shí)驗(yàn)分為 SFT 階段逐步優(yōu)化、RL 階段對齊優(yōu)化、以及最終完整模型三部分。
![]()
注:"\+" 表示在前一行模型基礎(chǔ)上累加新組件(逐步疊加),"+" 表示在 SFT 完成后的模型上單獨(dú)添加對齊任務(wù)。最優(yōu)結(jié)果加粗。
離線實(shí)驗(yàn)分析:
- OneSearch (baseline):V1 基線模型,作為所有實(shí)驗(yàn)對照基準(zhǔn)。
- + CoT tasks:SFT Stage 1 引入四項(xiàng) CoT 任務(wù)后 Order HR@10 +0.48%,驗(yàn)證關(guān)鍵詞級 CoT 對 query 語義歧義的有效緩解。
- + self-distill:單項(xiàng)最大提升(Order HR@10 +1.17%,Click HR@10 +1.67%),確認(rèn)將推理能力編碼進(jìn)權(quán)重是主要驅(qū)動(dòng)。
- + R-Drop:MRR@10 由 0.1017 升至 0.1045,預(yù)測一致性約束有效緩解信息不對稱導(dǎo)致的輸出分布波動(dòng)。
- + FGM:Order HR@10 升至 0.2180,Click HR@10 升至 0.2422,輸入魯棒性進(jìn)一步增強(qiáng)。
- + focal loss:緩解 SID 長尾類別不均衡,Order HR@10 達(dá) 0.2214,Click HR@10 達(dá) 0.2471,三種正則化組合效果超過各自貢獻(xiàn)之和,SFT 階段收尾。
- + PARS:V1 原有自適應(yīng)獎(jiǎng)勵(lì)系統(tǒng)作 RL 基線,Click HR@10 0.2538,但 Order MRR@10 相對偏低。
- + GRPO:替換 PARS 后 Order HR@10 0.2248、MRR@10 0.1106,驗(yàn)證復(fù)合獎(jiǎng)勵(lì)與組相對優(yōu)化。
- + TPMA:Order MRR@10 進(jìn)一步升至 0.1136,體現(xiàn)層次化信用分配對細(xì)粒度 token 生成的增益。
- OneSearch-V2:Listwise DPO + TPMA-GRPO 聯(lián)合優(yōu)化,達(dá)全指標(biāo)最優(yōu)(Order HR@10 0.2314,Click HR@10 0.2568),相比 baseline 平均 HR@10 +2.68%、MRR@10 +1.66%。DPO 學(xué)基礎(chǔ)偏好擬合、TPMA 平衡多維獎(jiǎng)勵(lì)與泛化,二者互補(bǔ)達(dá)到最佳效果。
3.1.2 消融實(shí)驗(yàn)(自蒸餾模型 vs. 獨(dú)立訓(xùn)練的教師 / 學(xué)生模型)
為驗(yàn)證自蒸餾是否真正將推理能力內(nèi)化進(jìn)模型權(quán)重(而非僅依賴關(guān)鍵詞輸入),我們對比三種配置:Base (S) 不含關(guān)鍵詞訓(xùn)練 + 評估的學(xué)生模型,Base (T) 含關(guān)鍵詞訓(xùn)練 + 評估的教師模型,以及自蒸餾模型分別在教師端與學(xué)生端的評估結(jié)果。
![]()
? Student 模型:不含關(guān)鍵詞訓(xùn)練和評估。? Teacher 模型:含關(guān)鍵詞增強(qiáng)數(shù)據(jù)訓(xùn)練和評估。
消融實(shí)驗(yàn)分析:
- Base (S):不含關(guān)鍵詞的基線學(xué)生,僅依賴原始 query 與用戶特征推理,作為信息劣勢下的性能下界。
- Base (T):含關(guān)鍵詞增強(qiáng)的基線教師,蒸餾前全面優(yōu)于 Base (S),符合 "更多信息帶來更好性能" 的直覺。
- Self-Distill (T):自蒸餾后在教師端(含關(guān)鍵詞)評估,相比 Base (T) 仍有提升,但略低于 Self-Distill (S)。原因是 self-mode 下教師與學(xué)生共享參數(shù),梯度完全由學(xué)生損失驅(qū)動(dòng)(含鼓勵(lì)從截?cái)噍斎霚?zhǔn)確預(yù)測的 KL 約束),優(yōu)化方向偏向信息缺失條件下的魯棒性。
- Self-Distill (S):自蒸餾后在學(xué)生端(不含關(guān)鍵詞)評估,在推理時(shí)從未觀察到關(guān)鍵詞的情況下仍持續(xù)優(yōu)于 Base (T),有力證實(shí)推理能力已被編碼進(jìn)模型權(quán)重、內(nèi)化為 "直覺" 式推理。
3.2 在線 A/B 測試
為了驗(yàn)證線下收益能否轉(zhuǎn)化為實(shí)際的生產(chǎn)價(jià)值,我們將 OneSearch-V2 與 V1 進(jìn)行了嚴(yán)格的 A/B 測試。在關(guān)鍵業(yè)務(wù)指標(biāo)方面,OneSearch-V2 取得了統(tǒng)計(jì)學(xué)意義上的顯著提升(p < 0.05):商品點(diǎn)擊率提升 3.98%,頁面點(diǎn)擊率提升 1.17%,頁面轉(zhuǎn)化率提升 2.90%,買家數(shù)提升 2.07%,訂單量提升 2.11%。三個(gè)逐步啟用的部署版本(V2_RAG、V2_Reason、V2 (full))也呈現(xiàn)清晰的單調(diào)遞增趨勢。
![]()
OneSearch V1 OneSearch V2
3.3 人工 GSB 評測
對 3,200 個(gè) q-i 查詢項(xiàng)對進(jìn)行人工評估,進(jìn)一步證實(shí)了搜索體驗(yàn)的提升,具體表現(xiàn)為:頁面良好率提高了 1.37%,商品質(zhì)量提高了 0.55%,q-i 相關(guān)性提高了 1.65%。
![]()
OneSearch V1 OneSearch V2
四、深入分析
4.1 分用戶 /query 頻次 / 商品冷啟動(dòng)維度下探
- 在所有用戶群體、query 頻率類別和 item 熱度級別上,OneSearch-V2 均展現(xiàn)出持續(xù)且顯著的 CTR 提升,體現(xiàn)了模型的魯棒性和泛化性。
- 對于低活用戶和冷啟商品,OneSearch-V2 的提升尤為顯著。
- 從 query 頻率維度分析,相較于 V1 的倒 U 型曲線,V2 呈現(xiàn)出U 型曲線,彌補(bǔ)了 V1 在頭部、長尾 query 上的理解不足,這表明了基于 CoT 的思維增強(qiáng)在處理模糊或罕見 query 方面的突出能力。
![]()
4.2 分行業(yè) CTR 增益分析
- 幾乎所有行業(yè)的 CTR 都得到了提升,平均增益為 3.98%,其中排名前十、中間十和后十的行業(yè)的 CTR 相對增益,如下圖所示。
- 另一個(gè)有趣的發(fā)現(xiàn)是,在標(biāo)題內(nèi)容豐富但存在歧義的 query 類別中,例如服裝、鞋類、化妝品和五金電器,CTR 的提升更為顯著,這表明新模型具有更準(zhǔn)確的語義理解和更個(gè)性化的預(yù)測能力。
![]()
4.3 CoT 關(guān)鍵詞覆蓋率下鉆
- CoT keyword 是論文關(guān)鍵信號來源,但其覆蓋質(zhì)量直接影響 self-distillation 效果。
- 在線部署中,我們對線上實(shí)時(shí) query 采用近線推理的方式更新到語料庫中。我們下鉆了 2026 年 3 月復(fù)雜 query 的 CoT 覆蓋率,整體覆蓋率持續(xù)上漲,保證了自蒸餾的穩(wěn)定更新。
![]()
4.4 相關(guān)性和轉(zhuǎn)化率的 Trade-off
![]()
- OneSearch_V2_RAG/FULL 的相關(guān)性和轉(zhuǎn)化指標(biāo)都顯著高于 OneSearch_V1;
- 比較有趣的是,OneSearch_V2_FULL 的相關(guān)性、ctr 均低于 OneSearch_V2_RAG,但最終的 ctcvr 轉(zhuǎn)化指標(biāo)卻大幅提升(0.231% -> 0.242%)。這與我們設(shè)計(jì)自蒸餾隱式推理的出發(fā)點(diǎn)一致,模型應(yīng)該學(xué)習(xí)的是推理的能力,而非推理的結(jié)果。RAG 雖然能提升模型的相關(guān)性指標(biāo),但卻縮小了潛在商品空間,不利于最終的 order 目標(biāo)。
4.5 TPMA 的靈活目標(biāo)調(diào)節(jié)能力(3.18 大促實(shí)驗(yàn))
如何針對動(dòng)態(tài)優(yōu)化目標(biāo)進(jìn)行實(shí)時(shí)干預(yù)和自適應(yīng)訓(xùn)練,一直是生成式檢索系統(tǒng)面臨的長期挑戰(zhàn)。
![]()
五、下一步計(jì)劃
未來方向應(yīng)遵循三大核心原則:業(yè)務(wù)需求、場景多樣性和以用戶為中心的需求。我們發(fā)現(xiàn)了幾個(gè)值得進(jìn)一步研究的有前景的方向:
- 對于歷史交互數(shù)據(jù)有限的長尾 query,我們應(yīng)該設(shè)計(jì)更有效的超越日志(Beyond Logs)的訓(xùn)練策略來解決樣本不足的問題。
- 電子商務(wù)平臺的內(nèi)容形式日益多樣化,包括視頻、直播和傳統(tǒng)商品列表。一個(gè)根本性的挑戰(zhàn)是如何構(gòu)建一個(gè)統(tǒng)一的 SID 編碼方案,既能有效地表示異構(gòu)內(nèi)容類型,又能保留它們的獨(dú)特特征和跨模態(tài)關(guān)系。
- 向智能體搜索系統(tǒng)(Agentic Search Systems)的演進(jìn)是另一個(gè)充滿前景的前沿領(lǐng)域。這種范式轉(zhuǎn)變需要高效的在線學(xué)習(xí)機(jī)制的創(chuàng)新,以便在不影響系統(tǒng)延
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.