<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      快手OneSearch-V2全量上線,生成式搜索進(jìn)入「懂你」時(shí)代

      0
      分享至



      針對生成式檢索范式在電商搜索場景下面臨的復(fù)雜查詢理解不足、用戶潛在意圖挖掘乏力、獎(jiǎng)勵(lì)系統(tǒng)易過擬合歷史窄偏好等落地瓶頸,快手技術(shù)團(tuán)隊(duì)在已規(guī)模化部署的工業(yè)級生成式搜索框架 OneSearch 基礎(chǔ)上,發(fā)布了一篇系統(tǒng)性升級的研究論文,正式推出新一代框架 OneSearch-V2

      該論文詳盡闡述了以潛空間推理增強(qiáng)與自蒸餾訓(xùn)練為核心的端到端演進(jìn)方案,創(chuàng)新性地提出了思維增強(qiáng)的復(fù)雜查詢理解、推理內(nèi)化的自蒸餾訓(xùn)練 pipeline,以及基于真實(shí)用戶行為反饋的偏好對齊優(yōu)化體系的原生化設(shè)計(jì)。

      目前,該系統(tǒng)已在快手電商搜索平臺全量上線,在不增加任何推理成本與服務(wù)時(shí)延的前提下,取得了商品 CTR 提升 3.98%、買家數(shù)提升 2.07%、訂單量提升 2.11% 的顯著業(yè)務(wù)收益,并有效緩解了搜索系統(tǒng)長期存在的信息繭房與長尾稀疏問題。



      • 論文標(biāo)題:《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
      • 論文地址:https://arxiv.org/abs/2603.24422
      • 代碼地址:https://github.com/benchen4395/onesearch-family

      一、背景

      1.1 OneSearch V1 回顧與成果

      OneSearch V1 通過端到端生成式架構(gòu)在顯著降低推理成本的同時(shí),大幅提升了中高頻query 的在線效果與轉(zhuǎn)化效率,尤其是針對中高頻的 query 和中長尾用戶偏好的推理能力有著比較顯著的提升(OneSearch:電商搜索端到端生成式建模)。



      1.2 V1 仍存在的核心瓶頸

      隨著用戶偏好日趨多樣化、搜索 query 日益復(fù)雜,我們識別出制約 OneSearch 進(jìn)一步提升的三個(gè)關(guān)鍵限制:

      • 復(fù)雜 query 的理解不足:大量短 query 未指定具體商品(如 “室內(nèi)健身器材” 可能是跑步機(jī)或啞鈴,但不應(yīng)是山地車),長尾 query 則存在顯著詞匯差異(如否定型 “緩解疲勞,不要保健品” 或問答型 “游泳需要準(zhǔn)備什么”)。這類復(fù)雜 query 在平臺占總 PV 約 1/3,卻僅貢獻(xiàn) 8% 的轉(zhuǎn)化,V1 難以處理這種泛 / 弱意圖。
      • 用戶上下文的個(gè)性化意圖推理不足:模型過度依賴歷史共現(xiàn)模式和日志擬合,導(dǎo)致淺層匹配。例如對花粉過敏的用戶搜索 “當(dāng)季鮮花”,模型無法推理出應(yīng)規(guī)避致敏品種。
      • 脆弱的獎(jiǎng)勵(lì)系統(tǒng)與分布偏差:多階段更新的混合排序框架(依賴獨(dú)立 Reward Model)更新遲緩,易受采樣偏差影響,過擬合于狹窄的歷史偏好。

      1.3 OneSearch V2 的核心思路



      針對上述瓶頸,OneSearch V2 提出Latent Reasoning Enhanced Self-distillation(基于自蒸餾隱式推理增強(qiáng))框架:

      • Thought-augmented Query Understanding(思維增強(qiáng)的 query 理解):利用 LLM 生成緊湊的關(guān)鍵詞級 CoT(keyword-based CoT),在提升信息密度的同時(shí)避免長文本開銷,作為 SFT 對齊語料和后續(xù)蒸餾的 “教師端” 特權(quán)輸入。
      • Reasoning-internalized Self-distillation(推理內(nèi)化的自蒸餾):無需引入額外參數(shù),通過信息不對稱的自蒸餾機(jī)制,將顯式推理能力直接編碼進(jìn)模型權(quán)重中,轉(zhuǎn)化為 “直覺”。
      • Behavior Feedback Preference Alignment(行為反饋偏好對齊):拋棄獨(dú)立 Reward Model,引入直接用戶交互反饋。提出 TPMA-GRPO(Token-Position Marginal Advantage),針對 SID 序列的層次因果結(jié)構(gòu),實(shí)現(xiàn)基于生成位置的精準(zhǔn)信用分配。

      二、實(shí)驗(yàn)方案

      2.1 編碼方案(沿用 V1)



      OneSearch-V2 中沿用 V1 的編碼方案 KHQE+RQ-OPQ。

      近期研究將 SID 編碼方法分為單模態(tài)與多模態(tài)兩類。不同于推薦系統(tǒng),搜索引擎需在統(tǒng)一分詞體系下對齊 query 與商品,保障語義約束的魯棒性,這對單模態(tài) query 與多模態(tài)商品(含文本、多視角圖片、講解視頻)間的表征差異提出精細(xì)建模要求。V1 采用 Qwen-VL 從多源信息中提取商品核心關(guān)鍵詞,構(gòu)建統(tǒng)一文本表征;其他方法則嘗試聯(lián)合輸入或多模態(tài)分別編碼后拼接。但多圖易呈現(xiàn)互斥屬性(如連衣裙不同顏色),冗余屬性(如 T 恤紐扣數(shù)量 / 位置)易引入偏差,導(dǎo)致關(guān)鍵屬性被淹沒。為此,V2 開展大量實(shí)驗(yàn),系統(tǒng)評估不同編碼范式在電商生成式搜索中的適用性。

      為全面比較多模態(tài)與單模態(tài) embedding 的效果,我們在多種模型配置下開展了對比實(shí)驗(yàn),包括:

      • 僅使用文本描述的單模態(tài)編碼;
      • 多模態(tài)編碼,涵蓋統(tǒng)一編碼(聯(lián)合處理)和分別編碼后拼接兩種方式;
      • OneSearch 的關(guān)鍵詞層次量化方案 KHQE(使用單模態(tài)表征多模態(tài)信息)。



      為簡化實(shí)驗(yàn),我們收集約 500 萬條線上點(diǎn)擊的 < query, item > 對,商品輸入僅含標(biāo)題和兩張主圖;所有 embedding 統(tǒng)一采用 RQ-OPQ 分詞。結(jié)果表明:單模態(tài)方法顯著優(yōu)于多模態(tài)(如小規(guī)模 bge-base 優(yōu)于大規(guī)模 Qwen3-VL),主因跨模態(tài)表征差異與冗余屬性削弱了多模態(tài)編碼有效性;“先分離后拼接” 策略表現(xiàn)最差,進(jìn)一步驗(yàn)證該挑戰(zhàn);KHQE 效果最佳,兼具強(qiáng)關(guān)鍵屬性提取與層級表征能力,且模型輕量,支持實(shí)時(shí) query 處理,在性能與效率間取得良好平衡。結(jié)論指出:電商搜索編碼需聚焦兩大關(guān)鍵 —— 緩解跨模態(tài)差異、增強(qiáng)關(guān)鍵信息。

      2.2 Thought-augmented Query Understanding(思維增強(qiáng)的 query 理解)

      2.2.1 動(dòng)機(jī)

      電商搜索引擎日均處理海量 query,用戶意圖復(fù)雜:頭部 query(如 “室內(nèi)健身器材”)表達(dá)模糊、意圖發(fā)散,導(dǎo)致候選過寬;尾部 query 類型多樣(問答 / 推薦 / 排行榜 / 知識 / 否定 / 平替等),語義約束強(qiáng)、行為信號稀疏,意圖識別與商品匹配難度高。在快手商城,此類復(fù)雜 query 占 PV 約 1/3,但轉(zhuǎn)化率僅 8%,效率偏低。OneSearch-V1 通過表征對齊與增強(qiáng)緩解語義鴻溝,但 CTR 增益呈 “倒 U 型”,頭部與尾部提升有限 —— 頭部瓶頸在于 “檢索哪個(gè)”,尾部在于 “能檢索什么”。顯式 CoT 雖提升可解釋性,但輸出冗長、小模型難復(fù)現(xiàn);SID 與文本 CoT 異構(gòu)性強(qiáng);且電商更需聚焦意圖對齊的關(guān)鍵詞,而非全鏈路推理。亟需輕量、高效、意圖導(dǎo)向的語義增強(qiáng)方法。

      2.2.2 思維增強(qiáng) pipeline

      我們基于 Qwen3-32B 在語義約束下生成精準(zhǔn) CoT,提取高信息密度關(guān)鍵詞(確保意圖、類目、屬性一致),作為訓(xùn)練階段的補(bǔ)充語義信號,提升 query 意圖識別與用戶偏好校準(zhǔn);同時(shí)以關(guān)鍵詞驅(qū)動(dòng) CoT,顯著降低推理開銷。整體采用三步推理 Pipeline。

      Step 1. query 分析。包含四個(gè)組成部分:

      • 意圖理解,識別主要檢索目標(biāo)(即商品、店鋪或直播主播);
      • 類目識別,按從粗到細(xì)的粒度進(jìn)行層級類目匹配;
      • 屬性識別,從 query 中抽取屬性類型及其對應(yīng)值;
      • 話題推薦,推測滿足用戶需求的潛在候選話題。

      Step 2. 關(guān)鍵詞提取。針對商品檢索意圖的 query,從分析結(jié)果中提取關(guān)鍵詞,并施加意圖、類目與屬性一致性約束;再經(jīng)同義合并與冗余剔除,最終按商品熱度降序輸出;其余意圖 query 由專用引擎處理,Pipeline 直接終止。

      Step 3. 偏好校準(zhǔn)。基于用戶畫像與歷史行為(如搜索詞、交互商品序列),LLM 動(dòng)態(tài)感知偏好,對關(guān)鍵詞集合進(jìn)行個(gè)性化過濾或增補(bǔ);訓(xùn)練時(shí)注入當(dāng)前會話已交互商品作為強(qiáng)信號,確保關(guān)聯(lián)真實(shí)標(biāo)注商品的關(guān)鍵詞被保留或顯式引入。



      2.2.3 部署方式

      上述第二步和第三步構(gòu)建 < query, keywords > 和 < query, user, keywords > 訓(xùn)練語料;設(shè)計(jì) 4 個(gè) CoT 任務(wù),融入 OneSearch-V1 SFT 第一階段(語義對齊),使模型超越日志學(xué)習(xí) query 知識,并結(jié)合用戶偏好挖掘其感興趣的商品話題,提升復(fù)雜性與個(gè)性化推理能力;在線部署時(shí),關(guān)鍵詞驅(qū)動(dòng)的 CoT 生成異步執(zhí)行,結(jié)果用于流式訓(xùn)練與近線推理;相同 query 或 < query, user > 可復(fù)用緩存,顯著降低算力開銷且零延遲。





      注:"\+" 表示在前一行模型基礎(chǔ)上累加新組件(逐步疊加),"+" 表示在 CoT tasks 完成后的模型上單獨(dú)添加組件。

      結(jié)果顯示:在規(guī)模相當(dāng)時(shí),單模態(tài)顯著優(yōu)于多模態(tài)(即使小規(guī)模的 bge-base 也優(yōu)于更大規(guī)模的 Qwen3-VL),這源于跨模態(tài)表征差異與冗余屬性;先分離后拼接策略表現(xiàn)最差,進(jìn)一步印證上述挑戰(zhàn)。KHQE 取得最佳結(jié)果,展現(xiàn)出卓越的核心屬性提取與層級表征能力;其較小規(guī)模還支持實(shí)時(shí)處理 query,在性能與效率間達(dá)成良好平衡。這也印證了電商搜索編碼的兩個(gè)關(guān)鍵點(diǎn):緩解跨模態(tài)差異、增強(qiáng)關(guān)鍵信息。

      2.3 Reasoning-internalized Self-distillation(推理內(nèi)化的自蒸餾)

      2.3.1 動(dòng)機(jī):保留推理增益,消除推理開銷

      直覺方案(OneSearch 先生成推理關(guān)鍵詞再生成 SID)因離散 SID 與文本關(guān)鍵詞表征異質(zhì)性強(qiáng),小模型難以建模,實(shí)驗(yàn)顯示顯式 CoT 推理反而顯著降低性能,甚至不如 baseline。替代方案(將關(guān)鍵詞作為 query 補(bǔ)充信息 + RAG)雖提升檢索與排序效果,但需在線調(diào)用 thought-augmented query understanding 模塊,帶來不可接受的延遲,不滿足電商搜索嚴(yán)苛的實(shí)時(shí)性要求;且關(guān)鍵詞覆蓋有限,易導(dǎo)致模型僅聚焦于關(guān)鍵詞顯式涵蓋的商品,泛化能力受限。

      核心問題:能否保留甚至進(jìn)一步增強(qiáng)推理帶來的性能增益,同時(shí)不承擔(dān)推理帶來的開銷

      2.3.2 自蒸餾的核心機(jī)制

      我們提出推理內(nèi)化自蒸餾機(jī)制,將關(guān)鍵詞引導(dǎo)的深思型 CoT 推理能力直接編碼至模型參數(shù),轉(zhuǎn)化為快速直覺式推理;無需修改架構(gòu)、不增參數(shù)、不加推理 token,僅通過定制化蒸餾將推理能力注入原模型權(quán)重。



      • 信息不對稱的自蒸餾公式





      學(xué)生接收不含關(guān)鍵詞的相同輸入:













      為驗(yàn)證自蒸餾相對于其他推理內(nèi)化方案的優(yōu)越性,對比了四種替代策略:

      • 特殊 token 蒸餾,在學(xué)生輸入中插入專用標(biāo)記 token;
      • CODI 風(fēng)格隱狀態(tài)對齊,通過連續(xù)思維向量和 L1 損失對齊隱層表征;
      • EMA 教師模式,教師權(quán)重為學(xué)生的指數(shù)移動(dòng)平均;
      • 聯(lián)合訓(xùn)練模式,教師與學(xué)生雙向互學(xué)習(xí)共同更新。



      • 緩解表征不穩(wěn)定性

      教師與學(xué)生之間的信息不對稱引入根本性挑戰(zhàn):學(xué)生必須從嚴(yán)格更少信息的輸入中產(chǎn)生同樣自信的預(yù)測,這迫使損失曲面在關(guān)鍵詞缺失輸入的鄰域變尖銳:嵌入空間的微小擾動(dòng)可能導(dǎo)致輸出分布不成比例的大變化。我們識別出兩種互補(bǔ)失敗模式,并用針對性正則化應(yīng)對:





      輸入魯棒性:FGM 對抗擾動(dòng)。 補(bǔ)充 R-Drop 的輸出空間正則化,我們對輸入嵌入空間應(yīng)用 FGM。第一次反向傳播后,沿梯度方向擾動(dòng)共享嵌入層:







      • 總優(yōu)化目標(biāo)



      此外,用 focal loss 替換標(biāo)準(zhǔn)交叉熵,緩解 SID 詞表中的長尾類別不均衡問題。

      2.3.3 關(guān)鍵實(shí)驗(yàn)結(jié)論

      • 自蒸餾是主要性能驅(qū)動(dòng):單項(xiàng)最大提升(Order HR@10 +1.17%,Click HR@10 +1.67%);
      • Self-Distill (S) 優(yōu)于 Base (T):即使推理時(shí)從未觀察到關(guān)鍵詞,自蒸餾后的學(xué)生仍持續(xù)優(yōu)于使用關(guān)鍵詞增強(qiáng)訓(xùn)練與評估的教師,證實(shí)推理能力已被編碼進(jìn)模型權(quán)重;
      • self-mode 優(yōu)于所有替代方案:相比 special-token、CODI 式隱狀態(tài)對齊、EMA-mode、joint-mode,完全共享權(quán)重 + 輸入層信息不對稱是最有效的范式;
      • 三種正則化協(xié)同增效:R-Drop+FGM+focal loss 的組合效果超過各自貢獻(xiàn)之和,表明信息不對稱導(dǎo)致的表征不穩(wěn)定是多維度的。

      2.4 Behavior Feedback Preference Alignment(行為反饋偏好對齊)



      2.4.1 動(dòng)機(jī):替換獨(dú)立 Reward Model,直接利用用戶行為反饋

      OneSearch-V2 以直接行為反饋替代獨(dú)立 Reward Model,構(gòu)建偏好對齊系統(tǒng):

      • 設(shè)計(jì)復(fù)合獎(jiǎng)勵(lì),兼顧 query-item 相關(guān)性與多階轉(zhuǎn)化目標(biāo);
      • 引入 Token-Position Marginal Advantage(TPMA)機(jī)制,按 SID 序列位置差異分配信用,適配其粗→細(xì)的層次因果結(jié)構(gòu);
      • 支持流式更新與靈活業(yè)務(wù)干預(yù)。

      2.4.2 復(fù)合獎(jiǎng)勵(lì)設(shè)計(jì)







      2.4.3 標(biāo)準(zhǔn) GRPO 及其局限







      2.4.4 TPMA-GRPO:Token-Position Marginal Advantage

      為解決信用分配問題,提出 TPMA-GRPO,將序列級獎(jiǎng)勵(lì)分解為位置級邊際貢獻(xiàn),并基于前綴正確性門控梯度流。

      • 前綴獎(jiǎng)勵(lì)(Prefix Reward)













      • 前綴門控(Prefix Gate)







      該機(jī)制自然實(shí)現(xiàn)了層次化課程學(xué)習(xí):模型先學(xué)習(xí)生成正確的粗粒度 token,再訓(xùn)練細(xì)粒度 token。



      使模型同時(shí)學(xué)習(xí)生成什么(通過 TPMA)和生成的價(jià)值(通過商品級獎(jiǎng)勵(lì))。

      • TPMA-GRPO Loss





      三、效果評測

      3.1 離線效果評測

      3.1.1 主實(shí)驗(yàn)

      我們從用戶搜索日志中選取 30,000 個(gè)有有效交互的 PV 作為測試集,包含 30,000 次點(diǎn)擊與 7,229 次下單。對每個(gè) PV 提取 Top-10 生成商品進(jìn)行公平對比,所有模型基于相同原始預(yù)訓(xùn)練模型訓(xùn)練,采用 HitRate@10 與 MRR@10 評估。離線實(shí)驗(yàn)分為 SFT 階段逐步優(yōu)化、RL 階段對齊優(yōu)化、以及最終完整模型三部分。



      注:"\+" 表示在前一行模型基礎(chǔ)上累加新組件(逐步疊加),"+" 表示在 SFT 完成后的模型上單獨(dú)添加對齊任務(wù)。最優(yōu)結(jié)果加粗。

      離線實(shí)驗(yàn)分析

      • OneSearch (baseline):V1 基線模型,作為所有實(shí)驗(yàn)對照基準(zhǔn)。
      • + CoT tasks:SFT Stage 1 引入四項(xiàng) CoT 任務(wù)后 Order HR@10 +0.48%,驗(yàn)證關(guān)鍵詞級 CoT 對 query 語義歧義的有效緩解。
      • + self-distill:單項(xiàng)最大提升(Order HR@10 +1.17%,Click HR@10 +1.67%),確認(rèn)將推理能力編碼進(jìn)權(quán)重是主要驅(qū)動(dòng)。
      • + R-Drop:MRR@10 由 0.1017 升至 0.1045,預(yù)測一致性約束有效緩解信息不對稱導(dǎo)致的輸出分布波動(dòng)。
      • + FGM:Order HR@10 升至 0.2180,Click HR@10 升至 0.2422,輸入魯棒性進(jìn)一步增強(qiáng)。
      • + focal loss:緩解 SID 長尾類別不均衡,Order HR@10 達(dá) 0.2214,Click HR@10 達(dá) 0.2471,三種正則化組合效果超過各自貢獻(xiàn)之和,SFT 階段收尾。
      • + PARS:V1 原有自適應(yīng)獎(jiǎng)勵(lì)系統(tǒng)作 RL 基線,Click HR@10 0.2538,但 Order MRR@10 相對偏低。
      • + GRPO:替換 PARS 后 Order HR@10 0.2248、MRR@10 0.1106,驗(yàn)證復(fù)合獎(jiǎng)勵(lì)與組相對優(yōu)化。
      • + TPMA:Order MRR@10 進(jìn)一步升至 0.1136,體現(xiàn)層次化信用分配對細(xì)粒度 token 生成的增益。
      • OneSearch-V2:Listwise DPO + TPMA-GRPO 聯(lián)合優(yōu)化,達(dá)全指標(biāo)最優(yōu)(Order HR@10 0.2314,Click HR@10 0.2568),相比 baseline 平均 HR@10 +2.68%、MRR@10 +1.66%。DPO 學(xué)基礎(chǔ)偏好擬合、TPMA 平衡多維獎(jiǎng)勵(lì)與泛化,二者互補(bǔ)達(dá)到最佳效果。

      3.1.2 消融實(shí)驗(yàn)(自蒸餾模型 vs. 獨(dú)立訓(xùn)練的教師 / 學(xué)生模型)

      為驗(yàn)證自蒸餾是否真正將推理能力內(nèi)化進(jìn)模型權(quán)重(而非僅依賴關(guān)鍵詞輸入),我們對比三種配置:Base (S) 不含關(guān)鍵詞訓(xùn)練 + 評估的學(xué)生模型,Base (T) 含關(guān)鍵詞訓(xùn)練 + 評估的教師模型,以及自蒸餾模型分別在教師端與學(xué)生端的評估結(jié)果。



      ? Student 模型:不含關(guān)鍵詞訓(xùn)練和評估。? Teacher 模型:含關(guān)鍵詞增強(qiáng)數(shù)據(jù)訓(xùn)練和評估。

      消融實(shí)驗(yàn)分析

      • Base (S):不含關(guān)鍵詞的基線學(xué)生,僅依賴原始 query 與用戶特征推理,作為信息劣勢下的性能下界。
      • Base (T):含關(guān)鍵詞增強(qiáng)的基線教師,蒸餾前全面優(yōu)于 Base (S),符合 "更多信息帶來更好性能" 的直覺。
      • Self-Distill (T):自蒸餾后在教師端(含關(guān)鍵詞)評估,相比 Base (T) 仍有提升,但略低于 Self-Distill (S)。原因是 self-mode 下教師與學(xué)生共享參數(shù),梯度完全由學(xué)生損失驅(qū)動(dòng)(含鼓勵(lì)從截?cái)噍斎霚?zhǔn)確預(yù)測的 KL 約束),優(yōu)化方向偏向信息缺失條件下的魯棒性。
      • Self-Distill (S):自蒸餾后在學(xué)生端(不含關(guān)鍵詞)評估,在推理時(shí)從未觀察到關(guān)鍵詞的情況下仍持續(xù)優(yōu)于 Base (T),有力證實(shí)推理能力已被編碼進(jìn)模型權(quán)重、內(nèi)化為 "直覺" 式推理。

      3.2 在線 A/B 測試

      為了驗(yàn)證線下收益能否轉(zhuǎn)化為實(shí)際的生產(chǎn)價(jià)值,我們將 OneSearch-V2 與 V1 進(jìn)行了嚴(yán)格的 A/B 測試。在關(guān)鍵業(yè)務(wù)指標(biāo)方面,OneSearch-V2 取得了統(tǒng)計(jì)學(xué)意義上的顯著提升(p < 0.05):商品點(diǎn)擊率提升 3.98%,頁面點(diǎn)擊率提升 1.17%,頁面轉(zhuǎn)化率提升 2.90%,買家數(shù)提升 2.07%,訂單量提升 2.11%。三個(gè)逐步啟用的部署版本(V2_RAG、V2_Reason、V2 (full))也呈現(xiàn)清晰的單調(diào)遞增趨勢。



      OneSearch V1 OneSearch V2

      3.3 人工 GSB 評測

      對 3,200 個(gè) q-i 查詢項(xiàng)對進(jìn)行人工評估,進(jìn)一步證實(shí)了搜索體驗(yàn)的提升,具體表現(xiàn)為:頁面良好率提高了 1.37%,商品質(zhì)量提高了 0.55%,q-i 相關(guān)性提高了 1.65%。



      OneSearch V1 OneSearch V2

      四、深入分析

      4.1 分用戶 /query 頻次 / 商品冷啟動(dòng)維度下探

      • 在所有用戶群體、query 頻率類別和 item 熱度級別上,OneSearch-V2 均展現(xiàn)出持續(xù)且顯著的 CTR 提升,體現(xiàn)了模型的魯棒性和泛化性。
      • 對于低活用戶和冷啟商品,OneSearch-V2 的提升尤為顯著。
      • 從 query 頻率維度分析,相較于 V1 的倒 U 型曲線,V2 呈現(xiàn)出U 型曲線,彌補(bǔ)了 V1 在頭部、長尾 query 上的理解不足,這表明了基于 CoT 的思維增強(qiáng)在處理模糊或罕見 query 方面的突出能力。



      4.2 分行業(yè) CTR 增益分析

      • 幾乎所有行業(yè)的 CTR 都得到了提升,平均增益為 3.98%,其中排名前十、中間十和后十的行業(yè)的 CTR 相對增益,如下圖所示。
      • 另一個(gè)有趣的發(fā)現(xiàn)是,在標(biāo)題內(nèi)容豐富但存在歧義的 query 類別中,例如服裝、鞋類、化妝品和五金電器,CTR 的提升更為顯著,這表明新模型具有更準(zhǔn)確的語義理解和更個(gè)性化的預(yù)測能力。



      4.3 CoT 關(guān)鍵詞覆蓋率下鉆

      • CoT keyword 是論文關(guān)鍵信號來源,但其覆蓋質(zhì)量直接影響 self-distillation 效果。
      • 在線部署中,我們對線上實(shí)時(shí) query 采用近線推理的方式更新到語料庫中。我們下鉆了 2026 年 3 月復(fù)雜 query 的 CoT 覆蓋率,整體覆蓋率持續(xù)上漲,保證了自蒸餾的穩(wěn)定更新。



      4.4 相關(guān)性和轉(zhuǎn)化率的 Trade-off



      • OneSearch_V2_RAG/FULL 的相關(guān)性和轉(zhuǎn)化指標(biāo)都顯著高于 OneSearch_V1;
      • 比較有趣的是,OneSearch_V2_FULL 的相關(guān)性、ctr 均低于 OneSearch_V2_RAG,但最終的 ctcvr 轉(zhuǎn)化指標(biāo)卻大幅提升(0.231% -> 0.242%)。這與我們設(shè)計(jì)自蒸餾隱式推理的出發(fā)點(diǎn)一致,模型應(yīng)該學(xué)習(xí)的是推理的能力,而非推理的結(jié)果。RAG 雖然能提升模型的相關(guān)性指標(biāo),但卻縮小了潛在商品空間,不利于最終的 order 目標(biāo)。

      4.5 TPMA 的靈活目標(biāo)調(diào)節(jié)能力(3.18 大促實(shí)驗(yàn))

      如何針對動(dòng)態(tài)優(yōu)化目標(biāo)進(jìn)行實(shí)時(shí)干預(yù)和自適應(yīng)訓(xùn)練,一直是生成式檢索系統(tǒng)面臨的長期挑戰(zhàn)。



      五、下一步計(jì)劃

      未來方向應(yīng)遵循三大核心原則:業(yè)務(wù)需求、場景多樣性和以用戶為中心的需求。我們發(fā)現(xiàn)了幾個(gè)值得進(jìn)一步研究的有前景的方向:

      • 對于歷史交互數(shù)據(jù)有限的長尾 query,我們應(yīng)該設(shè)計(jì)更有效的超越日志(Beyond Logs)的訓(xùn)練策略來解決樣本不足的問題。
      • 電子商務(wù)平臺的內(nèi)容形式日益多樣化,包括視頻、直播和傳統(tǒng)商品列表。一個(gè)根本性的挑戰(zhàn)是如何構(gòu)建一個(gè)統(tǒng)一的 SID 編碼方案,既能有效地表示異構(gòu)內(nèi)容類型,又能保留它們的獨(dú)特特征和跨模態(tài)關(guān)系。
      • 向智能體搜索系統(tǒng)(Agentic Search Systems)的演進(jìn)是另一個(gè)充滿前景的前沿領(lǐng)域。這種范式轉(zhuǎn)變需要高效的在線學(xué)習(xí)機(jī)制的創(chuàng)新,以便在不影響系統(tǒng)延

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      夫妻性生活別急著進(jìn)入!學(xué)會這招“延遲滿足”,爽感增倍

      夫妻性生活別急著進(jìn)入!學(xué)會這招“延遲滿足”,爽感增倍

      精彩分享快樂
      2026-05-13 12:05:07
      CBA全亂套,四強(qiáng)已出三席!最新奪冠概率如下:上海50%、北京20%、廣廈10%

      CBA全亂套,四強(qiáng)已出三席!最新奪冠概率如下:上海50%、北京20%、廣廈10%

      野渡舟山人
      2026-05-13 18:26:04
      山東25歲女子征婚被網(wǎng)友群嘲,奇葩要求讓人無語至極

      山東25歲女子征婚被網(wǎng)友群嘲,奇葩要求讓人無語至極

      映射生活的身影
      2026-05-12 10:44:30
      張本美和不再沉默!終于說出日乒不愿承認(rèn)的事實(shí),難怪馬琳有底氣

      張本美和不再沉默!終于說出日乒不愿承認(rèn)的事實(shí),難怪馬琳有底氣

      似水流年忘我
      2026-05-13 05:32:27
      "回來的全不是人",羅布泊老兵臨終遺言,揭開駭人聽聞內(nèi)幕

      "回來的全不是人",羅布泊老兵臨終遺言,揭開駭人聽聞內(nèi)幕

      天字號野史
      2024-10-09 14:00:03
      衛(wèi)健委已將左氧氟沙星列為重點(diǎn)監(jiān)控藥!醫(yī)生:服用千萬注意7點(diǎn)

      衛(wèi)健委已將左氧氟沙星列為重點(diǎn)監(jiān)控藥!醫(yī)生:服用千萬注意7點(diǎn)

      健康科普365
      2026-05-10 18:45:06
      83歲母親喂70片安眠藥殺死兒子,在法庭上大哭:我實(shí)在養(yǎng)不動(dòng)他了

      83歲母親喂70片安眠藥殺死兒子,在法庭上大哭:我實(shí)在養(yǎng)不動(dòng)他了

      莫地方
      2026-05-13 00:50:03
      0分還是0分!杜鋒對小崔的雙標(biāo)怒吼,讓喊話爭冠的朱芳雨成了小丑

      0分還是0分!杜鋒對小崔的雙標(biāo)怒吼,讓喊話爭冠的朱芳雨成了小丑

      后仰大風(fēng)車
      2026-05-13 09:05:14
      新材料之王崛起!利好兩大賽道,10家碳纖維龍頭,迎長期風(fēng)口

      新材料之王崛起!利好兩大賽道,10家碳纖維龍頭,迎長期風(fēng)口

      小陸搞笑日常
      2026-05-13 18:01:11
      當(dāng)初馬龍花2000萬在北京給岳父母買房還不寫自己名字的消息爆出來

      當(dāng)初馬龍花2000萬在北京給岳父母買房還不寫自己名字的消息爆出來

      小光侃娛樂
      2026-05-13 18:23:29
      馬刺除了文班還有高手?21歲小追夢、20歲小妖刀,芬奇真沒辦法了

      馬刺除了文班還有高手?21歲小追夢、20歲小妖刀,芬奇真沒辦法了

      你的籃球頻道
      2026-05-13 13:43:47
      2026年5月深圳房價(jià)大幅下滑區(qū)域

      2026年5月深圳房價(jià)大幅下滑區(qū)域

      阿離家居
      2026-05-13 18:04:18
      黃曉明爆再當(dāng)爸!「婦產(chǎn)科停留1小時(shí)」畫面曝光 工作室急發(fā)聲

      黃曉明爆再當(dāng)爸!「婦產(chǎn)科停留1小時(shí)」畫面曝光 工作室急發(fā)聲

      達(dá)達(dá)哥
      2026-05-13 10:22:50
      全球最大太陽能飛機(jī)墜海:一場16年飛行的意外終點(diǎn)

      全球最大太陽能飛機(jī)墜海:一場16年飛行的意外終點(diǎn)

      報(bào)錯(cuò)免疫體
      2026-05-12 07:36:35
      中國球迷險(xiǎn)無法看國足踢世界杯!央視極限壓價(jià):2億買兩屆轉(zhuǎn)播權(quán)

      中國球迷險(xiǎn)無法看國足踢世界杯!央視極限壓價(jià):2億買兩屆轉(zhuǎn)播權(quán)

      念洲
      2026-05-07 16:31:49
      哈佛提醒:防肌肉流失別只補(bǔ)蛋白!這6種營養(yǎng)才是關(guān)鍵

      哈佛提醒:防肌肉流失別只補(bǔ)蛋白!這6種營養(yǎng)才是關(guān)鍵

      橘子約定
      2026-05-05 20:49:53
      因曾到訪加沙,聯(lián)合國副秘書長在以色列遭扣留:計(jì)劃取消在以所有正式會晤!

      因曾到訪加沙,聯(lián)合國副秘書長在以色列遭扣留:計(jì)劃取消在以所有正式會晤!

      紅星新聞
      2026-05-13 16:42:39
      突發(fā)!湖人公布建隊(duì)方向,里夫斯想留隊(duì),狄龍期盼詹姆斯回歸

      突發(fā)!湖人公布建隊(duì)方向,里夫斯想留隊(duì),狄龍期盼詹姆斯回歸

      小彭美識
      2026-05-13 12:26:05
      257:25莎拉遭高票彈劾,馬科斯難勝券,老杜盟友掌審判

      257:25莎拉遭高票彈劾,馬科斯難勝券,老杜盟友掌審判

      安珈使者啊
      2026-05-13 19:23:12
      “妖股”直擊:工業(yè)富聯(lián)2026年一季度凈利潤同比增長102.55%,AI服務(wù)器營收增超3倍,多家機(jī)構(gòu)看好AI算力高景氣

      “妖股”直擊:工業(yè)富聯(lián)2026年一季度凈利潤同比增長102.55%,AI服務(wù)器營收增超3倍,多家機(jī)構(gòu)看好AI算力高景氣

      金融界
      2026-05-13 13:36:30
      2026-05-13 20:20:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12986文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      出租車司機(jī)被兩老外"拐跑":3萬車費(fèi)從海南開到黑龍江

      頭條要聞

      出租車司機(jī)被兩老外"拐跑":3萬車費(fèi)從海南開到黑龍江

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩(wěn)的路

      娛樂要聞

      白鹿掉20萬粉,網(wǎng)友為李晨鳴不平

      財(cái)經(jīng)要聞

      盤中最高4041.99點(diǎn)!創(chuàng)業(yè)板創(chuàng)歷史新高

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報(bào)圖來了

      態(tài)度原創(chuàng)

      健康
      手機(jī)
      旅游
      親子
      時(shí)尚

      干細(xì)胞能讓人“返老還童”嗎

      手機(jī)要聞

      離專業(yè)單反又近了一步!iOS 27將迎重磅更新:iPhone相機(jī)支持高度自定義設(shè)置

      旅游要聞

      上海啟動(dòng)赴金馬地區(qū)旅游簽注受理 本島游還遠(yuǎn)嗎

      親子要聞

      寶藍(lán)在公園玩,地墊上的字母都消失了,我們一起幫寶藍(lán)找找吧~

      老錢風(fēng)失寵了?這個(gè)風(fēng)格突然爆火,夏天穿太高級了!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久99老妇伦国产熟女| 大胸美女被吃奶爽死视频| 色婷婷久久视屏| 人妻少妇精品| 精品人妻无码区在线视频| 欧美激情综合色综合啪啪五月| 亚洲少妇人妻无码视频| 豆国产97在线 | 亚洲| 91视频在线| 自偷自拍亚洲综合精品| 熟女国产精品网站| 福利一区二区在线视频| 欧洲无码精品| 狠狠做深爱婷婷久久综合一区| 天色综合久久久久久久噜噜| 日本高清色WWW网站色噜噜噜| 欧美黑吊大战白妞| 毛片网站在线观看| 日韩3p在线| www.av在线| ouopuppy| 欧美日韩视频在线第一区二区三区| 激情久久av一区av二区av三区| 波多野结衣久久一区二区| 欧美一区二区三区在线观看| 亚洲中文无码永久免| 国产亚洲中文在线字幕| 人妻无码熟妇乱又伦精品视频| 亚洲欧美综合中文| 久久av无码精品人妻出轨| 69影院少妇在线观看| 天天爽夜夜爽人人爽一区二区| www.天天操.com| 人妻视频在线中文字幕| 精品国产香蕉伊思人在线又爽又黄| 青春草公开在线视频日韩| 熟女在线视频一区二区三区| 91人人操| 亚洲精品无码一区二区| 四虎在线观看视频高清无码 | 欧洲一区二区|