<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Shop-R1: 給AI補上「內(nèi)心戲」,在RL博弈中復(fù)刻人類網(wǎng)購腦

      0
      分享至



      某電商平臺上,一名用戶反復(fù)對比三款降噪耳機的評價、續(xù)航與材質(zhì)。這購物決策背后藏著預(yù)算、參數(shù)對比與審美偏好的博弈。但在 AI 智能體(Agent)的世界里,這種糾結(jié)往往不存在。傳統(tǒng)的 AI 購物助手更像是一個任務(wù)完成機器:接到指令,搜索,下單。他們或許能跑通流程,卻完全無法理解用戶為何在最后一刻因為一條關(guān)于 “夾耳朵” 的差評而放棄支付。簡而言之,傳統(tǒng)的電商 Agent 只是任務(wù)導(dǎo)向的(task-oriented),而不是模擬導(dǎo)向的(simulation-oriented)。為此,來自亞馬遜(Amazon)的研究團隊提出了名為 Shop-R1 的訓(xùn)練框架 。



      • 論文標(biāo)題:Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
      • 論文地址: https://arxiv.org/abs/2507.17842
      • 項目主頁:https://damon-demon.github.io/shop-r1.html
      • 代碼和數(shù)據(jù):公司法務(wù)審核中... (Coming Soon!)

      Shop-R1:從 “指令執(zhí)行” 到 “行為復(fù)刻”

      在傳統(tǒng)的電商 AI 研究中,衡量標(biāo)準(zhǔn)往往是單一的成功率。然而,真實世界的網(wǎng)購環(huán)境是一個充滿噪聲、促銷陷阱與主觀偏好的動態(tài)迷宮。研究團隊觀察到,這種 “黑盒式” 的任務(wù)導(dǎo)向模型在面對復(fù)雜環(huán)境時,往往會產(chǎn)生邏輯斷層:它們可能因為偶然的網(wǎng)頁跳轉(zhuǎn)完成了任務(wù),卻完全偏離了真實人類的消費習(xí)慣。

      Shop-R1 的核心野心,是實現(xiàn)從 “任務(wù)完成” 到 “行為模擬” 的范式轉(zhuǎn)移。對于模擬導(dǎo)向的購物 Agent,它的終極挑戰(zhàn)在于:它需實時解構(gòu)歷史瀏覽鏈路與當(dāng)前的交互細(xì)節(jié),從而在動態(tài)的上千種可能的操作中精準(zhǔn)預(yù)測用戶在當(dāng)前頁面維度的下一步操作。為了復(fù)刻決策過程,Shop-R1 將復(fù)雜的網(wǎng)購過程中的行為歸納為三類動作:

      • 打字輸入(Type)
      • 點擊(Click)
      • 終結(jié)(Terminate)



      模型以用戶過往瀏覽頁面及對應(yīng)操作作為輸入,并以結(jié)構(gòu)化的 JSON 形式輸出對用戶下一步動作(Action)的預(yù)測以及其背后的推理邏輯(Rationale)。



      Shop-R1 采用雙階段訓(xùn)練范式:首先通過監(jiān)督微調(diào)(SFT)實現(xiàn)行為基準(zhǔn)的 “冷啟動”;隨后在強化學(xué)習(xí)(RL)階段,利用多層級獎勵機制(Hierarchical Rewards)驅(qū)動深度迭代,旨在提升模型在復(fù)雜動態(tài)環(huán)境下的邏輯推理與泛化表現(xiàn)。



      第一階段:SFT 冷啟動

      這種監(jiān)督式初始化(supervised initialization)在訓(xùn)練流程的早期階段發(fā)揮了關(guān)鍵作用,它幫助模型盡早內(nèi)化上下文(context)、推理過程(rationale)與動作(action)之間的結(jié)構(gòu)性依賴關(guān)系。通過在一開始就讓模型建立這些模式,進(jìn)而顯著提升了后續(xù)強化學(xué)習(xí)(RL)階段的穩(wěn)定性和樣本效率。更重要的是,這種方法為什么樣的長文本輸出才算高質(zhì)量提供了明確的信號,例如正確命名被點擊的按鈕或給出有意義的搜索查詢。而這些能力如果僅依賴強化學(xué)習(xí)往往難以獲得,尤其是在獎勵信號稀疏且延遲的情況下。

      第二階段:多層級獎勵的強化學(xué)習(xí)

      為了在人類行為模擬(human behavior simulation)場景中更好地引導(dǎo)策略優(yōu)化,每一步?jīng)Q策被拆分為兩個子任務(wù):rationale 生成和 action 預(yù)測。針對每個子任務(wù),分別設(shè)計了專門的獎勵函數(shù),以提升模型的對齊性(alignment)和可解釋性(interpretability)。

      1)二值格式獎勵(Binary Format Reward)

      為了保證能夠方便且正確地從模型輸出中解析出預(yù)測的 rationale 和 action,引入了二值格式獎勵,鼓勵模型以結(jié)構(gòu)化 JSON 格式生成響應(yīng)。該格式遵循一個字典結(jié)構(gòu),包含兩個鍵:rationale 和 action。

      2)推理獎勵 (Rational Reward)

      對于 rationale 生成,采用 self-certainty score,用于衡量模型對其生成 rationale 的置信程度。具體而言,我們計算模型在詞表上的預(yù)測分布與均勻分布之間的 KL 散度,并在整個輸出序列上取平均。

      3)層級式動作獎勵 (Hierarchical Action Reward)

      對于 action 預(yù)測,我們用一種層級式獎勵機制(hierarchical reward scheme)替代了原本脆弱的二值獎勵信號。該機制同時對粗粒度的動作類型細(xì)粒度的子動作給予獎勵,從而穩(wěn)定訓(xùn)練過程,并抑制退化的reward hacking策略。這種層級獎勵機制使得獎勵空間更加稠密(densify the reward landscape):它擴大了能夠獲得正收益的軌跡集合,使智能體能夠擺脫在策略搜索過程中常見的“無獎勵平臺(no-reward plateau)”,同時也使得 reward hacking 的收益變得不再劃算。

      具體而言,一旦高層動作類型預(yù)測正確,無論該動作是簡單還是復(fù)雜,都可以獲得相同的粗粒度獎勵;而只有較復(fù)雜的動作,才可以通過其長文本子組件(sub-actions)進(jìn)一步獲得額外獎勵。因此,簡單地反復(fù)執(zhí)行 “terminate” 這一簡單動作將不再具有競爭性的回報,而完整執(zhí)行 (“click”, “type_and_submit”) 等動作序列則成為收益最高的策略。比如,“click” 動作包含一個子動作,用于指定需要點擊的按鈕名稱;只要子組件預(yù)測正確,模型即可獲得部分獎勵。類似地,“type_and_submit” 也包含子動作,用于提供需要輸入并提交的文本內(nèi)容。相比之下,“terminate” 不包含任何子動作,因此僅在動作類型層級進(jìn)行評分。

      在評估預(yù)測準(zhǔn)確度時,我們采用任務(wù)特定的指標(biāo):

      • 對于離散的動作類型,使用exact match(完全匹配)作為判定標(biāo)準(zhǔn);
      • 對于自由文本形式的子動作,則使用ROUGE-L進(jìn)行評估。
      • 對于文本型子動作(例如按鈕標(biāo)簽或搜索查詢),當(dāng)其與真實答案之間的 ROUGE-L 相似度超過預(yù)設(shè)閾值(例如 0.75)時,將根據(jù)相似度大小給予相應(yīng)的軟獎勵(soft reward)。

      4)難度感知獎勵縮放因子(Difficulty-Aware Reward Scaling, DARS)

      由于長文本子動作預(yù)測難度較高 (現(xiàn)代網(wǎng)頁可能包含數(shù)千個候選元素)我們進(jìn)一步引入了DARS,對正確預(yù)測這些組件的獎勵進(jìn)行放大。該機制可以有效防止一種常見的 reward hacking 行為:智能體不斷選擇簡單的 “terminate” 動作來獲取容易的獎勵。



      實驗結(jié)果

      如表格所示,直接使用 zero-shot 提示幾乎無法完成該任務(wù),Qwen-2.5-3B-Instruct 的 exact-action 準(zhǔn)確率僅 0.32%,說明長序列網(wǎng)頁行為無法僅靠通用指令能力恢復(fù)。僅使用 稀疏二值獎勵的強化學(xué)習(xí)同樣效果有限,從零訓(xùn)練僅達(dá)到 1.01% exact-match 和 6.17% type accuracy。

      相比之下,一輪 監(jiān)督微調(diào)(SFT)可以顯著提升性能(16.76% exact-match,22.25% type accuracy),表明密集的示例軌跡對于學(xué)習(xí) context → rationale → action 的結(jié)構(gòu)非常關(guān)鍵。但在 SFT 之后繼續(xù)使用二值獎勵 RL 提升有限。而 Shop-R1 通過結(jié)合層級獎勵、self-certainty 信號、格式獎勵以及難度感知獎勵縮放,將 exact-action accuracy 提升至 27.72%(相對 僅 SFT 提升 65%),同時顯著提升動作類型指標(biāo),表明模型不僅更容易識別正確意圖,也能更準(zhǔn)確生成按鈕名稱或搜索查詢等長文本參數(shù)。



      未來展望:視覺感官與性格派 AI

      Shop-R1 的出現(xiàn)僅僅揭開了電商 Agent 進(jìn)化史的一角,未來的突破點將集中在感官增強與個性化模擬上。

      引入視覺語言模型(VLM)[1] 將是下一場進(jìn)化的重頭戲。現(xiàn)有的 Agent 高度依賴 HTML 代碼,但人類網(wǎng)購時,往往會被一張富有氛圍感的頭圖擊中,或通過買家秀實拍圖的細(xì)節(jié)來判斷質(zhì)感。賦予 AI “看” 的能力,意味著它能捕捉到那些無法被文本描述的隱含情緒。

      更具顛覆性的構(gòu)想在于“性格化” (Character Injection)[2]。通過調(diào)整強化學(xué)習(xí)的獎勵權(quán)重,研究人員可以賦予 AI 不同的消費畫像:

      • “極致性價比黨”:會自動過濾所有冗余配件,在預(yù)算邊緣反復(fù)橫跳以尋找最優(yōu)解。
      • “精致參數(shù)控”:會花費 80% 的權(quán)重分析硬件指標(biāo)與差評,而非廣告推薦。
      • “顏值正義者”:視覺美感將成為其最高決策優(yōu)先級。

      這種多樣化的智能體矩陣,將使 AI 能夠復(fù)刻出真實世界中 “千人千面” 的消費心理。

      結(jié)語:電商的 “購物模擬器”

      Shop-R1 的落地價值,遠(yuǎn)不止于幫用戶省下對比時間。對于電商巨頭而言,它更像是一個低成本、高保真的 “虛擬 A/B 測試” 環(huán)境。在傳統(tǒng)的運營邏輯中,測試一個新的推薦算法或頁面布局,往往需要真實的流量和真金白銀的補貼。而擁有了 Shop-R1 這樣具備 “人類邏輯” 的模擬導(dǎo)向智能體,平臺可以在實驗室環(huán)境中投喂數(shù)萬個 “AI 購物者”,觀察它們在面對價格波動、界面改版時的實時反饋。這不再是一個簡單的對話框,而是一個深刻理解人類欲望與權(quán)衡的購物模擬器。當(dāng) AI 開始學(xué)會解構(gòu)那些復(fù)雜的瀏覽鏈路,并精準(zhǔn)預(yù)測下一秒的操作時,人類與算法之間的博弈,才真正進(jìn)入了認(rèn)知的深水區(qū)。

      參考文獻(xiàn):

      [1] Zhang Y, Gesi J, Xue R, et al. See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [J]. arXiv preprint arXiv:2510.19245, 2025.

      [2] Wang Z, Lu Y, Zhang Y, et al. Customer-R1: Personalized simulation of human behaviors via RL-based LLM agent in online shopping [J]. arXiv preprint arXiv:2510.07230, 2025.

      第一作者介紹:

      張益萌,現(xiàn)任 Amazon Applied Scientist,研究方向為生成式 AI、AI Agent 與多模態(tài)智能體。2025 年于 Michigan State University 獲計算機科學(xué)博士學(xué)位,曾為 OPTML 實驗室成員,導(dǎo)師為劉思佳副教授。曾就讀于 Columbia University 與 University of Sheffield。其研究關(guān)注高效機器學(xué)習(xí)、模型魯棒性與安全,涵蓋 LLM、擴散模型和對抗學(xué)習(xí)等領(lǐng)域,在 CVPR、NeurIPS、ICLR、ICML 等國際會議發(fā)表多篇論文。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      太原一出租車司機“狂噴”乘客?官方:頂格行政處罰

      太原一出租車司機“狂噴”乘客?官方:頂格行政處罰

      界面新聞
      2026-05-08 10:22:07
      美3艘軍艦成功駛出海峽、伊朗沒攔住,川普稱不簽協(xié)議就繼續(xù)打

      美3艘軍艦成功駛出海峽、伊朗沒攔住,川普稱不簽協(xié)議就繼續(xù)打

      邵旭峰域
      2026-05-08 10:02:59
      王暖暖被送醫(yī)搶救,護(hù)士反復(fù)喊她名字,16個小時前還好好的

      王暖暖被送醫(yī)搶救,護(hù)士反復(fù)喊她名字,16個小時前還好好的

      民宿體驗志
      2026-05-08 10:40:49
      小朋友在政府牌匾上涂鴉,鎮(zhèn)政府最新回應(yīng):此前已專設(shè)白板供孩子們畫畫

      小朋友在政府牌匾上涂鴉,鎮(zhèn)政府最新回應(yīng):此前已專設(shè)白板供孩子們畫畫

      極目新聞
      2026-05-07 20:24:16
      空腹抽血,喝水算不算破壞?很多人意外!檢驗科醫(yī)生權(quán)威解答

      空腹抽血,喝水算不算破壞?很多人意外!檢驗科醫(yī)生權(quán)威解答

      環(huán)球網(wǎng)資訊
      2026-05-06 13:46:09
      錢再多有什么用!58歲伍佰的最新現(xiàn)狀,給所有中年男人提了個醒

      錢再多有什么用!58歲伍佰的最新現(xiàn)狀,給所有中年男人提了個醒

      臨云史策
      2026-05-07 11:01:17
      國際足聯(lián)也急了!原來除了中國,還有這么多國家不給世界杯買單了

      國際足聯(lián)也急了!原來除了中國,還有這么多國家不給世界杯買單了

      董董歷史燴
      2026-05-07 00:30:05
      CCTV5+直播!廣東男籃再戰(zhàn)北京,杜鋒帶隊殊死一搏,或被2-0橫掃

      CCTV5+直播!廣東男籃再戰(zhàn)北京,杜鋒帶隊殊死一搏,或被2-0橫掃

      中國籃壇快訊
      2026-05-08 12:48:00
      月薪幾萬卻招不到人?遠(yuǎn)洋海員背后的殘酷,配偶:男女關(guān)系太亂了

      月薪幾萬卻招不到人?遠(yuǎn)洋海員背后的殘酷,配偶:男女關(guān)系太亂了

      李將平老師
      2026-05-08 09:42:27
      倫敦世乒賽爆冷!乒乓名將怒摔球拍,痛哭退賽,孫穎莎的話真沒錯

      倫敦世乒賽爆冷!乒乓名將怒摔球拍,痛哭退賽,孫穎莎的話真沒錯

      悅君兮君不知
      2026-05-08 09:13:32
      法國人也覺得不對勁了!中國到現(xiàn)在仍然沒有回應(yīng)

      法國人也覺得不對勁了!中國到現(xiàn)在仍然沒有回應(yīng)

      阿龍聊軍事
      2026-05-07 18:47:12
      紐約時報:當(dāng)今中國,早已不把美國總統(tǒng)來訪當(dāng)作頂級國際認(rèn)可

      紐約時報:當(dāng)今中國,早已不把美國總統(tǒng)來訪當(dāng)作頂級國際認(rèn)可

      荊楚寰宇文樞
      2026-05-07 23:15:43
      趙麗穎被港媒曝懷二胎!馮紹峰為了和她復(fù)婚,放下工作在劇組陪同

      趙麗穎被港媒曝懷二胎!馮紹峰為了和她復(fù)婚,放下工作在劇組陪同

      八卦王者
      2026-05-08 10:35:45
      繩子斷裂女游客已經(jīng)死亡,事發(fā)前一直喊沒綁緊,嚇得快哭了

      繩子斷裂女游客已經(jīng)死亡,事發(fā)前一直喊沒綁緊,嚇得快哭了

      映射生活的身影
      2026-05-05 21:19:42
      選調(diào)生出身的費高云,何以跌落云端?

      選調(diào)生出身的費高云,何以跌落云端?

      仕道
      2026-05-07 12:17:57
      湖南一28歲干部受邀釣魚溺亡,家屬稱其手機里有大量領(lǐng)導(dǎo)違紀(jì)證據(jù),死后才知他欠銀行37萬元,多名領(lǐng)導(dǎo)長期賭博,并帶領(lǐng)其參與

      湖南一28歲干部受邀釣魚溺亡,家屬稱其手機里有大量領(lǐng)導(dǎo)違紀(jì)證據(jù),死后才知他欠銀行37萬元,多名領(lǐng)導(dǎo)長期賭博,并帶領(lǐng)其參與

      極目新聞
      2026-05-07 21:48:08
      最新:曝烏克蘭攻入俄羅斯領(lǐng)土布良斯克!摧毀俄戰(zhàn)術(shù)防御系統(tǒng)

      最新:曝烏克蘭攻入俄羅斯領(lǐng)土布良斯克!摧毀俄戰(zhàn)術(shù)防御系統(tǒng)

      項鵬飛
      2026-05-07 20:17:44
      五個水兵死在英格蘭,清廷花15英鎊買地下葬,這塊地如今還屬中國

      五個水兵死在英格蘭,清廷花15英鎊買地下葬,這塊地如今還屬中國

      飯小妹說歷史
      2026-05-07 08:56:08
      套現(xiàn)離場留巨債,美的太子接盤,先虧27億后追加20億,最終翻盤

      套現(xiàn)離場留巨債,美的太子接盤,先虧27億后追加20億,最終翻盤

      z千年歷史老號
      2026-05-08 09:11:48
      48歲女星Jaime Pressly開OnlyFans:想直連觀眾

      48歲女星Jaime Pressly開OnlyFans:想直連觀眾

      熱搜摘要官
      2026-05-08 10:47:50
      2026-05-08 15:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12944文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      階躍星辰將完成25億美元融資 加速赴港IPO

      頭條要聞

      毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

      頭條要聞

      毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      數(shù)碼
      時尚
      藝術(shù)
      房產(chǎn)
      公開課

      數(shù)碼要聞

      華為曼谷全球發(fā)布會推出6款創(chuàng)新產(chǎn)品 含首款Pro Max平板

      裙子專場|| 一周想穿7天,沒想到它這么實用

      藝術(shù)要聞

      探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无人区码一码二码三码区 | 中文字幕+乱码+中文乱码91| 超碰人人澡| 熟女网址| 精品一区二区三区国产馆| 欧美老熟妇精品| 国产农村一国产农村无码毛片| av无码天堂一区二区三区| 国产精品毛片久久久久久久| 国产精品特级毛片一区二区三区| 精品日本免费一区二区三区| Chinese国产XXXX实拍| 婷婷五月综合激情| 一区二区在线视频| 97视频在线观看播放| 婷婷成人综合激情在线视频播放 | 人妻系列无码专区无码中出| 暖暖在线视频成人日本二区| 色综合桃花网| 青青草原网站在线观看| 国产午夜无码精品免费看动漫| 婷婷99视频精品全部在线观看| 久久天堂综合亚洲伊人HD妓女| jizz18| 亚洲欧美日韩中文字幕一区二区三区| 国产乱子伦视频一区二区三区 | 天天撸网站| 国产sm重味一区二区三区| 久久精品2021国产| 亚洲中文字幕久久无码精品| 一区二区av| 色偷偷亚洲女人天堂观看| 狼友看片| 粗大的内捧猛烈进出小视频| 秀山| 国产成人综合久久精品下载| jizz麻豆| 国产午夜福利视频合集| 色综合久久久久综合体桃花网 | 亚洲欧美人妖另类激情综合区| 亚洲精品日本久久一区二区三区|