網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

結(jié)構(gòu)化策略初始化加速大規(guī)模離散動作空間離線強(qiáng)化學(xué)習(xí)

2026-04-22 15:11:45　來源: CreateAMind

上海舉報(bào)

分享至

IMPROVING AND ACCELERATING OFFLINE RL INLARGE DISCRETE ACTION SPACES WITH STRUCTUREDPOLICY INITIALIZATION

結(jié)構(gòu)化策略初始化加速大規(guī)模離散動作空間離線強(qiáng)化學(xué)習(xí)

https://arxiv.org/pdf/2601.04441

摘要

在離散組合動作空間中進(jìn)行強(qiáng)化學(xué)習(xí)，需搜索指數(shù)級數(shù)量的聯(lián)合動作，以同時(shí)選擇多個(gè)能形成協(xié)調(diào)組合的子動作?，F(xiàn)有方法要么通過假設(shè)子動作相互獨(dú)立來簡化策略學(xué)習(xí)，但這常導(dǎo)致不協(xié)調(diào)或無效的動作；要么嘗試聯(lián)合學(xué)習(xí)動作結(jié)構(gòu)與控制，但這往往緩慢且不穩(wěn)定。我們提出了結(jié)構(gòu)化策略初始化（SPIN），這是一種兩階段框架：首先預(yù)訓(xùn)練動作結(jié)構(gòu)模型（ASM）以捕捉有效動作的流形，隨后凍結(jié)該表示，并訓(xùn)練輕量級策略頭用于控制。在具有挑戰(zhàn)性的離散DM Control基準(zhǔn)測試中，SPIN較當(dāng)前最優(yōu)方法將平均回報(bào)最高提升了39%，同時(shí)將收斂時(shí)間最多縮短至原來的1/12.8（即提速12.8倍）。

1 引言

許多現(xiàn)實(shí)世界的問題需要在高維離散動作空間中進(jìn)行決策，包括醫(yī)療保?。↙iu et al., 2020）、機(jī)器人裝配（Driess et al., 2020）、推薦系統(tǒng)（Zhao et al., 2018）以及網(wǎng)約車（Lin et al., 2018）等領(lǐng)域的應(yīng)用。在這些領(lǐng)域中，在線探索（online exploration）可能代價(jià)高昂或不安全，這使得離線強(qiáng)化學(xué)習(xí)（RL）（Lange et al., 2012; Levine et al., 2020）成為一個(gè)極具吸引力的框架。然而，標(biāo)準(zhǔn)的離線RL方法（Fujimoto et al., 2019; Agarwal et al., 2020; Fu et al., 2020; Kumar et al., 2020; Kostrikov et al., 2021）并非專為大型離散動作空間設(shè)計(jì)，因?yàn)樗鼈冃枰谡麄€(gè)離散動作集上最大化Q函數(shù)或?qū)Σ呗赃M(jìn)行參數(shù)化——隨著動作空間隨
呈指數(shù)級擴(kuò)展，這些操作將變得難以處理（intractable），其中 A 是子動作維度的數(shù)量，是每個(gè)維度的可選數(shù)量。

在這些復(fù)雜場景中進(jìn)行學(xué)習(xí)需要解決兩個(gè)相關(guān)問題：（i）在指數(shù)級數(shù)量的聯(lián)合動作中進(jìn)行搜索，以及（ii）確保所選子動作形成協(xié)調(diào)一致的組合。針對此類組合空間設(shè)計(jì)的方法傳統(tǒng)上通過施加強(qiáng)結(jié)構(gòu)先驗(yàn)（例如假設(shè)子動作間條件獨(dú)立）來簡化策略學(xué)習(xí)（Tang et al., 2022; Beeson et al., 2024）。然而，這犧牲了表示能力，致使模型無法捕捉有效控制所需的交互作用。其他方法嘗試同時(shí)學(xué)習(xí)動作表示與優(yōu)化策略（Zhang et al., 2018; Landers et al., 2024; 2025），但這種目標(biāo)耦合往往導(dǎo)致學(xué)習(xí)過程緩慢且不穩(wěn)定。

我們提出了結(jié)構(gòu)化策略初始化（Structured Policy Initialization, SPIN），這是一個(gè)將表示學(xué)習(xí)與控制解耦的兩階段框架。在第一階段，通過自監(jiān)督訓(xùn)練一個(gè)動作結(jié)構(gòu)模型（Action Structure Model, ASM），以學(xué)習(xí)一個(gè)表示函數(shù)；該函數(shù)以狀態(tài) s s 為條件，在子動作上誘導(dǎo)產(chǎn)生一個(gè)特征空間，其中結(jié)構(gòu)上連貫的聯(lián)合動作集中在一個(gè)低維流形上。隨后，在第二階段凍結(jié)該動作空間表示，此時(shí)控制問題簡化為針對下游強(qiáng)化學(xué)習(xí)（RL）任務(wù)，在動作流形上學(xué)習(xí)輕量級策略頭。通過先學(xué)習(xí)結(jié)構(gòu)再學(xué)習(xí)策略，SPIN 允許智能體利用底層的動作幾何結(jié)構(gòu)，而不是在原始組合空間中進(jìn)行搜索。這帶來了更快的訓(xùn)練速度和提升的策略性能（圖 1）。在數(shù)據(jù)集大小和質(zhì)量、動作維度以及動作基數(shù)各異的多樣化基準(zhǔn)測試中，SPIN 相比當(dāng)前最先進(jìn)方法（state of the art）將平均回報(bào)最高提升了 39%，并將達(dá)到最先進(jìn)性能所需的訓(xùn)練時(shí)間最多縮短了 12.8 倍。

我們的貢獻(xiàn)如下：

我們將離散結(jié)構(gòu)化動作空間中的離線強(qiáng)化學(xué)習(xí)（RL）重新構(gòu)建為一個(gè)表示問題，將動作結(jié)構(gòu)學(xué)習(xí)與控制分離開來。
我們提出了 SPIN，這是一個(gè)兩階段框架，通過預(yù)訓(xùn)練并凍結(jié)動作空間表示來加速并改進(jìn)策略學(xué)習(xí)。
我們展示了 SPIN 在具有挑戰(zhàn)性的基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)（SOTA）的性能，在顯著更快的同時(shí)優(yōu)于現(xiàn)有方法。
我們分析了學(xué)習(xí)到的表示，以證明在離散組合動作空間中進(jìn)行有效策略學(xué)習(xí)時(shí)，捕捉動作結(jié)構(gòu)至關(guān)重要。

2 相關(guān)工作

大離散動作空間中的強(qiáng)化學(xué)習(xí)。 針對路由（Nazari et al., 2018; Delarue et al., 2020）和資源分配（Chen et al., 2024）等領(lǐng)域的組合動作空間，已開發(fā)出多種強(qiáng)化學(xué)習(xí)方法，但這些方法通常依賴于特定任務(wù)的知識。研究也引入了通用方法（Dulac-Arnold et al., 2015; Tavakoli et al., 2018; Farquhar et al., 2020; Van de Wiele et al., 2020; Zhao et al., 2023），但它們通常面向在線學(xué)習(xí)設(shè)計(jì)，難以直接適應(yīng)離線數(shù)據(jù)集的約束條件。在離線強(qiáng)化學(xué)習(xí)中，現(xiàn)有方法通常對策略或 Q 函數(shù)進(jìn)行分解（factorize）（Tang et al., 2022; Beeson et al., 2024）。然而，這種分解強(qiáng)制子動作之間滿足條件獨(dú)立性，從而限制了模型的表征能力，并在子動作存在強(qiáng)依賴關(guān)系時(shí)失效。其他方法則顯式地捕捉依賴關(guān)系——例如 BraVE（Landers et al., 2024）對跨維度交互進(jìn)行建模，但其計(jì)算復(fù)雜度隨動作規(guī)模擴(kuò)大而急劇增加（擴(kuò)展性差）；而自回歸策略（Zhang et al., 2018）則強(qiáng)加了固定的動作順序，破壞了排列不變性。最近，SAINT（Landers et al., 2025）引入了一種基于 Transformer 的策略，通過自注意力機(jī)制捕捉子動作間的依賴關(guān)系，但其聯(lián)合學(xué)習(xí)動作結(jié)構(gòu)與控制策略的方式，導(dǎo)致了訓(xùn)練緩慢且不穩(wěn)定。另一條相關(guān)研究線致力于為大規(guī)模但平坦（flat）的動作空間學(xué)習(xí)表征。其中最相關(guān)的是 MERLION（Gu et al., 2022），它為離線強(qiáng)化學(xué)習(xí)學(xué)習(xí)了一種基于偽度量（pseudometric）的動作表征。然而，MERLION 的策略執(zhí)行需要在每個(gè)時(shí)間步對整個(gè)枚舉動作集進(jìn)行最近鄰搜索，這在我們所考慮的組合場景中計(jì)算上是不可行的。此外，其架構(gòu)將動作視為原子實(shí)體，并未對其底層的組合結(jié)構(gòu)進(jìn)行建模。相比之下，SPIN 專為這種組合設(shè)定設(shè)計(jì)，其結(jié)構(gòu)化策略逐維度生成聯(lián)合動作，而非枚舉完整的組合動作集。

強(qiáng)化學(xué)習(xí)中的自監(jiān)督預(yù)訓(xùn)練。 強(qiáng)化學(xué)習(xí)中的自監(jiān)督預(yù)訓(xùn)練已呈現(xiàn)多種形式，包括作為表征塑造（representation shaping）的輔助目標(biāo)（Jaderberg et al., 2016; Shelhamer et al., 2016）、對比與預(yù)測編碼器（Laskin et al., 2020; Schwarzer et al., 2021; Stooke et al., 2021; Liu & Abbeel, 2021b;a）以及世界模型建模（Ha & Schmidhuber, 2018）。其他研究探索了掩碼決策建?；蜍壽E建模（Cai et al., 2023; Liu et al., 2022; Wu et al., 2023; Sun et al., 2023）。大規(guī)模行為預(yù)訓(xùn)練已催生出通用策略（generalist policies）與視覺-語言-動作模型（VLA models）（Brohan et al., 2022; Zitkovich et al., 2023; O’Neill et al., 2024; Kim et al., 2024; Team et al., 2024; Tirinzoni et al., 2025），并配套了預(yù)訓(xùn)練后的快速適應(yīng)方法（Sikchi et al., 2025）。這些方法大多以狀態(tài)或軌跡為中心，且通常預(yù)設(shè)了在線交互或多任務(wù)微調(diào)的場景。相比之下，SPIN 預(yù)訓(xùn)練了一個(gè)能夠捕捉動作組合規(guī)律的動作結(jié)構(gòu)模型（ASM），從而在無需任何在線交互的情況下，為組合動作空間中的策略學(xué)習(xí)提供結(jié)構(gòu)化初始化。

3 預(yù)備知識

4 結(jié)構(gòu)化策略初始化 (SPIN)

結(jié)構(gòu)化策略初始化（Structured Policy INitialization, SPIN）是一個(gè)針對結(jié)構(gòu)化動作空間中離線強(qiáng)化學(xué)習(xí)的兩階段框架，它顯式地將表示學(xué)習(xí)與控制解耦。在第一階段，通過自監(jiān)督訓(xùn)練一個(gè)動作結(jié)構(gòu)模型（Action Structure Model, ASM），以學(xué)習(xí)一個(gè)表示函數(shù)；該函數(shù)以狀態(tài) s 為條件，在子動作上誘導(dǎo)產(chǎn)生一個(gè)特征空間，其中結(jié)構(gòu)上連貫的聯(lián)合動作集中在一個(gè)低維流形上。在第二階段，該表示被凍結(jié)，策略學(xué)習(xí)簡化為在誘導(dǎo)出的動作流形上訓(xùn)練輕量級頭（heads），以用于下游的強(qiáng)化學(xué)習(xí)任務(wù)。

4.1 動作結(jié)構(gòu)建模 (ASM)

ASM 的預(yù)訓(xùn)練過程總結(jié)在算法 1 中。我們在附錄 C 中通過實(shí)證驗(yàn)證了這一目標(biāo)，展示了它優(yōu)于強(qiáng)大的生成式和判別式替代方案。

4.2 基于凍結(jié)表示的策略學(xué)習(xí)

在第二階段，SPIN 在 ASM 提供的凍結(jié)表示上執(zhí)行策略學(xué)習(xí)。策略網(wǎng)絡(luò) π θ 僅更新輕量級組件，如查詢向量和輸出頭，而 ASM 保持固定。這種分離保留了學(xué)習(xí)到的動作結(jié)構(gòu)，并保持策略優(yōu)化的可處理性（tractability）。

5 實(shí)驗(yàn)評估

為了隔離架構(gòu)選擇的影響，所有方法均使用 IQL（Kostrikov et al., 2021）目標(biāo)進(jìn)行訓(xùn)練。為了評估魯棒性，我們在附錄 D 中也報(bào)告了使用替代目標(biāo)（包括 AWAC (Nair et al., 2020) 和 BCQ (Fujimoto et al., 2019)）的結(jié)果。為了驗(yàn)證 SPIN 在運(yùn)動（locomotion）之外的泛化能力，我們在 Maze（Beeson et al., 2024）上評估了其性能，結(jié)果見附錄 E。為了證明 SPIN 的有效性歸因于其以動作為中心（action-centric）的預(yù)訓(xùn)練目標(biāo)，而非僅僅源于預(yù)訓(xùn)練本身，我們在附錄 F 中將其性能與一種以軌跡為中心（trajectory-centric）的預(yù)訓(xùn)練方法進(jìn)行了比較。在所有這些設(shè)置中，SPIN 在性能和效率上均一致優(yōu)于基線方法。

所有實(shí)驗(yàn)均使用 Python 3.9 和 PyTorch 2.6 在單塊 NVIDIA A40 GPU 上運(yùn)行。報(bào)告的結(jié)果是五個(gè)隨機(jī)種子的平均值， ± ± 值表示跨種子的一個(gè)標(biāo)準(zhǔn)差。

5.1 漸近性能與訓(xùn)練效率

表 1 報(bào)告了跨環(huán)境和數(shù)據(jù)集質(zhì)量的最終性能與訓(xùn)練效率（完整的學(xué)習(xí)曲線見附錄 A）。SPIN 取得了比所有基線方法 consistently 更高的回報(bào)，并且比所有基線方法用更少的掛鐘時(shí)間（wall-clock time）達(dá)到了目標(biāo)性能。

SPIN 達(dá)到了最高的總體平均回報(bào) 594.1，超過了次優(yōu)基線 SAINT 的 572.1。這種提升在整個(gè)基準(zhǔn)測試套件中是系統(tǒng)性的，而非集中在個(gè)別環(huán)境中。這種優(yōu)勢在異構(gòu)的 medium-expert（中等 - 專家）和 random-medium-expert（隨機(jī) - 中等 - 專家）數(shù)據(jù)集中最為顯著，它們代表了最現(xiàn)實(shí)且具有挑戰(zhàn)性的基準(zhǔn)設(shè)置。在 random-medium-expert 數(shù)據(jù)集上，SPIN 實(shí)現(xiàn)了 499.2 的平均回報(bào)，比次優(yōu)方法 SAINT（438.9）提升了超過 13%。

我們還測量了每種方法達(dá)到 F-IQL 漸近性能 95% 所需的掛鐘時(shí)間（以分鐘為單位報(bào)告）。F-IQL 是結(jié)構(gòu)化動作空間中廣泛采用的最先進(jìn)（state-of-the-art）基線（Tang et al., 2022; Beeson et al., 2024; Landers et al., 2024），在各環(huán)境中均提供了可處理性（tractability）和穩(wěn)定的收斂性。使用 F-IQL 作為目標(biāo)使得收斂到不同回報(bào)水平的方法之間能夠進(jìn)行公平比較，避免了因在次優(yōu)性能處提前終止而產(chǎn)生的誤導(dǎo)性優(yōu)勢。我們采用 95% 的閾值而不是 100%，是因?yàn)橛行┓椒ㄓ肋h(yuǎn)無法達(dá)到 F-IQL 的漸近性能。直接處理這些情況——無論是通過排除運(yùn)行次數(shù)還是報(bào)告完整運(yùn)行時(shí)間——都會使結(jié)果產(chǎn)生偏差，而 95% 的標(biāo)準(zhǔn)提供了一致且可比的度量。

每個(gè)環(huán)境的到達(dá)目標(biāo)時(shí)間（time-to-target）完整結(jié)果報(bào)告在附錄 B 中?？傆?jì)，SPIN 在 223.3 分鐘內(nèi)達(dá)到目標(biāo)性能，大約比 F-IQL 本身快 2.5 倍，比 SAINT 快 3.8 倍。這種加速在 medium-expert 數(shù)據(jù)集中尤為明顯，SPIN 僅需 62 分鐘的訓(xùn)練時(shí)間，而所有其他方法則需要超過 250 分鐘。SPIN 的所有運(yùn)行時(shí)間均包含 ASM 預(yù)訓(xùn)練階段的全過程。

這些發(fā)現(xiàn)表明，在專用的預(yù)訓(xùn)練階段顯式地對動作結(jié)構(gòu)進(jìn)行建模，使得表示層能夠捕捉連貫動作的流形。在策略學(xué)習(xí)期間凍結(jié)該表示保留了這種結(jié)構(gòu)，使得輕量級頭（heads）能夠高效地適應(yīng)下游任務(wù)。與 Factored（因子化）和 Autoregressive（自回歸）方法相比（它們要么丟棄跨維度依賴關(guān)系，要么對其施加強(qiáng)制性的剛性結(jié)構(gòu)），SPIN 在保留靈活性的同時(shí)沒有犧牲可處理性。與試圖聯(lián)合學(xué)習(xí)動作結(jié)構(gòu)和控制的 SAINT 不同，SPIN 的解耦設(shè)計(jì)實(shí)現(xiàn)了更高的漸近性能和更快的收斂速度。

5.2 對動作基數(shù)的魯棒性

結(jié)果總結(jié)在表 2 中。SPIN 在每個(gè)基數(shù)下都取得了最高的平均回報(bào)，且相對于基線的差距隨著動作空間的增大而增加。在三個(gè)區(qū)間時(shí)，SPIN 略微優(yōu)于最強(qiáng)的基線 SAINT。在三十個(gè)區(qū)間時(shí)，SPIN 達(dá)到了 703.9 的平均回報(bào)，相比之下 SAINT 為 562.5，提升幅度超過 25%。AR-IQL 表現(xiàn)出不穩(wěn)定的性能，從三個(gè)區(qū)間時(shí)的 526.5 下降到十個(gè)區(qū)間時(shí)的 457.4，而 F-IQL 則未顯示出從增加粒度中獲益，停留在 480 左右。

訓(xùn)練效率遵循相同的趨勢。即使在最大的動作空間中，SPIN 始終需要更少的掛鐘時(shí)間（wall-clock time）來達(dá)到目標(biāo)性能（完整運(yùn)行時(shí)間結(jié)果見附錄 B）。這些結(jié)果表明，隨著組合復(fù)雜性的增長，將結(jié)構(gòu)學(xué)習(xí)與控制分離開來日益有益，因?yàn)橹悄荏w可以在學(xué)習(xí)到的低維流形上行動，而端到端（end-to-end）的方法仍然受制于原始聯(lián)合空間的規(guī)模。

6 SPIN 有效性的底層機(jī)制

第 5 節(jié)的實(shí)驗(yàn)表明，SPIN 在學(xué)習(xí)速度和最終性能上均優(yōu)于現(xiàn)有方法。我們現(xiàn)在考察這些提升背后的機(jī)制。

6.1 表示質(zhì)量對策略性能的影響

為了評估 ASM 預(yù)訓(xùn)練的貢獻(xiàn)，我們在 medium-expert（中等 - 專家）數(shù)據(jù)集上將 ASM 表示訓(xùn)練了 10–100 個(gè) epoch。隨后，將每個(gè)表示函數(shù)凍結(jié)，并用于初始化一個(gè)新的策略，該策略隨后在控制任務(wù)上訓(xùn)練至收斂。

圖 2 顯示，下游回報(bào)（return）通常隨著更多的 ASM 預(yù)訓(xùn)練而提升，其中前 20 個(gè) epoch 的增益最為陡峭。在 20 個(gè) epoch 之后，策略在所有任務(wù)上均超過了完全收斂的 F-IQL 參考值。由未訓(xùn)練的 ASM（Epoch 0）初始化的策略表現(xiàn)不佳。這些結(jié)果表明，最終策略性能在很大程度上取決于預(yù)訓(xùn)練動作表示的質(zhì)量；一旦學(xué)習(xí)到了連貫的表示，控制優(yōu)化就會變得 substantially 更容易。

6.2 量化表示質(zhì)量

圖 2 中隨機(jī)初始化（epoch 0）與預(yù)訓(xùn)練智能體之間的巨大差距，可能是由于預(yù)訓(xùn)練僅提供了方便的初始化而未編碼結(jié)構(gòu)，也可能是由于預(yù)訓(xùn)練學(xué)習(xí)到了能夠賦能下游性能的表示。我們通過測試 ASM 表示是否使用線性探針（linear probe）捕捉聯(lián)合動作依賴關(guān)系來直接評估這一點(diǎn)，線性探針是自監(jiān)督表示的標(biāo)準(zhǔn)診斷工具（Chen et al., 2020; He et al., 2020）。

在本實(shí)驗(yàn)中，ASM 表示被凍結(jié)——無論是預(yù)訓(xùn)練了 100 個(gè) epoch 還是隨機(jī)初始化——并在其嵌入上訓(xùn)練一個(gè)輕量級線性分類器，以根據(jù)狀態(tài)預(yù)測數(shù)據(jù)集動作。為此探針（probe）學(xué)習(xí)了新的動作查詢和線性頭。分析是在 dog-trot 環(huán)境中進(jìn)行的，該環(huán)境擁有 38 個(gè)子動作維度，被離散化為 30 個(gè)區(qū)間（bins），從而產(chǎn)生了 DM Control 套件中最大且最具挑戰(zhàn)性的組合動作空間。

6.3 分離學(xué)習(xí)到的表示的貢獻(xiàn)

訓(xùn)練后，學(xué)生網(wǎng)絡(luò)被凍結(jié)，并作為下游策略的輕量級、無注意力機(jī)制的特征提取器發(fā)揮作用。表 3 報(bào)告了該實(shí)驗(yàn)的結(jié)果。

SPIN-Distill 與完整 SPIN 模型的漸近性能相差無幾，并且顯著優(yōu)于所有其他基線方法，同時(shí)速度比 SAINT 快近 8 倍。這些結(jié)果提供了強(qiáng)有力的證據(jù)，表明 SPIN 的性能提升歸因于預(yù)訓(xùn)練表示本身的質(zhì)量，而非策略網(wǎng)絡(luò)的具體架構(gòu)。

6.4 涌現(xiàn)的快速適應(yīng)

在確立了預(yù)訓(xùn)練和表示質(zhì)量的重要性之后，我們接下來考察學(xué)習(xí)動態(tài)。表 4 報(bào)告了在 10,000 個(gè)梯度步之后達(dá)到的 F-IQL 漸近性能的百分比，這僅相當(dāng)于總訓(xùn)練預(yù)算的 1%。在幾乎所有環(huán)境中，SPIN 學(xué)習(xí)到的策略都能達(dá)到至少 90% 的目標(biāo)性能，而基線方法的提升則緩慢得多。這種效應(yīng)在異構(gòu)數(shù)據(jù)集上最為顯著。在使用 medium-expert 數(shù)據(jù)集的人形機(jī)器人（humanoid）任務(wù)中，SPIN 達(dá)到了目標(biāo)性能的 93.4%，而次優(yōu)方法 SAINT 僅達(dá)到了 9.3%。在 random-medium-expert 數(shù)據(jù)集上，在此期間，SPIN 在 cheetah 和 humanoid 任務(wù)中均超過了 F-IQL 漸近性能的 100%。

這種快速學(xué)習(xí)也闡明了 SPIN 的掛鐘時(shí)間效率（表 1）。下游 RL 階段的計(jì)算開銷主要由 Actor-Critic 循環(huán)占據(jù)，該循環(huán)需要在每個(gè)梯度步對 Actor、Critic 和目標(biāo)網(wǎng)絡(luò)進(jìn)行重復(fù)評估，以及進(jìn)行貝爾曼備份（Bellman backups）。相比之下，ASM 預(yù)訓(xùn)練階段是一個(gè)應(yīng)用于掩碼子動作的、穩(wěn)定的、單次遍歷（single-pass）的監(jiān)督目標(biāo)。因此，其相對成本極低：在 medium-expert 數(shù)據(jù)集上，預(yù)訓(xùn)練僅占 cheetah 總掛鐘時(shí)間的 5.6%，finger 的 1.4%，以及 humanoid 和 quadruped 的 1.6%。

綜上所述，這些結(jié)果表明 ASM 提供了一個(gè)強(qiáng)有力的結(jié)構(gòu)先驗(yàn)，極大地簡化了下游學(xué)習(xí)。端到端基線方法必須聯(lián)合發(fā)現(xiàn)動作結(jié)構(gòu)和控制，導(dǎo)致初始進(jìn)展緩慢，而 SPIN 則利用連貫的表示開始策略學(xué)習(xí)，從而實(shí)現(xiàn)了高效的早期適應(yīng)并減少了整體訓(xùn)練時(shí)間。

7 討論與結(jié)論

在離散組合動作空間中進(jìn)行強(qiáng)化學(xué)習(xí)，需要在指數(shù)級數(shù)量的組合動作中進(jìn)行搜索，同時(shí)確保所選子動作構(gòu)成連貫的動作組合。一些方法通過忽略動作結(jié)構(gòu)來簡化策略學(xué)習(xí)（Tang et al., 2022; Beeson et al., 2024），但代價(jià)是丟棄了關(guān)鍵的子動作依賴關(guān)系。其他方法嘗試同時(shí)捕捉結(jié)構(gòu)并求解控制問題（Zhang et al., 2018; Landers et al., 2024; 2025），但通常計(jì)算開銷極大且不穩(wěn)定。相比之下，SPIN 采用兩階段過程將表示學(xué)習(xí)與策略學(xué)習(xí)分離。在第一階段，動作結(jié)構(gòu)模型（ASM）學(xué)習(xí)一個(gè)表示函數(shù)，該函數(shù)以狀態(tài) s s 為條件，在子動作上誘導(dǎo)一個(gè)特征空間，其中結(jié)構(gòu)連貫的聯(lián)合動作位于一個(gè)低維流形上。隨后，該表示被凍結(jié)并在第二階段重用，此時(shí)控制問題簡化為在預(yù)訓(xùn)練 ASM 之上訓(xùn)練輕量級策略頭。

在數(shù)據(jù)集大小和質(zhì)量、動作維度以及動作基數(shù)各異的基準(zhǔn)測試中，SPIN 相比當(dāng)前最優(yōu)方法將平均回報(bào)最高提升了 39%，并將達(dá)到強(qiáng)基線性能所需的時(shí)間最多縮短了 12.8 倍。這些收益在具有挑戰(zhàn)性且更貼近現(xiàn)實(shí)的 medium-expert（中等-專家）和 random-medium-expert（隨機(jī)-中等-專家）數(shù)據(jù)集中最為顯著。

針對性分析闡明了 SPIN 的有效性。最終性能隨著學(xué)習(xí)到的表示質(zhì)量的提升而提高，證實(shí)了控制問題的瓶頸在于結(jié)構(gòu)發(fā)現(xiàn)。一旦該結(jié)構(gòu)可用，策略便能快速學(xué)習(xí)，在極小的訓(xùn)練比例內(nèi)即可達(dá)到其最終回報(bào)的大部分。線性探針進(jìn)一步表明，學(xué)習(xí)到的表示在生成完全協(xié)調(diào)的動作方面比隨機(jī)基線有效 45 倍，為下游智能體的成功提供了直接且定量的解釋。

盡管 SPIN 展現(xiàn)了強(qiáng)大的性能，但仍存在若干未來工作方向。將 SPIN 擴(kuò)展至 CQL 等值正則化方法是一個(gè)有前景的方向。一個(gè)自然的下一步是開發(fā)混合目標(biāo)，將 SPIN 的“表示優(yōu)先”設(shè)計(jì)與溫和的保守正則化相結(jié)合——例如，將懲罰限制在 ASM 提議的候選聯(lián)合動作上，或應(yīng)用于子動作級別，從而避免在完整組合空間上進(jìn)行難以處理的全局操作。將 SPIN 適配于具有除排列等變性以外結(jié)構(gòu)假設(shè)的動作空間（例如有序或基于序列的子動作）是另一個(gè)未來方向。最后，與所有離線方法一樣，SPIN 的泛化能力最終取決于數(shù)據(jù)集的覆蓋范圍，在稀疏或有偏數(shù)據(jù)下提高魯棒性仍然是一個(gè)重要的開放挑戰(zhàn)。

SPIN 為結(jié)構(gòu)化動作空間中的控制引入了一種“表示優(yōu)先”的視角。通過首先學(xué)習(xí)合理動作的流形，隨后重用表示函數(shù)進(jìn)行下游決策，它將復(fù)雜的組合問題簡化為可處理的策略學(xué)習(xí)任務(wù)。這種解耦為高維、結(jié)構(gòu)化領(lǐng)域的強(qiáng)化學(xué)習(xí)提供了一個(gè)原則性框架。

原文鏈接：https://arxiv.org/pdf/2601.04441

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.