Entropy-preserving reinforcement learning
熵減強(qiáng)化學(xué)習(xí)
https://arxiv.org/pdf/2603.11682v1
![]()
![]()
摘要
策略梯度算法推動(dòng)了語(yǔ)言模型推理領(lǐng)域的許多近期進(jìn)展。一個(gè)頗具吸引力的特性是它們能夠從自身軌跡的探索中學(xué)習(xí),這一過(guò)程對(duì)于培養(yǎng)多樣化和創(chuàng)造性的解決方案至關(guān)重要。正如本文所示,許多策略梯度算法在訓(xùn)練過(guò)程中會(huì)自然地降低熵——從而降低探索軌跡的多樣性——導(dǎo)致策略的探索能力日益受限。在本文中,我們主張應(yīng)在整個(gè)訓(xùn)練過(guò)程中積極監(jiān)控和控制熵。我們形式化地分析了主流策略梯度目標(biāo)對(duì)熵動(dòng)態(tài)的影響,識(shí)別了顯著影響熵行為的經(jīng)驗(yàn)因素(如數(shù)值精度),并提出了顯式的熵控制機(jī)制。這些機(jī)制包括 REPO(一類(lèi)通過(guò)修改優(yōu)勢(shì)函數(shù)來(lái)調(diào)節(jié)熵的算法家族)以及 ADAPO(一種自適應(yīng)非對(duì)稱(chēng)裁剪方法)。使用我們提出的熵保持方法訓(xùn)練的模型在整個(gè)訓(xùn)練過(guò)程中保持了多樣性,從而產(chǎn)生了性能更強(qiáng)的最終策略,并保留了在新環(huán)境中進(jìn)行順序?qū)W習(xí)的可訓(xùn)練性。
1 引言
在線(xiàn)策略梯度強(qiáng)化學(xué)習(xí)(RL)已成為提升語(yǔ)言模型推理能力的標(biāo)準(zhǔn)方法(Jaech et al., 2024; Comanici et al., 2025; Guo et al., 2025)。該方法涉及在給定的環(huán)境和獎(jiǎng)勵(lì)函數(shù)中從當(dāng)前策略采樣軌跡,然后利用這些軌跡來(lái)估計(jì)一個(gè)旨在最大化期望獎(jiǎng)勵(lì)的梯度。有效的 RL 優(yōu)化需要在探索與利用之間取得平衡(Thrun, 1992; Sutton et al., 1998),其中魯棒的學(xué)習(xí)器應(yīng)生成多樣化的軌跡以覆蓋潛在解決方案的譜系。最大熵強(qiáng)化學(xué)習(xí)提供了一個(gè)實(shí)現(xiàn)這種平衡的框架(Ziebart et al., 2008; Haarnoja et al., 2017; 2018; Eysenbach & Levine, 2022)。雖然有限馬爾可夫決策過(guò)程(MDP)的最優(yōu)解顯然是一個(gè)確定性平穩(wěn)策略,但對(duì)中間優(yōu)化地形的搜索需要探索與利用的平衡。 在 GRPO(Shao et al., 2024)等在線(xiàn)算法中觀察到的一個(gè)常見(jiàn)問(wèn)題是熵坍縮。當(dāng)訓(xùn)練過(guò)度地將分布收窄至基礎(chǔ)模型中已經(jīng)具有高概率的解周?chē)鷷r(shí),就會(huì)發(fā)生這種現(xiàn)象,從而忽略了其他正確但概率較低的選項(xiàng)。這通常會(huì)導(dǎo)致過(guò)早收斂到局部最優(yōu)解,雖然提升了相對(duì)于基礎(chǔ)模型的 pass@1,但以犧牲 pass@k 為代價(jià)(Shao et al., 2024; Dang et al., 2025; Yue et al., 2025)。這一挑戰(zhàn)激發(fā)了策略梯度算法設(shè)計(jì)的創(chuàng)新,例如直接優(yōu)化 pass@k 性能(Chen et al., 2025b)。與此同時(shí),研究強(qiáng)調(diào)了 GRPO 的訓(xùn)練不穩(wěn)定性,以及離策略漂移、重要性權(quán)重裁剪與熵之間復(fù)雜的相互作用,這啟發(fā)了諸如 DAPO(Yu et al., 2025)和 GSPO(Zheng et al., 2025)等改進(jìn)方法。
在本工作中,我們主張應(yīng)在整個(gè) RL 訓(xùn)練過(guò)程中積極監(jiān)控和控制熵。我們將熵保持作為理解近期算法成功的統(tǒng)一視角進(jìn)行分析,并提出了顯式的熵控制機(jī)制。我們工作的一個(gè)重要觀察是,盡管最終熵與性能之間存在相關(guān)性,但更具信息量的衡量標(biāo)準(zhǔn)是整個(gè)優(yōu)化過(guò)程中的熵軌跡。正如俗語(yǔ)所說(shuō),“重要的不是終點(diǎn),而是旅程。”圖 1 追蹤了這一效應(yīng)。在整個(gè)訓(xùn)練過(guò)程中以較低熵為特征的軌跡會(huì)導(dǎo)致較低的性能。相反,如果熵軌跡在大部分優(yōu)化過(guò)程中相似,僅在最后幾步有所不同,則性能基本不受影響。
![]()
我們的貢獻(xiàn)涵蓋理論與算法開(kāi)發(fā)。我們分析了策略梯度目標(biāo)如何調(diào)節(jié)熵動(dòng)態(tài),證明了 PPO 的裁剪限制了熵的變化,且 DAPO 和 GSPO 的裁剪隱式地保持了熵。我們識(shí)別了影響熵動(dòng)態(tài)的關(guān)鍵實(shí)現(xiàn)因素,包括數(shù)值精度(BF16 與 FP16)和框架行為(FSDP2 輸出類(lèi)型轉(zhuǎn)換),從而解釋了先前觀察到的訓(xùn)練不穩(wěn)定性。我們提出了顯式的熵控制機(jī)制——修改優(yōu)勢(shì)函數(shù)的 REPO,以及一種自適應(yīng)非對(duì)稱(chēng)裁剪方法 ADAPO——兩者均使用自適應(yīng)控制器來(lái)維持目標(biāo)熵水平。僅我們的數(shù)值修正就在 AppWorld 上取得了當(dāng)前最優(yōu)結(jié)果(79% Test Normal,71% Test Challenge),而保持熵的 REPO 和 ADAPO 實(shí)現(xiàn)了最強(qiáng)的離策略性能,縮小了與同策略訓(xùn)練的差距,并保留了進(jìn)行順序?qū)W習(xí)的可訓(xùn)練性。
2 預(yù)備知識(shí)
![]()
![]()
![]()
![]()
近端策略?xún)?yōu)化(PPO)允許更新后的策略與采樣策略略有偏離(Schulman et al., 2017)。它使用重要性權(quán)重(importance weight)來(lái)修正參數(shù)更新的幅度,使得期望的策略梯度保持無(wú)偏。這些重要性權(quán)重通常會(huì)被裁剪(clipped),以避免偏離局部信任域(Schulman et al., 2015)。
![]()
![]()
在本文中,我們分析了隨著策略梯度變體優(yōu)化其目標(biāo),狀態(tài)級(jí)熵(state-wise entropy)是如何演變的。我們識(shí)別了哪些算法變體自然地保持熵,哪些會(huì)導(dǎo)致快速坍縮(§3)。我們證明了細(xì)微的實(shí)現(xiàn)細(xì)節(jié)可能會(huì)扭曲熵動(dòng)態(tài),導(dǎo)致理論上應(yīng)保持熵的算法出現(xiàn)意外的坍縮(§4)。最后,我們提出了對(duì) RL 方法的簡(jiǎn)單修改,這些修改能帶來(lái)有效的熵正則化并提升下游任務(wù)性能(§5)。
3 理論:策略梯度的熵動(dòng)態(tài)
策略梯度強(qiáng)化學(xué)習(xí)(RL)的熵動(dòng)態(tài)歸結(jié)為兩個(gè)值之間的關(guān)系:(1)動(dòng)作對(duì)數(shù)概率,以及(2)這些動(dòng)作所產(chǎn)生的優(yōu)勢(shì)。直觀地說(shuō),為某個(gè)動(dòng)作分配正優(yōu)勢(shì)會(huì)增加其概率。對(duì)于高概率動(dòng)作,這一效應(yīng)會(huì)使分布變尖銳,從而降低熵。對(duì)于低概率動(dòng)作,這一效應(yīng)會(huì)使分布變平坦,從而增加熵。負(fù)優(yōu)勢(shì)的情況則相反。這種效應(yīng)是自然的:畢竟,圍繞正確動(dòng)作銳化一個(gè)不確定的策略可以直接最大化期望回報(bào)。然而,正如我們將看到的,并非所有 RL 算法都以相同的程度銳化分布。
形式化地,考慮在狀態(tài) s s 下使用同策略動(dòng)作的策略梯度更新。在對(duì)訓(xùn)練動(dòng)態(tài)進(jìn)行一階泰勒近似下,熵的預(yù)期變化如下。
![]()
![]()
![]()
總結(jié)。 上述理論分析表明,策略梯度算法中的熵動(dòng)態(tài)受優(yōu)勢(shì)與對(duì)數(shù)概率之間的相關(guān)性支配。PPO 的多次離策略更新會(huì)放大熵坍縮,而裁剪機(jī)制可以限定每次更新的熵變。非對(duì)稱(chēng)裁剪(DAPO)和序列級(jí)裁剪(GSPO)通過(guò)允許熵增加大于熵減少,提供了隱式的熵保持。然而,這些隱式機(jī)制在所有設(shè)定下可能并不充分。
重要的是,即使是像 RLOO 這樣嚴(yán)格的同策略算法,也受制于推論 1 中描述的熵動(dòng)態(tài):如果基礎(chǔ)策略已經(jīng)對(duì)獎(jiǎng)勵(lì)函數(shù)校準(zhǔn)良好,優(yōu)勢(shì)與對(duì)數(shù)概率之間的相關(guān)性將為正,熵將會(huì)減少。RLOO 避免了由離策略漂移和對(duì)回收優(yōu)勢(shì)的重復(fù)更新所引起的該效應(yīng)的放大,但并未消除底層的動(dòng)態(tài)機(jī)制。這解釋了為什么在大多數(shù)設(shè)定下 RLOO 比基于 PPO 的算法保留了更多的熵,然而當(dāng)基礎(chǔ)模型針對(duì)任務(wù)進(jìn)行了強(qiáng)預(yù)校準(zhǔn)時(shí),仍然可能表現(xiàn)出有意義的熵?fù)p失。因此,我們?cè)?§5 中提出的顯式熵控制機(jī)制,即使在同策略設(shè)定下也可能是有價(jià)值的。
4 實(shí)證發(fā)現(xiàn):影響熵的實(shí)現(xiàn)細(xì)節(jié)
我們識(shí)別了顯著影響熵動(dòng)態(tài)的實(shí)證因素,將在本節(jié)中討論。
4.1 模型輸出的 16 位量化影響裁剪
![]()
![]()
![]()
4.2 FLOAT16 與 BFLOAT16 訓(xùn)練
在 LLM 訓(xùn)練中,習(xí)慣上使用 BF16 浮點(diǎn)類(lèi)型,因?yàn)樗哂懈蟮膭?dòng)態(tài)范圍。然而,Qi et al. (2025) 報(bào)告稱(chēng)使用 float16 (FP16) 取得了改進(jìn)的結(jié)果,因?yàn)槠漕~外的尾數(shù)位能夠?qū)崿F(xiàn)更準(zhǔn)確的梯度表示。使用 FP16 格式顯著減少了 LLM 推理 (vLLM) 與訓(xùn)練子系統(tǒng)之間的差異,這是現(xiàn)代訓(xùn)練后棧(post-training stacks)固有的問(wèn)題(圖 2b)。
在實(shí)踐中,配合適當(dāng)?shù)膿p失和梯度縮放,F(xiàn)P16 訓(xùn)練傾向于緩解熵坍縮,并產(chǎn)生更穩(wěn)定且可預(yù)測(cè)的訓(xùn)練過(guò)程。為了強(qiáng)調(diào)這些實(shí)證發(fā)現(xiàn)的重要性:FP16 訓(xùn)練結(jié)合 log ? π θ 舍入修正(§4.1)會(huì)導(dǎo)致定性不同的熵動(dòng)態(tài),使得 DAPO 的增加熵的非對(duì)稱(chēng)裁剪能夠克服坍縮(圖 3)。
![]()
5 顯式熵控制方法
§3 中的理論和 §4 中的實(shí)證分析表明,熵動(dòng)態(tài)受多種因素影響,且細(xì)微的實(shí)現(xiàn)細(xì)節(jié)可能會(huì)定性地改變算法行為。雖然隱式機(jī)制(非對(duì)稱(chēng)或序列級(jí)裁剪)提供了一定程度的控制,但為了穩(wěn)定的 RL 訓(xùn)練后(post-training)過(guò)程,可能需要一種顯式的熵正則化技術(shù)。
![]()
在下文中,我們通過(guò)提出一種自適應(yīng)熵控制器和一個(gè)配對(duì)采樣估計(jì)器來(lái)解決這兩個(gè)問(wèn)題,該估計(jì)器無(wú)需實(shí)例化完整 logits 即可聯(lián)合估計(jì)策略梯度和熵梯度。
5.1 REPO:調(diào)節(jié)熵策略?xún)?yōu)化
![]()
![]()
![]()
高效估計(jì)。 REPO-D 和 REPO-R 都可以?xún)H使用采樣詞元 的對(duì)數(shù)概率進(jìn)行有效估計(jì),在使用 CCE(Wijmans et al., 2025)時(shí),這在前向傳播中已經(jīng)可用。這與顯式熵獎(jiǎng)勵(lì)形成對(duì)比,后者需要實(shí)例化詞匯表上的完整 logit 向量。我們?cè)?§A.7 中表明,REPO-D 在形式上等價(jià)于這種熵獎(jiǎng)勵(lì),但是使用配對(duì)樣本通過(guò) REINFORCE 進(jìn)行估計(jì),產(chǎn)生零額外內(nèi)存成本,并且作為一個(gè)控制變量,當(dāng)優(yōu)勢(shì)和概率呈正相關(guān)時(shí)(這是典型情況)減少梯度方差。
5.2 ADAPO:自適應(yīng)非對(duì)稱(chēng)裁剪
![]()
6 實(shí)驗(yàn)
我們?cè)u(píng)估與最先進(jìn)的學(xué)習(xí)算法相比,保持的訓(xùn)練是否能在具有挑戰(zhàn)性的環(huán)境中為強(qiáng)模型帶來(lái)改進(jìn)。我們選擇 Qwen-3-8B 和 Qwen-3-32B 作為我們的初始策略(Yang et al., 2025)。
環(huán)境。交互式工具使用智能體。 訓(xùn)練場(chǎng)景取自 AppWorld 基準(zhǔn)(Trivedi et al., 2024)的訓(xùn)練集劃分(90 個(gè)問(wèn)題)。AppWorld 測(cè)試常規(guī)(TN,168 個(gè)任務(wù))和測(cè)試挑戰(zhàn)(TC,417 個(gè)任務(wù))劃分用于評(píng)估。終端獎(jiǎng)勵(lì)通過(guò)任務(wù)提供的單元測(cè)試計(jì)算,該測(cè)試將環(huán)境的最終狀態(tài)與真實(shí)情況(ground truth)進(jìn)行核對(duì)(更多細(xì)節(jié)見(jiàn) §C.1)。競(jìng)賽級(jí)數(shù)學(xué)。 訓(xùn)練場(chǎng)景取自 NuminaMath-1.5(Li et al., 2024)中 AMC/AIME 部分的一個(gè)非重疊、經(jīng)過(guò)質(zhì)量過(guò)濾的子集(563 個(gè)問(wèn)題)。AIME 2024(30 個(gè)問(wèn)題)和 AIME 2025(30 個(gè)問(wèn)題)用作評(píng)估數(shù)據(jù)集。終端獎(jiǎng)勵(lì)指示生成的答案是否與參考答案匹配。我們注意到最近的模型對(duì)數(shù)學(xué)基準(zhǔn)測(cè)試存在顯著過(guò)擬合,因此我們?cè)?AIME 中嚴(yán)格將詞元預(yù)算(token budget)限制為 4096,以創(chuàng)建一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問(wèn)題。
算法。 對(duì)于每種算法,我們突出其區(qū)別于基礎(chǔ)策略梯度的特征,同時(shí)保持其他方面的最小偏差以輔助復(fù)現(xiàn)(因此,某些細(xì)節(jié)和超參數(shù)選擇可能與原始來(lái)源略有不同)。
![]()
6.1 跨算法的可變熵動(dòng)態(tài)
我們?cè)?AppWorld(圖 4 和 5)和 AIME 實(shí)驗(yàn)(圖 6)中觀察到了 consistent patterns(一致的模式):類(lèi) PPO 算法比嚴(yán)格的同策略算法耗盡熵的速度更快。GRPO 在訓(xùn)練過(guò)程中將熵降低了近 90%,而 RLOO 的降低幅度則要小得多。LOOP 的表現(xiàn)與 GRPO 非常相似,因此為了可讀性而省略。全面的結(jié)果總結(jié)見(jiàn) §C.3。
![]()
裁剪修正保護(hù)熵。 遵循 §3 中提供的直覺(jué),DAPO 和 GSPO 保留了明顯更多的熵。證實(shí)我們?cè)?§4 中的觀察,在沒(méi)有熵控制機(jī)制的情況下,DAPO 的熵在某些實(shí)驗(yàn)中可能會(huì)不受控制地增加(圖 5)。
保持熵的方法優(yōu)于基線(xiàn)。 REPO-R 和 ADAPO 的得分高于其離策略基線(xiàn)(GRPO 和 DAPO),并在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定的策略熵。
6.2 熵保持與下游性能
我們?cè)u(píng)估熵保持對(duì)下游性能的影響。這些結(jié)果的預(yù)覽見(jiàn)圖 1。我們發(fā)現(xiàn),保持詞元級(jí)熵(per-token entropy)、在訓(xùn)練過(guò)程中維持更高累積熵的方法,比那些沒(méi)有這樣做的方法產(chǎn)生了更高的最終測(cè)試準(zhǔn)確率。這些趨勢(shì)在 AppWorld 上比在 AIME 上更為明顯。我們假設(shè) Qwen-3 系列模型針對(duì) AIME 進(jìn)行了高度優(yōu)化,因此這種優(yōu)化可能主要涉及圍繞現(xiàn)有解進(jìn)行銳化(sharpening)。另一方面,AppWorld 需要大量的探索以發(fā)現(xiàn)新能力。
6.3 熵保持輔助順序訓(xùn)練
我們?cè)u(píng)估不同算法在多大程度上支持在不同任務(wù)上進(jìn)行進(jìn)一步的 RL 微調(diào)(即順序訓(xùn)練)。為此,我們首先在 AIME 或 AppWorld 上訓(xùn)練 Qwen-3-8B。然后,我們將最佳檢查點(diǎn)(checkpoint)作為在相反環(huán)境中訓(xùn)練的起點(diǎn)。圖 7 顯示,使用 GRPO 訓(xùn)練的策略在第二階段訓(xùn)練表現(xiàn)不佳:由于熵坍縮,它們失去了探索能力。另一方面,DAPO,尤其是 REPO,在重新訓(xùn)練開(kāi)始時(shí)具有充足的熵,并在整個(gè)訓(xùn)練過(guò)程中保持其探索能力。
![]()
6.4 數(shù)值精度穩(wěn)定化熵與性能
圖 3 顯示,對(duì)于 Qwen-3-8B AppWorld 訓(xùn)練,數(shù)值修正產(chǎn)生了巨大的影響:DAPO 此前在此設(shè)定下表現(xiàn)出熵坍縮,現(xiàn)在則顯示出熵的快速增加,正如對(duì)其非對(duì)稱(chēng)裁剪設(shè)計(jì)的分析所表明的那樣。這表明觀測(cè)到的熵動(dòng)態(tài)對(duì)實(shí)現(xiàn)細(xì)節(jié)高度敏感,而這些細(xì)節(jié)可能并不顯而易見(jiàn),并且一些先前報(bào)道的熵坍縮現(xiàn)象可能是數(shù)值精度的偽影,而非算法的根本屬性。
RLOO 實(shí)現(xiàn)最先進(jìn)性能。 在切換到 FP16 訓(xùn)練(§4)后,純同策略的 RLOO 在提交時(shí)在 AppWorld 基準(zhǔn)測(cè)試上取得了最高分:我們的最佳檢查點(diǎn)使用 Qwen-3-32B 取得了 79% 的 Test Normal 和 71% 的 Test Challenge 成績(jī)。
7 相關(guān)工作
強(qiáng)化學(xué)習(xí)已成為對(duì)齊預(yù)訓(xùn)練語(yǔ)言模型的主導(dǎo)范式(Ziegler et al., 2019; Stiennon et al., 2020; Ouyang et al., 2022)。該方法已在產(chǎn)生可驗(yàn)證獎(jiǎng)勵(lì)的環(huán)境(如編程和數(shù)學(xué))中成功擴(kuò)展(Jaech et al., 2024; Lambert et al., 2024; Comanici et al., 2025; Guo et al., 2025; Team et al., 2025)。經(jīng)驗(yàn)上,在此設(shè)定下的訓(xùn)練通常被視為圍繞現(xiàn)有解銳化基礎(chǔ)策略,而非產(chǎn)生新解(Gandhi et al., 2025; Liu et al., 2025b; Yue et al., 2025; Zhao et al., 2025)。一個(gè)良好的預(yù)訓(xùn)練基礎(chǔ)策略起初已經(jīng)對(duì)許多合理的獎(jiǎng)勵(lì)函數(shù)進(jìn)行了校準(zhǔn),而訓(xùn)練后(post-training)可被視為對(duì)該分布進(jìn)行調(diào)節(jié)(tempering)(Kadavath et al., 2022; Cui et al., 2025)。事實(shí)上,多項(xiàng)工作直接利用這種校準(zhǔn),通過(guò)無(wú)監(jiān)督訓(xùn)練后過(guò)程來(lái)推動(dòng)準(zhǔn)確率提升。Agarwal 等人 (2024) 簡(jiǎn)單地最小化,Prasad 等人 (2024);Zhang 等人 (2025);Zuo 等人 (2025) 與模型的多數(shù)投票分布對(duì)齊,Wang 等人 (2025) 僅憑單個(gè)標(biāo)注樣本即可達(dá)成目標(biāo),而 Shao 等人 (2025) 甚至使用隨機(jī)獎(jiǎng)勵(lì)。所有這些工作都可以通過(guò)簡(jiǎn)單地允許策略梯度去銳化一個(gè)已經(jīng)校準(zhǔn)好的基礎(chǔ)策略來(lái)解釋。雖然這類(lèi)方法有助于提升 pass@1,但會(huì)損害 pass@k(Shao et al., 2024; Dang et al., 2025; Yue et al., 2025)。
![]()
8 結(jié)論
在本工作中,我們主張應(yīng)在語(yǔ)言模型的整個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中積極監(jiān)控和控制熵。我們提供了理論分析,闡明了策略梯度目標(biāo)如何調(diào)節(jié)動(dòng)態(tài),解釋了為何 GRPO 等算法會(huì)出現(xiàn)坍縮,而 DAPO 和 GSPO 則能提供隱式的熵保持。我們識(shí)別了顯著影響熵動(dòng)態(tài)與訓(xùn)練不穩(wěn)定性的關(guān)鍵實(shí)證因素,尤其是數(shù)值精度(BF16 與 FP16)和框架行為(FSDP2 輸出類(lèi)型轉(zhuǎn)換)。基于這些洞見(jiàn),我們提出了顯式的控制機(jī)制:修改優(yōu)勢(shì)函數(shù)的 REPO,以及自適應(yīng)調(diào)整裁剪閾值的 ADAPO。我們的熵保持方法在 AIME 和 AppWorld 上表現(xiàn)優(yōu)異,優(yōu)于其基線(xiàn)方法(GRPO 和 DAPO),并提升了順序?qū)W習(xí)性能。我們還在論文提交時(shí)報(bào)告了 AppWorld 上的當(dāng)前最優(yōu)結(jié)果(使用 RLOO 結(jié)合 FP16 訓(xùn)練取得 79% Test Normal 和 71% Test Challenge)。
我們明確了嚴(yán)格同策略算法(如 RLOO)與弱同策略算法(如 GRPO 和 GSPO)之間的區(qū)別。我們的結(jié)果表明,在適當(dāng)?shù)臄?shù)值處理下,嚴(yán)格同策略的 RLOO 取得了整體最佳性能。然而,嚴(yán)格同策略訓(xùn)練需要同步更新,這在分布式系統(tǒng)中會(huì)形成瓶頸。弱同策略方法支持異步訓(xùn)練流水線(xiàn),使得軌跡收集與策略更新能夠并行進(jìn)行,從而顯著提升吞吐量。我們提出的熵保持機(jī)制(REPO、ADAPO)與這兩種范式均兼容,能夠幫助弱同策略方法在保持異步執(zhí)行吞吐量?jī)?yōu)勢(shì)的同時(shí),逼近嚴(yán)格同策略訓(xùn)練的性能。
總體而言,我們強(qiáng)調(diào),熵(及其對(duì)應(yīng)的探索能力)對(duì)于有效的策略?xún)?yōu)化至關(guān)重要,應(yīng)在 RL 訓(xùn)練流水線(xiàn)中被視為首要關(guān)注點(diǎn)。
原文鏈接:https://arxiv.org/pdf/2603.11682v1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.