<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      熵減強(qiáng)化學(xué)習(xí) Entropy-preserving reinforcement learning

      0
      分享至

      Entropy-preserving reinforcement learning

      熵減強(qiáng)化學(xué)習(xí)

      https://arxiv.org/pdf/2603.11682v1



      摘要

      策略梯度算法推動(dòng)了語(yǔ)言模型推理領(lǐng)域的許多近期進(jìn)展。一個(gè)頗具吸引力的特性是它們能夠從自身軌跡的探索中學(xué)習(xí),這一過(guò)程對(duì)于培養(yǎng)多樣化和創(chuàng)造性的解決方案至關(guān)重要。正如本文所示,許多策略梯度算法在訓(xùn)練過(guò)程中會(huì)自然地降低熵——從而降低探索軌跡的多樣性——導(dǎo)致策略的探索能力日益受限。在本文中,我們主張應(yīng)在整個(gè)訓(xùn)練過(guò)程中積極監(jiān)控和控制熵。我們形式化地分析了主流策略梯度目標(biāo)對(duì)熵動(dòng)態(tài)的影響,識(shí)別了顯著影響熵行為的經(jīng)驗(yàn)因素(如數(shù)值精度),并提出了顯式的熵控制機(jī)制。這些機(jī)制包括 REPO(一類(lèi)通過(guò)修改優(yōu)勢(shì)函數(shù)來(lái)調(diào)節(jié)熵的算法家族)以及 ADAPO(一種自適應(yīng)非對(duì)稱(chēng)裁剪方法)。使用我們提出的熵保持方法訓(xùn)練的模型在整個(gè)訓(xùn)練過(guò)程中保持了多樣性,從而產(chǎn)生了性能更強(qiáng)的最終策略,并保留了在新環(huán)境中進(jìn)行順序?qū)W習(xí)的可訓(xùn)練性。

      1 引言

      在線(xiàn)策略梯度強(qiáng)化學(xué)習(xí)(RL)已成為提升語(yǔ)言模型推理能力的標(biāo)準(zhǔn)方法(Jaech et al., 2024; Comanici et al., 2025; Guo et al., 2025)。該方法涉及在給定的環(huán)境和獎(jiǎng)勵(lì)函數(shù)中從當(dāng)前策略采樣軌跡,然后利用這些軌跡來(lái)估計(jì)一個(gè)旨在最大化期望獎(jiǎng)勵(lì)的梯度。有效的 RL 優(yōu)化需要在探索與利用之間取得平衡(Thrun, 1992; Sutton et al., 1998),其中魯棒的學(xué)習(xí)器應(yīng)生成多樣化的軌跡以覆蓋潛在解決方案的譜系。最大熵強(qiáng)化學(xué)習(xí)提供了一個(gè)實(shí)現(xiàn)這種平衡的框架(Ziebart et al., 2008; Haarnoja et al., 2017; 2018; Eysenbach & Levine, 2022)。雖然有限馬爾可夫決策過(guò)程(MDP)的最優(yōu)解顯然是一個(gè)確定性平穩(wěn)策略,但對(duì)中間優(yōu)化地形的搜索需要探索與利用的平衡。 在 GRPO(Shao et al., 2024)等在線(xiàn)算法中觀察到的一個(gè)常見(jiàn)問(wèn)題是熵坍縮。當(dāng)訓(xùn)練過(guò)度地將分布收窄至基礎(chǔ)模型中已經(jīng)具有高概率的解周?chē)鷷r(shí),就會(huì)發(fā)生這種現(xiàn)象,從而忽略了其他正確但概率較低的選項(xiàng)。這通常會(huì)導(dǎo)致過(guò)早收斂到局部最優(yōu)解,雖然提升了相對(duì)于基礎(chǔ)模型的 pass@1,但以犧牲 pass@k 為代價(jià)(Shao et al., 2024; Dang et al., 2025; Yue et al., 2025)。這一挑戰(zhàn)激發(fā)了策略梯度算法設(shè)計(jì)的創(chuàng)新,例如直接優(yōu)化 pass@k 性能(Chen et al., 2025b)。與此同時(shí),研究強(qiáng)調(diào)了 GRPO 的訓(xùn)練不穩(wěn)定性,以及離策略漂移、重要性權(quán)重裁剪與熵之間復(fù)雜的相互作用,這啟發(fā)了諸如 DAPO(Yu et al., 2025)和 GSPO(Zheng et al., 2025)等改進(jìn)方法。

      在本工作中,我們主張應(yīng)在整個(gè) RL 訓(xùn)練過(guò)程中積極監(jiān)控和控制熵。我們將熵保持作為理解近期算法成功的統(tǒng)一視角進(jìn)行分析,并提出了顯式的熵控制機(jī)制。我們工作的一個(gè)重要觀察是,盡管最終熵與性能之間存在相關(guān)性,但更具信息量的衡量標(biāo)準(zhǔn)是整個(gè)優(yōu)化過(guò)程中的熵軌跡。正如俗語(yǔ)所說(shuō),“重要的不是終點(diǎn),而是旅程。”圖 1 追蹤了這一效應(yīng)。在整個(gè)訓(xùn)練過(guò)程中以較低熵為特征的軌跡會(huì)導(dǎo)致較低的性能。相反,如果熵軌跡在大部分優(yōu)化過(guò)程中相似,僅在最后幾步有所不同,則性能基本不受影響。


      我們的貢獻(xiàn)涵蓋理論與算法開(kāi)發(fā)。我們分析了策略梯度目標(biāo)如何調(diào)節(jié)熵動(dòng)態(tài),證明了 PPO 的裁剪限制了熵的變化,且 DAPO 和 GSPO 的裁剪隱式地保持了熵。我們識(shí)別了影響熵動(dòng)態(tài)的關(guān)鍵實(shí)現(xiàn)因素,包括數(shù)值精度(BF16 與 FP16)和框架行為(FSDP2 輸出類(lèi)型轉(zhuǎn)換),從而解釋了先前觀察到的訓(xùn)練不穩(wěn)定性。我們提出了顯式的熵控制機(jī)制——修改優(yōu)勢(shì)函數(shù)的 REPO,以及一種自適應(yīng)非對(duì)稱(chēng)裁剪方法 ADAPO——兩者均使用自適應(yīng)控制器來(lái)維持目標(biāo)熵水平。僅我們的數(shù)值修正就在 AppWorld 上取得了當(dāng)前最優(yōu)結(jié)果(79% Test Normal,71% Test Challenge),而保持熵的 REPO 和 ADAPO 實(shí)現(xiàn)了最強(qiáng)的離策略性能,縮小了與同策略訓(xùn)練的差距,并保留了進(jìn)行順序?qū)W習(xí)的可訓(xùn)練性。

      2 預(yù)備知識(shí)





      近端策略?xún)?yōu)化(PPO)允許更新后的策略與采樣策略略有偏離(Schulman et al., 2017)。它使用重要性權(quán)重(importance weight)來(lái)修正參數(shù)更新的幅度,使得期望的策略梯度保持無(wú)偏。這些重要性權(quán)重通常會(huì)被裁剪(clipped),以避免偏離局部信任域(Schulman et al., 2015)。



      在本文中,我們分析了隨著策略梯度變體優(yōu)化其目標(biāo),狀態(tài)級(jí)熵(state-wise entropy)是如何演變的。我們識(shí)別了哪些算法變體自然地保持熵,哪些會(huì)導(dǎo)致快速坍縮(§3)。我們證明了細(xì)微的實(shí)現(xiàn)細(xì)節(jié)可能會(huì)扭曲熵動(dòng)態(tài),導(dǎo)致理論上應(yīng)保持熵的算法出現(xiàn)意外的坍縮(§4)。最后,我們提出了對(duì) RL 方法的簡(jiǎn)單修改,這些修改能帶來(lái)有效的熵正則化并提升下游任務(wù)性能(§5)。

      3 理論:策略梯度的熵動(dòng)態(tài)

      策略梯度強(qiáng)化學(xué)習(xí)(RL)的熵動(dòng)態(tài)歸結(jié)為兩個(gè)值之間的關(guān)系:(1)動(dòng)作對(duì)數(shù)概率,以及(2)這些動(dòng)作所產(chǎn)生的優(yōu)勢(shì)。直觀地說(shuō),為某個(gè)動(dòng)作分配正優(yōu)勢(shì)會(huì)增加其概率。對(duì)于高概率動(dòng)作,這一效應(yīng)會(huì)使分布變尖銳,從而降低熵。對(duì)于低概率動(dòng)作,這一效應(yīng)會(huì)使分布變平坦,從而增加熵。負(fù)優(yōu)勢(shì)的情況則相反。這種效應(yīng)是自然的:畢竟,圍繞正確動(dòng)作銳化一個(gè)不確定的策略可以直接最大化期望回報(bào)。然而,正如我們將看到的,并非所有 RL 算法都以相同的程度銳化分布。

      形式化地,考慮在狀態(tài) s s 下使用同策略動(dòng)作的策略梯度更新。在對(duì)訓(xùn)練動(dòng)態(tài)進(jìn)行一階泰勒近似下,熵的預(yù)期變化如下。




      總結(jié)。 上述理論分析表明,策略梯度算法中的熵動(dòng)態(tài)受優(yōu)勢(shì)與對(duì)數(shù)概率之間的相關(guān)性支配。PPO 的多次離策略更新會(huì)放大熵坍縮,而裁剪機(jī)制可以限定每次更新的熵變。非對(duì)稱(chēng)裁剪(DAPO)和序列級(jí)裁剪(GSPO)通過(guò)允許熵增加大于熵減少,提供了隱式的熵保持。然而,這些隱式機(jī)制在所有設(shè)定下可能并不充分。

      重要的是,即使是像 RLOO 這樣嚴(yán)格的同策略算法,也受制于推論 1 中描述的熵動(dòng)態(tài):如果基礎(chǔ)策略已經(jīng)對(duì)獎(jiǎng)勵(lì)函數(shù)校準(zhǔn)良好,優(yōu)勢(shì)與對(duì)數(shù)概率之間的相關(guān)性將為正,熵將會(huì)減少。RLOO 避免了由離策略漂移和對(duì)回收優(yōu)勢(shì)的重復(fù)更新所引起的該效應(yīng)的放大,但并未消除底層的動(dòng)態(tài)機(jī)制。這解釋了為什么在大多數(shù)設(shè)定下 RLOO 比基于 PPO 的算法保留了更多的熵,然而當(dāng)基礎(chǔ)模型針對(duì)任務(wù)進(jìn)行了強(qiáng)預(yù)校準(zhǔn)時(shí),仍然可能表現(xiàn)出有意義的熵?fù)p失。因此,我們?cè)?§5 中提出的顯式熵控制機(jī)制,即使在同策略設(shè)定下也可能是有價(jià)值的。

      4 實(shí)證發(fā)現(xiàn):影響熵的實(shí)現(xiàn)細(xì)節(jié)

      我們識(shí)別了顯著影響熵動(dòng)態(tài)的實(shí)證因素,將在本節(jié)中討論。

      4.1 模型輸出的 16 位量化影響裁剪




      4.2 FLOAT16 與 BFLOAT16 訓(xùn)練

      在 LLM 訓(xùn)練中,習(xí)慣上使用 BF16 浮點(diǎn)類(lèi)型,因?yàn)樗哂懈蟮膭?dòng)態(tài)范圍。然而,Qi et al. (2025) 報(bào)告稱(chēng)使用 float16 (FP16) 取得了改進(jìn)的結(jié)果,因?yàn)槠漕~外的尾數(shù)位能夠?qū)崿F(xiàn)更準(zhǔn)確的梯度表示。使用 FP16 格式顯著減少了 LLM 推理 (vLLM) 與訓(xùn)練子系統(tǒng)之間的差異,這是現(xiàn)代訓(xùn)練后棧(post-training stacks)固有的問(wèn)題(圖 2b)。

      在實(shí)踐中,配合適當(dāng)?shù)膿p失和梯度縮放,F(xiàn)P16 訓(xùn)練傾向于緩解熵坍縮,并產(chǎn)生更穩(wěn)定且可預(yù)測(cè)的訓(xùn)練過(guò)程。為了強(qiáng)調(diào)這些實(shí)證發(fā)現(xiàn)的重要性:FP16 訓(xùn)練結(jié)合 log ? π θ 舍入修正(§4.1)會(huì)導(dǎo)致定性不同的熵動(dòng)態(tài),使得 DAPO 的增加熵的非對(duì)稱(chēng)裁剪能夠克服坍縮(圖 3)。


      5 顯式熵控制方法

      §3 中的理論和 §4 中的實(shí)證分析表明,熵動(dòng)態(tài)受多種因素影響,且細(xì)微的實(shí)現(xiàn)細(xì)節(jié)可能會(huì)定性地改變算法行為。雖然隱式機(jī)制(非對(duì)稱(chēng)或序列級(jí)裁剪)提供了一定程度的控制,但為了穩(wěn)定的 RL 訓(xùn)練后(post-training)過(guò)程,可能需要一種顯式的熵正則化技術(shù)。


      在下文中,我們通過(guò)提出一種自適應(yīng)熵控制器和一個(gè)配對(duì)采樣估計(jì)器來(lái)解決這兩個(gè)問(wèn)題,該估計(jì)器無(wú)需實(shí)例化完整 logits 即可聯(lián)合估計(jì)策略梯度和熵梯度。

      5.1 REPO:調(diào)節(jié)熵策略?xún)?yōu)化




      高效估計(jì)。 REPO-D 和 REPO-R 都可以?xún)H使用采樣詞元 的對(duì)數(shù)概率進(jìn)行有效估計(jì),在使用 CCE(Wijmans et al., 2025)時(shí),這在前向傳播中已經(jīng)可用。這與顯式熵獎(jiǎng)勵(lì)形成對(duì)比,后者需要實(shí)例化詞匯表上的完整 logit 向量。我們?cè)?§A.7 中表明,REPO-D 在形式上等價(jià)于這種熵獎(jiǎng)勵(lì),但是使用配對(duì)樣本通過(guò) REINFORCE 進(jìn)行估計(jì),產(chǎn)生零額外內(nèi)存成本,并且作為一個(gè)控制變量,當(dāng)優(yōu)勢(shì)和概率呈正相關(guān)時(shí)(這是典型情況)減少梯度方差。

      5.2 ADAPO:自適應(yīng)非對(duì)稱(chēng)裁剪


      6 實(shí)驗(yàn)

      我們?cè)u(píng)估與最先進(jìn)的學(xué)習(xí)算法相比,保持的訓(xùn)練是否能在具有挑戰(zhàn)性的環(huán)境中為強(qiáng)模型帶來(lái)改進(jìn)。我們選擇 Qwen-3-8B 和 Qwen-3-32B 作為我們的初始策略(Yang et al., 2025)。

      環(huán)境。交互式工具使用智能體。 訓(xùn)練場(chǎng)景取自 AppWorld 基準(zhǔn)(Trivedi et al., 2024)的訓(xùn)練集劃分(90 個(gè)問(wèn)題)。AppWorld 測(cè)試常規(guī)(TN,168 個(gè)任務(wù))和測(cè)試挑戰(zhàn)(TC,417 個(gè)任務(wù))劃分用于評(píng)估。終端獎(jiǎng)勵(lì)通過(guò)任務(wù)提供的單元測(cè)試計(jì)算,該測(cè)試將環(huán)境的最終狀態(tài)與真實(shí)情況(ground truth)進(jìn)行核對(duì)(更多細(xì)節(jié)見(jiàn) §C.1)。競(jìng)賽級(jí)數(shù)學(xué)。 訓(xùn)練場(chǎng)景取自 NuminaMath-1.5(Li et al., 2024)中 AMC/AIME 部分的一個(gè)非重疊、經(jīng)過(guò)質(zhì)量過(guò)濾的子集(563 個(gè)問(wèn)題)。AIME 2024(30 個(gè)問(wèn)題)和 AIME 2025(30 個(gè)問(wèn)題)用作評(píng)估數(shù)據(jù)集。終端獎(jiǎng)勵(lì)指示生成的答案是否與參考答案匹配。我們注意到最近的模型對(duì)數(shù)學(xué)基準(zhǔn)測(cè)試存在顯著過(guò)擬合,因此我們?cè)?AIME 中嚴(yán)格將詞元預(yù)算(token budget)限制為 4096,以創(chuàng)建一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問(wèn)題。

      算法。 對(duì)于每種算法,我們突出其區(qū)別于基礎(chǔ)策略梯度的特征,同時(shí)保持其他方面的最小偏差以輔助復(fù)現(xiàn)(因此,某些細(xì)節(jié)和超參數(shù)選擇可能與原始來(lái)源略有不同)。


      6.1 跨算法的可變熵動(dòng)態(tài)

      我們?cè)?AppWorld(圖 4 和 5)和 AIME 實(shí)驗(yàn)(圖 6)中觀察到了 consistent patterns(一致的模式):類(lèi) PPO 算法比嚴(yán)格的同策略算法耗盡熵的速度更快。GRPO 在訓(xùn)練過(guò)程中將熵降低了近 90%,而 RLOO 的降低幅度則要小得多。LOOP 的表現(xiàn)與 GRPO 非常相似,因此為了可讀性而省略。全面的結(jié)果總結(jié)見(jiàn) §C.3。


      裁剪修正保護(hù)熵。 遵循 §3 中提供的直覺(jué),DAPO 和 GSPO 保留了明顯更多的熵。證實(shí)我們?cè)?§4 中的觀察,在沒(méi)有熵控制機(jī)制的情況下,DAPO 的熵在某些實(shí)驗(yàn)中可能會(huì)不受控制地增加(圖 5)。

      保持熵的方法優(yōu)于基線(xiàn)。 REPO-R 和 ADAPO 的得分高于其離策略基線(xiàn)(GRPO 和 DAPO),并在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定的策略熵。

      6.2 熵保持與下游性能

      我們?cè)u(píng)估熵保持對(duì)下游性能的影響。這些結(jié)果的預(yù)覽見(jiàn)圖 1。我們發(fā)現(xiàn),保持詞元級(jí)熵(per-token entropy)、在訓(xùn)練過(guò)程中維持更高累積熵的方法,比那些沒(méi)有這樣做的方法產(chǎn)生了更高的最終測(cè)試準(zhǔn)確率。這些趨勢(shì)在 AppWorld 上比在 AIME 上更為明顯。我們假設(shè) Qwen-3 系列模型針對(duì) AIME 進(jìn)行了高度優(yōu)化,因此這種優(yōu)化可能主要涉及圍繞現(xiàn)有解進(jìn)行銳化(sharpening)。另一方面,AppWorld 需要大量的探索以發(fā)現(xiàn)新能力。

      6.3 熵保持輔助順序訓(xùn)練

      我們?cè)u(píng)估不同算法在多大程度上支持在不同任務(wù)上進(jìn)行進(jìn)一步的 RL 微調(diào)(即順序訓(xùn)練)。為此,我們首先在 AIME 或 AppWorld 上訓(xùn)練 Qwen-3-8B。然后,我們將最佳檢查點(diǎn)(checkpoint)作為在相反環(huán)境中訓(xùn)練的起點(diǎn)。圖 7 顯示,使用 GRPO 訓(xùn)練的策略在第二階段訓(xùn)練表現(xiàn)不佳:由于熵坍縮,它們失去了探索能力。另一方面,DAPO,尤其是 REPO,在重新訓(xùn)練開(kāi)始時(shí)具有充足的熵,并在整個(gè)訓(xùn)練過(guò)程中保持其探索能力。


      6.4 數(shù)值精度穩(wěn)定化熵與性能

      圖 3 顯示,對(duì)于 Qwen-3-8B AppWorld 訓(xùn)練,數(shù)值修正產(chǎn)生了巨大的影響:DAPO 此前在此設(shè)定下表現(xiàn)出熵坍縮,現(xiàn)在則顯示出熵的快速增加,正如對(duì)其非對(duì)稱(chēng)裁剪設(shè)計(jì)的分析所表明的那樣。這表明觀測(cè)到的熵動(dòng)態(tài)對(duì)實(shí)現(xiàn)細(xì)節(jié)高度敏感,而這些細(xì)節(jié)可能并不顯而易見(jiàn),并且一些先前報(bào)道的熵坍縮現(xiàn)象可能是數(shù)值精度的偽影,而非算法的根本屬性。

      RLOO 實(shí)現(xiàn)最先進(jìn)性能。 在切換到 FP16 訓(xùn)練(§4)后,純同策略的 RLOO 在提交時(shí)在 AppWorld 基準(zhǔn)測(cè)試上取得了最高分:我們的最佳檢查點(diǎn)使用 Qwen-3-32B 取得了 79% 的 Test Normal 和 71% 的 Test Challenge 成績(jī)。

      7 相關(guān)工作

      強(qiáng)化學(xué)習(xí)已成為對(duì)齊預(yù)訓(xùn)練語(yǔ)言模型的主導(dǎo)范式(Ziegler et al., 2019; Stiennon et al., 2020; Ouyang et al., 2022)。該方法已在產(chǎn)生可驗(yàn)證獎(jiǎng)勵(lì)的環(huán)境(如編程和數(shù)學(xué))中成功擴(kuò)展(Jaech et al., 2024; Lambert et al., 2024; Comanici et al., 2025; Guo et al., 2025; Team et al., 2025)。經(jīng)驗(yàn)上,在此設(shè)定下的訓(xùn)練通常被視為圍繞現(xiàn)有解銳化基礎(chǔ)策略,而非產(chǎn)生新解(Gandhi et al., 2025; Liu et al., 2025b; Yue et al., 2025; Zhao et al., 2025)。一個(gè)良好的預(yù)訓(xùn)練基礎(chǔ)策略起初已經(jīng)對(duì)許多合理的獎(jiǎng)勵(lì)函數(shù)進(jìn)行了校準(zhǔn),而訓(xùn)練后(post-training)可被視為對(duì)該分布進(jìn)行調(diào)節(jié)(tempering)(Kadavath et al., 2022; Cui et al., 2025)。事實(shí)上,多項(xiàng)工作直接利用這種校準(zhǔn),通過(guò)無(wú)監(jiān)督訓(xùn)練后過(guò)程來(lái)推動(dòng)準(zhǔn)確率提升。Agarwal 等人 (2024) 簡(jiǎn)單地最小化,Prasad 等人 (2024);Zhang 等人 (2025);Zuo 等人 (2025) 與模型的多數(shù)投票分布對(duì)齊,Wang 等人 (2025) 僅憑單個(gè)標(biāo)注樣本即可達(dá)成目標(biāo),而 Shao 等人 (2025) 甚至使用隨機(jī)獎(jiǎng)勵(lì)。所有這些工作都可以通過(guò)簡(jiǎn)單地允許策略梯度去銳化一個(gè)已經(jīng)校準(zhǔn)好的基礎(chǔ)策略來(lái)解釋。雖然這類(lèi)方法有助于提升 pass@1,但會(huì)損害 pass@k(Shao et al., 2024; Dang et al., 2025; Yue et al., 2025)。


      8 結(jié)論

      在本工作中,我們主張應(yīng)在語(yǔ)言模型的整個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中積極監(jiān)控和控制熵。我們提供了理論分析,闡明了策略梯度目標(biāo)如何調(diào)節(jié)動(dòng)態(tài),解釋了為何 GRPO 等算法會(huì)出現(xiàn)坍縮,而 DAPO 和 GSPO 則能提供隱式的熵保持。我們識(shí)別了顯著影響熵動(dòng)態(tài)與訓(xùn)練不穩(wěn)定性的關(guān)鍵實(shí)證因素,尤其是數(shù)值精度(BF16 與 FP16)和框架行為(FSDP2 輸出類(lèi)型轉(zhuǎn)換)。基于這些洞見(jiàn),我們提出了顯式的控制機(jī)制:修改優(yōu)勢(shì)函數(shù)的 REPO,以及自適應(yīng)調(diào)整裁剪閾值的 ADAPO。我們的熵保持方法在 AIME 和 AppWorld 上表現(xiàn)優(yōu)異,優(yōu)于其基線(xiàn)方法(GRPO 和 DAPO),并提升了順序?qū)W習(xí)性能。我們還在論文提交時(shí)報(bào)告了 AppWorld 上的當(dāng)前最優(yōu)結(jié)果(使用 RLOO 結(jié)合 FP16 訓(xùn)練取得 79% Test Normal 和 71% Test Challenge)。

      我們明確了嚴(yán)格同策略算法(如 RLOO)與弱同策略算法(如 GRPO 和 GSPO)之間的區(qū)別。我們的結(jié)果表明,在適當(dāng)?shù)臄?shù)值處理下,嚴(yán)格同策略的 RLOO 取得了整體最佳性能。然而,嚴(yán)格同策略訓(xùn)練需要同步更新,這在分布式系統(tǒng)中會(huì)形成瓶頸。弱同策略方法支持異步訓(xùn)練流水線(xiàn),使得軌跡收集與策略更新能夠并行進(jìn)行,從而顯著提升吞吐量。我們提出的熵保持機(jī)制(REPO、ADAPO)與這兩種范式均兼容,能夠幫助弱同策略方法在保持異步執(zhí)行吞吐量?jī)?yōu)勢(shì)的同時(shí),逼近嚴(yán)格同策略訓(xùn)練的性能。

      總體而言,我們強(qiáng)調(diào),熵(及其對(duì)應(yīng)的探索能力)對(duì)于有效的策略?xún)?yōu)化至關(guān)重要,應(yīng)在 RL 訓(xùn)練流水線(xiàn)中被視為首要關(guān)注點(diǎn)。

      原文鏈接:https://arxiv.org/pdf/2603.11682v1

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      塞爾維亞總統(tǒng):將在特朗普和普京之后對(duì)中國(guó)進(jìn)行國(guó)事訪(fǎng)問(wèn)

      塞爾維亞總統(tǒng):將在特朗普和普京之后對(duì)中國(guó)進(jìn)行國(guó)事訪(fǎng)問(wèn)

      俄羅斯衛(wèi)星通訊社
      2026-05-18 15:10:17
      有錢(qián)人私下玩的多花?網(wǎng)友:開(kāi)眼了

      有錢(qián)人私下玩的多花?網(wǎng)友:開(kāi)眼了

      另子維愛(ài)讀史
      2026-05-16 21:38:47
      快訊!連勝文發(fā)言了!

      快訊!連勝文發(fā)言了!

      故事終將光明磊落
      2026-05-18 13:58:07
      特朗普剛走,高市早苗想訪(fǎng)華,麻生坐不住了,一句話(huà)把其拉回現(xiàn)實(shí)

      特朗普剛走,高市早苗想訪(fǎng)華,麻生坐不住了,一句話(huà)把其拉回現(xiàn)實(shí)

      近史博覽
      2026-05-18 00:38:57
      天降橫財(cái),世界杯補(bǔ)貼砸中浙江隊(duì):至少進(jìn)賬170萬(wàn)人民幣

      天降橫財(cái),世界杯補(bǔ)貼砸中浙江隊(duì):至少進(jìn)賬170萬(wàn)人民幣

      姜大叔侃球
      2026-05-18 11:03:51
      影帝黃渤新片慘敗,成本超2億,票房不到100萬(wàn),觀眾因何棄他?

      影帝黃渤新片慘敗,成本超2億,票房不到100萬(wàn),觀眾因何棄他?

      影視高原說(shuō)
      2026-05-16 07:04:06
      約會(huì)時(shí)女人說(shuō)去廁所,其實(shí)是在給你兩個(gè)暗示,聽(tīng)懂的都不是凡人

      約會(huì)時(shí)女人說(shuō)去廁所,其實(shí)是在給你兩個(gè)暗示,聽(tīng)懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      29勝6負(fù)!哈登要進(jìn)總決了,火箭媒體不滿(mǎn)斯通,白送騎士半套陣容

      29勝6負(fù)!哈登要進(jìn)總決了,火箭媒體不滿(mǎn)斯通,白送騎士半套陣容

      巴叔體育
      2026-05-18 12:42:59
      李昇祐談無(wú)緣世界杯:我感到失望,希望韓國(guó)隊(duì)取得好成績(jī)

      李昇祐談無(wú)緣世界杯:我感到失望,希望韓國(guó)隊(duì)取得好成績(jī)

      懂球帝
      2026-05-18 16:54:43
      美方想要的,中方終于給了?魯比奧求放一個(gè)人,特朗普打破慣例

      美方想要的,中方終于給了?魯比奧求放一個(gè)人,特朗普打破慣例

      田園小歸
      2026-05-17 09:22:03
      農(nóng)村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      農(nóng)村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      舒山有鹿
      2026-05-17 11:37:46
      一半股民投降了

      一半股民投降了

      刀哥復(fù)盤(pán)筆記
      2026-05-18 14:15:01
      日媒放話(huà):給中國(guó)50年追不上日本汽車(chē)!馬斯克:中國(guó)車(chē)企太能打

      日媒放話(huà):給中國(guó)50年追不上日本汽車(chē)!馬斯克:中國(guó)車(chē)企太能打

      南宗歷史
      2026-05-18 12:37:52
      男子因臉紅被交警攔下查酒駕 吹氣2次也沒(méi)查出酒精 從不喝酒卻一直臉紅不退、嘴唇發(fā)紫

      男子因臉紅被交警攔下查酒駕 吹氣2次也沒(méi)查出酒精 從不喝酒卻一直臉紅不退、嘴唇發(fā)紫

      閃電新聞
      2026-05-18 15:29:40
      特朗普剛走,四國(guó)政要就來(lái)華,美專(zhuān)家感慨:中國(guó)開(kāi)啟"朝貢時(shí)代"

      特朗普剛走,四國(guó)政要就來(lái)華,美專(zhuān)家感慨:中國(guó)開(kāi)啟"朝貢時(shí)代"

      生活魔術(shù)專(zhuān)家
      2026-05-17 22:35:29
      盧秀燕叫囂:不管特朗普說(shuō)了什么,我們要對(duì)自己的“國(guó)家”有信心

      盧秀燕叫囂:不管特朗普說(shuō)了什么,我們要對(duì)自己的“國(guó)家”有信心

      達(dá)文西看世界
      2026-05-17 14:59:59
      18號(hào)收評(píng):市場(chǎng)全天縮量調(diào)整,所有人都注意,準(zhǔn)備迎接新的變盤(pán)了

      18號(hào)收評(píng):市場(chǎng)全天縮量調(diào)整,所有人都注意,準(zhǔn)備迎接新的變盤(pán)了

      春江財(cái)富
      2026-05-18 15:23:19
      來(lái)了!首個(gè)冠軍點(diǎn)!阿森納最快兩天內(nèi)奪冠,每輸一場(chǎng),或丟一冠

      來(lái)了!首個(gè)冠軍點(diǎn)!阿森納最快兩天內(nèi)奪冠,每輸一場(chǎng),或丟一冠

      嗨皮看球
      2026-05-18 12:19:47
      央視《主角》火了,誰(shuí)都沒(méi)想到,片酬最高的即不是張嘉益,也不是北電院長(zhǎng)?

      央視《主角》火了,誰(shuí)都沒(méi)想到,片酬最高的即不是張嘉益,也不是北電院長(zhǎng)?

      東方不敗然多多
      2026-05-17 14:21:23
      退役20年至今無(wú)人超越:發(fā)動(dòng)機(jī)只出了8%的力,協(xié)和號(hào)憑什么飛到2馬赫?

      退役20年至今無(wú)人超越:發(fā)動(dòng)機(jī)只出了8%的力,協(xié)和號(hào)憑什么飛到2馬赫?

      平流層散步者
      2026-05-17 00:45:04
      2026-05-18 19:08:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1409文章數(shù) 19關(guān)注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

      頭條要聞

      失業(yè)男子在車(chē)?yán)镒?天無(wú)奈向交警求助 如今找到新工作

      頭條要聞

      失業(yè)男子在車(chē)?yán)镒?天無(wú)奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂(lè)要聞

      票房會(huì)破14億!口碑第一電影出現(xiàn)了

      財(cái)經(jīng)要聞

      前4月工業(yè)生產(chǎn)較快增長(zhǎng) 失業(yè)率5.3%

      汽車(chē)要聞

      二排座椅能躺能轉(zhuǎn)/三排座椅能收納 零跑D99座艙玩法多樣

      態(tài)度原創(chuàng)

      房產(chǎn)
      家居
      手機(jī)
      教育
      時(shí)尚

      房產(chǎn)要聞

      突發(fā)!海口重磅調(diào)規(guī)!碧桂園要解套;新埠島要起飛了!

      家居要聞

      觀山隱秀 心靈沉淀

      手機(jī)要聞

      安卓17iOS26:哪有什么液態(tài)玻璃,安卓頂多算高級(jí)毛玻璃

      教育要聞

      6所黑馬校崛起!最新奧賽3人進(jìn)國(guó)集,27人獲獎(jiǎng)!

      夏天褲子不用多買(mǎi),提前準(zhǔn)備幾條休閑的闊腿褲,百搭舒適顯瘦

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产一区在线播放av| 亚洲AV一二三区天堂无码www| 蜜臀av一区二区三区精品| 日韩AV人人爽| 成年女人免费毛片视频永久| 国产理论片在线观看| av亚洲日韩| 国产av丝袜旗袍无码网站| 精品国产国产2021| 亚洲欧美成人一区二区三区| 自拍国内| 三级国产在线观看| 综合久青草视频在线观看| 免费人妻无码不卡中文字幕18禁| 亚洲熟妇AV乱码在线观看| 九色视频丨PORNY丨丝袜| 综合亚洲另类欧美久久成人精品| 欧美和黑人xxxx猛交视频| 精品国产人成亚洲区| 熟妇与小伙子露脸对白| 成人片黄网站色大片免费毛片| 亚洲精品一区二区三区大| 丝袜美女二区| 国产AV无码专区国产乱码| 国产精品国产自产拍在线| 亚洲三级无码| 久久婷婷五月综合色欧美蜜芽 | 七月激情综合在线观看| 国产精品久久久一区二区三区| jizz国产免费观看| 久久久国产精品无码一区二区| 性无码专区无码| 亚洲第一福利导航| 九区视频免费观看| 手机看片精品国产福利| 天堂在/线中文在线资源 官网| 成人伊人青草久久综合网| 人妻激情乱人伦视频| 污网站在线观看免费| 国产午夜一区视频在线观看| 天干天干夜啦天干天干国产|