網易首頁 > 網易號 > 正文申請入駐

回溯反饋強化學習

2026-04-22 21:19:34　來源: CreateAMind

上海舉報

分享至

回溯反饋強化學習

Reinforcement Learning with Backtracking Feedback

https://arxiv.org/pdf/2602.08377

摘要

針對大型語言模型（LLMs）在對抗性攻擊和分布內錯誤方面對穩健安全性的關鍵需求，我們提出了帶有回溯反饋的強化學習（Reinforcement Learning with Backtracking Feedback, RLBF）框架。該框架在先前方法（如 BSAFE）的基礎上進行了改進，主要通過利用強化學習（RL）階段，使模型學會動態糾正其自身生成過程中的錯誤。通過對模型實時輸出進行基于批評者（critic）反饋的強化學習，大型語言模型被訓練以識別并從其實際出現的、新興的安全違規行為中恢復：模型會發出一個高效的"回溯 x 個令牌"信號，然后以自回歸方式繼續生成。這一強化學習過程對于培養模型抵御復雜對抗策略的韌性至關重要，這些策略包括中段填充（middle filling）、貪婪坐標梯度（Greedy Coordinate Gradient, GCG）攻擊以及解碼參數操控等。為進一步支持這種回溯能力的習得，我們還提出了一種增強的監督微調（Supervised Fine-Tuning, SFT）數據生成策略（BSAFE+）。該方法通過在原本連貫且安全的文本中注入違規行為，改進了先前的數據創建技術，從而為回溯機制提供更有效的初始訓練。全面的實證評估表明，RLBF 在多樣化的基準測試和模型規模上顯著降低了攻擊成功率，在實現更優安全結果的同時，關鍵性地保留了模型的基礎效用。

1 引言

大型語言模型（LLMs）[Vaswani 等人，2017；Radford 等人，2018；Brown 等人，2020；Gemini 團隊等人，2023，以及其他] 已展現出卓越的能力，變革了從自然語言理解與生成 [Wei 等人，2022；Ouyang 等人，2022] 到復雜推理 [Zhou 等人，2023；Sel 等人，2024a, 2025a]、優化 [Li 等人，2023；Jin 等人，2024] 以及軟件開發 [Chen 等人，2021；Thoppilan 等人，2022] 等諸多領域。隨著這些模型日益強大且廣泛應用，確保其安全性以及與人類價值觀的對齊至關重要 [Hendrycks 等人，2021]。這不僅涉及緩解模型在對抗性提示下生成明顯有害內容的問題，還需應對更為細微的安全關切，例如毒性、偏見，以及生成誤導性或不安全信息的潛在風險 [Touvron 等人，2023；Kumar 等人，2023]。

盡管已取得顯著進展，但當前主流的安全對齊技術——包括用于安全的監督微調（SFT）[Leike 等人，2018；Kenton 等人，2021]、基于人類或人工智能反饋的強化學習（RLHF/RLAIF）[Ouyang 等人，2022；Bai 等人，2022b；Shen 等人，2023]，以及直接偏好優化（DPO）[Rafailov 等人，2023]——仍面臨顯著的局限性 [Qi 等人，2025；Zhang 等人，2025]。一個關鍵問題是模型傾向于發展出一種"淺層安全"響應，其特征通常表現為主要由提示或查詢的初始令牌觸發的拒絕機制 [Carlini 等人，2023]。這種表面化的對齊使模型易受復雜越獄技術和對抗性攻擊的影響，例如預填充攻擊（prefilling attacks）[Tang, 2024；Andriushchenko 等人，2025]、GCG [Zou 等人，2023b] 以及各種提示注入方法 [Zou 等人，2023a；Chao 等人，2025；Lin 等人，2024]，這些攻擊可繞過初始安全檢查。此外，正如 ReG-QA [Addepalli 等人，2025] 等方法所展示的，即使是看似自然的提示也可能無意中引發不安全或有毒的響應，這凸顯了實現穩健且可泛化的安全對齊所面臨的挑戰。

現有的糾正機制，例如重置生成上下文 [Zhang 等人，2025；Qi 等人，2025]，提供了部分解決方案，尤其針對聚焦于初始令牌操控的攻擊。然而，重置可能效率極低，常常因序列后期出現的孤立安全違規而丟棄大量有效且有用的已生成文本 [Hartvigsen 等人，2022；Lin 等人，2023]。例如，生成了數頁正確的代碼，卻僅因包含一條冒犯性評論，理想情況下不應導致丟棄整個輸出。雖然先前的回溯方法（如 BSAFE [Sel 等人，2025b]）旨在實現更具針對性的糾正，但其提出的機制——通常涉及重復有害片段后再進行編輯——可能效率低下。

為克服這些不足，我們提出了帶有回溯反饋的強化學習（RL with Backtracking Feedback），這是一種新穎的框架，旨在賦予大型語言模型在生成過程本身中動態識別并糾正安全違規的能力。我們的方法利用安全批評者（safety critics）——可針對特定安全類別（如毒性、有害性、偏見）進行專門化——以實時監控模型的輸出。一旦批評者檢測到問題片段，我們的核心創新在于一種顯著簡化的回溯機制：模型并非執行復雜的"重復后編輯"流程，而是簡單地被信號指示"回溯 x 個令牌"，其中 x 是一個整數，表示需要回退的令牌數量，以到達違規行為發生前已知的安全狀態。這使得模型能夠高效地僅丟棄問題片段，并從安全點繼續生成。我們認為，這種直接的回溯指令提升了效率，并避免了與先前方法相關的生成偽影（artifacts）。

總之，本文介紹了帶有回溯反饋的強化學習（RL with Backtracking Feedback），這是一個通過高效的生成中糾正來增強大型語言模型（LLM）安全性的框架。我們的貢獻如下：

一種新穎且高效的回溯機制，使用簡單的“回溯 x 個令牌（backtrack by x tokens）”指令，能夠以最小的干擾和偽影生成，實現對安全違規的針對性糾正。
一種改進的監督微調（SFT）數據生成方法論，通過將安全違規插入連貫的文本中來創建真實的訓練場景，從而為學習回溯行為提供精確的監督。
一種利用批評者（critic）反饋進行分布內（in-distribution）學習的強化學習（RL）范式，強調修復生成錯誤的能力，而不僅僅是預防錯誤。

后續章節將詳細闡述我們的方法論、實驗設計、將我們的方法與基線進行比較的結果，并討論動態、糾正性 LLM 安全機制研究的意義及未來途徑。

2 相關工作

大型語言模型中的安全對齊。確保大型語言模型（LLMs）生成的輸出與人類價值觀和倫理保持一致，是一個關鍵的研究領域。一種被廣泛采用的策略是基于人類或人工智能反饋訓練一個獎勵模型，隨后使用強化學習技術（如近端策略優化，Proximal Policy Optimization, PPO）[Ouyang 等人，2022；Bai 等人，2022a,b] 對生成模型進行微調。這種基于人類/人工智能反饋的強化學習（RLHF/RLAIF）范式旨在訓練既有益又無害的模型 [Hendrycks 等人，2021]。然而，基于強化學習的方法可能在計算上代價高昂且實現復雜。因此，研究者正在探索替代方案，例如直接微調方法（如直接偏好優化，Direct Preference Optimization, DPO）[Rafailov 等人，2023]，以及其他用于增強安全性的非強化學習技術 [Yuan 等人，2023]。這些方法共同應對著一項重大挑戰：在努力維持模型高性能與效用的同時，最大限度地減少有害或不道德內容的生成。盡管取得了這些進展，許多現有的安全對齊技術仍可能表現出"淺層安全"（shallow safety）的特征，即易受復雜對抗性攻擊的影響——這些攻擊可通過操控提示結構或在輸入后期注入惡意指令來繞過初始安全檢查 [Qi 等人，2025；Zhang 等人，2025；Carlini 等人，2023]。

生成優化與自我糾正。另一條研究路線聚焦于改進和優化語言模型的輸出，通常涉及迭代過程或用于處理生成過程中錯誤的機制。自我優化模型通過探索多種視角或生成替代性續寫等方式，迭代地增強其輸出 [Madaan 等人，2023；Ma 等人，2023；Sel 等人，2024b]。研究者也開發了在生成過程中融入探索、優化與適應機制的大規模模型 [Long, 2023；Yao 等人，2023；Sel 等人，2024a]。為增強模型抵御對抗性攻擊和生成失敗的安全性，研究者提出了在檢測到不安全內容時修改生成過程的技術。這些技術包括：將模型狀態重置到更早的節點以對抗對抗性攻擊 [Qi 等人，2025；Zhang 等人，2025]、防御后綴攻擊（suffix attacks）[Zou 等人，2023b]、調整解碼參數以緩解災難性失敗 [Huang 等人，2024]，以及總體上應對越獄嘗試 [Andriushchenko 等人，2025]。"斷路器"（Circuit Breakers）[Zou 等人，2024] 代表了該領域的另一種方法，其目標是通過控制內部表征，在模型即將生成有害輸出時中斷其運行。

3 增強語言模型中的回溯能力

目前已提出多種使語言模型能夠進行回溯的方法。例如，“重置”（Reset）機制 [Qi 等人，2025；Zhang 等人，2025] 涉及直接回退到生成的開頭，或生成一個特殊的 [RESET] 詞元。雖然該策略適用于在生成序列早期出現的問題，但對于文本較深處出現的安全違規行為則效率低下，因為它可能需要丟棄大量詞元來糾正一小段內容。BSAFE 方法 [Sel 等人，2025b] 提供了一種更具針對性的方法：通過生成類別特定詞元（例如 [TOXICITY]、[HEALTH_VIOLATION]）來標記違規行為，隨后在恢復生成之前，用安全的替代內容重寫有害部分。BSAFE 的一個關鍵優勢在于其能夠在測試時控制每個類別的回溯概率。然而，盡管比完全重置更高效，重寫問題片段的要求仍然損害了整體效率。因此，我們提出了一種更精簡的機制：生成一個 [CATEGORY] 詞元以識別違規類型，隨后生成一個 [BACKTRACK_BY_X] 詞元，其中 X 是一個正整數，表示需要刪除的前序詞元數量。該方法同樣保留了在測試時控制每個類別回溯概率的能力。

模型學習回溯的方法與回溯機制本身同樣關鍵。“重置”方法通常采用掩碼監督微調（SFT），其中有害片段被掩碼化，以訓練模型生成 [RESET] 詞元和適當的拒絕文本，通常輔以直接偏好優化（DPO）。BSAFE [Sel 等人，2025b] 采用了一種定制的掩碼 SFT 策略，用于處理需要編輯而非完全拒絕的更細微的安全違規行為。他們的數據生成過程涉及提示一個模型就各種主題提問和回答，然后由另一個模型標注特定的安全類別違規。然而，我們觀察到該方法傾向于生成通用示例和較低質量的答案，盡管 BSAFE 作者并未報告數學基準測試上的性能下降。事實上，當我們在 LMSYS 基準測試上評估使用 BSAFE 數據生成策略訓練的指令微調（IT）模型時，其性能（由一個更強的模型 Gemini 2.0 評判）顯著低于標準 IT 模型（勝率為 28.2% 對比 71.8%）。此外，從單一模型生成響應作為訓練數據，可能導致被訓練模型出現分布外的安全續寫。

為了解決這些局限性，我們提出了 BSAFE+，這是一種用于讓 LLM 學習回溯的新型數據生成策略。該策略首先使用一個有能力的待訓練基礎模型，為相關查詢（例如來自聊天數據集）生成高質量的答案。隨后，在與原始查詢和周圍文本相關的、隨機但上下文連貫的位置，將有害或越獄片段注入到這些安全答案中。該方法提供了一個關鍵優勢：由于我們從完整的原始安全答案開始，我們知道精確的回溯位置和正確的安全續寫內容，這本質上對于基礎模型而言是分布內的。這保留了模型的答案質量（49.4% 對比 50.6%）。

4 帶有回溯反饋的強化學習

我們提出的框架——帶有回溯反饋的強化學習（RL with Backtracking Feedback），旨在通過使大型語言模型（LLMs）能夠在生成過程中動態檢測并糾正安全違規，從而在其中灌輸穩健的安全措施。該方法通過整合一個涉及實時監控和高效糾正機制的反饋循環，超越了靜態安全過濾器或簡單的拒絕機制。我們框架的核心組件包括：(1) 一種通過監督微調（SFT）教授的高級回溯機制，以及 (2) 一個利用 LLM 安全批評者（safety critic）反饋來優化模型策略的強化學習（RL）階段。

4.1 回溯機制與監督微調

有效的回溯既需要一個定義明確的機制，也需要一種穩健的方法來教導模型如何使用它。

4.1.1 提出的詞元高效回溯機制

我們提出了一種更精簡的回溯機制。當檢測到一個跨越 X X個詞元的安全違規時（結束于詞元），模型被訓練去執行以下操作：

4.1.2 用于高效回溯的監督微調

為了教授這種行為，我們采用了一種專門設計的 SFT（監督微調）策略：

4.2 帶有評論家反饋的強化學習

繼監督微調（SFT）之后，強化學習（RL）被用于進一步優化模型策略 π θ
，鼓勵主動安全性并最優地利用回溯機制。

4.2.1 LLM 安全評論家

4.2.2 獎勵函數

4.2.3 結合 SFT 數據整合的 GRPO 優化

5 實驗結果

在本節中，我們提供經驗證據以驗證帶有回溯反饋的強化學習（RLBF）的有效性。我們與相關基線進行了對比分析，包括標準指令微調模型（IT）、在我們排除了特定回溯獎勵的獎勵函數上訓練的 IT 模型、BSAFE+ 以及 Circuit Breakers [Zou et al., 2024]，重點關注對抗攻擊的魯棒性以及模型實用性的保留。我們在補充材料中提供了重現這些實驗所需的所有必要信息。

5.1 對抗有害內容生成的魯棒性

我們首先評估模型在抵御生成有害內容方面的韌性，特別是在遭受旨在規避標準安全機制的攻擊時。表 1 總結了在 LMSYS 基準測試上的攻擊成功率（ASR），包括標準形式和疊加了中間填充（MF）攻擊的形式，涵蓋了各種規模的 Gemma 2 和 LLaMA 3 模型。

基線 IT 模型表現出的高 ASR（在 LMSYS-MF 上為 68%–81%，在 LMSYS 上為 24%–28%）凸顯了標準指令微調在實現穩健安全性方面的已知局限性。這些模型通常會形成“淺層安全性”，很容易被類似 MF 的攻擊繞過，這類攻擊在初始良性上下文之后注入惡意指令。使用 RL 觀察到的邊際改進（在 LMSYS-MF 上為 61%–72%，在 LMSYS 上為 22%–25%）表明，傳統的 RLHF/RLAIF 雖然可能減少對良性提示的直接拒絕，但如果沒有特定機制，并不能內在地使模型具備處理復雜的、上下文內安全違規的能力。

形成鮮明對比的是，采用回溯機制的方法在對抗 MF 攻擊時表現出顯著增強的魯棒性。BSAFE+（ASR 為 3%–6%）和我們的 RLBF（ASR 為 3%–7%）都大幅降低了成功率。這強烈表明，動態的、生成過程中的修正機制對于應對超越簡單提示級過濾的攻擊至關重要。通過允許模型撤回在生成中途被識別出的違規 token，這些方法有效地化解了 MF 攻擊的核心策略。

有趣的是，雖然 BSAFE+ 和 RLBF 在對抗 MF 攻擊時表現相當，但 RLBF 在標準 LMSYS 有害查詢子集上取得了顯著更優的結果（RLBF 的 ASR 為 1%–2%，而 BSAFE+ 為 14%–17%）。這表明 RLBF 提供了更全面的安全性提升。我們推測這一優勢源于我們框架的兩個關鍵方面：

集成 RL 優化：RLBF 中的 RL 組件顯式地優化策略，不僅通過回溯來修正錯誤，還從源頭避免生成違規內容，利用來自模型自身生成分布的評論家反饋。與可能更依賴其 SFT 教授的修正反射的 BSAFE+ 相比，這可能導致內在更安全的生成傾向。
高效回溯信號：與 BSAFE 使用的多 token [backtrack] ... [replace] ... 序列相比，更簡單的“回溯 x 個 token”命令對模型來說可能是更直接、更容易學習的信號，這可能導致修正執行的可靠性更高。

這些發現在不同模型家族和規模上的一致性進一步表明了我們方法的普遍適用性。

表 2 將這一分析擴展到其他對抗性策略：貪婪坐標梯度（GCG）攻擊和解碼參數操縱。這些攻擊代表了不同的威脅向量，用于測試模型的內部魯棒性以及對生成配置的敏感度。在對抗 GCG 攻擊時，與所有基線相比，包括表現強勁的 Circuit Breakers（ASR 為 10.7%–13.4%）和 BSAFE+（ASR 為 5.7%–6.6%），RLBF 始終實現了最低的攻擊成功率（4.3%–4.7%）。類似地，在對抗解碼參數攻擊時，雖然 BSAFE+ 和 RLBF 都表現出色（例如在 MaliciousInstruct 上 ASR 均為 1.0%），但 RLBF 在 HEx-PHI 基準測試上顯示出輕微優勢（3.7% 對比 5.0%）。這種在多樣化、自適應攻擊下的優越表現進一步強化了 RLBF 中集成 RL 優化的優勢，這可能培養了比僅依靠基于 SFT 的修正或外部過濾器所能實現的、更為根本性的安全違規魯棒性。

5.2 模型實用性的保留

對于任何安全干預措施而言，一個關鍵的考量因素是其對模型通用能力的潛在影響——即所謂的“對齊稅（alignment tax）”。我們通過評估模型在標準學術基準測試上的表現來對此進行評估：MMLU（通用知識）、BBH（復雜推理）、GSM8K（數學應用題）和 MATH（高等數學）。表 3 比較了基礎 IT 模型、BSAFE+ 和 RLBF 在 Gemma2 9B 和 LLaMA 3 8B 上的實用性。

結果令人信服地表明，RLBF 所提供的實質性安全提升并未以犧牲實用性為代價。在所有四個基準測試和兩個基礎模型上，RLBF 的性能與原始 IT 模型和 BSAFE+ 模型幾乎無法區分。例如，配備 RLBF 的 Gemma2 9B 在 MMLU 上達到 70.7%，在 MATH 上達到 35.6%，而 IT 基線分別為 70.6% 和 35.4%。同樣，配備 RLBF 的 LLaMA 3 8B 在 BBH 上得分為 64.2%，在 GSM8K 上為 63.1%，與 IT 基線的 64.1% 和 63.1% 相一致。

這種實用性的保留是一個至關重要的成果。它表明我們的框架成功地隔離了安全機制，主要在評論家檢測到安全違規時才觸發回溯。在正常的、良性的生成過程中，模型基本上作為能力強大的指令微調基礎模型運行。SFT 策略（將安全修正數據與標準指令數據混合）以及 RL 目標的性質（獎勵安全續寫，包括成功的回溯）有效地防止了災難性遺忘或核心能力的顯著退化。這證實了 RLBF 提供了一條實現穩健安全性的路徑，同時不會損害模型在通用任務上的有用性。

5.3 各安全類別的分析

在各種模型規模（Gemma 2 2B、LLaMA 3 1B 和 LLaMA 3 3B）和安全類別中，如表 4 所示，RLBF 在 LMSYS-MF 基準測試上始終展現出較高的攻擊防御率，通常在仇恨言論、有毒內容、政治、健康、暴力內容和金融等類別上達到或超過 0.96 的防御率。雖然危險內容、色情內容、公共安全和非法藥物等類別顯示出略低但仍穩健的防御率（通常為 0.92 至 0.96），但整體性能表明，RLBF 提供了一個全面的安全層，能夠有效應對廣泛類型的有害內容，即使在中途填充（Middle Filling）攻擊等對抗性條件下，也能成功識別并緩解違規行為。

5.4 生成中途回溯能力的影響

如表 5 的消融實驗所示，RLBF 在輸出過程中動態回溯并修正生成內容的能力對其安全性的提升至關重要，尤其是在抵御對抗性攻擊方面。盡管標準 IT 模型和 RL 模型的 ASR 較高（分別為 24% 和 22%），且即使是配備了回溯機制的 BSAFE+ 在 LMSYS 基準測試上的 ASR 也達到了 14%，但完整的 RLBF 模型實現了顯著更低的 ASR，僅為 1%。完全消融回溯能力（“RLBF (w/o Back.)”）使 ASR 上升至 18%，證明了該機制的重要性；但更為關鍵的是，專門在生成過程的中途禁用回溯（“RLBF (w/o Back. in Middle)”）會導致 ASR 達到 7%，這凸顯了在生成的任何階段具備回溯能力的重要性。

6 結論

我們提出了帶有回溯反饋的強化學習（RLBF），以增強大語言模型（LLM）抵御對抗性攻擊和分布內（in-distribution）錯誤的安全性，從而改進了先前的方法。RLBF 利用一種 token 高效的“回溯 x 個 token”機制實現動態自我修正，該機制通過增強的 BSAFE+ SFT 數據生成進行教授。核心的 RL 階段利用實時的評論家反饋，訓練模型通過適當回溯來主動修正新出現的違規行為。實證結果表明，RLBF 在顯著降低跨模型和跨基準測試的攻擊成功率的同時，保持了模型的實用性。本研究通過賦予 LLM 動態自我修正的能力，提供了一種更為穩健和高效的安全范式。

原文鏈接：https://arxiv.org/pdf/2602.08377

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.