<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習課程的熱力學

      0
      分享至

      Thermodynamics of Reinforcement Learning Curricula

      強化學習課程的熱力學

      https://arxiv.org/pdf/2603.12324



      摘要

      統計力學與機器學習之間的聯系已被反復證明是富有成效的,為優化、泛化與表示學習提供了深刻見解。在本研究中,我們延續這一傳統,利用非平衡熱力學的成果來形式化強化學習(RL)中的課程學習。具體而言,我們提出了一種用于RL的幾何框架,將獎勵參數解釋為任務流形上的坐標。我們表明,通過最小化超額熱力學功,最優課程對應于該任務空間中的測地線。作為該框架的一個應用,我們提供了一種算法“MEW”(最小超額功),用于推導最大熵RL中溫度退火的有理論依據的調度方案。

      1 引言

      現代強化學習(RL)系統很少在單一、靜態的任務上進行訓練。相反,通過課程學習、溫度退火、獎勵塑形以及其他非平穩目標,智能體通常會接觸一系列相關任務。然而,關于任務應如何變化的指導原則仍然缺乏深入理解。一種簡單實用的方法是隨時間對任務(即獎勵函數)參數進行線性插值。這種選擇隱含地假設了任務空間是平坦且各向同性的。在本研究中,我們假設這一假設是錯誤的,并旨在證明由智能體及其學習動力學所誘導出的非平凡幾何結構的存在。具體而言,我們采用一種基于統計力學的方法來研究參數化獎勵函數空間,揭示出一種自然度量,該度量量化了適應新任務所涉及的難度或“摩擦”。更具體地說,我們引入了一個摩擦張量,該張量在非平衡統計力學(NESM)中量化了控制系統所需的代價,使得最優參數協議對應于由該摩擦張量所誘導的幾何空間中的測地線。通過將RL映射到該框架上,我們獲得了一個關于課程最優性的有理論依據的假設,且該假設在實驗上易于處理:最優獎勵參數調度方案最小化了來自摩擦張量的路徑依賴超額成本,并遵循誘導任務空間中的測地線。這一幾何圖景有望統一RL中的幾種現象,例如基于勢函數的獎勵塑形、模擬退火以及特征坍塌。在本研究中,我們專注于線性獎勵函數參數化,并推導出一維任務調度的閉式表達式,從而提出了一種可直接應用于深度RL的熵溫度退火新方法。

      2 背景

      2.1 統計力學

      在非平衡物理系統的控制中,出現了與強化學習(RL)中“課程”類似的概念。在統計力學框架下,系統動力學依賴于隨時間變化的外部控制參數(例如溫度、耦合強度、場強、勢阱位置等)。當這些參數的變化無限緩慢時(即在課程步驟之間允許策略完全收斂),系統保持在近平衡狀態,且此變化所需的外部功僅取決于端點。然而,當參數以有限速率變化時,系統保持在非平衡狀態,并產生額外的、路徑依賴的耗散,該耗散被量化為“超額功”(Jarzynski, 2008)。線性響應理論的一個核心結果表明,該超額功可關于參數變化速率進行二次近似(Sivak & Crooks, 2012)。該框架已在一系列經典與量子控制問題的建模中得到成功應用。

      在本研究中,我們證明RL中的任務插值具有類似的幾何結構:獎勵參數的變化會引發瞬態次優性與學習低效性,而這種適應過程的主導階(leading-order)成本可由任務空間上的一個度量來刻畫,該度量由長期的、策略誘導的相關性所定義。歷史上,統計力學與機器學習之間的此類聯系已被證明極具價值,為優化、泛化與表示學習提供了深刻見解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的貢獻延續了這一傳統,即利用非平衡熱力學來形式化強化學習中的課程學習與任務插值。

      2.2 最大熵強化學習


      重要的是,該目標在軌跡上誘導了一個玻爾茲曼分布:最優策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此,來自統計力學的許多高級概念,如自由能、溫度和漲落,在MaxEnt RL中允許存在直接的類比。該表述構成了現代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理論框架(如線性可解MDP (Todorov, 2006) 及其擴展 (Arriojas et al., 2023))的基礎。

      在本研究中,MaxEnt RL在與非平衡熱力學的物理圖像連接中扮演兩個角色:首先,它提供了軌跡上清晰的概率結構,使得閉式分析成為可能。其次,它允許將獎勵參數的動態變化解釋為底層分布的受控形變,使得將課程解釋為"非平衡驅動協議"變得精確。

      3 課程學習的熱力學框架


      對于這種參數化,我們將任務調度,或課程(curricula), λ ( t ) ,定義為任務空間中連接兩個獎勵函數的(二階可微)路徑。于是核心問題變為:應當如何選擇 λ ( t ) 以最小化適應的總成本?

      我們現在簡要概述用于解決此問題的框架,更多細節見附錄 A。在此框架中,為了形式化適應成本,我們追蹤隨著任務參數的變化,智能體可實現的期望累積獎勵是如何變化的。沿著一個課程 λ ( t ) ,總變化可以進行精確分解:一部分貢獻來自對外部獎勵函數的修改,另一部分貢獻源于策略本身的適應。沿著課程對這一分解進行積分,會產生一個路徑依賴的“超額功”(excess work),它僅在準靜態極限(quasistatic limit)下消失。將這一超額功解釋為適應的累積成本,我們將其最小化作為最優課程設計的目標。重要的是,如果我們在準靜態機制(quasistatic regime)下工作,使得任務參數相對于策略誘導的馬爾可夫鏈的混合時間(mixing time)變化緩慢,那么線性響應理論適用。因此,我們可以如下近似超額功(Sivak & Crooks, 2012):

      關鍵在于,通過上述摩擦張量來近似超額功,我們能夠將“學習難度”這一抽象概念轉化為可測量的幾何量。這使我們能夠超越啟發式的獎勵參數調整,轉而預測智能體將在何處遇到困難,從而使學習過程更加透明。


      通常情況下,這些方程無法解析求解,因此我們訴諸數值方法和簡化設置以進一步洞察所得解。方程 3 的解產生的最優課程會在度量較大(對應于代價高昂的適應)的方向上減速,而在度量較小的地方加速(視覺示例見圖 1)。



      3.1 案例研究:線性獎勵參數化


      4 溫度退火



      我們在圖2中通過實驗檢驗了這一策略。具體而言,我們將MEW應用于高維的Humanoid-v5 MuJoCo任務(Todorov et al., 2012)。根據圖2,我們可以看到MEW在該任務中優于Haarnoja等人(2018b)的標準方法。通過檢查兩種方法的溫度調度,我們可以看到標準協議(來自Haarnoja等人(2018b))最初會快速降低溫度,導致產生一個近乎確定性的策略,而隨著溫度隨后升高,該策略必須進行調整。另一方面,我們的調度是單調的,并且在每一步都根據適應的相對成本進行調整,從而允許策略系統地適應摩擦的固定增量。我們的方法產生的協議在多次運行間也具有顯著更高的一致性,如圖2中的陰影區域所示(實驗細節和更多結果見附錄B)。


      5 討論

      在本研究中,我們引入了一種基于超額功最小化的課程學習幾何框架,為任務空間賦予了一種偽黎曼結構,從而定義并指導最優課程。在此過程中,我們驗證了我們的假設:最優獎勵參數調度方案最小化了源于摩擦張量的路徑依賴超額成本,并遵循誘導任務空間中的測地線。所得框架可直接適用于深度強化學習設置,如圖2所示的一維溫度退火實驗所證實(另見附錄B)。在此,我們發現標準的降溫方法通過我們框架推導出的冷卻調度得到了顯著改善。更廣泛地說,這些結果表明,強化學習中的某些經驗不穩定性可能不僅應被理解為算法失敗,而是作為在彎曲且動態演變的參數流形上過于激進地驅動高維非平衡系統所導致的后果。

      5.1 未來工作

      本研究引出了幾個研究方向。在理論方面,闡明與標準遺憾(regret)定義的聯系,并進一步利用誘導的幾何結構(例如用于學習自適應特征或理解度量退化的作用),將擴展此處開發的工具。在算法方面,開發深度強化學習中摩擦張量的可擴展估計器仍是一項重要挑戰。最后,在大規模持續學習與終身學習基準上進行實證驗證,對于評估所提框架的預測能力至關重要。

      原文鏈接: https://arxiv.org/pdf/2603.12324

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      塞爾維亞總統:將在特朗普和普京之后對中國進行國事訪問

      塞爾維亞總統:將在特朗普和普京之后對中國進行國事訪問

      俄羅斯衛星通訊社
      2026-05-18 15:10:17
      有錢人私下玩的多花?網友:開眼了

      有錢人私下玩的多花?網友:開眼了

      另子維愛讀史
      2026-05-16 21:38:47
      快訊!連勝文發言了!

      快訊!連勝文發言了!

      故事終將光明磊落
      2026-05-18 13:58:07
      特朗普剛走,高市早苗想訪華,麻生坐不住了,一句話把其拉回現實

      特朗普剛走,高市早苗想訪華,麻生坐不住了,一句話把其拉回現實

      近史博覽
      2026-05-18 00:38:57
      天降橫財,世界杯補貼砸中浙江隊:至少進賬170萬人民幣

      天降橫財,世界杯補貼砸中浙江隊:至少進賬170萬人民幣

      姜大叔侃球
      2026-05-18 11:03:51
      影帝黃渤新片慘敗,成本超2億,票房不到100萬,觀眾因何棄他?

      影帝黃渤新片慘敗,成本超2億,票房不到100萬,觀眾因何棄他?

      影視高原說
      2026-05-16 07:04:06
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      29勝6負!哈登要進總決了,火箭媒體不滿斯通,白送騎士半套陣容

      29勝6負!哈登要進總決了,火箭媒體不滿斯通,白送騎士半套陣容

      巴叔體育
      2026-05-18 12:42:59
      李昇祐談無緣世界杯:我感到失望,希望韓國隊取得好成績

      李昇祐談無緣世界杯:我感到失望,希望韓國隊取得好成績

      懂球帝
      2026-05-18 16:54:43
      美方想要的,中方終于給了?魯比奧求放一個人,特朗普打破慣例

      美方想要的,中方終于給了?魯比奧求放一個人,特朗普打破慣例

      田園小歸
      2026-05-17 09:22:03
      農村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      農村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      舒山有鹿
      2026-05-17 11:37:46
      一半股民投降了

      一半股民投降了

      刀哥復盤筆記
      2026-05-18 14:15:01
      日媒放話:給中國50年追不上日本汽車!馬斯克:中國車企太能打

      日媒放話:給中國50年追不上日本汽車!馬斯克:中國車企太能打

      南宗歷史
      2026-05-18 12:37:52
      男子因臉紅被交警攔下查酒駕 吹氣2次也沒查出酒精 從不喝酒卻一直臉紅不退、嘴唇發紫

      男子因臉紅被交警攔下查酒駕 吹氣2次也沒查出酒精 從不喝酒卻一直臉紅不退、嘴唇發紫

      閃電新聞
      2026-05-18 15:29:40
      特朗普剛走,四國政要就來華,美專家感慨:中國開啟"朝貢時代"

      特朗普剛走,四國政要就來華,美專家感慨:中國開啟"朝貢時代"

      生活魔術專家
      2026-05-17 22:35:29
      盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

      盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

      達文西看世界
      2026-05-17 14:59:59
      18號收評:市場全天縮量調整,所有人都注意,準備迎接新的變盤了

      18號收評:市場全天縮量調整,所有人都注意,準備迎接新的變盤了

      春江財富
      2026-05-18 15:23:19
      來了!首個冠軍點!阿森納最快兩天內奪冠,每輸一場,或丟一冠

      來了!首個冠軍點!阿森納最快兩天內奪冠,每輸一場,或丟一冠

      嗨皮看球
      2026-05-18 12:19:47
      央視《主角》火了,誰都沒想到,片酬最高的即不是張嘉益,也不是北電院長?

      央視《主角》火了,誰都沒想到,片酬最高的即不是張嘉益,也不是北電院長?

      東方不敗然多多
      2026-05-17 14:21:23
      退役20年至今無人超越:發動機只出了8%的力,協和號憑什么飛到2馬赫?

      退役20年至今無人超越:發動機只出了8%的力,協和號憑什么飛到2馬赫?

      平流層散步者
      2026-05-17 00:45:04
      2026-05-18 19:08:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1409文章數 19關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      旅游
      親子
      藝術
      公開課
      軍事航空

      旅游要聞

      廣元:空氣清新環境宜人,目之所及全是美景,太漂亮了!

      親子要聞

      如何克服小孩挑食的毛病?這樣做專治挑食,網友:立馬抄作業”!

      藝術要聞

      《蘭亭序》不是行書,故宮這件文物揭開真面目,郭沫若的判斷是正確的!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      莫斯科遭一年多來最大規模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲精品色多多app下载| 国产高清在线男人的天堂| 亚洲成人夜色| 女人与公拘交的视频手机版| 国产精品视频一区不卡| 国产精品中文字幕视频| 国产精品1000夫妇激情| 中文字幕无码乱码人妻系列蜜桃 | 中文字幕无码色综合网| 国产国产成人精品久久蜜| 亚洲无码视频在线播放| 新版资源天堂中文| 松滋市| 综合激情亚洲丁香社区| 一本一道av无码中文字幕麻豆| 亚洲ΑV久久久噜噜噜噜噜| 少妇熟女高潮流白浆| 性xxxxbbbb| 亚洲色宗合| 强开少妇嫩苞又嫩又紧九色| 国产精品_国产精品_国产精品| 欧美一本大道香蕉综合视频| 久久青青草原国产精品最新片| 鲁鲁美女影院| 日本丰满熟妇videossex8k| 人妻无码久久久久久久久久久| 91一区二区三区蜜桃| 情欲少妇人妻100篇| 精品国产成人午夜福利| 无码人妻精品一区二区三区蜜桃| 日本不卡不二三区在线看| 欧美人妻中文| 妖精视频yjsp毛片永久| 天天躁日日躁狠狠躁超碰97 | 亚洲一区二区三区四区| 国产精品无码久久久久久久久久| 国产成人高清亚洲综合| 色妞www精品视频一级下载| 国产精品成人一区无码| 啪啪福利导航| 午夜家庭影院|