<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      分布魯棒PAC-貝葉斯控制

      0
      分享至

      Distributionally Robust PAC-Bayesian Control

      分布魯棒PAC-貝葉斯控制

      https://arxiv.org/pdf/2604.10588


      摘要

      我們提出了一種分布魯棒的PAC貝葉斯框架,用于認證基于學習的有限時域控制器的性能。盡管現有的PAC-貝葉斯控制文獻通常假設有界損失以及訓練與部署分布相匹配,但我們明確針對無界損失和環境分布偏移(即仿真到現實的差距)進行了處理。我們通過結合兩條現代研究路線來實現這一目標,即PAC-貝葉斯泛化理論與基于1型Wasserstein距離的分布魯棒優化。通過利用系統級綜合(SLS)重參數化,我們推導出了一個次高斯損失代理項,以及一個因分布偏移導致的性能損失上界。這兩者都直接與閉環映射的算子范數相關聯。對于線性時不變系統,這產生了一個計算可行的基于優化的框架,并能夠為在與訓練所用環境不同的真實環境中部署提供高概率安全證書。

      I 引言

      將機器學習整合到控制理論中,為直接從有限、含噪的數據集中綜合控制策略提供了強大的工具。然而,基于學習的控制器以對分布偏移的脆弱性而聞名,因為它們通常假設用于訓練的數據生成分布與部署(測試)分布相匹配。這種差異,也被稱為仿真到現實的差距,當在標稱條件下訓練的控制器被部署到真實世界時,可能會顯著降低性能,在真實世界中,未建模的擾動可能表現為對抗性擾動。加劇該問題的是由有限訓練數據引起的有限樣本不確定性。

      PAC-貝葉斯[1]框架已成為一種嚴格的方法,用于為隨機學習算法提供高概率的有限樣本泛化保證。利用PAC-貝葉斯技術,文獻[2]中的作者給出了深度神經網絡中第一個非平凡的(non-vacuous)泛化界,這是一項重大突破,也展示了PAC-貝葉斯方法的潛力。

      研究人員也將PAC-貝葉斯方法應用于控制領域,例如在機器人學中需要泛化到未見環境的設置中[3]。在其擴展工作中,他們也處理了訓練與測試分布不匹配的情況,但僅使用了信息論中的f-散度度量,這實際上膨脹了復雜性項。除了假設損失存在硬性上限外,由于分布魯棒性帶來的懲罰只是一個簡單的加性常數項,該常數項不依賴于控制策略。最近,文獻[4]、[5]中的作者探索了非線性控制中的PAC-貝葉斯保證,他們通過采用內在穩定的參數化方式對底層系統進行參數化,以優化并認證所得性能。然而,如前所述,這些工作做出了訓練與部署環境中存在單一數據生成分布的標準假設,并考慮了有限損失。

      分布魯棒(DR)優化[6]方法在控制領域[7]中有著更為顯著的存在,被用于模型預測控制[8]等眾多應用中。DR方法已成為對抗“優化者詛咒”[9]的主要途徑,這是一種與過擬合密切相關的現象。其主要思想是根據圍繞標稱分布[10]的模糊集(ambiguity set)中的最壞分布來優化系統性能。該標稱分布通常是通過抽取有限數量樣本構建的經驗分布。通過借助Wasserstein距離,文獻[11]中的作者提供了概率保證,即真實分布位于經驗分布的模糊集內。

      在本工作中,我們將PAC-貝葉斯控制框架擴展以處理無界損失和分布偏移。事實上,我們提出了一種利用1-Wasserstein距離的分布魯棒PAC-貝葉斯控制框架。通過利用Kantorovich-Rubinstein對偶性[12],Wasserstein魯棒性懲罰明確地將泛化界與依賴于控制器的閉環系統Lipschitz常數聯系起來。該界使我們能夠在控制器設計階段使系統性能對分布偏移具有免疫力。事實上,我們的方法建立了一個魯棒的PAC-貝葉斯界,明確考慮了訓練與部署環境之間潛在的錯位。最后,我們通過系統級綜合(SLS)[13]將這一理論上的分布魯棒PAC-貝葉斯界轉化為適用于LTI系統的計算可行的算法。這相當于一種有效的重參數化,使我們能夠提供關于Lipschitz和次高斯代理項的具體界,這兩者在我們的框架中均依賴于控制器。我們現在準備總結我們的貢獻。

      貢獻: 我們的主要貢獻有兩方面:首先,針對無界Lipschitz損失函數,我們引入了PAC-貝葉斯控制的Wasserstein分布魯棒擴展;其次,通過將框架專門化用于SLS形式的有限時域LTI控制,我們從相同的閉環映射中推導出了關于損失集中性和部署魯棒性的顯式依賴于控制器的證書(certificates)。這些證書導出了一個針對可行控制器的可處理后驗優化問題,以及相對于訓練分布的擾動偏移下的有限樣本保證,而該分布無需被辨識。

      本文的其余部分組織如下:在第二節中,我們為讀者提供關于我們所考慮的動力系統、分布魯棒性的必要背景,并介紹PAC-貝葉斯框架。在第三節中,我們陳述關于Wasserstein 1型距離的分布魯棒PAC-貝葉斯控制的結果。接著,在第四節中,我們在SLS框架下重構該問題,并將我們的結果專門化應用于線性時不變(LTI)系統。基于控制器誘導的閉環映射,我們為次高斯集中性(sub-Gaussian concentration)和魯棒性懲罰項提供了有效的代理(proxies)。在第五節中,我們通過數值算例驗證我們的發現。


      II. 問題表述

      在本節中,我們介紹了我們方法所需的背景知識。我們的目標是為基于 PAC-Bayes 學習理論的學習控制器提供有限樣本保證,并解決學習到的控制器在訓練和部署(測試)環境之間的分布偏移問題。為此,我們在 II-A 節建立了一個抽象的學習控制問題。我們在 II-B 節介紹了概率論中必要的預備知識。在 II-C 節,我們討論分布魯棒性和 Wasserstein 距離。在 II-D 節,我們總結了文獻 [14] 中關于 PAC-Bayes 泛化的一個關鍵結果,我們要將其以分布魯棒的形式擴展到控制設置中。我們在 II-E 節提供了一個簡短的問題陳述。

      A. 系統動力學與控制




      在第四節中,我們將這一抽象設置特化應用于系統級綜合(SLS)形式的有限時域線性時不變(LTI)系統,其中樣本 Z Z 變為擾動軌跡,且 rollout 損失用于衡量加權閉環性能輸出。

      B. 概率論

      PAC-Bayes 界中的核心關注對象是次高斯隨機變量 [15]。

      定義 1(次高斯隨機變量): 一個零均值隨機變量 X X 是次高斯的,如果



      離散隨機變量的定義依此類推。在此我們還注意到,兩個高斯隨機向量之間的 KL 散度具有閉式解。

      C. 分布魯棒性與 Wasserstein 距離




      上述形式也常被稱為分布魯棒 [6] 優化。然而,在我們的情形中,Lipschitz 常數和次高斯方差代理(variance proxy)將不再是靜態對象,它們將依賴于后驗控制器分布。

      D. PAC-貝葉斯學習理


      大多數 PAC-貝葉斯結果在假設損失存在最大上限(maximum cap)的情況下,給出了泛化性能的界。這種設置在機器學習應用中很自然,因為損失通常是有界的(例如 0-1 分類損失)。將其轉化為控制問題可以通過將損失在某個最大值處飽和(saturating)來實現。然而,這帶來了諸如繁瑣的校準以及在接近上界區域不可避免地喪失靈敏度等問題。

      也有針對無界次高斯損失 [17] 的結果,其中假設損失具有一個全局方差代理(global variance proxy)。然而,這通常不適用于動力系統的控制,因為對最壞情況損失進行界定意味著該界是由控制器集合中最差的可能控制器內在決定的。

      出于這個原因,我們采用了針對假設依賴的次高斯損失(hypothesis dependent sub-Gaussian losses)[14] 的最新結果。在此,我們簡要指出,文獻 [14] 中的方法在優化方面還有其他相關含義,但這超出了本文的范圍。用控制領域的術語來說,假設對應于一個控制器。其含義是,集中界(concentration bound)取決于所部署控制器的(期望)性能。由于我們要優化控制器的性能,這兩個目標是一致的。我們陳述適用于我們設置的定理。



      注意,我們從用于訓練的分布 D D 中采樣,并在假設現實世界中的數據生成分布與訓練分布相同的前提下提供部署保證。這通常是一個不切實際的假設,我們將在第三節中解決這一特定問題。

      E. 問題陳述

      在本文中,我們要解決的問題是:確保在一個具有未知數據生成分布的有限樣本訓練環境中訓練出的控制系統,在存在分布偏移的情況下,能夠在部署環境中轉化為可預測的性能。特別是,我們要將定理 1 擴展到部署生成分布與訓練分布不同的情況。

      III. 分布魯棒 PAC-Bayes

      在本節中,我們將定理 1 中的標稱 PAC-Bayes 界與 Wasserstein 魯棒化相結合。我們在第四節中將由此得到的保證專門化應用于有限時域 SLS 控制。

      不同于標準的 PAC-Bayes,我們的目標是提供期望分布魯棒總體(DROP)風險的高概率上界,我們將其定義為:



      A. 基于 Wasserstein 距離的分布魯棒 PAC-貝葉斯






      注意,Wasserstein DROP 風險是圍繞訓練(未知)分布為中心的。魯棒性懲罰項 L ( K ) ρ 現在明確地與每個單獨控制器的幾何靈敏度相關聯。因此,最小化該界需要一種算法來主動優化經驗魯棒風險,從而偏好那些具有較小(期望)Lipschitz 常數的模型,這些模型能在未見環境中產生更好的泛化界。

      IV. 系統級綜合與可處理的后驗優化

      我們現在將 II-A 節中的抽象設置特化應用于有限時域線性時不變(LTI)系統。控制器 K ∈ K 現在是一個有限時域線性因果控制器,而樣本 Z ∈ Z 是一條擾動軌跡。此外,我們利用系統級綜合(SLS)[13] 框架,根據從擾動到狀態-控制軌跡的閉環映射,獲得顯式的次高斯代理項和 Wasserstein Lipschitz 界。

      A. 有限時域 LTI 特化

      考慮一個受加性擾動影響的線性時不變(LTI)離散時間動力系統






      B. 有限時域提升的 SLS 響應

      考慮由 (12) 定義的離散時間 LTI 系統。 定義堆疊向量


      注意,為了簡化符號表示,我們將初始狀態包含在 w w 中。對于有限時域控制器,堆疊的狀態和輸入軌跡是堆疊擾動向量的確定性線性映射:


      關于這些等式的更多細節和推導,讀者可參考[13]。

      C. 子空間參數化

      為了獲得用于PAC-貝葉斯的有限維假設空間,我們將提升的閉環響應矩陣進行向量化。令:






      我們現在針對兩種有用的擾動模型驗證定理 2 的條件:高斯擾動軌跡和幾乎必然有界的擾動軌跡。再次注意,D 是擾動軌跡的訓練分布。

      D. 依賴于控制器的集中性與魯棒性證書

      我們首先從一個關于高斯軌跡的命題開始。

      命題 1(高斯軌跡擾動): 假設:





      E. SLS 形式的魯棒 PAC-Bayes 目標

      將定理 2 給出的 PAC-Bayes 平方根界與 SLS 假設 θ 相結合,得出了關于后驗 Q 的最終學習算法。利用由 (20) 或 (21) 給出的顯式代理 σ ( θ ) ,我們將后驗優化問題表述為



      V. 數值算例

      在下文中,我們使用 Julia [22] 來實現數值算例,并使用 Zygote [23] 作為自動微分后端。優化問題是在 JuMP [24] 中建模的。

      A. 雙積分器

      我們考慮針對離散時間線性系統 (12) 的一個有限時域控制問題,其中





      觀察圖 1,我們可以看到,正如預期的那樣,PAC-Bayes 復雜性項隨著數據的增加而減小。然而,優化過程仍然必須平衡來自 Wasserstein 懲罰項和經驗風險的貢獻,這兩者都是在同一個后驗分布上取平均的。

      圖2展示了我們的方法在存在分布偏移時的有效性。我們可以觀察到,原始(vanilla)PAC-Bayes(即不包含Wasserstein部分的PAC-Bayes項)無法妥善應對環境偏移。從圖中可以清楚地看到,對于所有數據集大小 n n,報告的界均被違反。另一方面,我們的魯棒化方法為實際經驗風險提供了正確的上界。我們還指出,我們的方法在分布偏移的測試數據上表現優于原始方法。兩種方法均在相同的對抗性分布偏移下進行了測試。需要注意的是,所選的分布偏移被設置為在移動訓練數據分布均值的同時,仍保持在認證半徑之內。

      VI.結論與未來工作

      在本工作中,我們將 PAC-貝葉斯泛化分析與 Wasserstein 分布魯棒性相結合,并將所得框架特化應用于 SLS 形式的有限時域 LTI 控制。主要成果是一個顯式且可計算的界,其中集中性和魯棒性均通過加權閉環映射的算子范數進行認證。這為在擾動分布偏移下的隨機可行控制器提供了有限樣本保證。對于未來工作,我們設想將此方法擴展到模型不確定性、次指數損失(如平方范數代價),以及基于學習的魯棒模型預測控制。

      原文鏈接:https://arxiv.org/pdf/2604.10588

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人社部定調:養老金制度優化、可持續,2026養老金漲不漲依舊成謎

      人社部定調:養老金制度優化、可持續,2026養老金漲不漲依舊成謎

      社保精算師
      2026-05-18 11:28:15
      17年恩愛抵不過殘酷現實,65歲徐威年老色衰,45歲張怡寧花樣年華

      17年恩愛抵不過殘酷現實,65歲徐威年老色衰,45歲張怡寧花樣年華

      臨云史策
      2026-05-18 11:21:06
      廣西最黑暗的歷史:南寧被越南圍城42天,5.8萬人慘遭越軍殺害

      廣西最黑暗的歷史:南寧被越南圍城42天,5.8萬人慘遭越軍殺害

      網絡易不易
      2026-05-09 12:09:41
      白鹿周翊然被曝戀情!雙方最新回應

      白鹿周翊然被曝戀情!雙方最新回應

      深圳晚報
      2026-05-18 14:20:18
      9月1日新規執行!全國房屋統一重新建檔,有房的趕緊準備這些材料

      9月1日新規執行!全國房屋統一重新建檔,有房的趕緊準備這些材料

      老特有話說
      2026-05-17 18:23:47
      房子有靈性!家中出現這三跡象,定是難得旺宅

      房子有靈性!家中出現這三跡象,定是難得旺宅

      阿離家居
      2026-05-17 22:56:33
      納斯達克100指數期貨抹平跌幅

      納斯達克100指數期貨抹平跌幅

      每日經濟新聞
      2026-05-18 17:07:17
      炸鍋!穆里尼奧鐵了心,力促皇馬簽下曼城巨星,轉會反轉太刺激

      炸鍋!穆里尼奧鐵了心,力促皇馬簽下曼城巨星,轉會反轉太刺激

      劉哥談體育
      2026-05-18 17:55:01
      光鮮的深圳,吃人的城中村

      光鮮的深圳,吃人的城中村

      虔青
      2026-05-18 08:23:16
      金刻羽給特朗普獻計:現有政策全部反過來,就能鎖住中國發展

      金刻羽給特朗普獻計:現有政策全部反過來,就能鎖住中國發展

      福建平子
      2026-03-21 09:14:00
      泡泡瑪特王寧母校獲贈20億Token,網友質疑僅值幾百元

      泡泡瑪特王寧母校獲贈20億Token,網友質疑僅值幾百元

      三言科技
      2026-05-18 09:27:36
      他接受紀律審查和監察調查

      他接受紀律審查和監察調查

      錫望
      2026-05-18 11:57:24
      偽裝者續寫:阿誠死前才敢告訴明樓:巴黎那夜汪曼春懷了你的孩子

      偽裝者續寫:阿誠死前才敢告訴明樓:巴黎那夜汪曼春懷了你的孩子

      呆子的故事
      2026-01-23 14:59:54
      米切爾:作為領袖我必須以身作則,戰尼克斯是惡戰可能還有搶七

      米切爾:作為領袖我必須以身作則,戰尼克斯是惡戰可能還有搶七

      懂球帝
      2026-05-18 13:53:45
      創造歷史,荷甲奈梅亨隊隊史首次晉級歐冠

      創造歷史,荷甲奈梅亨隊隊史首次晉級歐冠

      懂球帝
      2026-05-18 11:13:33
      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      老貓觀點
      2026-05-07 07:12:10
      蜜雪冰城上線黃仁勛“大佬同款”,門店負責人:有人一次購買30杯,已申請在店內設置黃仁勛打卡點

      蜜雪冰城上線黃仁勛“大佬同款”,門店負責人:有人一次購買30杯,已申請在店內設置黃仁勛打卡點

      極目新聞
      2026-05-16 16:45:09
      國乒6月新賽程!王楚欽孫穎莎休息,林詩棟蒯曼陳熠等8名小將出征

      國乒6月新賽程!王楚欽孫穎莎休息,林詩棟蒯曼陳熠等8名小將出征

      老王大話體育
      2026-05-18 02:25:50
      日本網友來中國看到超市這樣賣西瓜震驚了

      日本網友來中國看到超市這樣賣西瓜震驚了

      日本物語
      2026-05-17 21:01:35
      3個人帶100個AI程序員,一個月燒掉130萬美元!OpenAI:錢我出

      3個人帶100個AI程序員,一個月燒掉130萬美元!OpenAI:錢我出

      新智元
      2026-05-17 12:55:33
      2026-05-18 19:11:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1409文章數 19關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      家居
      藝術
      旅游
      公開課
      軍事航空

      家居要聞

      觀山隱秀 心靈沉淀

      藝術要聞

      《蘭亭序》不是行書,故宮這件文物揭開真面目,郭沫若的判斷是正確的!

      旅游要聞

      廣元:空氣清新環境宜人,目之所及全是美景,太漂亮了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      莫斯科遭一年多來最大規模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产网红女主播精品视频| 婷婷综合久久中文字幕| 波多野结衣无内裤护士| 日日碰狠狠躁久久躁96avv| 国产无套丰满白嫩对白| 制服丝袜在线亚洲| 日韩av综合中文字幕| 中文字幕亚洲精品人妻| 久久精品九九亚洲精品| 日韩亚洲精品一卡二卡| 免费一级毛片在级播放| 两根大肉大捧一进一出好爽视频| 亚洲综合精品第一页| 黄色网址| 看免费真人视频网站| 女同另类国产精品视频| 亚洲综合一区二区不卡| 国产亚洲精久久久久久无码77777 久久66热人妻偷产精品 | 黄色三级网址| 国产视频网| 少妇人妻偷人精品免费| 国产毛片精品av一区二区| 色婷婷婷婷| 亚洲伊人天天色| A三级三级成人网站在线视频| 精品人妻伦一二三区久久aaa片| 老色鬼永久精品网站| 日韩av激情在线| 亚洲国产精品无码久久一区二区| 国产精品肥臀在线观看| 在线视频精品中文无码| 毛片内射久久久一区| 国精品人妻无码一区免费视频电影| 另类av| 日韩伦人妻无码| 麻豆成人精品| 丰满少妇棚拍无码视频| 91免费在线| 少妇人妻偷人偷人精品| 国产成人精品亚洲日本片| 欧美熟妇色ⅹxxx欧美妇|