<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      期望自由能最小化的消息傳遞實現

      0
      分享至

      A Message Passing Realization of Expected Free Energy Minimization

      期望自由能最小化的消息傳遞實現

      https://arxiv.org/pdf/2508.02197


      摘要

      我們基于[15]中提出的理論,提出了一種在因子圖上進行期望自由能(EFE)最小化的消息傳遞方法。通過將EFE最小化重新表述為帶有認知先驗的變分自由能最小化,我們將一個組合搜索問題轉化為一個可通過標準變分技術求解的易處理推理問題。將我們的消息傳遞方法應用于因子化狀態空間模型,能夠實現高效的政策推斷。我們在存在認知不確定性的環境中評估了我們的方法:一個隨機網格世界和一個部分可觀察的Minigrid任務。使用我們方法的智能體在這些任務上 consistently 優于傳統的KL控制智能體,表現出更穩健的規劃和在不確定性下的高效探索。在隨機網格世界環境中,最小化EFE的智能體會避開危險路徑;而在部分可觀察的minigrid環境中,它們會進行更系統的信息尋求行為。該方法架起了主動推理理論與實際實現之間的橋梁,為人工智能體中認知先驗的效率提供了經驗證據。

      關鍵詞:主動推理 · 認知規劃 · 期望自由能 · 因子圖 · 消息傳遞

      1 引言

      期望自由能(EFE)最小化源于自由能原理,通過統一追求獎勵(實用性)和尋求信息(認知性)的驅動力,為智能行為建模提供了一個框架[17,19]。雖然“控制即推理”方法在將決策制定表述為概率推理問題方面取得了顯著進展[21,1],但EFE最小化通過明確考慮認知不確定性擴展了這一范式[12],然而其實際應用在面對長規劃時域和高維狀態空間時仍面臨計算挑戰[31]。

      計算EFE的傳統方法通常涉及評估所有可能的動作序列,這對于非平凡問題變得難以處理。盡管已經開發了各種近似方法來解決這一可處理性問題,但傳統方法通常將EFE用作評估策略的成本函數,而不是作為信念變分優化的目標函數[30,8,20]。

      本文為[15]中提出的理論基礎提供了實證驗證,該理論將EFE最小化直接重新表述為因子圖上的變分推理問題。通過引入合適的認知先驗,我們證明最小化EFE可以通過標準的變分自由能(VFE)最小化來實現,這使得它與自由能原理的核心原則——即所有過程從根本上都基于變分自由能最小化——保持一致。

      我們通過一種在因子化狀態空間模型上的迭代消息傳遞算法來實現該方法。我們在具有不同不確定性特征的環境中評估其性能:一個存在危險轉移的隨機網格世界,以及一個需要主動探索才能成功完成的部分可觀察Minigrid環境。我們的結果證實,使用我們基于推理的方法的智能體,相比KL控制智能體,展現出了與直接EFE計算相同的特征性優勢,尤其是在處理認知不確定性方面。這驗證了我們的方法,同時為不確定性下的規劃提供了一個計算高效的框架。

      本文的其余部分組織如下:
      – 第2節:提供必要的背景材料。
      – 第3節:討論控制即推理和主動推理方面的相關工作。
      – 第4節:介紹我們將EFE最小化重新表述為推理問題的方法。
      – 第5節:描述我們的評估環境和實驗設計。

      2 背景 2.1 變分推理


      2.2 因子圖

      因子圖是一種特定類型的概率圖模型,它顯式地表示了模型的分解結構,其中因子代表(條件)概率分布。在我們的工作中,我們采用了Forney式因子圖(FFG)[16],它提供了一種特定的表示方法,符號表示遵循文獻[28]。

      一個FFG將一個分解函數 f ( s ) 表示為



      當每個 s i 可以取 10 個值時,這個求和包含大約一千項。然而,考慮到生成模型的分解結構以及乘法分配律,式 (3) 可以重寫為:


      式 (4) 中的計算僅需幾百次求和,從計算角度來看更為可取。在更大的模型中,計算量隨因子節點數量線性增長,而非指數增長。中間結果 可以被解釋為模型 FFG 表示中的局部消息,如圖 1 所示。關于因子圖及相關(變分)消息傳遞算法的全面論述,我們建議讀者參閱 [28,29,40,14,36]。


      3 相關工作

      不確定性下的自主決策仍然是控制理論和人工智能領域的核心挑戰。本節回顧了為我們工作的貢獻提供背景的關鍵進展。

      3.1 控制即推理

      對高效且高性能自主系統的追求推動了控制理論領域的重大研究。最優控制[3,4,33]為確定給定系統的最小化預定義成本函數的控制輸入提供了數學框架。在此基礎上,模型預測控制(MPC)算法通過引入反饋回路和滾動時域策略來應對實時控制的挑戰[5,34,35,11]。這種方法允許在線適應擾動和約束。

      近年來的一個重要范式轉變是將控制視為一個推理問題。這一視角允許應用強大的概率工具來應對控制挑戰,尤其是在復雜和不確定的環境中。在確定性動力學下,閉環滾動時域MPC中的序貫決策過程可以優雅地映射到因子圖上的推理[27,26]。

      當處理隨機動力學或不確定性下的狀態估計需求時,隨機最優控制方法可以通過變分推理進行重新表述[23,21]。在這里,關于狀態和/或控制的難處理后驗分布被一個易處理的變分分布所近似。

      主動推理[12,13]通過提出關于系統獲得的信息也是一種獎勵形式來解決不確定性下的控制問題。該框架表明,變分推理通過優化期望自由能[19]自然地平衡了探索與利用,這優雅地結合了最小化環境不確定性(信息增益)的驅動力與實現期望結果的需求。然而,主動推理當前的一個局限性在于計算期望自由能所帶來的計算成本[19],這激發了近期對高效算法的研究[30,18,31,8]。

      最近,[15]提出了一種期望自由能最小化的替代方法,將EFE最小化構建為一個常規的變分自由能最小化任務。這種方法對于可擴展地實現EFE最小化規劃算法很有前景,但僅提供了理論說明,未考慮實際實現或實證驗證。在下一節中,我們將提出該方法的一個消息傳遞實現。

      4 方法

      作為本文的主要貢獻,我們將詳細闡述文獻[15]中的定理1。為方便起見,我們在此重復該定理,盡管不包含模型參數 θ :




      在接下來的章節中,我們將描述一種基于因子圖的消息傳遞算法,該算法可作為尋找自由能泛函駐點的一種實用方法。

      4.1 因子化模型與因子化后驗

      定理1是一個一般性的結果,然而在實踐中,我們通常關注如下形式的因子化狀態空間模型:


      雖然該推論是定理1的一個特例和直接應用,但其詳細證明在附錄A中給出。該推論表明,偏好先驗和認知先驗可以歸結為局部貢獻。我們將把偏好先驗和認知先驗實現為因子節點,在推理過程中充當先驗分布。圖2展示了增強后的因子圖的一個時間片。


      這種方法的好處在于,因子圖上的推理已經得到充分研究,并且可以使用反應式消息傳遞[2]高效實現。這實際上意味著,期望自由能最小化的計算復雜度與因子圖上變分推理的計算復雜度相同。

      4.2 推斷策略后驗

      推論1在模型定義中引入了一個循環依賴:為了定義帶有認知先驗(式13)的VFE泛函,我們需要訪問變分后驗分布,但變分后驗只能通過給定生成模型下最小化VFE泛函來獲得。

      這個循環依賴可以通過在因子圖上實現為消息傳遞的迭代變分推理過程來解決。我們首先初始化變分后驗,然后迭代更新后驗信念和認知先驗,直到收斂。

      在因子圖上,我們可以使用消息傳遞算法實現變分推理,該算法迭代更新后驗分布[32]。每一次消息傳遞迭代 τ 同時精化后驗分布和先驗分布。為此,設 q τ ( ? ) 為第 τ τ次迭代時的變分后驗分布,則我們將認知先驗定義為:

      推論1在模型定義中引入了一個循環依賴:為了定義帶有認知先驗(式13)的VFE泛函,我們需要訪問變分后驗分布,但變分后驗只能通過給定生成模型下最小化VFE泛函來獲得。

      這個循環依賴可以通過在因子圖上實現為消息傳遞的迭代變分推理過程來解決。我們首先初始化變分后驗,然后迭代更新后驗信念和認知先驗,直到收斂。

      在因子圖上,我們可以使用消息傳遞算法實現變分推理,該算法迭代更新后驗分布[32]。每一次消息傳遞迭代 τ 同時精化后驗分布和先驗分布。為此,設 q τ ( ? ) 為第 τ 次迭代時的變分后驗分布,則我們將認知先驗定義為:


      5 評估

      本節評估我們提出的最小化EFE的策略推斷方法。在本節中,我們將評估所提方法的性能。偏好先驗的加入與KL控制文獻[37,38]一致,這意味著我們關注的主要焦點是認知先驗對策略后驗的影響。為此,我們將在有和沒有認知先驗兩種情況下進行實驗,分別對應KL控制策略和最小化EFE的策略。已知KL控制在面對隨機性和不確定性時容易產生樂觀規劃[26,27],因此我們將探索具有隨機動力學和觀測噪聲的部分可觀察馬爾可夫決策過程(POMDP)。

      在我們的實驗評估中,我們考慮環境動態對智能體完全已知的場景,盡管這些動態可能是隨機的或包含固有的不確定性。這種已知動態的假設使我們能夠隔離并評估認知先驗對決策的具體影響,而不會將其與模型學習混為一談。

      5.1 實驗設計

      我們設計了一個隨機網格環境,專門用于挑戰智能體在動態和觀測中的不確定性處理能力。此外,我們還在Minigrid門-鑰匙環境[9]上評估我們的方法,該環境測試智能體如何處理部分可觀察性。這兩個環境都突顯了在存在認知不確定性的情況下,KL控制策略與最小化EFE策略之間的差異。

      隨機網格環境 在我們的第一個實驗中,我們聚焦于一個隨機網格環境。在該環境中,智能體需要從一端穿越網格到達另一端,途中存在危險和隨機轉移。關鍵的挑戰在于,從起點到終點的最短路徑上,有些網格單元的轉移矩陣是隨機的,智能體有最終落入吸收態的風險。這種隨機性直接測試了智能體如何處理動力學中的不確定性:預期KL控制智能體會樂觀地規劃通過這些不確定的轉移,而最小化EFE的智能體應該識別出認知風險并避開這些網格單元。該環境還包含觀測噪聲,這增加了另一層不確定性,迫使智能體維持對可能狀態的信念,而非完全可觀測。

      存在一條更長但更安全的路徑,可以避開所有隨機轉移。對于風險感知的智能體來說,最優策略是走這條更安全的路徑,盡管這需要更多步數。該環境的可視化如圖3所示。


      智能體到達目標獲得獎勵+1。當落入吸收態時,智能體受到懲罰-1。生成模型的完整規范見附錄B。

      Minigrid門-鑰匙環境 我們考慮的第二個環境是一個Minigrid環境,具體是一個4x4的門-鑰匙環境。該環境測試了認知不確定性的另一個方面,即部分可觀察性。智能體的視野有限,這意味著它必須主動探索以減少對環境狀態的認知不確定性。

      任務要求智能體找到并拾取鑰匙,找到并打開門,最后到達目標方格。這個多步驟過程形成了一個自然的探索挑戰,測試了智能體如何處理部分可觀察性。智能體位置、鑰匙位置和門位置在每個回合中都是隨機化的,這意味著智能體對環境狀態存在認知不確定性。

      最小化EFE的智能體應表現出更具方向性的探索行為,主動尋求減少關于鑰匙和門位置的認知不確定性。相比之下,KL控制智能體(沒有認知先驗)可能表現出較低效的探索模式,因為它缺乏解決不確定性的內在驅動力。

      Minigrid環境為任務增加了另一層復雜性,因為視野意味著觀測是相對于智能體自身的,而目標則是在外部參考系中定義的。這意味著智能體的觀測空間遠大于狀態空間。觀測空間大小約為,這使得諸如精細推理[18]之類的算法難以處理。此外,22個時間步的規劃時域使得將標準期望自由能計算作為策略評估的方法也變得難以處理。門-鑰匙環境的計算復雜度正是我們所提方法優勢最明顯的地方。

      Minigrid環境初始狀態的可視化如圖4所示。智能體到達目標時獲得的獎勵與所走步數成反比。所用生成模型的完整規范見附錄C。本文中所有實驗的源代碼和實現細節均可在我們的在線代碼倉庫3中公開獲取。


      5.2 結果

      隨機網格環境 我們評估了兩種智能體在100個回合中的表現,表1(左)總結了定量結果。

      該表表明兩種智能體之間存在著明顯不同的導航模式。最小化EFE的智能體始終選擇繞過隨機轉移單元的更長但更安全的路徑,表現出與理論預測一致的風險規避行為。相比之下,KL控制智能體嘗試穿越隨機轉移單元的較短路徑,表現出錯誤處理系統偶然不確定性的方法所特有的樂觀規劃傾向。兩種智能體軌跡的更詳細可視化以及我們算法的實證收斂性分析見附錄D。


      Minigrid門-鑰匙環境 我們在200個實驗回合中評估了兩種智能體,規劃時域為25步。表1(右)展示了在Minigrid門-鑰匙環境中,最小化EFE的智能體與KL控制智能體之間的定量比較。

      最小化EFE的智能體表現出更有效的探索模式,尤其是在需要主動信息尋求的場景中。這一點在找到鑰匙所需時間的縮短上尤為明顯,證實了認知先驗能夠在部分可觀察環境中實現更具方向性的信息尋求。

      兩種智能體軌跡的更詳細可視化以及我們算法的實證收斂性分析見附錄E。

      6 討論

      我們的實驗結果表明,使用所提出的消息傳遞方法進行EFE最小化的智能體展現出了主動推理的特征行為:在隨機環境中選擇風險規避的路徑,以及在部分可觀察環境中進行信息尋求的探索。這些行為自然地源于在變分自由能目標中納入認知先驗,而無需顯式計算期望自由能。

      將EFE最小化重新表述為變分推理問題具有若干優勢:它與自由能原理的核心原則保持了理論一致性;將組合搜索問題轉化為使用因子圖消息傳遞的易處理推理過程;并且消除了對特設策略剪枝的需求,代之以原則性的反應式處理,即智能體在每個時間點最小化VFE。這種方法在傳統EFE計算變得難以處理的復雜環境中尤為有價值,正如我們在Minigrid實驗中所展示的那樣。

      盡管我們的實現展示了有希望的結果,但處理自指認知先驗的迭代方法的收斂性質需要進一步的理論研究。未來的研究應探討在生成模型中納入額外參數,特別是與環境動態相關的參數。我們工作的一個自然擴展是在認知先驗內部整合參數學習。這將允許智能體推斷出有助于對模型參數進行樣本高效學習的策略。這一概念已在文獻[15]中提出,然而,經驗先驗的具體函數形式尚未推導出來。

      7 結論

      在本文中,我們提出了一種在因子圖上進行期望自由能最小化的消息傳遞實現。我們的方法將EFE最小化重新構建為一個變分推理問題,從而允許我們使用標準的消息傳遞算法進行高效的策略推斷。關鍵的見解在于,通過引入適當的認知先驗,我們可以將期望自由能目標轉化為一個修正后的變分自由能目標,該目標可以通過標準的推理技術進行優化。

      我們在隨機環境和部分可觀察環境中的實驗結果表明,該方法再現了主動推理的特征行為:在具有危險隨機性的環境中表現出風險規避,在部分可觀察環境中表現出信息尋求。與傳統的期望自由能計算方法相比,消息傳遞實現在計算效率上顯示出顯著優勢,尤其是在具有高維觀測空間和長規劃時域的復雜環境中。

      通過將EFE最小化重新表述為變分推理,我們的工作有助于將自由能原理和主動推理的理論框架與不確定性下決策的實際實現相統一。這架起了智能行為理論解釋與人工智能體高效算法之間的橋梁,為在復雜和不確定環境中平衡實用目標與認知目標提供了一種原則性的方法。

      原文鏈接:https://arxiv.org/pdf/2508.02197

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      塞爾維亞總統:將在特朗普和普京之后對中國進行國事訪問

      塞爾維亞總統:將在特朗普和普京之后對中國進行國事訪問

      俄羅斯衛星通訊社
      2026-05-18 15:10:17
      有錢人私下玩的多花?網友:開眼了

      有錢人私下玩的多花?網友:開眼了

      另子維愛讀史
      2026-05-16 21:38:47
      快訊!連勝文發言了!

      快訊!連勝文發言了!

      故事終將光明磊落
      2026-05-18 13:58:07
      特朗普剛走,高市早苗想訪華,麻生坐不住了,一句話把其拉回現實

      特朗普剛走,高市早苗想訪華,麻生坐不住了,一句話把其拉回現實

      近史博覽
      2026-05-18 00:38:57
      天降橫財,世界杯補貼砸中浙江隊:至少進賬170萬人民幣

      天降橫財,世界杯補貼砸中浙江隊:至少進賬170萬人民幣

      姜大叔侃球
      2026-05-18 11:03:51
      影帝黃渤新片慘敗,成本超2億,票房不到100萬,觀眾因何棄他?

      影帝黃渤新片慘敗,成本超2億,票房不到100萬,觀眾因何棄他?

      影視高原說
      2026-05-16 07:04:06
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      29勝6負!哈登要進總決了,火箭媒體不滿斯通,白送騎士半套陣容

      29勝6負!哈登要進總決了,火箭媒體不滿斯通,白送騎士半套陣容

      巴叔體育
      2026-05-18 12:42:59
      李昇祐談無緣世界杯:我感到失望,希望韓國隊取得好成績

      李昇祐談無緣世界杯:我感到失望,希望韓國隊取得好成績

      懂球帝
      2026-05-18 16:54:43
      美方想要的,中方終于給了?魯比奧求放一個人,特朗普打破慣例

      美方想要的,中方終于給了?魯比奧求放一個人,特朗普打破慣例

      田園小歸
      2026-05-17 09:22:03
      農村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      農村“輪婚”怪象:今年嫁你家生娃,明年嫁他家生娃,生娃成交易

      舒山有鹿
      2026-05-17 11:37:46
      一半股民投降了

      一半股民投降了

      刀哥復盤筆記
      2026-05-18 14:15:01
      日媒放話:給中國50年追不上日本汽車!馬斯克:中國車企太能打

      日媒放話:給中國50年追不上日本汽車!馬斯克:中國車企太能打

      南宗歷史
      2026-05-18 12:37:52
      男子因臉紅被交警攔下查酒駕 吹氣2次也沒查出酒精 從不喝酒卻一直臉紅不退、嘴唇發紫

      男子因臉紅被交警攔下查酒駕 吹氣2次也沒查出酒精 從不喝酒卻一直臉紅不退、嘴唇發紫

      閃電新聞
      2026-05-18 15:29:40
      特朗普剛走,四國政要就來華,美專家感慨:中國開啟"朝貢時代"

      特朗普剛走,四國政要就來華,美專家感慨:中國開啟"朝貢時代"

      生活魔術專家
      2026-05-17 22:35:29
      盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

      盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

      達文西看世界
      2026-05-17 14:59:59
      18號收評:市場全天縮量調整,所有人都注意,準備迎接新的變盤了

      18號收評:市場全天縮量調整,所有人都注意,準備迎接新的變盤了

      春江財富
      2026-05-18 15:23:19
      來了!首個冠軍點!阿森納最快兩天內奪冠,每輸一場,或丟一冠

      來了!首個冠軍點!阿森納最快兩天內奪冠,每輸一場,或丟一冠

      嗨皮看球
      2026-05-18 12:19:47
      央視《主角》火了,誰都沒想到,片酬最高的即不是張嘉益,也不是北電院長?

      央視《主角》火了,誰都沒想到,片酬最高的即不是張嘉益,也不是北電院長?

      東方不敗然多多
      2026-05-17 14:21:23
      退役20年至今無人超越:發動機只出了8%的力,協和號憑什么飛到2馬赫?

      退役20年至今無人超越:發動機只出了8%的力,協和號憑什么飛到2馬赫?

      平流層散步者
      2026-05-17 00:45:04
      2026-05-18 19:08:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1409文章數 19關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      頭條要聞

      失業男子在車里住7天無奈向交警求助 如今找到新工作

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      家居
      游戲
      手機
      旅游
      公開課

      家居要聞

      觀山隱秀 心靈沉淀

      曝《GTA6》價格低到超乎想象!太良心 遠非傳聞高價

      手機要聞

      安卓17iOS26:哪有什么液態玻璃,安卓頂多算高級毛玻璃

      旅游要聞

      廣元:空氣清新環境宜人,目之所及全是美景,太漂亮了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲第一av网站| 四虎影视库国产精品一区| 国产无套粉嫩白浆在线| www.91在线播放| 97超碰碰| 国内精品久久人妻互换| 免费无码一区二区三区蜜桃| 日韩中文字幕精品人妻| 国产精品伦子伦免费视频| 99噜噜噜在线播放| 日韩精品久久久肉伦网站| 怀仁县| 日本妇人成熟a片免费观看网站| 天堂久久天堂av色综合| 激情狠狠| 人妻丝袜?在线视频| 美女的胸www又黄的网站| 国产av综合影院| 99在线国内在线视频22| 97精品国产97久久久久久| 午夜精品久久久久久久爽| 女同国产精品一区二区| 欧美精品黑人粗大免费| 日韩精品视频在线观看免费 | 337P日本欧洲亚洲大胆人人| 国产91精选在线观看| 国产精品午夜av福利| 最新国产AV最新国产在钱| 国产a在亚洲线播放| 变态另类影音先锋| 亚洲日韩中文乱码制服丝袜| 久久91精品久久91综合| 色欲国产精品一区成人精品| 伊人久久婷婷色综合98网| 亚洲国产成人精品无色码| 国产v综合v亚洲欧美大天堂| 亚洲成av人片天堂网无码 | 99精品国产一区二区青青| 天堂www在线中文| 亚洲国产av剧一区二区三区| 在线精品视频一区二区三四|