網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

物理AI智能體主動推理

2026-04-03 13:42:44　來源: CreateAMind

上海舉報

分享至

Active Inference for Physical AI Agents

物理AI智能體主動推理：工程視角

https://arxiv.org/pdf/2603.20927

摘要

物理人工智能體（例如在嚴苛且動態(tài)變化的資源約束下運行的機器人及其他具身系統(tǒng)）在開放的真實環(huán)境中，其能力仍遠不及生物智能體。本文認為，基于自由能原理的主動推理（AIF）為彌合這一差距提供了原則性的基礎(chǔ)。我們將從第一性原理出發(fā)，沿著概率論→貝葉斯機器學(xué)習(xí)→變分推斷→主動推理與反應(yīng)式消息傳遞的邏輯鏈條展開論證。從自由能原理視角來看，在適當(dāng)假設(shè)下，能夠隨時間維持自身結(jié)構(gòu)與功能完整性的系統(tǒng)可被描述為仿佛在最小化變分自由能（VFE）；而主動推理則通過將感知、學(xué)習(xí)、規(guī)劃與控制統(tǒng)一到單一計算目標（而非分離的工程子系統(tǒng)）中，實現(xiàn)了這一原理的具體操作化。我們將證明，VFE最小化可自然地通過因子圖上的反應(yīng)式消息傳遞實現(xiàn)，其中推斷過程源于局部的并行計算。這一實現(xiàn)方式不僅便捷，更與物理運行的核心約束高度契合，包括硬實時截止時間、異步數(shù)據(jù)到達、動態(tài)功率預(yù)算以及環(huán)境組成的變化。由于反應(yīng)式消息傳遞具有事件驅(qū)動、可中斷及局部自適應(yīng)的特點，在資源減少時系統(tǒng)性能可優(yōu)雅降級，同時模型結(jié)構(gòu)能隨相關(guān)實體與關(guān)系的實時變化進行在線調(diào)整。我們進一步表明，在適當(dāng)?shù)鸟詈吓c粗粒化條件下，耦合的主動推理智能體可被描述為更高層級的主動推理智能體，從而形成一種計算上同構(gòu)的架構(gòu)——在跨尺度上使用相同的消息傳遞基元。本文不進行與現(xiàn)有方法的基準比較；我們的貢獻在于從理論與架構(gòu)層面闡述這一思想，使其便于工程社區(qū)理解與應(yīng)用。

1 引言

RoboCup1是一項國際研究與教育計劃，通過機器人競賽作為基準問題，推動人工智能、機器人學(xué)及自主多智能體系統(tǒng)的發(fā)展。RoboCup的最終目標如下2：“到21世紀中葉，一支完全自主的人形機器人足球隊應(yīng)按照國際足聯(lián)正式比賽規(guī)則，擊敗最近一屆世界杯冠軍得主。”2025年10月，RoboCup 2025“人形機器人足球賽”3決賽中，兩支使用Booster T1機器人的隊伍進行了對決?。該場比賽的實況可在YouTube上觀看?。

首先，我們應(yīng)當(dāng)對當(dāng)今機器人足球系統(tǒng)背后的人類工程團隊的技能、創(chuàng)造力和持續(xù)努力予以贊揚和應(yīng)有的尊重。他們的成就是重大且來之不易的。與此同時，我們也需要誠實地承認：一支人類幼兒足球隊很可能擊敗目前的世界冠軍人形機器人隊。當(dāng)前基于大語言模型（LLM）的AI系統(tǒng)——在文檔處理、代碼開發(fā)等任務(wù)上已能與甚至超越人類專家水平——與物理AI系統(tǒng)（如自主足球機器人）之間的能力差距是驚人的。

讓我們審視一下當(dāng)代機器人足球隊所采用的技術(shù)。它們的開發(fā)依賴于控制理論、信號處理、機器人學(xué)、機器學(xué)習(xí)和通信等領(lǐng)域的前沿方法，凝聚了數(shù)十年來的理論進步和大規(guī)模工程努力。

現(xiàn)在，將這些機器人系統(tǒng)的足球技能水平與精英人類足球運動員（例如基利安·姆巴佩?）進行比較。姆巴佩并沒有顯式地運用任何控制理論或強化學(xué)習(xí)的知識。相反，他的大腦和身體在物理規(guī)律的作用下，通過與環(huán)境的長期互動，形成了遠超當(dāng)前人形機器人的足球技能。

事實上，這種性能差距之大，促使我們思考一個問題：到2050年，要讓能擊敗人類世界冠軍的人形機器人隊伍成為現(xiàn)實，繼續(xù)沿著控制與學(xué)習(xí)算法的發(fā)展路徑是否就是最有前景的方向？或許，更富有成效的方式是研究生物大腦中的物理過程如何產(chǎn)生信息處理機制，并通過與環(huán)境的互動，形成卓越的感覺運動技能。

我們使用機器人足球這個例子，僅僅是為了說明人類技能水平與當(dāng)前必須在真實世界具身約束下運行的物理AI智能體之間存在的巨大性能差距。在本文中，我們更廣泛的興趣是引入一種替代性方法，用于開發(fā)與人類表現(xiàn)具有競爭力的物理具身AI系統(tǒng)。

大約二十年前，一個被稱為自由能原理（FEP）的統(tǒng)一框架被提出，用于將大腦中的信息處理描述為一個物理過程 [Friston, 2005, 2009]。自提出以來，F(xiàn)EP 已進一步發(fā)展為一個適用于維持自身結(jié)構(gòu)和功能完整性的自然系統(tǒng)的通用最小作用量原理 [Friston et al., 2023a]。關(guān)于該理論當(dāng)前狀態(tài)的全面綜述可參見 [Friston, 2019, Friston et al., 2023b]。

FEP 的一個決定性特征是將大腦解釋為對感官觀測的概率生成模型，其中所有的信息處理都被歸結(jié)為變分自由能（VFE）的最小化。在這一框架下，諸如感知、控制、規(guī)劃、學(xué)習(xí)、決策、注意力、習(xí)慣形成、探索和想象等認知過程，不再被視為獨立的認知能力，而是作為單一推斷原則的結(jié)果涌現(xiàn)出來。從工程角度看，這種統(tǒng)一在概念上非常強大且極具吸引力，因為這些功能通常由控制理論、信號處理、機器學(xué)習(xí)和人工智能中本質(zhì)不同的方法來解決。

為了將實際的物理過程與總體的理論框架區(qū)分開來，大腦中的 VFE 最小化過程通常被稱為主動推理（AIF），盡管本文后續(xù)會對此術(shù)語進行更精細的定義。從工程角度來看，AIF 作為一個潛在的基礎(chǔ)，特別值得關(guān)注，因為它可用于開發(fā)能夠通過與環(huán)境的互動自主獲取技能的合成物理 AI 系統(tǒng)。

盡管具有概念上的吸引力，但關(guān)于 FEP 和 AIF 的文獻對工程師而言仍然難以理解。因此，本文旨在從工程視角出發(fā)介紹 AIF，并闡明為什么它對于機器人學(xué)及其他具身 AI 系統(tǒng)領(lǐng)域的研究者而言是一個有前景的范式。

本文按照以下鏈條（圖 2）展開論證，每一步都建立在前一步的基礎(chǔ)之上：

概率論（PT）：我們采用將概率解釋為信念程度的貝葉斯觀點，并回顧了求和規(guī)則與乘積規(guī)則的公理化推導(dǎo) [Cox, 1946, Jaynes, 2003]。
貝葉斯機器學(xué)習(xí)（BML）：在從數(shù)據(jù)中學(xué)習(xí)方面完全遵循概率論。貝葉斯規(guī)則是基本的學(xué)習(xí)機制；模型性能通過貝葉斯模型證據(jù)來評分。BML 是原則性的，但通常在計算上難以處理。
變分推斷（VI）：將 VFE 最小化作為精確貝葉斯推斷的一種計算上可行的替代方案，它深深植根于統(tǒng)計物理學(xué) [Feynman, 1955, Lanczos, 1986] 并具有最大熵原理的公理化基礎(chǔ)。
主動推理（AIF）：將 VFE 最小化完全作為物理智能體通過與環(huán)境和感覺交互的持續(xù)唯一過程。
因子圖與反應(yīng)式消息傳遞（RMP）：將 VFE 最小化實現(xiàn)為因子圖上的分布式、事件驅(qū)動的消息傳遞，天然適用于在波動性數(shù)據(jù)、時間和功率資源下運行。

簡而言之，本文旨在為將主動推理作為一種用于開發(fā)物理具身 AI 系統(tǒng)的工程技術(shù)來理解和應(yīng)用，提供一條清晰的路徑。我們希望從這個角度介紹主動推理，能夠激發(fā)工程社區(qū)更大的興趣和更廣泛的采用。關(guān)于 PT、BML 和 VI 的前幾節(jié)特意放慢了節(jié)奏，以便廣泛讀者能夠理解。已經(jīng)熟悉 VI 的讀者可以直接跳到第 5 節(jié)，那里是主動推理論述的起點。

2 概率論

我們首先回顧概率論（PT），以建立符號體系并明確本文后續(xù)內(nèi)容所依賴的具體解釋——即貝葉斯概率。由于篇幅限制，我們將側(cè)重于概念理解而非形式上的完整性。

一個介紹概率的經(jīng)典方法是：假設(shè)教室黑板的背面有一個整數(shù) x x，取值范圍在 1 到 100 之間，請一名學(xué)生猜測這個數(shù)字。不同的學(xué)生可能會給出不同的答案，因為他們關(guān)于 x x的知識狀態(tài)的不確定性可以表示為

當(dāng)黑板被翻轉(zhuǎn)并將數(shù)字展示給全班學(xué)生后，學(xué)生的知識狀態(tài)從(1)變?yōu)?2)。

顯然，概率分布提供了一種方便的方式來表征知識狀態(tài)，特別是對某個事件（此處為： x = a ）的信念程度，該事件要么為真要么為假。這種將概率解釋為信念程度的觀點通常被稱為貝葉斯解釋。重要的是，對某個事件的信念程度可能會發(fā)生變化，即使黑板上實際的物理數(shù)字（ x = 57 ）本身并未改變。在上述例子中，揭示真相后更新知識狀態(tài)是平凡的；然而，在大多數(shù)實際情況下，當(dāng)（部分）信息被揭示時，應(yīng)該如何更新信念遠沒有那么明確。

在1946年一篇開創(chuàng)性的論文中，推導(dǎo)出了當(dāng)新信息可用時“理性”更新信念程度（概率）的正確演算方法 [Cox, 1946]。在發(fā)展這種用于理性信息處理的演算時，僅做了一些非常合理的假設(shè)（“公理”），包括：

C1實值信念。信念程度由介于0和1之間的實數(shù)表示。
C2一致性。合理性評估是一致的：如果在新信息 B 下 A 變得更合理，則賦予的信念程度相應(yīng)增加；并且如果對 A 的信念超過對 B 的信念，而對 B 的信念超過對 C 的信念，那么對 A 的信念必須超過對 C 的信念。
C3邏輯封閉性。邏輯等價性得以保持：如果一個事件的信念可以通過兩種不同方式推斷出來，例如先基于更新，或者反過來，這兩種路徑在最終信念上必須一致。

Cox推導(dǎo)得出，如果1–3成立，那么更新概率的唯一正確方式必須遵循求和規(guī)則與乘積規(guī)則：

全概率法則的應(yīng)用通常被稱為邊緣化，由此得到的分布 p ( A ) 稱為邊緣概率。求和規(guī)則與乘積規(guī)則，連同貝葉斯規(guī)則和全概率法則，構(gòu)成了所有理性信息處理的核心工具。

示例 1 提供了一個具有啟發(fā)性的例子，既凸顯了概率論的強大能力，也揭示了依賴直覺而非求和規(guī)則與乘積規(guī)則可能帶來的誤區(qū)。

3 貝葉斯機器學(xué)習(xí)

貝葉斯機器學(xué)習(xí)（BML）體現(xiàn)了對概率論的完全承諾，用于（從數(shù)據(jù)中）學(xué)習(xí)和應(yīng)用模型。原則上，BML 是一個合理的思想，因為任何替代方案都意味著一個違反 Cox 公理的機器學(xué)習(xí)學(xué)科。

一個關(guān)鍵見解是：如果不引入超越觀測數(shù)據(jù)本身的假設(shè)，機器學(xué)習(xí)通常是不可能的。在貝葉斯機器學(xué)習(xí)的背景下，這些假設(shè)被編碼在一個模型 m m中，該模型定義了模型參數(shù)集合 θ θ與觀測數(shù)據(jù)集上的聯(lián)合概率分布。這個聯(lián)合分布由似然函數(shù)與模型參數(shù)上的先驗分布的乘積所確定，即：

似然函數(shù)和先驗分布都需要一些澄清。分布 p ( D ∣ θ , m ) 有兩種互補的解釋。首先，它可以看作是一個具有固定參數(shù)值 θ θ的模型 m m生成數(shù)據(jù)集 D 的概率。在這種解釋下， D 是變量，而 p ( D ∣ θ , m ) 被視為一個數(shù)據(jù)生成分布。

然而，在機器學(xué)習(xí)背景下，數(shù)據(jù) D 通常被視為一組固定的已知觀測值，而參數(shù)值 θ 是未知的。在這種解釋下， p ( D ∣ θ , m ) 被視為 θ 的函數(shù)，稱為似然函數(shù)。從建模的角度來看，指定一個合適的似然函數(shù)是一個核心的設(shè)計選擇，反映了實踐者對數(shù)據(jù)生成過程所做的假設(shè)。

除了似然函數(shù)之外，實踐者還必須指定在觀測到數(shù)據(jù) D 之前他們對模型參數(shù) θ 的知識狀態(tài)。這一知識通過先驗分布 p ( θ ∣ m ) 來編碼。顯式指定先驗是貝葉斯機器學(xué)習(xí)區(qū)別于其他機器學(xué)習(xí)框架的一個關(guān)鍵方面——在其他框架中，所需的假設(shè)通常以隱式或非概率的方式引入，例如通過正則化項。

一旦模型（6）被指定，并且新的數(shù)據(jù)集 D 變得可用，所有后續(xù)處理都遵循概率論進行。實際的學(xué)習(xí)任務(wù)涉及評估

因此，首先通過對模型參數(shù) θ θ進行邊緣化來計算模型證據(jù) p ( D ∣ m ) ，然后通過貝葉斯規(guī)則得到參數(shù)的 posterior 分布 p ( θ ∣ D , m ) 。

p ( D ∣ m ) 和 p ( θ ∣ D , m ) 都是核心關(guān)注量。 (7b) 中的貝葉斯規(guī)則描述了數(shù)據(jù)集 D D如何通過一致的理性推理，將關(guān)于模型參數(shù)的信念從先驗分布 p ( θ ∣ m ) 更新為 posterior 分布 p ( θ ∣ D , m ) 。因此，貝葉斯規(guī)則構(gòu)成了數(shù)據(jù)學(xué)習(xí)背后的基本規(guī)則。偏離 (7b) 可能會違反 Cox 公理。

模型證據(jù) p ( D ∣ m ) 本身非常有價值，因為它對模型假設(shè) (6) 的性能進行了評分。首先注意，對于給定的數(shù)據(jù)集， p ( D ∣ m ) 計算為區(qū)間 ( 0 , 1 ] 內(nèi)的一個標量值。該量的負對數(shù)通常稱為驚奇度（surprisal），它可以分解為復(fù)雜度項減去準確度項（參見 (53) 中的證明）：

復(fù)雜度項是 Kullback-Leibler (KL) 散度?，它可以解釋為 posterior 分布與 prior 分布之間的非負距離度量。復(fù)雜度項反映了我們通過將數(shù)據(jù) D D吸收到模型中，使信念從 prior 轉(zhuǎn)變?yōu)?posterior 所需改變的程度。一個好的模型應(yīng)該避免不必要的偏離 prior，因為信念更新相當(dāng)于遺忘先驗信息（并且在主動推理的背景下，遺忘那些維持生存所依賴的信息是不可取的）。準確度項是期望對數(shù)似然，其中期望是針對（posterior）參數(shù)信念來計算的。一個好的模型具有高準確度，因為我們希望很好地預(yù)測數(shù)據(jù)集 D D。最小化復(fù)雜度和最大化準確度都與最大化模型證據(jù) p ( D ∣ m ) 的目標一致。總而言之，具有高貝葉斯證據(jù)的模型通過實現(xiàn)高準確度（即對新數(shù)據(jù) D D擬合良好）同時保持低復(fù)雜度（即不遺忘過去學(xué)到的模式），達成了有利的權(quán)衡。這種復(fù)雜度-準確度的權(quán)衡，將在第 4 節(jié)和第 5.3 節(jié)中作為我們?yōu)橹鲃油评碇悄荏w設(shè)計變分自由能目標時的核心設(shè)計準則再次出現(xiàn)。

雖然證據(jù) p ( D ∣ m ) 對模型 m m的性能進行評分，但在訓(xùn)練好的模型應(yīng)用中，通常需要的是 posterior 分布 p ( θ ∣ D , m ) 。例如，給定數(shù)據(jù)集 D D和模型假設(shè) (6)，我們可以評估關(guān)于未來觀測 y ? 的知識狀態(tài)如下：

需要注意的是，貝葉斯機器學(xué)習(xí)中的所有信息處理——即通過 (7) 進行的學(xué)習(xí)以及如 (9) 所示的模型應(yīng)用——完全依賴于概率論。因此，BML 代表了一種在不違反 Cox 公理的前提下進行機器學(xué)習(xí)的承諾。

在應(yīng)用環(huán)境中，實踐者通常通過使用 (7a) 評估模型證據(jù)來迭代候選模型方案，直到獲得一個令人滿意的模型。一旦選定了可接受的模型，就通過 (7b) 計算模型參數(shù)上的 posterior 分布。隨后，得到的模型就可以被應(yīng)用，例如按照 (9) 中描述的方式。一個將 BML 應(yīng)用于預(yù)測硬幣拋擲結(jié)果的完整示例見示例 2。

如果我們接受 Cox 公理，那么我們就應(yīng)該接受 BML 作為我們的機器學(xué)習(xí)框架。不幸的是，通過 (7a) 評估證據(jù)可能是難以處理的。舉例說明，考慮一個（較小的）包含 80 個參數(shù)的模型，其中每個參數(shù)可以取 10 個可能的值。使用 (7a) 評估證據(jù)需要對項進行求和，這相當(dāng)于宇宙中電子的數(shù)量級。如果證據(jù)無法評估，那么 posterior 分布就無法通過 (7b) 計算，因此 (9) 中的應(yīng)用步驟也變得難以處理。因此，盡管 BML 在形式上是正確的機器學(xué)習(xí)方法，但計算上的局限性阻礙了它的廣泛采用。

4 變分推斷

如前所述，當(dāng)計算資源有限時，評估貝葉斯證據(jù)以及由此得到的后驗分布可能是難以處理的。一個用于約束下推斷的公理化框架由 [Shore and Johnson, 1980] 提出，后來由 [Skilling, 1989, Caticha, 2021] 加以完善，其精神與 Cox 對概率論的公理化推導(dǎo)非常相似。

在貝葉斯機器學(xué)習(xí)任務(wù)的背景下，Shore and Johnson [1980] 引入了一個排序泛函 S [ q ] ，作用于候選后驗分布 q ( θ ) ?，該泛函是相對于先驗?zāi)Ｐ? p ( D , θ ) 和新施加的一組約束來定義的。這些約束代表了新獲得的信息（例如數(shù)據(jù)集中的觀測值），但也可能包括限制候選分布族可行范圍的建模限制。例如，我們可能將注意力限制在高斯后驗 q ( θ ) 上。更一般地，約束是任何影響從先驗到后驗的信念更新的條件。Shore and Johnson [1980] 要求該排序泛函滿足以下公理：

S1 唯一性：更新規(guī)則必須產(chǎn)生唯一的后驗。
S2 坐標不變性：推斷必須在參數(shù)重參數(shù)化下保持不變。
S3 系統(tǒng)獨立性：獨立系統(tǒng)分別更新或聯(lián)合更新必須產(chǎn)生一致的結(jié)果。
S4 子集獨立性：施加于一個子集上的約束不得影響關(guān)于不相交子集的推斷。

直觀上，這些公理要求后驗僅由施加的約束決定，而不引入任何無根據(jù)的信息。例如，S4 要求校準機器人的攝像頭不得改變對其麥克風(fēng)參數(shù)的信念，因為校準數(shù)據(jù)不包含關(guān)于麥克風(fēng)的任何信息。如果這些公理得到滿足，那么 [Shore and Johnson, 1980] 證明，相對熵泛函是滿足這一要求的唯一排序準則。具體而言，對于給定的觀測數(shù)據(jù)集 D D，優(yōu)選的后驗 q ( θ ) 被唯一確定為滿足所施加約束的同時最大化相對熵的分布：

這種推斷方法被稱為最大熵原理（MEP）。盡管相對熵是信息論中的一個核心概念，但其相反數(shù)在統(tǒng)計物理學(xué)中被稱為變分自由能（VFE）：

這一過程產(chǎn)生了一個近似的、但在計算上可行的貝葉斯解。

我們得到了一個顯著的結(jié)果。通過 (7) 進行的精確貝葉斯更新在符合 Cox 公理的意義上是最優(yōu)的，但由于 (7a) 中需要對 θ θ進行邊緣化，它通常在計算上是難以處理的。變分推斷通過將貝葉斯學(xué)習(xí)重新表述為 (15) 中的優(yōu)化問題，規(guī)避了這種邊緣化，而該優(yōu)化問題通常在計算上要容易處理得多。

此外，如果在數(shù)據(jù)約束之外進一步增加推斷問題的約束條件，那么 [Shore and Johnson, 1980]、[Skilling, 1989]、[Caticha, 2021] 提供了一個強有力的公理化動機，將約束下的 VFE 最小化視為一種原則性的推斷方法。因此，VFE 最小化不僅是一種方便的近似技術(shù)，更是一個原則性的（在實踐中也是不可避免的）框架，用于在物理 AI 系統(tǒng)面臨的實時條件下進行不確定性下的一致性推理。這引出了一個關(guān)鍵的概念性見解：在這種受限推斷的視角下，貝葉斯規(guī)則表現(xiàn)為 VI 的一個特例，其中唯一的約束是編碼了觀測數(shù)據(jù)，并且不對后驗的可容許族施加任何限制。因此，VI 比貝葉斯規(guī)則更為通用，因為它能夠容納現(xiàn)實世界智能體不可避免地面臨的額外約束（計算上的、結(jié)構(gòu)上的或分布上的）。

為了強調(diào)這一點，(12b) 中的驚奇度-界分解可以被解釋為問題表示成本與求解成本的分解。具體而言，驚奇度量化了模型對環(huán)境的表示能力，而模型在求解中的任何實際使用都必然會產(chǎn)生推斷成本。一個重要結(jié)論是：一個問題表示相對較差（高驚奇度）但配備了高效推斷過程（低求解成本）的模型，可能比一個具有高貝葉斯證據(jù)但推斷過程昂貴或不準確的模型實現(xiàn)更低的 VFE。這意味著，具有最高貝葉斯證據(jù)的模型在實踐中不一定是最有用的，因為貝葉斯證據(jù)僅評估問題表示的質(zhì)量，而忽略了推斷的計算成本。因此，將 VFE 僅僅解釋為驚奇度的上界是不完整的。相反，VFE 提供了一個更原則性的性能準則，因為它共同評估了模型的保真度和推斷過程的計算成本——這對于在實時和資源約束下運行的物理 AI 系統(tǒng)來說是一個至關(guān)重要的考量。

這種更廣泛的理解得到了 (12d) 中能量-熵分解的強化，該分解將 VFE 與統(tǒng)計物理中的自由能泛函聯(lián)系起來。更一般地，變分自由能原理與 Jaynes 的最大熵原理密切相關(guān)，并通過統(tǒng)計力學(xué)與熱力學(xué)第二定律相聯(lián)系。因此，變分推斷不應(yīng)僅僅被視為對精確貝葉斯推斷的近似，而應(yīng)被看作信息處理的一個基本原理。

關(guān)于貝葉斯邏輯回歸的 VI 工作流示例見示例 3。

5 自由能原理與主動推理

我們現(xiàn)在轉(zhuǎn)向物理 AI 智能體，即那些具身于現(xiàn)實世界的物理實體中并通過該實體行動的智能體。一個物理 AI 智能體：

從其環(huán)境接收感覺輸入，
基于這些觀測進行推斷和決策，
并生成通過其執(zhí)行器影響環(huán)境的物理動作。

物理 AI 智能體的一個決定性特征是存在一個封閉的感知-行動回路，其中行動改變環(huán)境，環(huán)境隨后生成新的感覺輸入。這個回路可以抽象為：

圖 3 展示了這種狀態(tài)劃分以及由此產(chǎn)生的感知-行動回路。這種感知與行動之間的循環(huán)耦合，將物理 AI 智能體與那些在沒有與環(huán)境具身交互的情況下運行的“離線”AI 系統(tǒng)區(qū)分開來。

在本節(jié)中，我們簡要總結(jié)自由能原理（FEP）。關(guān)于其推導(dǎo)的核心參考文獻包括 [Friston, 2019, Friston et al., 2023a]。第 5.1 節(jié)的敘述遵循基于物理學(xué)的路徑，從非平衡穩(wěn)態(tài)動力學(xué)出發(fā)。從工程角度來看，F(xiàn)EP（及其相關(guān)過程——主動推理）可以理解為對 VFE 最小化的完全承諾，將其作為與環(huán)境交互的物理 AI 智能體的統(tǒng)一計算原則。傾向于直接接受 FEP 的讀者可以跳過第 5.1 節(jié)，直接進入第 5.2 節(jié)，那里將繼續(xù)工程層面的論述。

5.1 自由能原理：維持自身同一性的系統(tǒng)動力學(xué)

FEP 的出發(fā)點是一個觀察：許多自然系統(tǒng)通過消耗能量進行自組織，從而隨時間維持其結(jié)構(gòu)和功能的完整性 [Friston, 2013]。生物有機體就是這類自組織系統(tǒng)的典型例子。FEP 通過以下假設(shè)形式化了這一直覺 [Friston, 2013, Friston et al., 2021, 2023a,b]：

F1 Langevin 動力學(xué)：系統(tǒng)及其環(huán)境的組合狀態(tài)遵循一個隨機微分方程，即

這將該系統(tǒng)的一部分標識為更大動力系統(tǒng)中的一個智能體，并確保內(nèi)部狀態(tài)不與外部狀態(tài)直接耦合。

核心 FEP 結(jié)果的推導(dǎo)分為三步（完整論述參見 [Friston, 2019, 第一部分, 第1-2節(jié)]）。

這表明一個 AIF 過程可以解釋為一個動力系統(tǒng)，其自主狀態(tài)的演化以最小化驚奇度為目標。每當(dāng)系統(tǒng)漂移到較低穩(wěn)態(tài)概率的區(qū)域時，動力學(xué)方程 (25) 就會傾向于將其推回更概然的區(qū)域，從而維持智能體可識別的形態(tài)。

動力學(xué)方程 (25) 構(gòu)成了在假設(shè) F1–F3 下 FEP 的核心數(shù)學(xué)結(jié)果。在額外的變分解釋下，這些動力學(xué)可以被解讀為一個主動推理（AIF）過程，其中內(nèi)部狀態(tài)編碼關(guān)于外部狀態(tài)的信念，而控制狀態(tài)則采取行動，使得感覺與預(yù)測相匹配。我們首先展示 (25a) 如何對應(yīng)于內(nèi)部狀態(tài) s s上的 VFE 最小化，然后將這一視角擴展到控制過程。

5.2 作為 VFE 最小化的內(nèi)部狀態(tài)估計

由于內(nèi)部狀態(tài) s s通過馬爾可夫毯（假設(shè) F3）與外部狀態(tài) x x耦合但在統(tǒng)計上隔離，并且它們遵循穩(wěn)態(tài)密度上的梯度流，因此它們的動力學(xué)可以被解釋為編碼了關(guān)于外部狀態(tài)的條件密度的參數(shù)。具體而言，我們可以定義一個映射

其中 q ( x ∣ s ) 是外部狀態(tài) x x上的一個概率密度，由內(nèi)部狀態(tài) s s參數(shù)化。這一解釋步驟并非由動力學(xué)本身強制要求的——這些動力學(xué)已由 (25) 完全確定——但它使得本文后續(xù)部分將發(fā)展的變分推斷視角成為可能。這樣做的動機在于：內(nèi)部狀態(tài)持續(xù)受到感覺輸入的塑造，而感覺輸入本身又依賴于外部狀態(tài)，因此內(nèi)部狀態(tài)必然累積關(guān)于環(huán)境的統(tǒng)計信息。映射 s ? q ( x ∣ s ) 通過將內(nèi)部狀態(tài)解釋為外部狀態(tài)上信念分布的充分統(tǒng)計量，使這種關(guān)系變得明確。例如，一個高斯參數(shù)化形式：

5.3 作為 VFE 最小化的規(guī)劃與控制

本節(jié)的關(guān)鍵結(jié)論是：通過 EFE 最小化進行策略選擇并沒有引入新的原理；它是在上述建模承諾下，從標準變分推斷中自然產(chǎn)生的。

5.4 嵌套主動推理智能體

第 5.1 節(jié)指出，滿足假設(shè) F1–F3 的系統(tǒng)在引入上述變分解讀后，可以接受主動推理的解釋。一個自然的后續(xù)問題是：一個 AIF 智能體的內(nèi)部狀態(tài) s 本身是否可以由更低層級的 AIF 智能體組成？如果是，在什么條件下成立？這個問題在實踐中很重要：如果答案是肯定的，那么人們就可以通過組合更簡單的 AIF 智能體來構(gòu)建大規(guī)模智能系統(tǒng)，而無需脫離 VFE 最小化框架。這將帶來顯著的工程益處，因為工程工作可以完全集中在高效的 VFE 最小化上——而 VFE 最小化可以以一種非常適合于處理典型物理 AI 約束的方式來實現(xiàn)（將在第 6 節(jié)討論）。答案——在 Friston [2019]、Friston et al. [2021]、Hipólito et al. [2021]、Fagerholm et al. [2021] 中得到了發(fā)展——是：在合適的結(jié)構(gòu)和粗粒化條件下，一組耦合的 AIF 智能體本身可以被描述為一個更高層級的 AIF 智能體。

總之，E1 確保了集體馬爾可夫毯的存在，E2 實現(xiàn)了粗粒化，產(chǎn)生在比組成智能體更慢的時間尺度上演化的集體變量，E3 保證了穩(wěn)態(tài)密度的存在，使得亥姆霍茲分解可以在集體尺度上應(yīng)用。當(dāng) E1–E3 成立時，類似于 (25)，集體自主狀態(tài)遵循集體穩(wěn)態(tài)密度上的梯度流，

這允許了通常的變分自由能解釋。因此，該集合在集體尺度上表現(xiàn)為一個 AIF 智能體，而無需引入 F1–F3 之外的任何新原理，這說明了主動推理系統(tǒng)的嵌套或多尺度性質(zhì) [Friston et al., 2021]。

5.5 探索行為從嵌套 AIF 智能體中涌現(xiàn)

通過逐層粗粒化從隨機微觀動力學(xué)向近確定性宏觀行為的轉(zhuǎn)變，在理論物理學(xué)中有一個著名的類比：對微觀量子漲落進行平均，會得到由變分（最小作用量）原理支配的宏觀動力學(xué) [Feynman, 1965]。Friston 明確地將這種量子到經(jīng)典的轉(zhuǎn)變與嵌套 AIF 智能體的粗粒化進行了類比 [Friston et al., 2023b,a]。

6 實現(xiàn)：因子圖與反應(yīng)式消息傳遞

6.1 Forney 風(fēng)格因子圖

Forney 風(fēng)格因子圖（FFG）是一個因子化聯(lián)合概率分布的圖形化表示 [Kschischang et al., 2001, Loeliger, 2004, Loeliger et al., 2007]。在 FFG 中，方形節(jié)點表示因子（局部函數(shù)），邊表示變量，該圖將聯(lián)合分布的因子化編碼為這些因子的乘積。每個因子節(jié)點僅連接到與其參數(shù)對應(yīng)的邊，從而使模型的條件獨立結(jié)構(gòu)變得明確。

就本文目的而言，F(xiàn)FG 的重要性在于它們將推斷暴露為一系列嚴格的局部計算集合，使其成為物理 AIF 智能體中分布式 VFE 最小化的自然計算基礎(chǔ)。

如果每個變量有 10 個可能的值，那么直接評估的計算量級約為次算術(shù)運算。然而，代入因子分解式 (37) 并應(yīng)用分配律（將積分向內(nèi)移動，使其越過不依賴于積分變量的因子）將 (38) 轉(zhuǎn)換為以下和之積的形式：

而這只需要幾百次局部運算即可完成。顯然，利用這種分配結(jié)構(gòu)帶來的計算增益是巨大的。

(39) 中的中間結(jié)果可以解釋為沿著因子圖傳遞的消息。例如，中間結(jié)果

總之，在稀疏連接的模型（即每個因子僅依賴于相對較小變量子集的因子化模型）中，貝葉斯推斷可以通過 FFG 上的消息傳遞高效實現(xiàn)。由此產(chǎn)生的消息傳遞過程只需要在節(jié)點處進行局部計算。

6.2 因子圖上的約束變分推斷

本節(jié)的目標是表明，第 6.1 節(jié)中直觀推導(dǎo)出的消息傳遞算法，可以歸結(jié)為因子圖上約束變分自由能最小化的一個平穩(wěn)解。這一結(jié)果確立了消息傳遞不僅是一種計算啟發(fā)式方法，更是一種原則性的變分推斷。

考慮一個因子化如下的生成模型：

Bethe 約束使得在具有因子化結(jié)構(gòu) (42) 的模型上能夠進行基于局部消息傳遞的變分推斷。額外的約束 (46) 強制了相鄰因子信念與變量信念之間的一致性。

為每個一致性約束引入拉格朗日乘子，并對約束 Bethe 自由能（CBFE）求泛函導(dǎo)數(shù)，可以得到如下形式的局部平穩(wěn)解 [Senoz et al., 2021, 定理 1]：

方程 (47) 和 (48) 恢復(fù)了我們第 6.1 節(jié)中說明的和積算法。從這個意義上說，消息傳遞可以被理解為源于約束變分推斷，而非分配律的代數(shù)操作。CBFE（約束 Bethe 自由能）視角更為通用，因為它自然地容納了推斷任務(wù)上的額外約束。

Senoz et al. [2021] 表明，幾乎所有已知的消息傳遞變體（和積/信念傳播、結(jié)構(gòu)化和均值場變分消息傳遞、數(shù)據(jù)約束和積、拉普拉斯傳播、期望傳播）都可以通過改變變分后驗上的局部約束，從第一性原理推導(dǎo)出來。考慮了兩類約束：（i）因子分解約束（結(jié)構(gòu)化均值場、樸素均值場），以及（ii）形式約束（數(shù)據(jù)/狄拉克 delta 約束、拉普拉斯近似、用于期望傳播的矩匹配）。因此，通過局部消息傳遞進行 CBFE 最小化，為在變分推斷任務(wù)中權(quán)衡計算復(fù)雜度與近似精度提供了一個原則性的框架。這種靈活性對物理 AI 至關(guān)重要：工程師（或智能體）可以在時間、能量或內(nèi)存稀缺的地方調(diào)整局部近似，而無需放棄共同的 VFE 最小化架構(gòu)。

6.3 反應(yīng)式消息傳遞與 RxInfer

Bagaev [2023] 將反應(yīng)式編程的概念擴展到了基于 CBFE 的消息傳遞中。在反應(yīng)式消息傳遞（RMP）框架中，因子圖中的每個節(jié)點都作為一個自主的計算單元，其更新根據(jù)傳入的變化進行局部調(diào)度。僅當(dāng)傳入的消息發(fā)生變化時才考慮消息更新，從而允許推斷通過局部的事件驅(qū)動更新進行。例如，當(dāng)一個新的傳感器值僅改變了一個局部似然因子時，只有圖中相鄰的部分需要立即更新，而不是整個模型。通過這種方式，CBFE 的優(yōu)化通過分布式的局部計算來實現(xiàn)，盡管實際行為仍取決于圖結(jié)構(gòu)、更新調(diào)度和近似選擇。此外，每個節(jié)點可以即時抑制信息量低的消息（例如那些接近均勻分布的消息），從而降低計算負載。

這個反應(yīng)式 CBFE 最小化消息傳遞框架已在開源 Julia 工具箱 RxInfer1? [Bagaev et al., 2023] 中實現(xiàn)。在 RxInfer 中，實踐者需指定一個生成模型以及一組變分約束，從而定義一個 CBFE 泛函。當(dāng)滿足前幾節(jié)討論的條件時，該泛函對應(yīng)于 AIF 智能體的 VFE 目標。RxInfer 隨后可以通過持續(xù)的反應(yīng)式消息傳遞協(xié)議自動最小化由此產(chǎn)生的自由能。為了給出具體的工作流程印象，以下偽代碼概述了如何在 RxInfer 中指定和推斷一個簡單的狀態(tài)空間模型：

@model宏用于構(gòu)建因子圖；infer(·)運行反應(yīng)式消息傳遞，以返回關(guān)于所有潛狀態(tài)的后驗信念。

總之，因子圖提供了一種用于最小化變分自由能的并行、分布式架構(gòu)。每個節(jié)點僅執(zhí)行局部計算，而圖中集體的消息傳遞解決了全局推斷問題。CBFE 公式使這個框架具有靈活性，因為對變分族的約束可以在單個節(jié)點和邊上進行局部指定，從而在推斷精度和計算成本之間實現(xiàn)原則性的權(quán)衡。反應(yīng)式增加了魯棒性和自主性：由于每個節(jié)點獨立響應(yīng)傳入的消息，即使數(shù)據(jù)異步到達、傳感器發(fā)生故障或計算資源波動，推斷也可以不間斷地進行。下一節(jié)將解釋為什么這種推斷范式特別適合物理智能體所面臨的資源約束。

7 作為主動推理智能體的物理 AI 智能體

前面幾節(jié)展開了兩個互補的論證。第 5 節(jié)表明，F(xiàn)EP 為具身智能體提供了一個規(guī)范性的、基于第一性原理的設(shè)計框架：在 FEP 的假設(shè)下，那些隨時間維持自身結(jié)構(gòu)和功能完整性的系統(tǒng)可以被描述為仿佛在最小化變分自由能。AIF 通過將感知、學(xué)習(xí)、規(guī)劃和控制統(tǒng)一于單一的計算目標——VFE 最小化——來實現(xiàn)這一原理，而無需為每個功能設(shè)立獨立的機制。第 6 節(jié)表明，VFE 最小化可以通過因子圖上的反應(yīng)式消息傳遞以高效的、分布式的方式實現(xiàn)，其中每個節(jié)點自主地僅執(zhí)行局部計算，而網(wǎng)絡(luò)整體上解決全局推斷問題。綜合起來，這些結(jié)果表明，通過因子圖上的反應(yīng)式消息傳遞實現(xiàn)的 AIF 框架，為物理 AI 智能體的設(shè)計提供了一個原則性的基礎(chǔ)。

7.1 用于魯棒性的持續(xù)反應(yīng)式消息傳遞

要理解這對物理 AI 為何重要，請考慮現(xiàn)實世界中的物理 AI 設(shè)備所面臨的常態(tài)性（而非異常邊緣情況）的波動運行條件：

時間（截止時間）波動：推斷必須在決策所需時間之前完成。一輛自動駕駛汽車在估算迎面駛來車輛的軌跡時，可能在碰撞變得不可避免之前只有幾十毫秒的時間。推斷算法無法請求更多時間；它必須在截止時間到來時基于當(dāng)前最佳估計做出判斷。
數(shù)據(jù)波動：傳感器數(shù)據(jù)以順序且異步的方式跨多種模態(tài)到達。一個跟蹤 N 個附近物體的機器人，平均每個物體僅能獲得其傳感器帶寬的 1 / N ，且某些物體可能暫時完全離開視野。推斷算法必須在每次觀測到達時將其納入，而無需等待完整的同步快照。
功率波動：每次推斷步驟的計算預(yù)算是有限的且隨時間變化。一架跟蹤 K 個目標的無人機，每個目標大約能分配其處理能力的 1 / K ，并且隨著電池電量下降，該預(yù)算進一步縮減。推斷算法必須優(yōu)雅地降級，以精度換取速度，而不是在資源不足時突然失效。
組成波動：環(huán)境的組成不斷變化。在交通中導(dǎo)航的智能體可能需要跟蹤 2 到 20 個不等的其他道路使用者（車輛、騎行者、行人），因為它們會進入或離開場景。設(shè)備故障（例如傳感器離線）會進一步改變有效的模型結(jié)構(gòu)。因此，智能體的生成模型必須在線適應(yīng)以反映這些變化的環(huán)境組成。

這些并非偶然的工程困難；它們是具身、實時運行的定義性特征。一個原則性的魯棒架構(gòu)必須同時處理所有這四個問題，而無需設(shè)計者預(yù)先預(yù)見每一種條件組合。

因子圖上的持續(xù)反應(yīng)式消息傳遞非常適合這一挑戰(zhàn)。由于每個節(jié)點響應(yīng)到達的消息而無需全局調(diào)度，推斷是事件驅(qū)動的：一旦新數(shù)據(jù)到達就進行更新，當(dāng)沒有新信息時則暫停。硬實時截止時間可以通過在所需時刻基于當(dāng)前信念做出決策來處理，無論消息傳遞是否已經(jīng)收斂。異步或缺失的觀測在局部被吸收，而不會影響圖的其余部分。計算資源減少僅僅意味著單位時間內(nèi)交換的消息更少，并且由于每個完成的局部更新都旨在降低 CBFE，系統(tǒng)會以原則性的方式用精度換取速度。

CBFE 框架進一步允許通過在每個節(jié)點選擇合適的變分約束（第 6.2 節(jié)），在局部調(diào)整推斷的復(fù)雜度。在資源預(yù)算緊張下運行的節(jié)點可以采用成本較低的均值場近似，而資源充裕的節(jié)點則可以使用更具表達力的結(jié)構(gòu)化 VMP 或期望傳播更新。這種局部適應(yīng)性無需對推斷算法進行全局重新設(shè)計。

至關(guān)重要的是，所需的計算資源無法預(yù)先調(diào)度：當(dāng)環(huán)境偏離預(yù)期時，計劃必須持續(xù)更新1?，而這種偏離根據(jù)定義是無法預(yù)見的。

例如，狀態(tài)更新可能需要在 1 μW、1.1 μW 或 1.2 μW 的功率下運行，并在 1 ms、1.1 ms 等時間內(nèi)產(chǎn)生更新。為所有這些條件預(yù)先計算不同的濾波器變體是不可行的。在 RMP 框架內(nèi)，對這種變化的適應(yīng)可以在局部處理：由于計算分布在自主節(jié)點上，更新的質(zhì)量和頻率可以適應(yīng)運行時實際可用的資源，而無需切換到不同的全局推斷架構(gòu)。

因此，以這種方式實現(xiàn)的 AIF 智能體繼承了與物理部署直接相關(guān)的特性：

統(tǒng)一的設(shè)計：感知、學(xué)習(xí)、規(guī)劃與行動選擇全部歸結(jié)為單個生成模型中的 VFE 最小化，無需集成各自獨立設(shè)計的子系統(tǒng)。
任意時間推斷：反應(yīng)式消息傳遞可在任何時刻被中斷，并返回當(dāng)前最佳的信念，使得硬實時截止時間在沒有專用調(diào)度的情況下也變得易于處理。
容錯性：局部自主性可以使節(jié)點故障或傳感器缺失的影響保持局部化，從而性能降級比緊耦合的集中式架構(gòu)更加優(yōu)雅。
資源適應(yīng)性：精度-成本的權(quán)衡通過變分約束在局部進行控制，使得智能體能夠在廣泛的計算預(yù)算范圍內(nèi)運行，而無需改變架構(gòu)。

7.2 計算同質(zhì)性

另一個架構(gòu)上的后果值得強調(diào)。本文所發(fā)展的框架允許 AIF 智能體的嵌套實現(xiàn)，而無需在更高層級的組織上引入新的計算基元。層級結(jié)構(gòu)中的任何一層都不會引入不同的計算機制：在每個尺度上出現(xiàn)的唯一操作都是 (48) 中的消息計算。

這種計算同質(zhì)性對硬件設(shè)計有一個啟發(fā)性含義。一個實現(xiàn) (48) 的處理單元可以作為可重用的構(gòu)建模塊，用于廣泛多樣的 AIF 實現(xiàn)。將這些單元按照因子圖拓撲進行排列和連接，可能就足以實現(xiàn)任意復(fù)雜度的 AIF 智能體。在消息傳遞基底之外，不需要單獨的控制邏輯、調(diào)度器或全局推斷引擎。無論智能體是單個傳感器節(jié)點還是一個大型多模態(tài)機器人系統(tǒng)，所需的硅基操作都是相同的。舉例說明，一個傳統(tǒng)的基于強化學(xué)習(xí)的機器人通常結(jié)合了卷積感知模塊、樹搜索或模型預(yù)測規(guī)劃器、PID 控制器以及策略梯度學(xué)習(xí)算法，每個模塊都需要不同的計算基元、軟件棧和集成接口。而在 AIF 框架中，所有這些功能都歸結(jié)為相同形式 (48) 的消息計算。

因此，因子圖上的反應(yīng)式消息傳遞不僅僅是一種方便的實現(xiàn)策略。它是一種計算架構(gòu)，將 VFE 最小化的結(jié)構(gòu)與現(xiàn)實世界約束的結(jié)構(gòu)相匹配，并提供了一個同質(zhì)化的基底，能夠從單個處理單元擴展到完整的智能體層級結(jié)構(gòu)，而無需改變底層的計算基元。

7.3 示例：一支主動推理機器人足球隊

我們現(xiàn)在簡要說明本文所發(fā)展的框架如何應(yīng)用于一支機器人足球隊員組成的隊伍。目的并非提供工程規(guī)格，而是具體展示：VFE最小化、基于EFE的規(guī)劃、反應(yīng)式消息傳遞以及嵌套AIF智能體能夠自然地組合成一個連貫的物理AI架構(gòu)。

7.3.1 作為AIF智能體的單個球員

每個球員在共享的智能體間空間所誘導(dǎo)的耦合下，最小化其自身的 VFE。協(xié)調(diào)的行為（間距、傳球序列、角色分化）無需任何中央控制器即可涌現(xiàn)。每個球員基于 EFE 的策略選擇會自動考慮隊友的預(yù)期行為，因為共享的智能體間狀態(tài)會沿著鏈條傳播信念更新。

7.3.3 資源波動下的反應(yīng)式消息傳遞

足球運動使第 7 節(jié)中的資源約束具體化。一名球員必須在幾百毫秒內(nèi)決定傳球或射門（時間約束）；觀測是局部的，并且在不同隊友之間是異步的（數(shù)據(jù)約束）；計算和運動預(yù)算隨電池狀態(tài)和對手數(shù)量而波動（功率約束）。持續(xù)的反應(yīng)式消息傳遞同時處理了這三個問題：推斷是事件驅(qū)動的，并可在任意截止時間提交結(jié)果；缺失的觀測僅影響局部圖區(qū)域，并導(dǎo)致信念向先驗衰減；資源減少意味著每秒的消息迭代次數(shù)減少，對應(yīng)于更粗糙的變分近似，從而性能平滑下降而非崩潰。同樣的機制擴展到團隊層面，而無需引入任何新的計算基元，這正是本文所論證的架構(gòu)同質(zhì)性。

8 討論

8.1 背景

本文旨在補充 Friston 等人 [2022] 的愿景論文，該論文認為主動推理為設(shè)計自然與人工智能生態(tài)系統(tǒng)提供了第一性原理基礎(chǔ)。該文提出了一個從當(dāng)前函數(shù)逼近 AI（階段 S0）到有感知智能（S1）、老練智能（S2）、共情智能（S3）和共享智能（S4）的遞進路線圖，并指出因子圖消息傳遞是使智能體能夠共享生成模型并通過交換充分統(tǒng)計量進行協(xié)調(diào)的計算架構(gòu)。

本文回答了 Friston 等人 [2022] 刻意留出的一個問題：工程師具體應(yīng)如何構(gòu)建構(gòu)成這樣一個生態(tài)系統(tǒng)的單個智能體？

本文的幾個具體貢獻填補了 Friston 等人 [2022] 中指出的空白。首先，我們表明 Forney 風(fēng)格因子圖上的反應(yīng)式消息傳遞直接解決了任何物理智能體面臨的實時、數(shù)據(jù)和功率約束（第 7 節(jié)），而 Friston 等人 [2022] 承認這些約束是根本性的，但未從工程細節(jié)上加以處理。其次，第 7 節(jié)的計算同質(zhì)性結(jié)果——因子圖中的每個節(jié)點都執(zhí)行相同的 VFE 最小化消息計算——提供了架構(gòu)基元，使得 Friston 等人的多智能體生態(tài)系統(tǒng)可以在無需在每個尺度引入新機制的情況下組裝起來。第三，第 6.2 節(jié)的約束 Bethe 自由能框架為工程師提供了一個具體的調(diào)節(jié)手段，即局部變分約束的選擇，用于在每個節(jié)點權(quán)衡精度與計算成本——這是 Friston 等人 [2022] 通過朗道爾原理強調(diào)的、在能量預(yù)算下運行的邊緣設(shè)備所必需的能力。

Dupoux 等人 [2026] 提供了另一個互補視角，他們將自主學(xué)習(xí)確定為物理 AI 尚未解決的核心問題，并提出了一個三組件架構(gòu)：基于觀測的學(xué)習(xí)（系統(tǒng) A）、基于行動的學(xué)習(xí)（系統(tǒng) B）以及一個元控制器（系統(tǒng) M），后者根據(jù)預(yù)測誤差、新奇性和不確定性等內(nèi)部生成信號路由數(shù)據(jù)并切換學(xué)習(xí)模式。我們認同他們的診斷：當(dāng)前的 AI 系統(tǒng)無法像生物有機體那樣自主地學(xué)習(xí)，彌合這一差距需要將感知、行動和內(nèi)在的探索驅(qū)動力緊密耦合。

然而，兩者架構(gòu)在一個基礎(chǔ)性承諾上存在分歧。Dupoux 等人 [2026] 的框架特意對數(shù)學(xué)基底持不可知態(tài)度：學(xué)習(xí)目標是一般的損失函數(shù)和期望回報最大化器，不確定性僅作為標量元信號（預(yù)測誤差、集成方差）進入，啟發(fā)式地調(diào)節(jié)數(shù)據(jù)路由和探索。概率論沒有發(fā)揮明確的作用。

我們認為，這種不可知態(tài)度是有代價的。一個僅將不確定性表示為標量“驚奇”或“新奇性”信號的智能體知道自己是不確定的，但不知道關(guān)于什么的不確定。為了決定哪個行動能最有效地消除其不確定性，智能體需要對其關(guān)于外部世界的信念有一個結(jié)構(gòu)化的、概率性的表征，因為只有這樣，它才能針對每個候選策略評估該策略預(yù)期能消除多少不確定性。這正是期望自由能（第 5.3 節(jié)）所提供的能力：其模糊性項 E q ( x ∣ u ) [ H [ q ( y ∣ x ) ] 評估了每個策略 u 下未來觀測的預(yù)期信息量，而這一評估只有當(dāng)智能體維護著關(guān)于外部狀態(tài)的顯式后驗 q ( x ∣ u ) 時才有意義。沒有這樣的后驗，EFE 就無法計算，智能體就只能依靠啟發(fā)式而非原則性的信息尋求來進行探索。簡而言之，概率論不僅僅是一種數(shù)學(xué)上的便利；它是將被動的驚奇轉(zhuǎn)化為有導(dǎo)向的好奇心的基底。

8.2 通往主動推理的兩條路徑

主動推理和自由能原理可以通過兩條互補的路徑來理解，這與 Parr 等人 [2022] 描述的高路和低路高度對應(yīng)。

高路。高路是與 Friston 最初推導(dǎo) FEP 相關(guān)的物理和神經(jīng)科學(xué)路徑 [Friston et al., 2023a,b]。在這條路徑中，自主狀態(tài)動力學(xué)可以表達為變分自由能最小化這一核心結(jié)果，是從關(guān)于自組織系統(tǒng)物理動力學(xué)的假設(shè)推導(dǎo)出來的。在本文中，第 5.1 節(jié)回顧了這條路徑，最終得到 (25) 中的自主狀態(tài)動力學(xué)及其在 (28) 中的變分重新解釋。

低路。低路從概率和推斷原理出發(fā)，而非從物理學(xué)出發(fā)。一個重要的近期貢獻是 Beck 和 Ramstead [2025] 的工作，他們從 Jaynes 的最大口徑原理結(jié)合馬爾可夫毯假設(shè)推導(dǎo)出了 FEP 的核心結(jié)果。在他們的公式中，同樣得出了自主狀態(tài)更新可以表達為變分自由能最小化的結(jié)論，但并未使用 Friston 推導(dǎo)中采用的物理假設(shè)。從這個意義上說，Beck 和 Ramstead 從信息論的視角闡明了 FEP 的本質(zhì)：它是一個針對具有馬爾可夫毯動力學(xué)的系統(tǒng)的原則性推斷法則，而不一定是某個特定物理起點的必然結(jié)果。

本文也屬于這條低路，但側(cè)重點不同。Beck 和 Ramstead [2025] 提供了 FEP 的另一種推導(dǎo)，而我們的重點在于：從事物理 AI 工作的工程師為何應(yīng)關(guān)注 FEP/AIF 框架，以及如何在實際中實現(xiàn)合成 AIF 智能體。我們的論述沿著以下路徑展開：

從關(guān)于不確定性下理性推理的基本假設(shè)出發(fā)，逐步走向現(xiàn)實世界運行條件下物理 AI 智能體的實現(xiàn)。

這兩條路徑是互補而非競爭的。高路為自組織系統(tǒng)為何應(yīng)被期望最小化自由能提供了基于物理學(xué)的論證。低路則表明，同一原理可以從概率論和推斷的角度來理解，并為致力于構(gòu)建合成智能體的工程師提供了更直接的切入點。

8.3 主動推理與強化學(xué)習(xí)的對比

表 1 總結(jié)了經(jīng)典模塊化 AI 系統(tǒng)與通過反應(yīng)式消息傳遞實現(xiàn)的 AIF 之間的關(guān)鍵架構(gòu)差異。強化學(xué)習(xí)（RL）和主動推理都為設(shè)計與環(huán)境交互以實現(xiàn)目標的智能體提供了框架。然而，它們的差異超出了表面上的區(qū)別。我們著重強調(diào)兩個關(guān)鍵問題：獎勵函數(shù)問題與計算同質(zhì)性。

獎勵函數(shù)問題。在經(jīng)典的以獎勵為中心的 RL 流程中，智能體的目標通常通過實踐者設(shè)計的獎勵函數(shù) R ( x t , u t ) 或價值準則來指定1?。

這引入了兩個相關(guān)的困難。首先，不確定性和探索的處理通常是通過額外的建模選擇引入的，而非內(nèi)置于核心目標中。這并不意味著 RL 不能表示不確定性或支持探索：貝葉斯 RL、基于 POMDP 的控制以及內(nèi)在動機方法都能夠做到。區(qū)別在于，這些要素通常被作為額外的組件或輔助目標引入，而在主動推理中，認知項和目標導(dǎo)向項被結(jié)合在單個變分目標中。其次，獎勵泛函仍然必須由人類實踐者設(shè)計。指定一個能在物理部署中遇到的全范圍運行條件下產(chǎn)生期望行為的獎勵函數(shù)是出了名的困難，并且仍然是一個未解決的問題。此外，在標準 RL 中，智能體沒有原則性的機制來解決自身關(guān)于 R 是否正確的不確定性，因為 R 是推斷過程外部的。

主動推理以更統(tǒng)一的方式在單個概率框架內(nèi)解決了這些問題。其成本函數(shù)是 VFE F [ q ] ，它并不顯式編碼任何獎勵，而僅僅量化智能體的信念 q 相對于學(xué)習(xí)到的穩(wěn)態(tài)分布 p p的質(zhì)量。該分布由多個子模型組成，包括環(huán)境預(yù)測模型和編碼獎勵性未來狀態(tài)的偏好模型，其參數(shù)從經(jīng)驗中學(xué)習(xí)。因此，AIF 中的成本函數(shù)并非針對每個問題手工設(shè)計，而是關(guān)于智能體對世界的信念 q ( x ) 的一個固定泛函 F ，而朝向信息尋求行為的認知驅(qū)動力自動從 EFE 的模糊性項中涌現(xiàn)出來（第 5.3 節(jié)）。

有兩點值得強調(diào)。第一，主動學(xué)習(xí)并不需要對 FEP 框架進行特設(shè)的補充；它從與感知和控制相同的變分機制中涌現(xiàn)出來。第二，這種學(xué)習(xí)是真正主動的：不確定性的減少與 EFE 的其他分量（特別是風(fēng)險和模糊性）進行權(quán)衡。由于風(fēng)險捕捉了行為的目標導(dǎo)向方面，由此產(chǎn)生的學(xué)習(xí)壓力并非抽象的一般好奇心，而是由智能體的偏好結(jié)果所塑造。從這個意義上說，主動推理不僅僅是偏好學(xué)習(xí)本身；它偏好的是對適應(yīng)性、目標導(dǎo)向行為有用的學(xué)習(xí)，因此可能比無導(dǎo)向的探索支持更簡潔的模型。

在生物系統(tǒng)中，我們可以將這一想法進一步推進，詢問生成模型本身的結(jié)構(gòu)是如何獲得的。在進化時間尺度上，這可以被視為 FEP 下的一種結(jié)構(gòu)學(xué)習(xí)形式，自然選擇塑造了可供有機體使用的模型類別。在工程背景下，相應(yīng)的理想狀態(tài)是，只需要在偏好模型中指定高層級的設(shè)計約束，例如與清潔機器人任務(wù)相關(guān)的期望未來狀態(tài)，而較低層級的模型結(jié)構(gòu)則被自主地學(xué)習(xí)。

這激發(fā)了當(dāng)前關(guān)于生成模型結(jié)構(gòu)主動選擇的工作 [Friston et al., 2024, 2025]。再次強調(diào)，其目標是保持在同一個 VFE 最小化框架內(nèi)，但現(xiàn)在使用 EFE 來指導(dǎo)模型選擇與結(jié)構(gòu)學(xué)習(xí)。具體而言，這意味著在候選模型結(jié)構(gòu)之間進行選擇，例如判斷飛行中球的動力學(xué)是由線性還是非線性狀態(tài)空間模型更好地捕捉，或者是否應(yīng)包含代表風(fēng)力的潛變量，并有選擇地獲取對于區(qū)分這些候選模型最有用的數(shù)據(jù)。在這種設(shè)置下，主動選擇不僅僅是一般性的主動數(shù)據(jù)收集，而是服務(wù)于解決模型結(jié)構(gòu)不確定性的數(shù)據(jù)收集，同時保持對智能體在 EFE 中的其他目標（包括風(fēng)險、模糊性和新穎性）的敏感性。據(jù)我們所知，如何將這種主動選擇策略整合到因子圖消息傳遞框架中，仍然是一個懸而未決的問題。

8.5 局限性

我們相信，主動推理作為物理 AI 基礎(chǔ)的理論依據(jù)是堅實的。本文提出的論證依賴于概率論、變分推斷和因子圖消息傳遞，每一門學(xué)科都是成熟且被充分理解的。在這方面，AIF 的基礎(chǔ)并不比強化學(xué)習(xí)或最優(yōu)控制的基礎(chǔ)更不嚴謹。

然而，工程層面的論證在很大程度上仍未得到驗證。本文聲稱的大部分優(yōu)勢，包括任意時間推斷、原則性探索以及資源約束下的優(yōu)雅降級，已在小規(guī)模實驗中得到證明，但尚未在那些這些特性最為重要的大規(guī)模、實時物理部署中得到壓力測試。彌合理論前景與工程實踐之間的差距是 AIF 領(lǐng)域面臨的核心挑戰(zhàn)。

這一差距的一個具體表現(xiàn)是當(dāng)前的工具狀態(tài)。在實踐中實現(xiàn) AIF 智能體需要軟件基礎(chǔ)設(shè)施來指定生成模型、執(zhí)行反應(yīng)式消息傳遞并在運行時管理計算圖。RxInfer（第 6.3 節(jié)）[Bagaev et al., 2023] 是為此目的最成熟的開源平臺，代表著向前邁出的重要一步，但它尚未達到工程師對生產(chǎn)級工具所期望的魯棒性、文檔和社區(qū)支持水平。缺乏維護良好、專業(yè)支持的工具箱是阻礙采用的現(xiàn)實障礙，該領(lǐng)域尚未克服這一障礙。

一個相關(guān)的局限性是缺乏具備概率推斷、因子圖和實時嵌入式系統(tǒng)綜合背景的工程人才——而這些正是 AIF 智能體開發(fā)所需要的。該領(lǐng)域目前主要從理論神經(jīng)科學(xué)、哲學(xué)和數(shù)學(xué)物理中汲取人才，這些領(lǐng)域的研究重點和工程規(guī)范與機器人學(xué)、信號處理和控制領(lǐng)域有顯著不同。

9 結(jié)論

本文論證了主動推理為物理 AI 智能體提供了一個原則性的架構(gòu)框架。從概率論、貝葉斯機器學(xué)習(xí)和變分推斷出發(fā)，我們展示了主動推理如何將這些思想擴展到必須在實時、不確定性下進行感知、學(xué)習(xí)、規(guī)劃和行動的具身智能體。從這個視角看，變分自由能提供了一個統(tǒng)一的計算目標，取代了許多當(dāng)代物理 AI 系統(tǒng)中所特有的、由分散且獨立設(shè)計的目標拼湊而成的局面。

論證的第二部分涉及實現(xiàn)問題。我們認為，因子圖上的反應(yīng)式消息傳遞提供了一種分布式的計算架構(gòu)，與物理部署的約束高度匹配。由于計算是局部的、事件驅(qū)動的且可中斷的，這種架構(gòu)天然適用于硬實時截止時間、異步數(shù)據(jù)到達、波動的功率預(yù)算以及變化的環(huán)境組成。同一消息傳遞基元還可以在嵌套的組織層級中重復(fù)使用，從而產(chǎn)生從內(nèi)部組件到多智能體系統(tǒng)的計算同構(gòu)架構(gòu)。

因此，本文的貢獻并非一項基準研究，也不是聲稱已經(jīng)實現(xiàn)大規(guī)模工程驗證。相反，其貢獻在于向工程界讀者清晰地闡述主動推理的理論與架構(gòu)依據(jù)，并論證該框架值得作為物理 AI 的基礎(chǔ)予以嚴肅考慮。如果要縮小當(dāng)前具身 AI 系統(tǒng)與生物智能體之間持續(xù)存在的差距，我們認為，進步不僅需要更好的實現(xiàn)，還需要更好的架構(gòu)原則。我們論證認為，主動推理正是這樣一個有競爭力的候選原則。

原文鏈接：https://arxiv.org/pdf/2603.20927

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.