網易首頁 > 網易號 > 正文申請入駐

慕尼黑工大：決策樹與擴散模型實現算法本質統一性揭示突破

2026-05-08 20:22:53　來源: 科技行者

天津舉報

分享至

這項由德國慕尼黑工業大學計算、信息與技術學院主導的研究，于2026年5月發表在arXiv預印本平臺，論文編號為arXiv:2605.00414。有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究的核心主張聽起來有些驚人：兩類在機器學習領域長期"各自為政"的模型——專門處理表格數據的決策樹，以及擅長生成圖像和音頻的擴散模型——在數學本質上其實是同一枚硬幣的兩面。這兩位"異鄉人"被證明是同一家人。

一、兩個看似風馬牛不相及的世界

要理解這項研究的意義，先得搞清楚這兩類算法分別是什么。

決策樹可以想象成一棵你在超市門口見到的問卷導購圖。顧客走進來，第一個問題是"你要買的是食物還是日用品？"，根據答案走向不同分支，下一個問題是"你要買的是蔬菜還是肉類？"，如此層層細分，最終被引導到特定的貨架。決策樹就是這樣一種通過反復提問、不斷縮小范圍的分類工具。它特別擅長處理銀行信貸、醫療診斷、電商推薦這類結構清晰的表格數據，而梯度提升機（一種把很多棵決策樹疊加組合的增強版技術）至今仍是這類任務上的王牌選手。

擴散模型則完全是另一番圖景。它的工作原理借鑒了物理學中的熱擴散現象：先把一張清晰的圖片一點一點地加噪聲，直到它變成一片雪花屏，然后訓練一個神經網絡來學習這個"從清晰到混沌"的逆過程——從雪花屏一步一步"去噪"，還原出一張新圖。正是這種技術造就了如今令人嘆為觀止的AI繪畫能力。

這兩類技術不僅外表迥異，就連使用的數學語言也完全不同：決策樹用的是離散的、層級化的樹形結構，而擴散模型依賴的是連續時間隨機微分方程。一個是僵硬的二叉樹，一個是流動的概率流，它們之間怎么可能存在深刻的聯系？

慕尼黑工業大學的研究團隊給出了一個出人意料的答案：兩者都在做同一件事，只不過用的是不同的語言。這件事就是——對信息進行從細到粗（或從粗到細）的層級式重組。

二、從樹到流：把靜止的樹變成流動的方程

研究的第一步，是證明任何一棵決策樹都可以被"翻譯"成一個連續時間的動力學方程。

回到超市導購圖的比喻。這張圖的深處（葉子節點）代表最精細的分類，比如"某品牌某規格的有機蔬菜"，而圖的頂端（根節點）代表最粗糙的狀態——"這里是超市，什么都有"。從根到葉，信息越來越精細；從葉到根，信息越來越模糊。每向上走一層，就相當于在把相鄰的小類合并成一個大類，這個過程叫做"粗粒化"（coarse-graining）。

研究團隊把這種逐層粗粒化的過程建模成一個馬爾可夫鏈——簡單說就是，每一步的狀態只取決于上一步，不用回頭看更早的歷史。在這個框架里，每一層決策樹對應概率分布的一次變化：從高度結構化的葉子層概率分布，一步步"抹平"成根部那個接近均勻分布的最大熵狀態。

然而，現實中的決策樹每一層之間的變化方式并不一致，這就像一段臺階，每級臺階的高度都不同，很難直接求出一個統一的"斜率"。研究團隊用一種叫做"二分細化"的技巧來化解這個難題：在原來的每兩級臺階之間，再插入一級更矮的臺階；然后繼續插入，再插入，直到臺階密密麻麻到幾乎看不出來，整段臺階變成了一個光滑的斜坡。

當臺階數趨于無窮時，這個離散的過程就收斂到了一個連續時間的動力學方程。更具體地說，由于粗粒化本質上是一種取平均的確定性操作（不引入額外隨機性），擴散項消失，最終得到的是一個決定論性的概率流常微分方程（Probability Flow ODE，PF-ODE）——正是擴散模型文獻中的核心方程之一。

換句話說，一棵決策樹，本質上就是一條描述概率分布如何隨時間演化的流動曲線。

三、從流到樹：讓擴散模型"吐出"一棵隱藏的決策樹

硬幣的另一面同樣成立：任何一個"行為良好"的擴散過程，反過來也天然地定義了一個決策樹結構。

道理并不復雜。當一個擴散模型運行前向過程時，它把數據分布一點一點地加噪，各個數據簇（比如"貓的圖片"、"狗的圖片"）從涇渭分明逐漸變得難以區分。研究團隊注意到，這些簇的"統計矩"（理解為描述每個簇的平均位置和散布形狀的指標）會隨時間推移而趨于一致——某兩個原本不同的簇，在某個時刻t開始變得幾乎無法區分，這就是一次"合并事件"。

這些合并事件是有先后順序的。最相似的兩個簇最早合并，最不相似的最晚合并。把這些合并事件按時間順序記錄下來，就構成了一個嚴格的層級結構——這正是決策樹的拓撲形態。研究團隊進一步證明，這些合并時間滿足一個叫做"超度量不等式"的數學性質，這是樹形層級結構成立的充要條件。

為了讓這棵"樹"有一個單一的根（而不是多棵不連通的小樹），還需要一個附加條件：擴散過程必須最終收斂到一個"最大熵"的平穩分布。直覺上，這意味著噪聲足夠大，最終所有信息都被抹平，所有簇都歸于同一個"混沌"根節點。現代擴散模型中最常用的Ornstein-Uhlenbeck過程（VP擴散）恰好滿足這一條件——它的平穩分布是標準高斯分布，在高維空間里這個分布會均勻地"攤開"在一個球面上，等同于最大熵狀態。

這就完成了雙向對應：樹可以變成流，流也內嵌著一棵樹。

四、兩者共享的優化目標：全局軌跡得分匹配

建立了這種對應關系之后，研究團隊追問了一個更深的問題：既然兩者本質相同，它們的訓練或構建過程是否也在優化同一個目標函數？

答案是肯定的，這個統一的目標被命名為"全局軌跡得分匹配"（Global Trajectory Score Matching，GTSM）。

得分函數（score function）是擴散模型里一個核心概念，可以理解為：在概率分布的每個位置，一個指向"概率密度增大方向"的箭頭。訓練擴散模型的過程，本質上就是學習在每個時刻、每個位置正確地指向這些箭頭。

GTSM的思路是把"把整條軌跡學好"這個宏大目標拆解成無數個"在每一個時刻、每一個位置上，箭頭方向對不對"的局部檢查。研究團隊證明，這些局部檢查的總和等價于全局的路徑空間匹配——局部全對，整體就對了。這個"局部正確則全局正確"的原則，正是使這個問題變得可處理的關鍵。

從這個視角看，訓練一個擴散模型（用一個大神經網絡同時學習所有時刻的得分函數）和訓練一個梯度提升樹集成（每次用一棵小樹去修正當前模型的殘差），都是在求解GTSM這道題，只是策略不同：前者是"一次性全做"，后者是"每次做一小塊"。

更進一步，研究團隊用動態規劃的Bellman最優性原理嚴格證明了：梯度提升這種"每步都貪心地擬合當前殘差"的策略，在連續極限下是GTSM離散版本的全局最優解——貪心并不會導致全局次優，反而就是全局最優。這個結論相當反直覺，因為在很多優化問題中貪心策略并不能保證全局最優，但GTSM的特殊加法可分離結構使得這一保證成立。

五、TREEFLOW：讓決策樹給生成模型當向導

理論的價值最終要落實到實踐上。研究團隊基于上述框架開發了兩個實際算法。

第一個叫TREEFLOW，專門針對表格數據的生成建模。

表格數據的生成（也就是合成數據生成）是一個實際需求旺盛的任務：金融機構需要用合成數據測試模型而不暴露客戶隱私，醫療機構需要擴充稀缺的病例數據。然而，現有的擴散模型在表格數據上的表現往往不如圖像領域，原因在于表格數據的結構更"不規則"——不同特征之間的關系錯綜復雜，數據空間里存在大量"跳躍性"的邊界。

TREEFLOW的核心思路是：先用一棵決策樹把數據空間"地圖化"。決策樹會學到數據自然的分區結構，然后給每個數據點分配一個"路徑編碼"——一個記錄該點從根節點到葉節點所走路徑的向量，相當于數據點在"地圖"上的門牌號。

接下來，訓練一個條件流匹配模型（Conditional Flow Matching，CFM），其速度場不僅以目標標簽為條件，還額外以這個路徑編碼為條件。這樣，生成模型就被"分區治理"了：對于數據空間不同區域的樣本，模型學會了各自專門的生成流，而不是用一個通用流來應付所有區域。

生成時，只需從目標分區中取一個參考點，拿到它的路徑編碼，然后用這個編碼引導從隨機噪聲出發的積分，就能得到屬于該分區的合成樣本。

實驗在五個真實和合成數據集（Adult、Breast Cancer、Diabetes、Wine、California Housing）上進行。TREEFLOW在五個數據集中的三個上獲得了最高的"訓練-合成-測試"（TSTR）分類準確率（Wine數據集上達到98.1%，Cancer數據集上達到93.9%），在四個數據集上取得了最低的Wasserstein距離（衡量生成數據與真實數據分布差異的指標，越低越好），在三個數據集上取得了最低的相關性誤差——同時訓練速度是另一個強基線TabDDPM的兩倍以上。

六、DSM-TREE：把決策樹的"思維方式"注入神經網絡

第二個算法叫DSM-TREE（Discretized Score Matching for Trees），解決的是完全不同的問題：如何把一棵決策樹的知識"移植"給神經網絡。

在表格數據上，決策樹系的模型（如XGBoost、隨機森林）至今仍經常超越深度學習，原因在于它們天然具有"軸對齊切分"的偏置，很適合處理特征之間存在清晰分界線的數據。但決策樹也有缺點：不可微，無法端到端優化，也不能平滑地泛化到訓練數據之外。

過去也有人嘗試把樹的知識"蒸餾"進神經網絡，但通常只是讓神經網絡模仿樹的最終輸出（葉子節點的預測值）。這就好比只告訴學生"正確答案是C"，而不告訴他為什么選C。DSM-TREE的創新在于，它讓神經網絡學習樹在每一層的中間決策過程——"在這個節點，應該往左還是往右走？"

具體而言，訓練一個條件神經網絡 M_θ(x, j)，輸入是數據點x和當前樹的深度層級j，輸出是在該層級該走哪個分支的概率（二分類）。訓練目標是讓網絡在每一層都能正確預測決策樹的分叉方向，使用交叉熵損失。這個訓練過程與擴散模型中的去噪得分匹配在形式上高度相似——把樹的深度層級類比為擴散過程的時間步，把分支決策類比為得分函數的方向指導。

推理時，神經網絡被用來逐層模擬樹的遍歷過程：從根節點出發，在每一層查詢網絡應該向左還是向右，直到到達葉子節點，取該葉子節點的預測值。

研究團隊在五個UCI數據集（8x8手寫數字、德國信貸、波士頓房價分類、心臟病、鮑魚分類）上測試了DSM-TREE。在五個數據集中，DSM-TREE在四個上的準確率與基線決策樹相差不超過2%，在心臟病數據集上甚至超越了教師樹3.7個百分點（75.31% vs 71.60%）。只有在最復雜的鮑魚分類任務上差距略大（約7.7%），說明對于特別復雜的多分類任務還有改進空間。

七、實驗驗證：擴散模型真的內嵌著一棵決策樹嗎？

除了算法層面的驗證，研究團隊還專門設計了實驗來檢驗理論本身的預測是否成立：訓練好的擴散模型真的會"暗含"一個層級結構嗎？

實驗在三個合成2D數據集上進行：四角（4個高斯簇）、九宮格（9個簇）和八高斯（8個圓形排列的簇）。研究者訓練了一個簡單的MLP擴散模型，然后用前向SDE的學習得分函數來模擬各個簇的演化軌跡，追蹤它們的質心位置和統計離散度隨時間的變化，記錄每對簇質心距離首次小于兩者離散度之和的時刻，作為"合并時間"，并據此構建系統樹圖（dendrogram）。

結果非常直觀：四角數據集的四個簇先是兩兩合并（左上+右上，左下+右下），再合并成一個整體，這正是對稱數據應有的層級結構；系統樹圖上的縱軸（合并時間t）的數值與理論預測高度吻合。在中間時刻t=0.5的PF-ODE快照中，原本分離的四個簇確實已經開始相互重疊、邊界模糊，與樹形層級中對應內部節點的含義完全一致。

另一組實驗則比較了決策樹和擴散模型在處理信息時"熵增速度"是否相似。研究者在MNIST手寫數字數據集上訓練了一棵決策樹，測量每一層節點內類別分布的加權平均香農熵（衡量信息混亂程度，越高越亂）；同時用一個簡單的擴散過程代理熵的變化，使用信噪比SNR作為代理指標。兩者的歸一化熵變曲線幾乎重合——都呈現出先緩慢上升、后逐漸加速的S形曲線。樹的原型圖像（在某個節點范圍內的像素平均值）從葉子到根越來越模糊，與擴散模型對同一個手寫數字樣本加噪后圖像變化的視覺效果高度相似。

八、理論框架的更廣泛意義

GTSM框架的意義不止于統一決策樹和擴散模型。研究團隊進一步指出，當下流行的多種擴散模型訓練目標，都可以從GTSM這個"母目標"出發自然推導得到，區別僅在于對時間積分的不同加權方式和近似策略。

標準去噪擴散概率模型（DDPM）使用均勻時間加權（w(t)=1），對軌跡上每個時刻一視同仁；變分擴散模型使用非均勻加權λ(t)，有意識地讓模型更關注某些時刻；一致性模型則通過強制相鄰時刻預測結果一致來注入額外的平滑偏置。這些方法過去看起來各有各的設計哲學，現在可以統一理解為：它們都是在用不同的側重點近似同一個全局目標，各自的權衡在GTSM框架下一目了然。

九、局限性與未來方向

這項研究也坦承了自身的局限。理論推導依賴于連續路徑細化過程和平滑性假設，對于特征空間本質上存在不連續跳躍的數據（比如混合了連續數值和高度離散類別特征的復雜表格）目前還不能完全覆蓋。實驗評估也主要集中在連續特征為主的表格數據上，以保持理論與實驗的一致性。

研究團隊指出了若干有價值的延伸方向。其一是用Lévy過程或粗糙路徑理論來處理內在不連續的數據，正如金融領域中價格可能出現突然跳變一樣；其二是把樹的自適應分區能力與擴散模型的表達力結合，開發面向復雜異構數據（如同時包含表格、時序和文本字段的數據）的新一代基礎模型。

說到底，這項研究最有意思的地方或許不在于它提出的兩個算法，而在于它揭示的一種視角：在機器學習這個領域里，那些看起來毫不相干的方法，背后往往共享著同一套數學骨架。決策樹和擴散模型在各自的"語言"里說著同一件事，就像英語和漢語用完全不同的聲音表達著同樣的意思。找到這個翻譯詞典，不僅讓我們能把兩邊的工具互相借用，也讓我們對"機器究竟在學什么"有了更深一層的理解。

歸根結底，這意味著在未來，一個擅長分類表格數據的決策樹和一個擅長生成圖像的擴散模型，也許可以共享同一套理論框架，甚至在同一個模型里協同工作。對于普通用戶而言，這可能意味著更強大的數據生成工具、更高效的知識提煉技術，以及更能適應現實世界中"亂糟糟的混合數據"的智能系統。感興趣的讀者可以通過arXiv編號2605.00414查閱完整論文，自行深入探索這個優雅的數學世界。

Q&A

Q1：決策樹和擴散模型的數學等價是在什么條件下成立的？

A：這種等價性在"二分細化"的連續極限下成立，要求決策樹滿足尺度一致性（插入中間層不改變原有層的條件密度）和局部細化（新增分割的區域大小趨于零）兩個條件，擴散模型則需要滿足熵單調性和存在唯一平穩分布的條件。在這些條件下，樹誘導的粗粒化過程收斂為概率流ODE，而擴散過程的前向演化則通過矩合并時間反推出一棵決策樹。

Q2：TREEFLOW比TabDDPM快兩倍的原因是什么？

A：TREEFLOW的速度優勢主要來自兩個方面。首先，路徑編碼作為條件輸入將生成任務按數據分區拆解，使模型無需學習整個數據空間的復雜流場，每個局部流場更簡單，收斂更快。其次，TREEFLOW基于條件流匹配框架，直接回歸速度場，避免了TabDDPM中多步馬爾可夫逆過程所需的大量采樣步驟，生成時只需約50個歐拉積分步即可從噪聲生成高質量樣本。

Q3：DSM-TREE在心臟病數據集上為何能超越教師決策樹？

A：DSM-TREE超越教師樹的現象可以從兩個角度理解。決策樹的分裂是硬性的軸對齊切割，在訓練數據有限時容易對噪聲過擬合，導致某些分支路徑的預測質量不高。而神經網絡通過梯度下降在所有層級上同時優化，能夠對決策邊界進行"軟化"和正則化處理，在各層之間共享參數信息。對于心臟病這類樣本量相對較小且特征相關性較強的數據集，這種連續化處理帶來的泛化優勢恰好抵消了層級蒸餾的信息損失，最終實現了性能超越。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.