大規(guī)模高階網(wǎng)絡(luò)的廣譜結(jié)構(gòu)發(fā)現(xiàn)
Broad Spectrum Structure Discovery in Large-Scale Higher-Order Networks
https://arxiv.org/pdf/2505.21748v1
論文概述:大規(guī)模高階網(wǎng)絡(luò)中的廣譜結(jié)構(gòu)發(fā)現(xiàn) 研究背景與動機(jī)
高階交互的建模需求:
- 復(fù)雜系統(tǒng)(社會、生物、技術(shù)等)通常由多個節(jié)點(diǎn)之間的高階交互驅(qū)動
- 傳統(tǒng)圖模型只能捕捉成對交互,而超圖(hypergraph)能夠自然表示高階交互
- 理解超圖中的依賴結(jié)構(gòu)對理解和預(yù)測復(fù)雜系統(tǒng)行為至關(guān)重要
現(xiàn)有方法的局限性:
- 嚴(yán)格同配性假設(shè):現(xiàn)有方法大多假設(shè)節(jié)點(diǎn)只與同類節(jié)點(diǎn)交互(同配結(jié)構(gòu))
- 無法建模異配結(jié)構(gòu):許多系統(tǒng)存在異配性(不同類別節(jié)點(diǎn)間的交互),如生態(tài)系統(tǒng)的捕食者-獵物關(guān)系
- 組合爆炸問題:高階交互導(dǎo)致模型參數(shù)數(shù)量呈指數(shù)級增長
- 數(shù)據(jù)降維損失:將高階數(shù)據(jù)簡化為成對交互會丟失關(guān)鍵結(jié)構(gòu)信息
模型名稱含義:
- Omni(全譜):能夠捕捉從嚴(yán)格同配到高度異配的完整結(jié)構(gòu)譜系
- Hype(超圖):針對超圖數(shù)據(jù)
- SMT(對稱多重張量):基于對稱多張量分解
關(guān)鍵創(chuàng)新點(diǎn):
- 雙層聚類框架
- 第一層:將節(jié)點(diǎn)軟聚類為C個"類別"(classes)
- 第二層:將類別軟聚類為K個"社區(qū)"(communities)
- 允許節(jié)點(diǎn)屬于多個類別,類別屬于多個社區(qū)
- 低秩張量分解
- 使用節(jié)點(diǎn)-類別隸屬矩陣Θ(N×C)
- 使用類別-社區(qū)隸屬矩陣W(C×K)
- 通過低秩分解避免參數(shù)組合爆炸
- 全譜同配性
- 通過參數(shù)設(shè)置可靈活調(diào)節(jié)從嚴(yán)格同配到高度異配的結(jié)構(gòu)
- 允許類別間在特定社區(qū)內(nèi)發(fā)生交互
- 通過社區(qū)-階速率參數(shù)γ_k^(d)控制不同階數(shù)的交互強(qiáng)度
- 模型可識別性保證
- 隸屬矩陣列位于概率單純形上(非負(fù)且和為1)
- W的前C列構(gòu)成單位矩陣(每個類別有對應(yīng)的"純社區(qū)")
- 證明在兩個合理假設(shè)下模型參數(shù)可唯一識別:
概率生成模型:
- 假設(shè)不同節(jié)點(diǎn)集合的高階交互次數(shù)服從泊松分布
- 交互速率μ通過低秩分解參數(shù)化
- 使用張量Tucker分解和CP分解的數(shù)學(xué)框架
高效推斷算法:
- 利用模型的概率性質(zhì)推導(dǎo)高效的參數(shù)更新規(guī)則
- 可處理大規(guī)模、高階的超圖數(shù)據(jù)
- 支持合成超圖的可擴(kuò)展生成
數(shù)據(jù)集:
- 兩個藥物相互作用數(shù)據(jù)集(DAWN, NDC-substances)
- 兩個國會級數(shù)據(jù)集(參議院委員會、參議院法案)
- 兩個人類接觸數(shù)據(jù)集(工作場所、高中接觸)
主要發(fā)現(xiàn):
- 藥物相互作用案例(DAWN數(shù)據(jù)庫):
- 成對交互主要是"娛樂性藥物"之間(如酒精+大麻)
- 高階交互(d≥3)揭示重要醫(yī)學(xué)模式:
- 心血管藥物(如賴諾普利)常與精神類藥物(如喹硫平)或阿片類藥物(如羥考酮)同時出現(xiàn)
- 這些醫(yī)學(xué)處方的藥物混合后會增強(qiáng)藥效,增加臨床風(fēng)險(xiǎn)
- 識別出15個藥物類別(如心血管藥物、阿片類鎮(zhèn)痛藥、精神類藥物等)
- 發(fā)現(xiàn)50個社區(qū),揭示不同藥物類別的混合模式
- 關(guān)鍵洞察
- 發(fā)現(xiàn)"Q-ball"現(xiàn)象(喹硫平+可卡因)在d=6和d=10時權(quán)重顯著
- 醫(yī)院接觸網(wǎng)絡(luò)
- 清晰區(qū)分患者和醫(yī)護(hù)人員兩個類別
- 準(zhǔn)確建模跨類別交互(高度異配結(jié)構(gòu))
- 鏈路預(yù)測AUC:0.91(全譜模型)vs 0.85(嚴(yán)格同配模型)
- 最高法院判決網(wǎng)絡(luò)
- 法官主要同意同意識形態(tài)的法官(核心)
- 但也偶爾同意對立意識形態(tài)的法官(如一致裁決)
- 識別出民主黨任命與共和黨任命的法官類別
- 捕捉核心-外圍結(jié)構(gòu):
- 避免將共和黨法官錯誤分配到民主黨主導(dǎo)的類別
性能優(yōu)勢:
- 鏈路預(yù)測優(yōu)于最先進(jìn)方法
- 發(fā)現(xiàn)更具可解釋性的節(jié)點(diǎn)聚類
- 揭示超越嚴(yán)格同配性的多樣化介觀結(jié)構(gòu)
- 證明現(xiàn)有模型的局限性
- 證明最先進(jìn)的嚴(yán)格同配模型是本模型的特例(受限實(shí)例)
- 展示隨著交互階數(shù)增加,建模異配結(jié)構(gòu)的重要性增強(qiáng)
- 模型可識別性證明
- 結(jié)合張量分解和非負(fù)矩陣分解的唯一性結(jié)果
- 確保參數(shù)估計(jì)的可靠性和解釋的穩(wěn)健性
- 計(jì)算可擴(kuò)展性
- 提供嚴(yán)格的統(tǒng)計(jì)推斷框架
- 實(shí)現(xiàn)大規(guī)模數(shù)據(jù)驅(qū)動的介觀結(jié)構(gòu)發(fā)現(xiàn)
- 臨床風(fēng)險(xiǎn)評估
- 揭示成對分析中被掩蓋的高階藥物交互模式
- 為更安全的多藥治療方案設(shè)計(jì)提供依據(jù)
- 科學(xué)發(fā)現(xiàn)工具
- 將大規(guī)模高階數(shù)據(jù)納入科學(xué)發(fā)現(xiàn)過程
- 提供可解釋的潛在結(jié)構(gòu)發(fā)現(xiàn)
- 跨領(lǐng)域適用性
- 適用于生物、社會、政治等多個領(lǐng)域
- 靈活適應(yīng)不同的介觀結(jié)構(gòu)類型
"隨著交互階數(shù)的增加,恰當(dāng)?shù)亟.惻浣Y(jié)構(gòu)變得愈發(fā)重要"
論文強(qiáng)調(diào),在復(fù)雜的高階數(shù)據(jù)中發(fā)現(xiàn)具有臨床和科學(xué)意義的模式,需要對全譜介觀結(jié)構(gòu)(從同配到異配)進(jìn)行建模,而不僅限于傳統(tǒng)的同配假設(shè)。這為理解復(fù)雜系統(tǒng)提供了更全面、更準(zhǔn)確的框架。
![]()
![]()
復(fù)雜系統(tǒng)通常由多個單元之間的高階交互所驅(qū)動,自然地表示為超圖。理解這些超圖內(nèi)的依賴結(jié)構(gòu)對于理解和預(yù)測復(fù)雜系統(tǒng)的行為至關(guān)重要,但其組合復(fù)雜性和計(jì)算需求使其面臨挑戰(zhàn)。在本文中,我們引入了一類概率模型,能夠高效地表示并發(fā)現(xiàn)大規(guī)模超圖中廣譜的介觀結(jié)構(gòu)。使該方法成為可能的關(guān)鍵洞見是,將相似單元的類別本身視為潛在超圖中的節(jié)點(diǎn)。通過使用低秩表示對類別間的潛在交互進(jìn)行建模,進(jìn)而對觀測到的節(jié)點(diǎn)交互進(jìn)行建模,我們的方法在確保模型可識別性的同時,以可處理的方式捕獲了豐富的結(jié)構(gòu)模式。這允許直接解釋不同的節(jié)點(diǎn)級和類別級結(jié)構(gòu)。實(shí)證上,我們的模型在鏈路預(yù)測方面優(yōu)于最先進(jìn)的方法,并在包括藥理和社交網(wǎng)絡(luò)在內(nèi)的多種真實(shí)世界系統(tǒng)中發(fā)現(xiàn)了可解釋的結(jié)構(gòu),推進(jìn)了我們將大規(guī)模高階數(shù)據(jù)納入科學(xué)過程的能力。
I. 引言
復(fù)雜系統(tǒng)——包括社會、生物或技術(shù)系統(tǒng)等類型——通常由眾多節(jié)點(diǎn)之間的高階相互作用所驅(qū)動(1)。此類系統(tǒng)可被建模為超圖,它將傳統(tǒng)圖或網(wǎng)絡(luò)的概念從二元或成對相互作用擴(kuò)展至高階相互作用。
與傳統(tǒng)網(wǎng)絡(luò)類似,現(xiàn)實(shí)世界的超圖也展現(xiàn)出介觀結(jié)構(gòu)(2, 3)——即節(jié)點(diǎn)群組之間的相互作用模式。廣義上講,對這種結(jié)構(gòu)進(jìn)行建模可歸結(jié)為將節(jié)點(diǎn)聚類為群組,并刻畫這些群組之間(如果存在)的相互作用方式。通過這樣做,人們可以降低系統(tǒng)的概念復(fù)雜性和數(shù)據(jù)的維度,從而有可能揭示驅(qū)動觀測相互作用的真實(shí)功能組件和潛在機(jī)制(4)。
介觀結(jié)構(gòu)有多種不同形式,并非所有形式都能被有效建模。或許最常被建模的結(jié)構(gòu)是同配結(jié)構(gòu),其中節(jié)點(diǎn)形成“社區(qū)”,并且主要與同一社區(qū)內(nèi)的其他相似節(jié)點(diǎn)發(fā)生相互作用。近期研究開發(fā)了在超圖數(shù)據(jù)中高效檢測這些社區(qū)的方法(5–7)。然而,許多復(fù)雜系統(tǒng)也表現(xiàn)出一定程度的異配結(jié)構(gòu),其中相似節(jié)點(diǎn)形成“類別”,但可能不會在這些類別內(nèi)部發(fā)生相互作用。在這些類別中,節(jié)點(diǎn)具有相似的特征,但可能(專門)與其他類別中的節(jié)點(diǎn)發(fā)生相互作用。生態(tài)學(xué)中的捕食者-獵物網(wǎng)絡(luò)就是一個此類例子,其中物種分為兩類之一(捕食者或獵物),并主要與另一類的物種發(fā)生相互作用。
即使在傳統(tǒng)網(wǎng)絡(luò)設(shè)置中,任何程度的異配性(不同類別節(jié)點(diǎn)之間的相互作用)通常都難以建模。這一挑戰(zhàn)源于對“節(jié)點(diǎn)如何形成群組”以及“這些群組組合如何相互作用”兩者進(jìn)行建模所需的基礎(chǔ)復(fù)雜性。對于超圖而言,這種復(fù)雜性會疊加:節(jié)點(diǎn)之間的高階相互作用引入了群組內(nèi)部和群組之間的高階相互作用,導(dǎo)致模型參數(shù)數(shù)量出現(xiàn)組合爆炸,使得參數(shù)估計(jì)變得不可能。近期的研究通過開發(fā)能夠揭示超圖中高度受限的異配性形式的模型來應(yīng)對這一問題,例如可通過Bethe近似建模的結(jié)構(gòu)(7),或核心-外圍結(jié)構(gòu),其中緊密連接節(jié)點(diǎn)的密集核心可與松散連接節(jié)點(diǎn)的稀疏外圍區(qū)分開來(8, 9)。
盡管先前的研究已從理論上分析了廣泛的超圖場景(5, 10–14),但從業(yè)者在有效建模超圖介觀結(jié)構(gòu)時僅限于少數(shù)幾種選擇,且每種選擇都有其自身的缺點(diǎn)。一種方法將分析限制在同配(或類似約束)結(jié)構(gòu)上,這存在錯誤表征非同配系統(tǒng)的風(fēng)險(xiǎn)。另一種方法將數(shù)據(jù)限制為中等數(shù)量的低階相互作用(例如三階或四階),以便應(yīng)用現(xiàn)有的某些更靈活的方法,但這些方法在大規(guī)模高階超圖上擴(kuò)展性較差。第三種策略將高階數(shù)據(jù)降維為成對相互作用,可能在數(shù)據(jù)預(yù)處理步驟中丟棄關(guān)鍵的結(jié)構(gòu)信息(6, 15, 16)。總體而言,這些局限性嚴(yán)重阻礙了研究人員利用大規(guī)模數(shù)據(jù)對其研究的復(fù)雜系統(tǒng)得出可靠結(jié)論的能力。
受這些挑戰(zhàn)的啟發(fā),本文引入了一族概率生成模型,以可計(jì)算地捕捉大規(guī)模超圖底層廣泛范圍的介觀結(jié)構(gòu)。該模型族涵蓋了若干現(xiàn)有模型,并跨越了涵蓋全范圍同配性的結(jié)構(gòu)譜系,從嚴(yán)格同配延伸至高度異配。給定模型在該譜系中的具體位置由其參數(shù)值決定。
推動該方法的核心思想是將節(jié)點(diǎn)共同聚類為類別,并將類別進(jìn)一步聚類為社區(qū)。每次聚類都是軟聚類,允許節(jié)點(diǎn)屬于多個類別,類別屬于多個社區(qū),如圖1b所示。我們將其稱為Omni-Hype-SMT的所提模型,通過規(guī)定類別僅在社區(qū)內(nèi)部發(fā)生相互作用,避免了與建模所有類別間相互作用組合相關(guān)的組合爆炸。通過將類別聚類為社區(qū),Omni-Hype-SMT允許節(jié)點(diǎn)之間發(fā)生異配相互作用。由于類別由相似節(jié)點(diǎn)組成,不同類別之間的相互作用會導(dǎo)致這些類別節(jié)點(diǎn)之間產(chǎn)生異配相互作用。正是通過這一框架,所提模型捕捉了支配節(jié)點(diǎn)間高階相互作用的豐富且可解釋的潛在結(jié)構(gòu)。
![]()
我們利用基于嚴(yán)格理論原則的統(tǒng)計(jì)推斷框架,以嚴(yán)謹(jǐn)?shù)刈R別超圖數(shù)據(jù)中的介觀結(jié)構(gòu)。我們對所提模型的定義確保其參數(shù)可從數(shù)據(jù)中被嚴(yán)格證明是可識別的,從而增強(qiáng)了參數(shù)解釋的可靠性和穩(wěn)健性。除了提供模型可識別性的嚴(yán)格證明外,我們通過利用所提模型的概率性質(zhì)及其內(nèi)部的條件分布,推導(dǎo)出了高效的參數(shù)更新方法。正是這種效率使得在實(shí)踐中能夠進(jìn)行大規(guī)模、數(shù)據(jù)驅(qū)動的介觀結(jié)構(gòu)發(fā)現(xiàn)。我們展示了這種效率如何促成一個極其簡單但可擴(kuò)展的算法的開發(fā),該算法用于生成具有可調(diào)介觀結(jié)構(gòu)的合成超圖——由于超圖高維特性帶來的計(jì)算挑戰(zhàn),當(dāng)前文獻(xiàn)中 largely 缺失這一能力(5, 17)。總而言之,我們方法在解析和計(jì)算上的可處理性,加上其理論保證,使其成為一種原則性且有效的方式,用于解構(gòu)大規(guī)模復(fù)雜系統(tǒng)底層不同類型的介觀結(jié)構(gòu)。
我們通過對兩個生物數(shù)據(jù)集、三個人際接觸網(wǎng)絡(luò)和三個政治數(shù)據(jù)集的廣泛實(shí)驗(yàn),展示了Omni-Hype-SMT的表達(dá)力和可擴(kuò)展性,每個數(shù)據(jù)集都具有自然的超圖表示。我們發(fā)現(xiàn)了一系列超越嚴(yán)格同配性的多樣化介觀結(jié)構(gòu)。我們證明了最先進(jìn)的同配模型(6)是所提模型類的一個特定且受限的實(shí)例。我們在此重點(diǎn)進(jìn)行比較,以展示所提模型的先進(jìn)能力。我們靈活的建模方法在下游任務(wù)上帶來了更好的性能,與現(xiàn)有方法相比,實(shí)現(xiàn)了增強(qiáng)的高階鏈路預(yù)測和更具可解釋性的節(jié)點(diǎn)聚類。
我們的結(jié)果反映了一個直觀的洞見:隨著相互作用階數(shù)的增加,恰當(dāng)?shù)亟.惻浣Y(jié)構(gòu)變得愈發(fā)重要。在一項(xiàng)關(guān)于急診室(ER)患者高階藥物組合的案例研究中,我們展示了學(xué)習(xí)多種類型的介觀結(jié)構(gòu)如何為藥物類別及其相互作用模式提供更細(xì)致的見解。例如,藥物之間的成對相互作用往往發(fā)生在“娛樂性藥物”之間——這是模型推斷出的類別,并事后借助生成式AI進(jìn)行標(biāo)注——如酒精和大麻。另一方面,在體內(nèi)含有多種藥物的患者中,如果其中一種是“心血管藥物”如賴諾普利或美托洛爾,其他藥物通常是“精神類藥物”(喹硫平、氯硝西泮)或“阿片類鎮(zhèn)痛藥”(羥考酮、氫可酮、芬太尼)。當(dāng)混合使用時,這些通常出于醫(yī)療益處而開具的藥物類別會增強(qiáng)藥效。這些見解可能通過揭示在成對分析中被掩蓋的潛在高階相互作用模式,為臨床風(fēng)險(xiǎn)評估和更安全的多重用藥方案的設(shè)計(jì)提供參考。
綜上所述,這些發(fā)現(xiàn)凸顯了在復(fù)雜、高階數(shù)據(jù)中發(fā)掘具有臨床和科學(xué)意義的模式時,對全譜介觀結(jié)構(gòu)進(jìn)行建模的重要性。
II. 結(jié)果A. 脫離嚴(yán)格同配性的動機(jī):兩個案例研究
我們首先展示,當(dāng)擬合到表現(xiàn)出真實(shí)程度異配性的超圖時,基于嚴(yán)格同配性假設(shè)的現(xiàn)有概率方法如何提供次優(yōu)的數(shù)據(jù)表示。我們分析了兩個數(shù)據(jù)集,每個數(shù)據(jù)集都表現(xiàn)出一種不同于嚴(yán)格同配性的介觀結(jié)構(gòu)類型。
首先,我們利用一個醫(yī)院內(nèi)人類接觸互動的數(shù)據(jù)集,其中節(jié)點(diǎn)要么是工作人員(即醫(yī)生、護(hù)士或行政助理),要么是患者(18)。在該數(shù)據(jù)集中,超邊描述了通過可穿戴藍(lán)牙設(shè)備測量的近距離接觸互動。我們通過移除不包含至少一名患者的超邊,創(chuàng)建了該數(shù)據(jù)的一個半合成版本。因此,所有互動要么完全發(fā)生在患者之間,要么由至少一名患者和一名工作人員組成。隨后我們擬合兩個模型:1)上述最先進(jìn)的嚴(yán)格同配模型(6),以及 2)我們的全譜同配(omniassortative)模型。
從高層次來看,這兩個模型均可理解為將 N 個節(jié)點(diǎn)軟聚類為 C 個潛在類別,由一個 N × C 的節(jié)點(diǎn)-類別隸屬矩陣表示。我們在圖 2a 的下方面板中可視化了每個模型學(xué)習(xí)到的矩陣。嚴(yán)格同配模型(左列)要求不同類別的節(jié)點(diǎn)不發(fā)生互動,未能恢復(fù)底層的工作人員與患者的塊狀結(jié)構(gòu)。另一方面,全譜同配模型(右列)清晰地將節(jié)點(diǎn)劃分為患者和工作人員,并恰當(dāng)?shù)亟A巳航M之間的互動。除了提供更具可解釋性的群組級數(shù)據(jù)描述外,全譜同配模型對留出超邊的預(yù)測也優(yōu)于嚴(yán)格同配模型(AUC 為 0.91 對比 0.85)。
![]()
在我們的第二個例子中,我們使用了 2005 年至 2024 年間的美國最高法院案件數(shù)據(jù)集。該數(shù)據(jù)形成一個超圖,其中節(jié)點(diǎn)是最高法院法官,每個超邊對應(yīng)同意特定案件多數(shù)意見的法官集合。在此,兩個模型都恢復(fù)了相似的塊狀結(jié)構(gòu),如圖 2b 的上方面板所示。然而,如節(jié)點(diǎn)-類別隸屬矩陣的熵 H(Θ)(定義見第 II.D 節(jié))所衡量的,同配模型推斷出的類別區(qū)分度較低。另一方面,全譜同配模型清晰地區(qū)分了主要對應(yīng)民主黨任命與共和黨任命法官的類別。嚴(yán)格同配模型將共和黨任命的法官羅伯茨、肯尼迪、阿利托、托馬斯和斯卡利亞部分隸屬到一個由民主黨任命者主導(dǎo)的類別中,而全譜同配模型則沒有。全譜同配模型允許類別之間的互動——因此,它不需要高度混合的類別隸屬關(guān)系來解釋有時同意民主黨任命法官的共和黨任命法官之間的互動。圖 2b 最下方的兩個面板描繪了類別之間的親和關(guān)系,我們注意到嚴(yán)格同配親和矩陣(藍(lán)色)被約束為對角矩陣。
這些例子代表了兩種截然不同的脫離嚴(yán)格同配性的情況。第一個例子展示了高度異配的結(jié)構(gòu),其中患者和工作人員主要在類別之間而非類別內(nèi)部進(jìn)行互動。第二個例子展示了核心-外圍結(jié)構(gòu),其中法官主要同意意識形態(tài)相似的其他法官(即保守派同意保守派),但也同意意識形態(tài)相反的法官(如在一致裁決中),盡管頻率較低。這些簡單的例子為我們接下來描述的建模方法提供了動機(jī)。
B. Omni-Hype-SMT:基于對稱多重張量的高階圖全譜同配模型
在此,我們引入 OMNI-HYPE-SMT,這是一種概率模型,能夠從大規(guī)模超圖數(shù)據(jù)中推斷出靈活多樣的介觀結(jié)構(gòu)。在其具體設(shè)定中,該模型將傳統(tǒng)網(wǎng)絡(luò)隨機(jī)塊模型方法(19–21)的結(jié)構(gòu)模式與多層網(wǎng)絡(luò)多線性張量分解方法(22–25)相融合。具體而言,節(jié)點(diǎn)在一組類別中具有重疊的成員資格(即節(jié)點(diǎn)可同時屬于多個類別),而這些類別本身隨后展現(xiàn)出高階相互作用。類別級的相互作用速率由一個親和多重張量 Λ ( ? )
所控制,其參數(shù)設(shè)置決定了超圖中存在的介觀結(jié)構(gòu)類型。 Λ ( ? ) ?) 具有非常高的維度——我們對其施加了特定的低秩分解,這使得模型既可識別(從而能夠恢復(fù)有意義的潛在結(jié)構(gòu)),又便于估計(jì)。
![]()
所提模型建立在先前工作(5–7)的基礎(chǔ)上,假設(shè)不同節(jié)點(diǎn)集合之間觀測到的高階相互作用次數(shù)服從條件泊松分布——即:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
這些假設(shè)在我們所有的實(shí)驗(yàn)中均得到滿足,使得能夠從數(shù)據(jù)中識別出類別和社區(qū)。這是一個非平凡的結(jié)果,它源于結(jié)合了張量分解與非負(fù)矩陣分解的唯一性結(jié)果(28, 29)。有關(guān)證明及其他結(jié)果,請參閱補(bǔ)充說明4。
C. 從大規(guī)模藥理學(xué)數(shù)據(jù)中自動發(fā)現(xiàn)藥物類別及其相互作用
在此,我們應(yīng)用 OMNI-HYPE-SMT 來分析藥物濫用預(yù)警網(wǎng)絡(luò)(DAWN)數(shù)據(jù)庫(30)。在此設(shè)定中,節(jié)點(diǎn)代表藥物,每條超邊代表急診室患者自述服用的一組藥物。該數(shù)據(jù)集包含 2,558 個節(jié)點(diǎn)和 141,178 條超邊;更多細(xì)節(jié)請見表 1。我們選取 C = 15 個類別和 K = 50 個社區(qū)(關(guān)于選取標(biāo)準(zhǔn)的細(xì)節(jié)請參考補(bǔ)充說明 3),將模型擬合至整個數(shù)據(jù)集,并對推斷出的潛在結(jié)構(gòu)進(jìn)行探索性分析。
推斷的藥物類別。我們首先解釋由節(jié)點(diǎn)-類別隸屬矩陣 Θ 表示的推斷藥物類別。在圖3中,我們將六個類別可視化為栗色莖狀圖,展示了每個類別 c 中 θ i c值最大的藥物 i 。賦予每個類別的標(biāo)簽由 OpenAI 的 GPT-4o(訪問于2025年5月4日)分配,我們向其提供了每個類別的頂級藥物列表作為提示。我們發(fā)現(xiàn),推斷出的類別通常代表具有共同功能或用途的藥物組,例如“心血管藥物”(如賴諾普利、美托洛爾)、“阿片類鎮(zhèn)痛藥”(如羥考酮、嗎啡)或“精神類藥物”(如喹硫平、氯硝西泮)。我們要指出,同一類別中的藥物并不一定是急診室患者經(jīng)常被發(fā)現(xiàn)有共同服用記錄的藥物。例如,雖然推斷出的“心血管藥物”類別中的藥物具有相似的藥理學(xué)功能,但它們在我們的數(shù)據(jù)中通常與其他推斷類別的藥物一起出現(xiàn)——即,這是一個異配類別。除了“酒精”(由于其在數(shù)據(jù)中極高的流行度而出現(xiàn)在許多類別中)之外,我們發(fā)現(xiàn)各類別的頂級藥物具有高度的一致性,并與 GPT-4o 賦予它們的標(biāo)簽相符。
![]()
![]()
![]()
D. 跨領(lǐng)域適用性:預(yù)測、可解釋性與異質(zhì)性
數(shù)據(jù)集。我們考慮六個源自實(shí)證數(shù)據(jù)的超圖:兩個藥物相互作用數(shù)據(jù)集(DAWN、NDC-substances)(5, 30),兩個國會級別數(shù)據(jù)集(senate-committees(參議院委員會)(32),senate-bills(參議院法案)(5, 33, 34)),以及兩個額外的人際接觸互動數(shù)據(jù)集(workplace(工作場所)(35),contact-high-school(高中接觸)(36))。每個數(shù)據(jù)集的詳細(xì)信息在方法部分及表1中提供。
![]()
![]()
![]()
分別是留出對數(shù)似然度,以及一個對每個階數(shù)賦予均勻權(quán)重的加權(quán)留出對數(shù)似然度。這些指標(biāo)在圖 4a 中分別顯示為“overall”和“overall (unif)”。
![]()
![]()
對數(shù)似然度差異巨大,我們按如下方式對它們進(jìn)行歸一化,以便跨數(shù)據(jù)集比較結(jié)果。我們計(jì)算相對于嚴(yán)格同配基線模型 (6) 的相對增益;對于給定的 d d,這是
![]()
![]()
![]()
圖 4c 展示了三個高階數(shù)據(jù)集的這些比例。每個數(shù)據(jù)集都包含最大階數(shù) ( D D) 超過 15 的高階交互。在每種設(shè)置中,對全譜同配性進(jìn)行建模都提高了預(yù)測性能。曲線的定性行為因數(shù)據(jù)集而異。例如,在 DAWN 中,我們觀察到異配性單調(diào)增加直到大約階數(shù) d = 10 ,此后該比例在接近1 的位置趨于平穩(wěn)。這些結(jié)果說明了在超圖設(shè)置中仔細(xì)建模全譜同配性以恰當(dāng)捕捉底層潛在結(jié)構(gòu)的重要性。
E. 快速超圖生成
最后,OMNI-HYPE-SMT 是一個生成模型,在此我們展示如何使用它來生成具有預(yù)設(shè)介觀結(jié)構(gòu)的合成超圖。由于計(jì)算方面的挑戰(zhàn),超圖生成問題仍然是一個未解難題 (5, 17, 38)。然而,利用所提模型的特性使我們能夠以可處理的方式解決這一任務(wù)。我們在方法部分描述了一種算法,該算法能生成任意階數(shù)的超圖,且其計(jì)算復(fù)雜度與超邊的期望數(shù)量呈線性關(guān)系。
為了實(shí)證地展示該算法,我們使用在 DAWN 數(shù)據(jù)上學(xué)習(xí)到的模型參數(shù)來生成合成超圖數(shù)據(jù),如第 II.C 節(jié)所述。我們的方法速度很快:在配備單個 CPU 的個人筆記本電腦上運(yùn)行,僅用 70 秒就生成了 833,564 個高階藥物相互作用(數(shù)量與真實(shí)數(shù)據(jù)相似),階數(shù)范圍從 d = 2 到 d = 16 。
為了檢查合成數(shù)據(jù)是否與真實(shí)數(shù)據(jù)相似,我們比較了一系列統(tǒng)計(jì)量:節(jié)點(diǎn)度分布、超邊階數(shù)分布、包含出現(xiàn)分布 (39) 以及投影鄰接矩陣。圖 5 展示了這些比較。圖表看起來幾乎完全一致,表明合成數(shù)據(jù)與真實(shí)數(shù)據(jù)高度吻合。
III. 結(jié)論
本文引入了一族針對高階交互數(shù)據(jù)的概率生成模型,該模型能夠表示并高效發(fā)現(xiàn)大規(guī)模超圖中廣譜的介觀結(jié)構(gòu),范圍涵蓋從嚴(yán)格同配到異配。不同類型的此類結(jié)構(gòu)提供了對復(fù)雜系統(tǒng)根本不同的描述。因此,能夠靈活地對其底層超圖中的廣譜結(jié)構(gòu)進(jìn)行建模,對于理解和預(yù)測此類系統(tǒng)的行為至關(guān)重要。
我們通過將塊模型技術(shù)與低秩分解表示相結(jié)合,解決了高階交互數(shù)據(jù)帶來的核心計(jì)算挑戰(zhàn)。所提模型將節(jié)點(diǎn)劃分為類別,然后表示類別之間的高階交互。關(guān)鍵洞見在于將類別本身視為形成一個結(jié)構(gòu)嚴(yán)格同配的潛在超圖。與先前假設(shè)觀測超圖是同配的工作不同,正如我們所證明的,這一假設(shè)仍然允許觀測圖呈現(xiàn)廣泛的結(jié)構(gòu)。因此,所提模型利用了潛在類別間同配結(jié)構(gòu)的計(jì)算優(yōu)勢,同時仍能表示和發(fā)現(xiàn)觀測節(jié)點(diǎn)間的全譜同配(omniassortative)結(jié)構(gòu)。
我們的理論結(jié)果提供了嚴(yán)格的保證,指導(dǎo)并支持該模型在廣泛場景中的應(yīng)用。其中,我們證明了該模型保持?jǐn)?shù)據(jù)的對稱性,泛化了現(xiàn)有的嚴(yán)格同配模型,并且參數(shù)是可識別的。實(shí)證上,我們證明了該模型具有足夠的靈活性,能夠捕捉源自各種現(xiàn)實(shí)社會、政治和生物醫(yī)學(xué)場景的多種高階網(wǎng)絡(luò)數(shù)據(jù)集中的多種潛在介觀結(jié)構(gòu)。我們展示了介觀結(jié)構(gòu)如何隨超邊階數(shù)變化,因?yàn)橥活惞?jié)點(diǎn)可能在某一階的超邊中表現(xiàn)為同配,而在另一階中表現(xiàn)為異配。通過一項(xiàng)關(guān)于急診就醫(yī)患者服用藥物的案例研究,我們展示了所提模型如何能夠?qū)W習(xí)具有相似功能的藥物類別,并預(yù)測急診患者可能同時服用了哪些不同類別的藥物。在另外兩個案例研究(一個在醫(yī)院內(nèi)部,另一個關(guān)于最高法院法官)中對不同建模方法的比較,進(jìn)一步凸顯了所提方法的重要性。
最后,我們展示了如何在所提框架下高效采樣具有預(yù)定義介觀結(jié)構(gòu)的合成超圖。我們提出了一種源自模型概率性質(zhì)的算法,該算法能夠快速生成展現(xiàn)多樣結(jié)構(gòu)和不同階數(shù)的大規(guī)模超圖。我們通過快速大規(guī)模生成大型超圖,實(shí)證展示了該算法的速度。此外,我們證明了合成數(shù)據(jù)與現(xiàn)實(shí)世界的超圖數(shù)據(jù)高度吻合。這一結(jié)果具有深遠(yuǎn)的影響,可能使研究人員能夠在受控環(huán)境中研究具有各種結(jié)構(gòu)的逼真高階網(wǎng)絡(luò)。
我們的結(jié)果指出了未來工作的許多方向。所提模型允許不同階數(shù)的超邊對社區(qū)結(jié)構(gòu)做出不同的貢獻(xiàn)。然而,在若干情況下,觀察到超邊表現(xiàn)出嵌套性或其他形式的層次結(jié)構(gòu) (40–43)。這可能會在不同階數(shù)的超邊之間產(chǎn)生強(qiáng)相關(guān)性,從而可能需要對這些參數(shù)之間施加顯式的函數(shù)依賴關(guān)系,例如在對應(yīng)于連續(xù)階數(shù)超邊的參數(shù)之間。我們在此考慮了具有離散權(quán)重的超圖,但一個自然的模型擴(kuò)展將是允許實(shí)數(shù)值權(quán)重,例如通過復(fù)合泊松構(gòu)造 (44, 45)。類似地,我們在此專注于靜態(tài)超圖,其中節(jié)點(diǎn)和超邊的集合是固定的。在結(jié)構(gòu)隨時間變化的時序超圖中,將超邊形成的動態(tài)機(jī)制直接納入模型將更為合適 (46–50)。在超圖中存在節(jié)點(diǎn)屬性的情況下,除了超邊內(nèi)在包含的信息之外,一個自然的擴(kuò)展是將這些額外信息納入模型公式中 (51, 52)。最后,所提模型針對的是無向超圖,其中組織在超邊中的節(jié)點(diǎn)順序未定義。一個未來的方向是將我們的公式改編為適用于有向超圖 (53),在此可以識別扮演不同角色的節(jié)點(diǎn)子集,例如網(wǎng)絡(luò)中的發(fā)送者和接收者節(jié)點(diǎn)。在此設(shè)置下,某些對稱性被打破,可能允許納入來自非對稱張量分解的思想,用于建模多層網(wǎng)絡(luò)數(shù)據(jù) (23–25)。
原文鏈接:https://arxiv.org/pdf/2505.21748v1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.