網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一個(gè)模型搞定各種組學(xué)！哈工大等帶來(lái)通用多組學(xué)高精度反卷積框架

2026-03-09 14:55:32　來(lái)源: ScienceAI

河北舉報(bào)

分享至

編輯丨&

在精準(zhǔn)醫(yī)學(xué)研究中，一個(gè)核心問題是：如何從大量已有的組織樣本數(shù)據(jù)中，解析出其中的細(xì)胞類型組成？反卷積算法為此提供了低成本、高通量的解決方案。

不過可惜的是，現(xiàn)有方法大多為單一組學(xué)「量身定制」——轉(zhuǎn)錄組有 CIBERSORTx、蛋白組有 scpDeconv，而代謝組甚至還沒有專用工具。這種「各自為戰(zhàn)」的格局，使得跨組學(xué)、跨隊(duì)列的比較充滿系統(tǒng)性偏差，嚴(yán)重制約了大規(guī)模多組學(xué)研究的發(fā)展。

來(lái)自哈爾濱工業(yè)大學(xué)等的團(tuán)隊(duì)帶來(lái)了一個(gè)名為 DECODE 的通用反卷積框架。它通過精巧的深度學(xué)習(xí)架構(gòu)，首次實(shí)現(xiàn)了對(duì)轉(zhuǎn)錄組、蛋白組和代謝組數(shù)據(jù)的統(tǒng)一、高精度反卷積，并能在參考單細(xì)胞數(shù)據(jù)不完整的情況下依然穩(wěn)健工作，為充分利用海量多組學(xué)組織數(shù)據(jù)提供了強(qiáng)大工具。

相關(guān)研究?jī)?nèi)容以「DECODE: deep learning-based common deconvolution framework for various omics data」為題，于 2026 年 3 月 2 日發(fā)表在《Nature Methods》。

論文鏈接：https://www.nature.com/articles/s41592-026-03007-y

通用反卷積框架

目前的反卷積工具遵循「針對(duì)化」發(fā)展路徑。轉(zhuǎn)錄組工具基于特定分布假設(shè)（如泊松分布），蛋白組工具則有不同的數(shù)學(xué)模型，而代謝組反卷積仍是空白。當(dāng)研究者想比較不同組學(xué)層、不同隊(duì)列的細(xì)胞豐度時(shí)，方法的異質(zhì)性引入了無(wú)法量化的系統(tǒng)偏差，破壞了整合分析的可靠性。

而在當(dāng)下的組學(xué)研究中，不同組學(xué)數(shù)據(jù)在尺度、分布、稀疏性和特征維度上差異巨大。并且，單細(xì)胞參考數(shù)據(jù)往往無(wú)法覆蓋組織中存在的所有細(xì)胞類型，參考數(shù)據(jù)與組織目標(biāo)數(shù)據(jù)通常來(lái)自不同供體、技術(shù)和健康狀態(tài)，生理和技術(shù)變異引入的批次效應(yīng)會(huì)嚴(yán)重干擾真實(shí)生物學(xué)信號(hào)的識(shí)別。

這就要求反卷積模型架構(gòu)需要高度靈活、自適應(yīng)力強(qiáng)，且必須能在參考數(shù)據(jù)缺失某些細(xì)胞類型（即存在未知細(xì)胞類型）的情況下，依然準(zhǔn)確估計(jì)已知細(xì)胞類型的相對(duì)豐度。這也就成為了 DECODE 的基礎(chǔ)設(shè)計(jì)需求。

圖 1：DECODE 框架。

DECODE 框架主要包含了四個(gè)階段，這些階段共同確保對(duì)不同組學(xué)數(shù)據(jù)的精確且可靠的解卷：

第一階段：構(gòu)建「?jìng)谓M織」訓(xùn)練集：從單細(xì)胞數(shù)據(jù)中隨機(jī)抽取細(xì)胞，根據(jù)隨機(jī)生成的比例向量進(jìn)行聚合，模擬出具有已知細(xì)胞組成的「?jìng)谓M織」樣本。這為模型提供了無(wú)限且?guī)в姓鎸?shí)標(biāo)簽的訓(xùn)練數(shù)據(jù)。
第二階段：消除批次效應(yīng)（對(duì)抗訓(xùn)練）：這是 DECODE 的關(guān)鍵創(chuàng)新之一。框架引入了一個(gè)編碼器、一個(gè)鑒別器和一個(gè)反卷積器。編碼器提取特征，鑒別器試圖判斷這些特征來(lái)自偽組織還是真實(shí)目標(biāo)組織，而反卷積器則專注于學(xué)習(xí)細(xì)胞組成信息。
利用對(duì)抗訓(xùn)練，迫使鑒別器無(wú)法區(qū)分?jǐn)?shù)據(jù)來(lái)源，從而在保留生物學(xué)信號(hào)的同時(shí)，有效消除了訓(xùn)練數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的批次效應(yīng)。此階段完成后，編碼器參數(shù)被固定。
第三階段：提升穩(wěn)健性（對(duì)比學(xué)習(xí)與降噪）：為了應(yīng)對(duì)各種噪聲和組學(xué)數(shù)據(jù)差異，DECODE 對(duì)每個(gè)偽組織樣本隨機(jī)添加不超過 10% 的噪聲，構(gòu)建成對(duì)訓(xùn)練數(shù)據(jù)。
一個(gè)注意力機(jī)制降噪器將嵌入特征分離為噪聲特征和純化特征。同時(shí)，對(duì)比學(xué)習(xí)策略拉近同一組織樣本不同噪聲版本的特征表示，推遠(yuǎn)不同樣本的表示，從而增強(qiáng)模型對(duì)噪聲的抵抗力。
第四階段：推理與應(yīng)用：DECODE 提供兩條路徑——當(dāng)單細(xì)胞參考數(shù)據(jù)能完全覆蓋目標(biāo)組織細(xì)胞類型時(shí)，走「標(biāo)準(zhǔn)反卷積」路徑；當(dāng)存在未知細(xì)胞類型時(shí)，走帶有降噪器的「相對(duì)反卷積」路徑，確保依然能準(zhǔn)確估計(jì)已知細(xì)胞類型的比例。

性能超越

研究團(tuán)隊(duì)設(shè)計(jì)了極其嚴(yán)苛的驗(yàn)證方案，在 15 個(gè)數(shù)據(jù)集上構(gòu)建了 7 大測(cè)試場(chǎng)景，涵蓋了轉(zhuǎn)錄組、蛋白組、代謝組，以及空間轉(zhuǎn)錄組數(shù)據(jù)。

圖 2：DECODE 轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)解卷積性能概述。

在跨供體、跨疾病狀態(tài)、跨健康狀態(tài)、跨數(shù)據(jù)集、空間轉(zhuǎn)錄組、多細(xì)胞類型等幾乎所有場(chǎng)景中，DECODE 的一致性相關(guān)系數(shù)均排名第一。即使在部分方法的「原問題設(shè)定」下，DECODE 的表現(xiàn)也優(yōu)于它們。在真實(shí)組織數(shù)據(jù)上，DECODE 同樣展現(xiàn)出卓越的準(zhǔn)確性。

圖 3：DECODE 代謝組學(xué)數(shù)據(jù)解卷積性能概述。

最為亮眼的是，DECODE 完成了代謝組學(xué)反卷積的突破。研究首次在三個(gè)單細(xì)胞代謝組數(shù)據(jù)集（小鼠肝臟、骨髓和人類結(jié)直腸癌）上驗(yàn)證了反卷積的可能性。在跨細(xì)胞類型、跨疾病狀態(tài)、跨平臺(tái)的測(cè)試中，DECODE 均取得了極高的預(yù)測(cè)精度。

經(jīng)過四種擾動(dòng)場(chǎng)景下的分析與在偽多組學(xué)和真實(shí)多組學(xué)隊(duì)列中的應(yīng)用，DECODE 在缺少模擬數(shù)據(jù)的情況下依然發(fā)表現(xiàn)出遠(yuǎn)超其他模型的精度。在批次效應(yīng)干擾實(shí)驗(yàn)中，DECODE的表現(xiàn)也最為穩(wěn)定。

通用化范式躍遷

DECODE 是一種能夠處理轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)的去卷積算法，它首次將反卷積從「組學(xué)專屬」的工具箱，升級(jí)為跨組學(xué)的「通用」框架。

它不僅填補(bǔ)了代謝組學(xué)反卷積的空白，更重要的是，它為整合海量、異質(zhì)的現(xiàn)有組學(xué)數(shù)據(jù)提供了統(tǒng)一的分析平臺(tái)。有了 DECODE，研究者可以更可靠地比較不同疾病隊(duì)列、不同組學(xué)層次的細(xì)胞組成變化，從而獲得對(duì)復(fù)雜生物系統(tǒng)更完整的分子層面理解。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.