![]()
編輯丨&
在精準(zhǔn)醫(yī)學(xué)研究中,一個(gè)核心問題是:如何從大量已有的組織樣本數(shù)據(jù)中,解析出其中的細(xì)胞類型組成?反卷積算法為此提供了低成本、高通量的解決方案。
不過可惜的是,現(xiàn)有方法大多為單一組學(xué)「量身定制」——轉(zhuǎn)錄組有 CIBERSORTx、蛋白組有 scpDeconv,而代謝組甚至還沒有專用工具。這種「各自為戰(zhàn)」的格局,使得跨組學(xué)、跨隊(duì)列的比較充滿系統(tǒng)性偏差,嚴(yán)重制約了大規(guī)模多組學(xué)研究的發(fā)展。
來(lái)自哈爾濱工業(yè)大學(xué)等的團(tuán)隊(duì)帶來(lái)了一個(gè)名為 DECODE 的通用反卷積框架。它通過精巧的深度學(xué)習(xí)架構(gòu),首次實(shí)現(xiàn)了對(duì)轉(zhuǎn)錄組、蛋白組和代謝組數(shù)據(jù)的統(tǒng)一、高精度反卷積,并能在參考單細(xì)胞數(shù)據(jù)不完整的情況下依然穩(wěn)健工作,為充分利用海量多組學(xué)組織數(shù)據(jù)提供了強(qiáng)大工具。
相關(guān)研究?jī)?nèi)容以「DECODE: deep learning-based common deconvolution framework for various omics data」為題,于 2026 年 3 月 2 日發(fā)表在《Nature Methods》。
![]()
論文鏈接:https://www.nature.com/articles/s41592-026-03007-y
通用反卷積框架
目前的反卷積工具遵循「針對(duì)化」發(fā)展路徑。轉(zhuǎn)錄組工具基于特定分布假設(shè)(如泊松分布),蛋白組工具則有不同的數(shù)學(xué)模型,而代謝組反卷積仍是空白。當(dāng)研究者想比較不同組學(xué)層、不同隊(duì)列的細(xì)胞豐度時(shí),方法的異質(zhì)性引入了無(wú)法量化的系統(tǒng)偏差,破壞了整合分析的可靠性。
而在當(dāng)下的組學(xué)研究中,不同組學(xué)數(shù)據(jù)在尺度、分布、稀疏性和特征維度上差異巨大。并且,單細(xì)胞參考數(shù)據(jù)往往無(wú)法覆蓋組織中存在的所有細(xì)胞類型,參考數(shù)據(jù)與組織目標(biāo)數(shù)據(jù)通常來(lái)自不同供體、技術(shù)和健康狀態(tài),生理和技術(shù)變異引入的批次效應(yīng)會(huì)嚴(yán)重干擾真實(shí)生物學(xué)信號(hào)的識(shí)別。
這就要求反卷積模型架構(gòu)需要高度靈活、自適應(yīng)力強(qiáng),且必須能在參考數(shù)據(jù)缺失某些細(xì)胞類型(即存在未知細(xì)胞類型)的情況下,依然準(zhǔn)確估計(jì)已知細(xì)胞類型的相對(duì)豐度。這也就成為了 DECODE 的基礎(chǔ)設(shè)計(jì)需求。
![]()
圖 1:DECODE 框架。
DECODE 框架主要包含了四個(gè)階段,這些階段共同確保對(duì)不同組學(xué)數(shù)據(jù)的精確且可靠的解卷:
- 第一階段:構(gòu)建「?jìng)谓M織」訓(xùn)練集:從單細(xì)胞數(shù)據(jù)中隨機(jī)抽取細(xì)胞,根據(jù)隨機(jī)生成的比例向量進(jìn)行聚合,模擬出具有已知細(xì)胞組成的「?jìng)谓M織」樣本。這為模型提供了無(wú)限且?guī)в姓鎸?shí)標(biāo)簽的訓(xùn)練數(shù)據(jù)。
- 第二階段:消除批次效應(yīng)(對(duì)抗訓(xùn)練):這是 DECODE 的關(guān)鍵創(chuàng)新之一。框架引入了一個(gè)編碼器、一個(gè)鑒別器和一個(gè)反卷積器。編碼器提取特征,鑒別器試圖判斷這些特征來(lái)自偽組織還是真實(shí)目標(biāo)組織,而反卷積器則專注于學(xué)習(xí)細(xì)胞組成信息。
- 利用對(duì)抗訓(xùn)練,迫使鑒別器無(wú)法區(qū)分?jǐn)?shù)據(jù)來(lái)源,從而在保留生物學(xué)信號(hào)的同時(shí),有效消除了訓(xùn)練數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的批次效應(yīng)。此階段完成后,編碼器參數(shù)被固定。
- 第三階段:提升穩(wěn)健性(對(duì)比學(xué)習(xí)與降噪):為了應(yīng)對(duì)各種噪聲和組學(xué)數(shù)據(jù)差異,DECODE 對(duì)每個(gè)偽組織樣本隨機(jī)添加不超過 10% 的噪聲,構(gòu)建成對(duì)訓(xùn)練數(shù)據(jù)。
- 一個(gè)注意力機(jī)制降噪器將嵌入特征分離為噪聲特征和純化特征。同時(shí),對(duì)比學(xué)習(xí)策略拉近同一組織樣本不同噪聲版本的特征表示,推遠(yuǎn)不同樣本的表示,從而增強(qiáng)模型對(duì)噪聲的抵抗力。
- 第四階段:推理與應(yīng)用:DECODE 提供兩條路徑——當(dāng)單細(xì)胞參考數(shù)據(jù)能完全覆蓋目標(biāo)組織細(xì)胞類型時(shí),走「標(biāo)準(zhǔn)反卷積」路徑;當(dāng)存在未知細(xì)胞類型時(shí),走帶有降噪器的「相對(duì)反卷積」路徑,確保依然能準(zhǔn)確估計(jì)已知細(xì)胞類型的比例。
性能超越
研究團(tuán)隊(duì)設(shè)計(jì)了極其嚴(yán)苛的驗(yàn)證方案,在 15 個(gè)數(shù)據(jù)集上構(gòu)建了 7 大測(cè)試場(chǎng)景,涵蓋了轉(zhuǎn)錄組、蛋白組、代謝組,以及空間轉(zhuǎn)錄組數(shù)據(jù)。
![]()
圖 2:DECODE 轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)解卷積性能概述。
在跨供體、跨疾病狀態(tài)、跨健康狀態(tài)、跨數(shù)據(jù)集、空間轉(zhuǎn)錄組、多細(xì)胞類型等幾乎所有場(chǎng)景中,DECODE 的一致性相關(guān)系數(shù)均排名第一。即使在部分方法的「原問題設(shè)定」下,DECODE 的表現(xiàn)也優(yōu)于它們。在真實(shí)組織數(shù)據(jù)上,DECODE 同樣展現(xiàn)出卓越的準(zhǔn)確性。
![]()
圖 3:DECODE 代謝組學(xué)數(shù)據(jù)解卷積性能概述。
最為亮眼的是,DECODE 完成了代謝組學(xué)反卷積的突破。研究首次在三個(gè)單細(xì)胞代謝組數(shù)據(jù)集(小鼠肝臟、骨髓和人類結(jié)直腸癌)上驗(yàn)證了反卷積的可能性。在跨細(xì)胞類型、跨疾病狀態(tài)、跨平臺(tái)的測(cè)試中,DECODE 均取得了極高的預(yù)測(cè)精度。
經(jīng)過四種擾動(dòng)場(chǎng)景下的分析與在偽多組學(xué)和真實(shí)多組學(xué)隊(duì)列中的應(yīng)用,DECODE 在缺少模擬數(shù)據(jù)的情況下依然發(fā)表現(xiàn)出遠(yuǎn)超其他模型的精度。在批次效應(yīng)干擾實(shí)驗(yàn)中,DECODE的表現(xiàn)也最為穩(wěn)定。
通用化范式躍遷
DECODE 是一種能夠處理轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)的去卷積算法,它首次將反卷積從「組學(xué)專屬」的工具箱,升級(jí)為跨組學(xué)的「通用」框架。
它不僅填補(bǔ)了代謝組學(xué)反卷積的空白,更重要的是,它為整合海量、異質(zhì)的現(xiàn)有組學(xué)數(shù)據(jù)提供了統(tǒng)一的分析平臺(tái)。有了 DECODE,研究者可以更可靠地比較不同疾病隊(duì)列、不同組學(xué)層次的細(xì)胞組成變化,從而獲得對(duì)復(fù)雜生物系統(tǒng)更完整的分子層面理解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.