![]()
編輯丨%
細胞擁有一個很復(fù)雜的結(jié)構(gòu),而一條來自細胞狀態(tài)信息往往可以通過不同的測量技術(shù)捕獲——例如 RNA 表達、染色質(zhì)可達性、蛋白質(zhì)豐度甚至圖像形態(tài)等。每種技術(shù)都提供不同視角的數(shù)據(jù),但這些數(shù)據(jù)往往被分開分析或者被簡單融合成一個統(tǒng)一表示,難以判定到底哪些信息是不同技術(shù)之間共享的,哪些是某種技術(shù)特有的。
即便機器學(xué)習(xí)能加速這一進程,在捕捉細胞完整信息的時候,由于所得信息是合并后的,它們對應(yīng)的細胞部分也就變得不明確。
MIT、哈佛大學(xué)與蘇黎世聯(lián)邦理工學(xué)院/保羅·謝勒研究所(PSI)的研究團隊提出了一種名為APOLLO的新框架,該框架利用可解釋性多模態(tài)嵌入模型,從而自動識別哪些信息是不同測量技術(shù)所共有、哪些是某一模態(tài)獨有的。
相關(guān)的研究以「Partially shared multi-modal embedding learns holistic representation of cell state」為題,于 2026 年 2 月 25 日發(fā)表在《Nature Computational Science》。
![]()
論文鏈接:https://www.nature.com/articles/s43588-025-00948-w
APOLLO
研究中,學(xué)者向來使用多種工具來捕捉細胞狀態(tài)的信息。例如,他們可以測量 RNA 以判斷細胞是否在生長,或者測量染色質(zhì)形態(tài)以判斷細胞是否在處理外部的物理或化學(xué)信號。
對于前文中所敘述的,不同技術(shù)所得信息的獨立性與重疊性,APOLLO 的設(shè)計巧妙地解決了這一問題。它將學(xué)習(xí)的潛空間明確地劃分為三部分:
- 共享潛空間 (Shared Latent Space):捕捉所有模態(tài)(如 RNA 和 ATAC)共有的細胞狀態(tài)信息。
- 模態(tài)特有潛空間 (Modality-Specific Latent Space):為每一種模態(tài)(如一個用于 RNA,一個用于 ATAC)單獨設(shè)立,捕捉僅能被該技術(shù)測量到的、獨特的細胞狀態(tài)信息。
- 兩步訓(xùn)練法:通過「潛空間優(yōu)化」和「編碼器訓(xùn)練」兩個步驟,確保模型能準確地將信息分配到各自所屬的空間。
![]()
圖 1:APOLLO 在部分共享多模態(tài)嵌入和跨模態(tài)預(yù)測中的概述。
這種訓(xùn)練策略既保證了共享信息的準確捕捉,也使得不同測量模態(tài)的特異性信息不會被統(tǒng)一混合,從而更好地解耦信息來源。
從模擬到真實
在模擬數(shù)據(jù)集上,APOLLO 能夠準確識別已知的共享結(jié)構(gòu)與特異性結(jié)構(gòu),說明它不僅能整合數(shù)據(jù),還能正確分離不同來源的信息。
在真實數(shù)據(jù)測試中,團隊應(yīng)用了常見的多模態(tài)單細胞測量組合,例如:
SHARE-seq 數(shù)據(jù) (RNA+ATAC):在小鼠細胞的SHARE-seq數(shù)據(jù)上,APOLLO學(xué)習(xí)到的RNA特有空間捕獲了細胞周期相關(guān)基因,而ATAC特有空間則富集了轉(zhuǎn)錄調(diào)控因子的啟動子活性。通過主成分分析和基因本體富集分析,研究團隊能清晰地將這些生物學(xué)意義「追溯」到不同的潛空間,證實了模型解耦的有效性。
CITE-seq 數(shù)據(jù) (RNA+表面蛋白):在小鼠脾臟和淋巴結(jié)的CITE-seq數(shù)據(jù)中,APOLLO的表現(xiàn)堪稱完美。共享潛空間完美地分離了不同的細胞類型,而實驗批次效應(yīng)則被干凈利落地「趕」到了RNA的特有潛空間中。相比之下,Seurat的WNN方法和標準多模態(tài)自編碼器,其整合后的空間仍混雜著細胞類型和批次信息,無法實現(xiàn)如此清晰的分離。
![]()
圖 2:用于識別配 scRNA-seq 和 scATAC-seq 數(shù)據(jù)中共享信息和模態(tài)特異性信息的 APOLLO。
除了這些,APOLLO 還能利用學(xué)到的解耦信息,進行預(yù)測并產(chǎn)生生物學(xué)新洞見。比如,它能準確區(qū)分共享信息與模態(tài)特異性成分,還能夠用于跨模態(tài)預(yù)測。例如,通過已測量的染色質(zhì)圖像信息預(yù)測尚未測量的蛋白質(zhì)信號,這對于資源受限且難以進行全面單細胞測量的實驗非常有價值。
![]()
圖 3:染色質(zhì)組織和蛋白質(zhì)定位的 APOLLO 共享潛空間和模態(tài)特異性潛空間中可解釋的形態(tài)特征。
也許是全息的細胞生物學(xué)
APOLLO 代表了一種從「信息融合」到「信息解耦」的范式轉(zhuǎn)變。通過顯式地建模并分離共享與模態(tài)特有的信息,它賦予研究者前所未有的解釋性和洞察力。
這種分離潛空間的技術(shù),在臨床應(yīng)用中具有重要意義:它可以幫助研究人員明確哪種測量技術(shù)包含對特定生物現(xiàn)象最關(guān)鍵的信息,從而減少不必要的實驗、優(yōu)化測量策略,并加速對復(fù)雜細胞狀態(tài)的理解,特別是在癌癥、神經(jīng)退行性疾病、代謝疾病等領(lǐng)域的機制研究與臨床評估。
相關(guān)鏈接:https://phys.org/news/2026-02-cell-ai-tool-bigger-picture.html
https://news.mit.edu/2026/ai-help-researchers-see-bigger-picture-cell-biology-0225
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.