![]()
作者 | 論文團隊
編輯丨ScienceAI
在計算生命科學領域,構建 “虛擬細胞” 以模擬生物細胞系統對外部干預的反應,一直是核心科研問題。通過構建高精度的計算模型,研究人員能夠在數字空間內預測藥物或基因干預后的細胞轉錄特征,從而極大加速疾病機制研究與藥物篩選的進程。盡管現有的單細胞基礎模型在學習靜態細胞表征方面表現優異,但在精準刻畫細胞狀態的概率分布以及模擬受擾動后的動態演化過程上,仍面臨較大挑戰。
為突破這一瓶頸,阿里巴巴達摩院構建了生成式細胞世界模型 Lingshu-Cell。該模型采用掩碼離散擴散架構,不僅能夠還原全轉錄組尺度的細胞狀態分布,還能精準預測細胞在受到基因擾動或細胞因子刺激后的表達譜響應。這一研究成果標志著單細胞建模從傳統的靜態描述向生成式模擬邁出了關鍵一步。
![]()
論文地址:https://arxiv.org/abs/2603.25240v1
項目地址:https://alibaba-damo-academy.github.io/lingshu-cell-homepage/
![]()
圖 1:Lingshu-Cell 總覽。(a)從真實 scRNA-seq 表達矩陣到生成表達矩陣的掩碼離散擴散模型(MDDM)流程;(b)三種生成范式對比:AR、DDPM、MDDM;(c)應用場景:細胞狀態生成(跨組織 / 跨物種)與擾動響應模擬(基因擾動 / 細胞因子刺激)。
虛擬細胞:從數據快照到可預測的世界模型
過去十年,大規模單細胞 RNA 測序(scRNA-seq)技術極大地豐富了人類對不同組織、物種及生理狀態下細胞組成與功能的認知。然而,目前大多數分析仍停留在描述性層面,如細胞聚類、注釋和靜態特征比較,缺乏真正的預測能力。虛擬細胞(Virtual Cells)的愿景正是要改變這一現狀:通過構建計算框架,讓研究者能夠在數字空間中進行大規模實驗,進而解析疾病機制并篩選治療方案。
為了實現這一目標,達摩院團隊前瞻性地提出了細胞世界模型(Cellular World Model)概念。類比人工智能領域中能夠理解環境規律并支持模擬預測的世界模型,細胞世界模型旨在學習轉錄組狀態的深層表征及其動態演化規律。其核心能力包含兩個維度:
- 狀態分布建模:能夠捕捉并生成具有生物學意義的細胞異質性,還原真實細胞群體的狀態空間分布,而非僅僅學習一個 “平均特征”。
- 擾動響應預測:能夠模擬細胞在特定干預(如基因敲除或信號分子刺激)下的動態演化,預判表達譜的連鎖反應。
基于這兩個維度的能力,細胞世界模型有望為單細胞研究提供一個高效率、低成本的數字實驗預測平臺。在這一框架下,研究者不僅可以預演基因擾動后的細胞變化,輔助基因功能研究;還能夠比較不同候選藥物可能引發的轉錄組效應,加速藥物篩選;并進一步結合個體的細胞信息,對不同治療方案的潛在效果進行評估。
目前的單細胞基礎模型大多局限于學習靜態表征,更適合作為下游分析的特征提取器,而非生成式模擬器。為突破此局限,Lingshu-Cell 創新性地引入了當前大模型領域前沿的掩碼離散擴散(MDDM)架構。這一架構帶來了雙重優勢:它不僅具備對原始轉錄組狀態分布的強大建模能力,能夠精準捕捉高維特征空間中的細胞異質性;更能將細胞狀態空間與外部干預條件深度融合,實現了全轉錄組尺度的精準條件預測。
![]()
圖 2:細胞世界模型核心能力的兩個維度,以及潛在應用場景。(a)狀態分布建模;(b)擾動響應預測;(c)潛在應用場景,包括基因功能研究、候選藥物篩選和個性化治療評估。
Lingshu-Cell:用離散擴散框架統一建模細胞狀態與擾動響應
單細胞轉錄組數據本質上表現為離散計數數據,而細胞類型、擾動策略等條件信息同樣具有離散性。針對這一數據特點, Lingshu-Cell 在架構設計上實現了兩項關鍵創新:
1. 掩碼離散擴散模型(MDDM):統一建模的優越性
實現細胞狀態分布建模與擾動響應預測相統一的關鍵是在于將不同的條件與數據納入同一生成框架下。為此,Lingshu-Cell 采用了大語言模型領域前沿的掩碼離散擴散框架進行構建,該框架在處理單細胞數據時展現出以下顯著優勢:
- 統一 Token 空間與建模范式:Lingshu-Cell 將細胞類型、外部擾動策略以及基因表達數值等信息,統一轉化為離散 Token 并映射至同一個向量空間。這種設計使得模型能夠在單一生成范式下,同步完成對 “原始分布” 和對 “各種外部條件響應” 的建模。Lingshu-Cell 無需針對擾動任務設計獨立的預測頭,而是將擾動視為一種可生成的上下文邏輯,實現在統一范式下的高效訓練和泛化。
- 天然適配數據的離散性:傳統 DDPM 使用連續高斯噪聲,難以直接應用于單細胞轉錄組的離散計數數據。Lingshu-Cell 直接在離散 Token 空間操作,天然契合此類生物數據的內在特性。
- 消除自回歸模型的順序偏置:依托雙向 Transformer 架構,Lingshu-Cell 允許每個基因在生成時全局參考全基因組的上下文信息,有效捕捉復雜的協同調控邏輯,避免了單向自回歸模型在處理 “無序” 基因序列時產生的人為順序偏置。
2. 針對全轉錄組精準建模的技術優化
同時,為了更好地適配全轉錄組數據的超大規模建模,Lingshu-Cell 引入了多項優化技術,在計算效率與微弱信號捕捉能力之間取得了完美平衡:
- 多尺度量化編碼:針對 UMI 計數跨度大且分布極其傾斜的特點,模型引入了共享量化函數,將原始計數映射到有限的離散狀態池中。這一設計在大幅壓縮狀態空間的同時,通過自適應步長精準保留了低表達量區間的高分辨率信息。
- 嵌入空間序列壓縮:使用 Transformer 直接處理高達 1.8 萬個基因的長序列將帶來難以承受的計算開銷。為此,Lingshu-Cell 引入了嵌入空間的壓縮模塊,通過隨機分組(Random Grouping)和線性投影,將超長基因序列壓縮為高信息密度的表征(如將長度從 18,000 維大幅壓縮至 500-2,000 維)。這不僅成倍降低了計算成本,更通過多基因信號的線性混合有效過濾了單基因層面的噪聲干擾。
- 條件引導與生物學先驗注入:為了讓模型在上萬個基因中精準定位擾動方向,Lingshu-Cell 引入了條件引導(CFG)機制。通過在采樣階段強化目標條件信號,模型能夠更明確地向指定的擾動狀態演化。同時,模型支持注入已知生物學先驗,通過在采樣起點錨定關鍵基因狀態,引導生成結果嚴格符合真實生物學規律。
通過統一建模的掩碼離散擴散架構與針對全轉錄組的技術優化,Lingshu-Cell 在適配單細胞數據特性的同時,有效解決了超長基因序列建模中計算效率與精度難以兼顧的難題。這種設計與工程的協同,讓模型得以精準刻畫單細胞轉錄組的真實分布規律,進而生成高保真、條件可控的單細胞基因表達譜。
![]()
圖 3:以基因擾動為例,展示模型框架與關鍵設計。(a)基因擾動任務示意;(b)輸入序列構成與掩碼離散擴散過程;(c)三個關鍵技術:Classifier-free guidance、序列壓縮、生物學先驗注入。
實驗驗證:還原異質性,完成狀態分布建模任務
1. 跨組織與跨物種的強大建模能力
在覆蓋 9 個人類組織(腦、心臟、肺、結腸等)和 4 個非人物種(小鼠、恒河猴、斑馬魚、果蠅)的單細胞轉錄組數據上,Lingshu-Cell 展現出了卓越的泛化與細胞狀態分布建模能力。為了嚴謹驗證這一能力,研究團隊主要從三個維度展開了系統評估:(1)整體分布是否匹配,(2)各細胞亞型的組成比例是否一致,(3)經典 marker 基因的表達模式是否被精準復刻。
在 PBMC 數據上,生成細胞與真實細胞在 UMAP 中呈現出高度一致的群體結構;各亞型的組成比例也被較好重現,有效避免了傳統生成模型中常見的模式崩潰(如過度生成或遺漏特定亞型)問題;marker 基因的空間表達模式同樣與真實數據吻合。這說明模型學到的絕不是淺層統計學的相似性,而是具有生物學意義的細胞狀態結構。在定量比較中,Lingshu-Cell 在 5 個評估指標上均優于現有基準模型:scDiffusion 和 scVI。這種優異的表現也不僅限于單一數據集:從人類腦組織到果蠅,不同組織和不同物種的數據上都得到了穩定且一致的驗證。
![]()
圖 4:細胞狀態生成結果。(a)免疫細胞 UMAP 可視化與 marker 基因表達對比;(b)細胞亞型組成比例;(c)定量 benchmark(vs scDiffusion, scVI);(d-e)跨人類組織與跨物種的嵌入結構對照。
2. 從主要譜系到細粒度亞型的高分辨率刻畫
更進一步地,在更高分辨率的分析下,Lingshu-Cell 生成的細胞同樣能夠精細刻畫真實數據中的細胞亞型結構。無論是 UMAP 中更細粒度的亞型分布,還是不同細胞亞型的組成比例,生成數據均與真實數據保持了較高保真度。從主要細胞譜系到更細粒度的細胞亞型,Lingshu-Cell 都能較好重現真實數據中的分布特征,標志著該模型已經能夠對復雜細胞狀態分布進行全景建模。
![]()
圖 5:更大規模細胞群體中的高分辨率細胞狀態生成結果。(a)PARSE 10M PBMC 數據中真實細胞與生成細胞的 UMAP 可視化,并按細胞類型注釋與 canonical marker 基因表達著色;(b)真實數據與生成數據中主要細胞類型比例對比;(c)在更高分辨率下的 UMAP 可視化,顯示生成細胞能夠重現真實數據中的細胞亞型結構;(d)真實數據與生成數據中細胞亞型比例對比,顯示在更高分辨率下仍保持穩健一致性。
應用場景:高保真推演,實現多擾動條件響應預測
在真實的生物學研究中,科學家們往往通過施加外部干預(如敲低 / 敲除某個特定基因、使用特定藥物或施加細胞因子刺激)來觀察細胞的反應,進而探究疾病機制或驗證藥物靶點。擾動響應預測,即是利用計算模型在數字空間中預演這一生物學過程。這一任務的目標是預測細胞在受到特定刺激后,成千上萬個基因表達譜的動態級聯變化,這正是細胞世界模型的核心能力之一。Lingshu-Cell 在兩大擾動條件上進行了實驗,分別是基因敲除擾動和細胞因子擾動。
1. 基因擾動響應預測:基因擾動是指通過 CRISPR 等基因編輯技術,特異性地抑制或敲除目標基因的表達,進而觀察細胞在該基因受擾動后成千上萬個基因的轉錄表達級聯變化,這也是去年虛擬細胞競賽 (Virtual Cell Challenge) 的核心任務。 VCC 由 Arc Institute 發起、NVIDIA 與 10x Genomics 贊助,是單細胞基因擾動響應預測領域的全球性比賽。我們將 Lingshu-Cell 與 Generalist Rank(綜合考核 7 項核心指標)的當前榜單隊伍進行了全面對比。Lingshu-Cell 在這個榜單上取得了最優的平均排名,尤其是在 MAE(平均絕對誤差)和 Pearson-Δ 兩項關鍵指標上的表現排名第一。這不僅印證了模型卓越的泛化預測能力,更驗證了 MDDM 架構對于基因擾動響應預測任務上的巨大潛力。
2. 細胞因子擾動響應預測:在更大規模的 PARSE 10M PBMC 數據集上(涵蓋 12 個供體 × 90 種細胞因子),Lingshu-Cell 同樣在與多個基準模型的對比中取得了最優的綜合評分。該任務的核心挑戰在于,同一種刺激在不同供體背景下可能引發不同的轉錄組響應,而不同刺激之間的效應也并不相同。模型需要捕捉這種條件依賴的差異,而不是簡單學習一種平均模式。
基因擾動和細胞因子刺激代表了兩類底層機制截然不同的生物學干預,而 Lingshu-Cell 在這兩類任務上都取得了領先,有力證明了這一統一框架不僅能夠精確建模細胞狀態分布,更能夠進一步模擬不同類型干預所引發的復雜細胞變化。
![]()
表 1:VCC H1 benchmark 賽后評測綜合排名。
![]()
圖 6:PARSE 細胞因子擾動響應預測的多指標對比。(a)細胞因子誘導轉錄組擾動的示意圖;(b)輸入序列構成與掩碼離散擴散過程;(c)Lingshu-Cell 與多個基準模型在 PARSE 10M PBMC 數據集上的性能對比。評估涵蓋 1 項綜合評分(Average score)與 7 項核心指標。紅色標注代表 Lingshu-Cell 在該指標上超過其他所有對比的基準模型。
虛擬細胞還有多遠?
在這篇工作中,我們介紹了 Lingshu-Cell,一個采用統一離散擴散架構實現細胞狀態建模和擾動響應的預測的細胞世界模型。盡管目前的探索仍局限于轉錄組層面,且數據層面的高保真模擬尚未完全揭示細胞演化的底層因果機制,距離構建真正意義上的 “虛擬細胞” 仍有顯著差距。但作為通向細胞世界模型的一次初步嘗試,Lingshu-Cell 充分證實了離散擴散范式在單細胞生成建模領域的巨大潛力。展望未來,隨著表觀遺傳、蛋白質組學等多模態數據的逐步引入,計算生命科學從靜態分析向動態模擬演進的趨勢將越來越清晰。整個行業正加速向全面動態數字模擬的新階段大步邁進,一個屬于數字生命的時代已然拉開序幕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.