![]()
來源:ScienceAI
編輯:&
單細胞轉錄組已經把「細胞有多復雜」這件事推到了前所未有的尺度。但除開它為人們帶來的理解上的改變,跨物種比較仍卡在一個問題之上:不同物種往往共享很少的直系同源基因,傳統整合方法越來越難把遠緣物種放到同一坐標系里。
來自美國斯坦福大學、Biohub 等的研究團隊正是為了補上這一缺口而來。他們把 12 個物種、最多 1.12 億個細胞、覆蓋約 15 億年的進化歷史一起送進模型里,試圖讓模型自己學會「細胞表達的語法」。
相關研究以「TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution」為題,于 2026 年 5 月 7 日發布在《Science》。
![]()
論文鏈接:https://www.science.org/doi/10.1126/science.aec8514
生成式細胞引擎
TranscriptFormer 的誕生旨在解決跨物種比較轉錄程序這一長期挑戰。它不是傳統的單細胞表征模型,而是一個自回歸生成模型。
該模型將基因表達譜視為「細胞語言」,通過自監督學習捕捉基因間的復雜關聯與表達分布。這種大規模、多物種的數據策略,使模型能夠學習到跨越物種界限的通用生物學表征,而非僅局限于單一物種的特征提取。
![]()
圖 1:TranscriptFormer概覽。
模型輸入包括來自 ESM-2 的蛋白嵌入和測序技術標記,并通過 expression-aware multi-head self-attention、causal masking 和 count likelihood 處理轉錄本計數的變化。團隊訓練了三個版本:TF-Metazoa、TF-Exemplar 和 TF-Sapiens,三者架構一致,但訓練語料分別覆蓋 12 個物種、5 個代表物種以及純人類數據。
在性能測試中,TranscriptFormer 在細胞類型分類任務上達到了領域領先水平。研究中,該模型表現出極強的跨物種遷移能力,即使對于在進化上與人類相隔 6.85 億年的物種(如刺胞動物門的珊瑚),它依然能夠實現精準的細胞分類。
![]()
圖 2:未見物種的泛化與跨物種遷移學習。
此外,模型在人類細胞的疾病狀態識別中展現了出色的「零樣本(Zero-shot)」能力,即在未接觸特定疾病標注數據的情況下,仍能通過對正常生理狀態的深刻理解來識別異常的病理表征。
生物學結構感
TranscriptFormer 的嵌入并不只是能分類,它們還自發呈現出發育軌跡、系統發育關系和細胞層級。
在研究中,團隊發現了一個有趣的現象:contextualized gene embeddings 會按細胞種類聚類,而且這種結構在不同組織里都能看到。
![]()
圖 3:上下文基因嵌入與跨物種分析。
這種發育軌跡、系統發育關系以及細胞層級結構在 TranscriptFormer 的表征空間中自然涌現的現象,代表著該模型無需人工標注或元數據引導。這意味著模型自發掌握了生命的組織原則。
TranscriptFormer 還可作為一種「虛擬實驗儀(Virtual Instrument)」,通過模擬轉錄因子的擾動來預測目標基因的反應。團隊用 TranscriptFormer 的生成接口做了提示式推斷,去預測轉錄因子與其他蛋白編碼基因的功能關聯,并用 point-wise conditional mutual information(PMI)找出高置信度配對,再拿 STRING 數據庫交叉驗證。
除此之外,團隊還用細胞類型條件化的提示重建了與 Tabula Sapiens 相似的轉錄因子熱圖,讓模型自己說出哪些因子更像普遍表達,哪些更偏向細胞類型特異。
這種生成式模擬能力為研究人員提供了一個交互式知識庫,能夠在計算機上預先測試復雜的生物實驗方案,從而加速藥物發現與細胞工程的研究進程。
可調用的知識系統
TranscriptFormer 訓練時沒有用細胞類型標簽、發育階段標簽或系統發育注釋,卻仍然學出了跨層級的生物學結構:基因、細胞、組織、物種都被串進了同一套表示里。
它的價值不只是分類更準,而是把單細胞數據變成一種可以查詢、可以遷移、還可以做虛擬實驗的生成式基礎模型。
團隊表示:多物種預訓練更利于跨物種泛化,單物種訓練則可能在純人類疾病任務上更有優勢;未來還將繼續擴展物種、加入更多模態,并改進提示策略。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.