![]()
編輯丨&
為了抵御噬菌體入侵,細菌已經進化出了超過 250 種已實驗驗證的抗病毒防御系統。然而,這些很可能只是冰山一角。傳統的方法——通過分析基因是否與已知防御系統共定位——雖然發現了許多新系統,但仍受限于同源性搜索和低豐度基因的遺漏。
法國巴斯德研究所的研究團隊開發了三種基于蛋白序列和基因組上下文的大語言模型,實現了對抗噬菌體防御系統的大規模精準預測。他們的實驗驗證了 12 個全新的抗噬菌體系統,覆蓋了從大腸桿菌到鏈霉菌的遠緣細菌。
相關研究以「Protein and genomic language models uncover the unexplored diversity of bacterial immunity」為題,于 2026 年 4 月 2 日發布在《Science》。
![]()
論文鏈接:https://www.science.org/doi/10.1126/science.adv8275
多維度預測
在新方法提出之前,「guilt by association」方法確實推動了領域爆發,但它天然偏向已知家族,也容易把 integrase 等移動遺傳元件相關基因一起帶進來。
研究團隊利用已知的防御系統數據庫,對 3.2 萬個完整細菌基因組進行了注釋。在 1.23 億個蛋白中,僅 0.4-0.65% 被識別為抗噬菌體系統的組成部分。但其中不少要被剔除為核心功能或移動元件功能。作者據此指出,僅靠傳統關聯法,很多真正的抗噬菌體蛋白都可能被漏掉。
為了捕捉更細微的基因組上下文信號,研究者訓練了一個 ALBERT 模型(一種輕量級 BERT 變體)。他們將每個蛋白家族視為一個「單詞」,將相鄰基因片段視為「句子」,通過預測被掩蓋的基因來學習細菌基因組的「語法」。
![]()
圖 1:深度學習模型預測出大量抗噬菌體系統圖譜。
由于全細菌泛基因組詞匯量巨大(>800 萬家族),他們先聚焦于放線菌門(Actinomycetota)——一個抗噬菌體防御研究較少的門,使用最常見的 52 萬個蛋白家族作為詞匯表。ALBERTDF 能夠識別出那些與已知防御系統共享上下文模式但序列不相似的基因,從而發現全新的防御系統。但其詞匯表固定,難以擴展到整個細菌泛基因組。
![]()
圖 2:基于上下文的 Transformer 模型可識別鏈霉菌中的抗噬菌體系統。
上下文模型擅長找新型組織結構,但詞表會限制它向全細菌泛基因組擴展。于是研究團隊轉向蛋白語言模型 ESM2。他們用已知防御蛋白(正樣本)和非防御蛋白(負樣本)對 ESM-2 進行微調,得到 ESMDF 分類器。
測試了不同規模的 ESM 模型(35M、150M、650M參數)后,650M 參數的 ESMDF 表現最佳,在保留的測試集上達到了高精度。
它能夠識別出與已知防御蛋白序列相似度極低(甚至低于交叉驗證過濾閾值)的蛋白,表明它可能學會了與抗噬菌體功能相關的更普遍的生化或進化特征。然而,單獨使用 ESMDF 時,仍會漏掉那些序列高度分化但上下文特征明顯的防御蛋白。
終極融合模型
前兩種方法各有強項,也各有短板,所以作者最終做了融合模型 GeneCLR。它先用對比學習把同一個基因的「序列視圖」和「上下文視圖」對齊:序列視圖來自預計算的 ESM-35M 表征,上下文視圖則來自鄰近基因及其相對位置。
![]()
圖 3:GeneCLRDF 整合蛋白質和基因組背景用于抗噬菌體防御預測。
在測試集上,GeneCLRDF 達到了 99% 的精度和 92% 的召回率,顯著優于單獨的 ESMDF 或防御得分。
更重要的是,它能夠識別出那些在訓練時尚未被發現、后來才被報道的新防御系統——在后續增加的 110 個系統中,75% 被 GeneCLRDF 正確預測。在三個典型的基因組區域(防御島、整合子、前噬菌體)中,GeneCLRDF 成功預測了大量未被 DefenseFinder 注釋的防御基因。
檢測細菌免疫的圖譜
將 GeneCLRDF 應用于 32,798 個細菌基因組,研究者預測出 239 萬個抗噬菌體蛋白(約占所有蛋白的1.5%,是傳統估計的三倍),涉及約 61.6 萬個蛋白家族。其中超過 85% 的蛋白家族從未被 DefenseFinder 或任何現有數據庫注釋過。
通過深度學習模型,該團隊系統性地描繪了細菌抗噬菌體防御的龐大「暗物質」圖譜。它表明,大多數細菌免疫的分子多樣性尚未被表征。團隊已經把這套 atlas 做成了可交互資源,并更新了 DefenseFinder 網站,供后續實驗跟進。對于細菌免疫研究來說,這更像是一次邊界重繪,而不是一次簡單的補注。
相關鏈接:https://phys.org/news/2026-04-ai-uncovers-hidden-immune-defenses.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.