![]()
撰文丨章臺(tái)柳
細(xì)菌通過(guò)多種機(jī)制抵御入侵的噬菌體和其他自私遺傳元件。這些抗噬菌體防御系統(tǒng)由蛋白質(zhì)或操縱子組成,能夠檢測(cè)噬菌體的入侵并觸發(fā)反應(yīng),從而干擾噬菌體生命周期的各個(gè)階段。迄今為止,已有超過(guò) 200 種抗噬菌體防御系統(tǒng)得到實(shí)驗(yàn)驗(yàn)證,其中數(shù)十種已被詳細(xì)表征,揭示出分子機(jī)制的驚人多樣性。 對(duì)抗噬菌體防御系統(tǒng)的研究也推動(dòng)了遺傳和基因組工程的進(jìn)步,例如限制 - 修飾系統(tǒng)和 CRISPR-Cas 系統(tǒng),識(shí)別新的 抗噬菌體防御系統(tǒng)可能會(huì)產(chǎn)生下一代精密分子工具。值得注意的是,最近的研究還表明,哺乳動(dòng)物先天免疫系統(tǒng)的許多組分與細(xì)菌中發(fā)揮抗噬菌體防御功能的蛋白質(zhì)同源,并很可能起源于這些蛋白質(zhì)。
防御系統(tǒng)發(fā)現(xiàn)的迅速擴(kuò)展最初是由基于以下觀察的計(jì)算方法推動(dòng)的:防御系統(tǒng)傾向于在細(xì)菌基因組中共定位,形成所謂的“防御島”。遵循“連坐法 ( guilt by as- sociation ) ”原則,經(jīng)常在已知抗噬菌體組分附近發(fā)現(xiàn)的蛋白質(zhì)家族被推測(cè)具有抗噬菌體作用。 目前已經(jīng)識(shí)別并驗(yàn)證了 5 9 個(gè)防御系統(tǒng) 。除了防御島之外,這些系統(tǒng)通常也嵌入在移動(dòng)遺傳元件中,例如前噬菌體及其衛(wèi)星,或整合到特定基因座如整合子中。一些系統(tǒng)與其他系統(tǒng)以復(fù)雜的基因組組織結(jié)構(gòu)嵌套在一起。所有這些觀察結(jié)果都已被用于發(fā)現(xiàn)抗噬菌體系統(tǒng)的方法中。
許多預(yù)測(cè)位于防御島中的基因仍未得到探索,正如一項(xiàng)研究所強(qiáng)調(diào)的,該研究預(yù)測(cè)了超過(guò) 7000 個(gè)在防御島中富集的蛋白質(zhì)家族。此外,即使在研究較為透徹的模式生物中,實(shí)驗(yàn)篩選仍在不斷揭示新的防御相關(guān)蛋白。總之,這些觀察結(jié)果表明,抗噬菌體防御系統(tǒng)的多樣性是巨大的,并且在很大程度上尚未被開(kāi)發(fā)。
近 日 , Science 雜 志上發(fā)表 2 篇 文章 ,報(bào)道了兩種利用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)預(yù)測(cè)抗噬菌體防御系統(tǒng)的方法,并驗(yàn)證了其中的預(yù)測(cè)準(zhǔn)確性。
![]()
其中一篇是 來(lái)自 MIT 的 Michael T. Laub 團(tuán)隊(duì) ,標(biāo)題是 DefensePredictor : A machine learning model to discover prokaryotic immune systems 。 為了構(gòu)建一個(gè)能夠?qū)Ψ烙到y(tǒng)進(jìn)行分類的機(jī)器學(xué)習(xí)模型,研究人員在約17,000個(gè)原核生物參考基因組集中,對(duì)已知防御基因和非防御基因的同源物進(jìn)行了標(biāo)注。利用蛋白質(zhì)語(yǔ)言模型 ESM2 ( Evolutionary Scale Model 2 ),為這些基因及其基因組中相鄰的四個(gè)蛋白編碼基因構(gòu)建了表征。隨后,訓(xùn)練了一個(gè)名為 DefensePredictor 的模型,基于這些表征來(lái)區(qū)分防御基因與非防御基因。該模型在計(jì)算機(jī)模擬( in silico )中表現(xiàn)出色,成功識(shí)別了在模型訓(xùn)練后才發(fā)現(xiàn)的 100 個(gè)防御系統(tǒng)中的 82 個(gè)。當(dāng)應(yīng)用于 69 個(gè)不同的大腸桿菌菌株時(shí), DefensePredictor 以高置信度判定了 624 種不同的蛋白質(zhì)為防御相關(guān)蛋白,其中包含 100 多種與已知防御蛋白沒(méi)有可檢測(cè)出的同源性的蛋白質(zhì)。盡管識(shí)別出的部分防御蛋白編碼在質(zhì)粒、原噬菌體和防御島中,但仍有近 50% 并非如此,這證明了 DefensePredictor 能夠在廣泛的基因組背景下識(shí)別系統(tǒng)。
為了實(shí)驗(yàn)驗(yàn)證 DefensePredictor 的準(zhǔn)確性 , 研究人員 將 94 個(gè)預(yù)測(cè)系統(tǒng)克隆到了一株敏感的大腸桿菌菌株中,并發(fā)現(xiàn)其中 42 個(gè)系統(tǒng)對(duì)測(cè)試的 24 種噬菌體中的至少一種具有防護(hù)作用。在這 42 個(gè)系統(tǒng)中鑒定出 15 個(gè)此前從未被證實(shí)具有防御功能的蛋白質(zhì)結(jié)構(gòu)域,這表明仍有新的免疫機(jī)制有待發(fā)現(xiàn)。最后,將預(yù)測(cè)范圍從大腸桿菌擴(kuò)大到 1000 個(gè)多樣化的原核基因組時(shí), 鑒定出 5000 多個(gè)預(yù)測(cè)的防御蛋白,它們并非已知防御蛋白的明確同源物。這一結(jié)果進(jìn)一步表明,還有許多防御機(jī)制尚未被表征。 同時(shí)表明,DefensePredictor是發(fā)現(xiàn)新型原核生物免疫系統(tǒng)的強(qiáng)大工具。目前研究人員已將該模型作為開(kāi)源工具發(fā)布,以促進(jìn)其在發(fā)現(xiàn)更多原核生物免疫系統(tǒng)方面的應(yīng)用。
![]()
另一篇是來(lái)自法國(guó)的 Aude Bernheim 團(tuán)隊(duì) ,標(biāo)題是 Protein and genomic language models uncover the unexplored diversity of bacterial immunity 。為了大規(guī)模預(yù)測(cè)抗噬菌體功能,研究人員開(kāi)發(fā)并微調(diào)了三種互補(bǔ)的深度學(xué)習(xí)模型。ALBERTDF ( 基于 ALBERT ; DF 代表 DefenseFinder ) 不依賴蛋白質(zhì)序列信息,而是通過(guò)局部的基因組背景(上下文)來(lái)推斷防御性;而 ESMDF (基于 ESM ,即進(jìn)化尺度模型)則利用蛋白質(zhì)語(yǔ)言模型來(lái)挖掘氨基酸序列特征。 GeneCLRDF (基于 CLR ,即視覺(jué)表征的對(duì)比學(xué)習(xí))將序列和基因組背景結(jié)合在一起,取得了最強(qiáng)的綜合性能,在精選的基準(zhǔn)數(shù)據(jù)集上達(dá)到了 99% 的精準(zhǔn)率和 92% 的召回率。這種極高的準(zhǔn)確性使得跨越細(xì)菌泛基因組的系統(tǒng)性預(yù)測(cè)成為可能,且超越了基于同源性的搜索。
為了測(cè)試預(yù)測(cè)的候選基因是否對(duì)應(yīng)真實(shí)的防御機(jī)制, 研究人員 在大腸桿菌和白產(chǎn)色鏈霉菌中對(duì)一部分預(yù)測(cè)結(jié)果進(jìn)行了實(shí)驗(yàn)驗(yàn)證。成功鑒定了 12 個(gè)此前從未被認(rèn)為與抗病毒防御相關(guān)的抗噬菌體系統(tǒng),這表明該框架能夠找回跨越系統(tǒng)發(fā)育樹(shù)上遠(yuǎn)緣細(xì)菌的真實(shí)防御系統(tǒng)。這些通過(guò)驗(yàn)證的系統(tǒng)包含多樣的結(jié)構(gòu)域架構(gòu),包括脫氧核糖核酸酶和肽酶,但也包括一些攜帶此前與抗噬菌體免疫毫無(wú)關(guān)聯(lián)的結(jié)構(gòu)域的蛋白質(zhì)。這表明這些模型捕捉到了超出已知防御機(jī)制和序列同源性的功能特征。
鑒于其極高的精準(zhǔn)率, 研究人員 將 GeneCLRDF 應(yīng)用于在泛基因組尺度上預(yù)測(cè)抗噬菌體庫(kù)。在超過(guò) 32,000 個(gè)細(xì)菌基因組中,估計(jì)典型細(xì)菌基因組中編碼的基因約有 1.5% 專門用于抗病毒防御,且超過(guò) 85% 預(yù)測(cè)的防御相關(guān)蛋白家族此前與免疫沒(méi)有關(guān)聯(lián)。模型總共預(yù)測(cè)了 239 萬(wàn)個(gè)抗噬菌體蛋白,其中很大一部分以單基因防御的形式存 在;而共同出現(xiàn)的預(yù)測(cè)基因定義了約 23,000 個(gè)操縱子家族,其中絕大多數(shù)此前同樣沒(méi)有被發(fā)現(xiàn)與抗病毒防御有關(guān)。
總的來(lái)說(shuō),這些預(yù)測(cè)描繪了一幅細(xì)菌抗病毒免疫的圖譜,揭示了一個(gè)比以往認(rèn)知中龐大得多、也更加多樣化的抗噬菌體世界。為了支持進(jìn)一步的探索和后續(xù)的實(shí)驗(yàn),該圖譜 已 公開(kāi)提供:
https://defensefinder.mdmlab.fr/wiki/refseq_predicted 。
https://www.science.org/doi/10.1126/science.adv7924
https://www.science.org/doi/10.1126/science.adv8275
制版人: 十一
學(xué)術(shù)合作組織
(*排名不分先后)
![]()
戰(zhàn)略合作伙伴
(*排名不分先后)
![]()
![]()
轉(zhuǎn)載須知
【原創(chuàng)文章】BioArt原創(chuàng)文章,歡迎個(gè)人轉(zhuǎn)發(fā)分享,未經(jīng)允許禁止轉(zhuǎn)載,所刊登的所有作品的著作權(quán)均為BioArt所擁有。BioArt保留所有法定權(quán)利,違者必究。
BioArt
Med
Plants
人才招聘
![]()
點(diǎn)擊主頁(yè)推薦活動(dòng)
關(guān)注更多最新活動(dòng)!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.