![]()
編輯丨&
地球上的生命到底編碼了多少種蛋白質(zhì)?隨著測序技術(shù)的飛速發(fā)展,我們正以前所未有的速度積累著答案:目前已知的蛋白質(zhì)序列已超過 190 億條,而地球生物基因組計劃(Earth BioGenome Project)的目標(biāo)——對180萬個真核物種進(jìn)行測序——將把這個數(shù)字推至 270 億。
聚類——將相似的序列歸為一組——是建設(shè)有效組織的核心步驟。通過將相似序列歸入同一簇,可以構(gòu)建蛋白家族、提取進(jìn)化信息,并為結(jié)構(gòu)預(yù)測等任務(wù)提供關(guān)鍵輸入。但現(xiàn)有方法,如 CD-HIT 或 MMseqs2 ,在面對跨物種、低相似度的大規(guī)模數(shù)據(jù)時,要么速度無法承受,要么敏感性顯著下降,成為整個流程的計算瓶頸。
來自德國馬克思·普朗克研究所等的團(tuán)隊帶來了一個突破性的解決方案:DIAMOND DeepClust。它通過級聯(lián)聚類架構(gòu)、多節(jié)點并行和創(chuàng)新的線性模式,首次實現(xiàn)了在合理時間內(nèi)對 190 億條蛋白質(zhì)序列進(jìn)行敏感聚類,將數(shù)據(jù)壓縮至原來的 1/56,并在此過程中發(fā)現(xiàn)了超過 1 億個未被現(xiàn)有數(shù)據(jù)庫覆蓋的新蛋白質(zhì)家族。
相關(guān)研究以「Clustering the protein universe of life using DIAMOND DeepClust」為題,于 2026 年 3 月 24 日發(fā)布在《Nature Methods》。
![]()
論文鏈接:https://www.nature.com/articles/s41592-026-03030-z
如何重新定義「聚類」
論文提出的方法名為DIAMOND DeepClust,其本質(zhì)是一種級聯(lián)式(cascaded)的深度聚類算法,建立在高敏感蛋白比對工具 DIAMOND v2 之上。與傳統(tǒng)方法不同,它并不是簡單地做全局聚類,而是通過一個明確的計算流程來壓縮蛋白空間。
![]()
圖1:DIAMOND DeepClust、MMseqs2 和 FLSHclust 聚類性能的基準(zhǔn)測試。
算法首先基于序列比對構(gòu)建一個圖結(jié)構(gòu),其中每個節(jié)點代表一個蛋白序列,邊表示滿足閾值的相似性關(guān)系。隨后,通過一種「代表序列機(jī)制」,將聚類問題轉(zhuǎn)化為尋找一組最小覆蓋節(jié)點集合,使每個序列都能被某個代表序列覆蓋。
團(tuán)隊利用雙向覆蓋標(biāo)準(zhǔn)對國家生物技術(shù)中心(NCBI)非冗余(NR)數(shù)據(jù)庫(含約 5.46 億條序列)進(jìn)行了聚類。DIAMOND DeepClust 在單臺 64 核心服務(wù)器上,在 19.0 小時內(nèi)解決了深度聚類問題,相較于 MMseqs2 快了 36 倍。
為了進(jìn)一步提升規(guī)模能力,DeepClust 引入了多項關(guān)鍵優(yōu)化,包括在種子搜索階段采用multiple spaced seeds 并通過真實比對數(shù)據(jù)學(xué)習(xí)其模式,在保證特異性的同時提升敏感性,并通過序列長度排序與覆蓋約束提前剪枝,大幅減少無效比對計算 。此外,算法被設(shè)計為可在多節(jié)點環(huán)境下并行運(yùn)行,從而突破單機(jī)內(nèi)存與計算限制。
百萬到百億級的跨越
在實驗中,研究團(tuán)隊對約19億(去冗余后約19.4 billion)蛋白序列進(jìn)行了聚類分析,并在27個計算節(jié)點上完成整個計算流程,總計約25萬CPU小時。
![]()
圖 2:DIAMOND DeepClust 在現(xiàn)有數(shù)據(jù)庫中對蛋白質(zhì)群集的特征分析。
結(jié)果顯示,這些序列被組織為約17億個聚類,其中僅544百萬個非單元素簇就覆蓋了約94%的序列空間,表明蛋白宇宙可以被大幅壓縮為更小的代表集合 。進(jìn)一步分析表明,僅約3.35億代表序列即可覆蓋92%的蛋白序列
團(tuán)隊利用雙向覆蓋標(biāo)準(zhǔn)對國家生物技術(shù)中心(NCBI)非冗余(NR)數(shù)據(jù)庫(含約 5.46 億條序列)進(jìn)行了聚類。DIAMOND DeepClust 在單臺 64 核心服務(wù)器上,在 19.0 小時內(nèi)解決了深度聚類問題,相較于 MMseqs2 快了 36 倍。
在線性模式下,DIAMOND DeepClust 的線性模式運(yùn)行時間為 3.9 小時,計算速度可進(jìn)一步提升至百倍量級,同時仍維持可用的敏感性水平。
更重要的發(fā)現(xiàn)來自聚類結(jié)果本身。研究顯示,大規(guī)模聚類后可以識別出大量此前未被數(shù)據(jù)庫覆蓋的蛋白家族。例如,在與現(xiàn)有數(shù)據(jù)庫對比中,約有1.18 億個蛋白簇?zé)o法映射到已有資源,提示存在大量「未知蛋白空間」。
與此同時,這一聚類數(shù)據(jù)庫還可以直接提升結(jié)構(gòu)預(yù)測性能。當(dāng)將DeepClust生成的數(shù)據(jù)用于 AlphaFold2 的輸入時,可以為低覆蓋序列提供更豐富的進(jìn)化信息,從而改善預(yù)測質(zhì)量 。這說明聚類不僅是壓縮工具,更是下游 AI 模型性能的關(guān)鍵基礎(chǔ)。
蛋白組學(xué)的「底層重建」
DeepClust 為未來打開了諸多可能。它能支持地球生物基因組計劃,促進(jìn) AI 驅(qū)動的結(jié)構(gòu)生物學(xué),還可以催化比較基因組學(xué)。該算法通過對算法架構(gòu)、并行策略和計算資源進(jìn)行極致優(yōu)化,將已有技術(shù)的邊界推向了前所未有的遠(yuǎn)方。
DeepClust 提供的更大、更敏感的聚類數(shù)據(jù)庫,有望成為下一代結(jié)構(gòu)預(yù)測模型的「燃料」。當(dāng)數(shù)萬億條序列即將涌入科學(xué)家的硬盤時,這樣的工具正是當(dāng)下迫切需要的基礎(chǔ)設(shè)施。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.