為蛋白質(zhì)宇宙編目——DIAMOND DeepClust實現(xiàn)190億序列的超快聚類

2026-03-26 12:56:27　來源: ScienceAI

河北舉報

分享至

編輯丨&

地球上的生命到底編碼了多少種蛋白質(zhì)？隨著測序技術(shù)的飛速發(fā)展，我們正以前所未有的速度積累著答案：目前已知的蛋白質(zhì)序列已超過 190 億條，而地球生物基因組計劃（Earth BioGenome Project）的目標(biāo)——對180萬個真核物種進(jìn)行測序——將把這個數(shù)字推至 270 億。

聚類——將相似的序列歸為一組——是建設(shè)有效組織的核心步驟。通過將相似序列歸入同一簇，可以構(gòu)建蛋白家族、提取進(jìn)化信息，并為結(jié)構(gòu)預(yù)測等任務(wù)提供關(guān)鍵輸入。但現(xiàn)有方法，如 CD-HIT 或 MMseqs2 ，在面對跨物種、低相似度的大規(guī)模數(shù)據(jù)時，要么速度無法承受，要么敏感性顯著下降，成為整個流程的計算瓶頸。

來自德國馬克思·普朗克研究所等的團(tuán)隊帶來了一個突破性的解決方案：DIAMOND DeepClust。它通過級聯(lián)聚類架構(gòu)、多節(jié)點并行和創(chuàng)新的線性模式，首次實現(xiàn)了在合理時間內(nèi)對 190 億條蛋白質(zhì)序列進(jìn)行敏感聚類，將數(shù)據(jù)壓縮至原來的 1/56，并在此過程中發(fā)現(xiàn)了超過 1 億個未被現(xiàn)有數(shù)據(jù)庫覆蓋的新蛋白質(zhì)家族。

相關(guān)研究以「Clustering the protein universe of life using DIAMOND DeepClust」為題，于 2026 年 3 月 24 日發(fā)布在《Nature Methods》。

論文鏈接：https://www.nature.com/articles/s41592-026-03030-z

如何重新定義「聚類」

論文提出的方法名為DIAMOND DeepClust，其本質(zhì)是一種級聯(lián)式（cascaded）的深度聚類算法，建立在高敏感蛋白比對工具 DIAMOND v2 之上。與傳統(tǒng)方法不同，它并不是簡單地做全局聚類，而是通過一個明確的計算流程來壓縮蛋白空間。

圖1：DIAMOND DeepClust、MMseqs2 和 FLSHclust 聚類性能的基準(zhǔn)測試。

算法首先基于序列比對構(gòu)建一個圖結(jié)構(gòu)，其中每個節(jié)點代表一個蛋白序列，邊表示滿足閾值的相似性關(guān)系。隨后，通過一種「代表序列機(jī)制」，將聚類問題轉(zhuǎn)化為尋找一組最小覆蓋節(jié)點集合，使每個序列都能被某個代表序列覆蓋。

團(tuán)隊利用雙向覆蓋標(biāo)準(zhǔn)對國家生物技術(shù)中心（NCBI）非冗余（NR）數(shù)據(jù)庫（含約 5.46 億條序列）進(jìn)行了聚類。DIAMOND DeepClust 在單臺 64 核心服務(wù)器上，在 19.0 小時內(nèi)解決了深度聚類問題，相較于 MMseqs2 快了 36 倍。

為了進(jìn)一步提升規(guī)模能力，DeepClust 引入了多項關(guān)鍵優(yōu)化，包括在種子搜索階段采用multiple spaced seeds 并通過真實比對數(shù)據(jù)學(xué)習(xí)其模式，在保證特異性的同時提升敏感性，并通過序列長度排序與覆蓋約束提前剪枝，大幅減少無效比對計算。此外，算法被設(shè)計為可在多節(jié)點環(huán)境下并行運(yùn)行，從而突破單機(jī)內(nèi)存與計算限制。

百萬到百億級的跨越

在實驗中，研究團(tuán)隊對約19億（去冗余后約19.4 billion）蛋白序列進(jìn)行了聚類分析，并在27個計算節(jié)點上完成整個計算流程，總計約25萬CPU小時。

圖 2：DIAMOND DeepClust 在現(xiàn)有數(shù)據(jù)庫中對蛋白質(zhì)群集的特征分析。

結(jié)果顯示，這些序列被組織為約17億個聚類，其中僅544百萬個非單元素簇就覆蓋了約94%的序列空間，表明蛋白宇宙可以被大幅壓縮為更小的代表集合。進(jìn)一步分析表明，僅約3.35億代表序列即可覆蓋92%的蛋白序列

在線性模式下，DIAMOND DeepClust 的線性模式運(yùn)行時間為 3.9 小時，計算速度可進(jìn)一步提升至百倍量級，同時仍維持可用的敏感性水平。

更重要的發(fā)現(xiàn)來自聚類結(jié)果本身。研究顯示，大規(guī)模聚類后可以識別出大量此前未被數(shù)據(jù)庫覆蓋的蛋白家族。例如，在與現(xiàn)有數(shù)據(jù)庫對比中，約有1.18 億個蛋白簇?zé)o法映射到已有資源，提示存在大量「未知蛋白空間」。

與此同時，這一聚類數(shù)據(jù)庫還可以直接提升結(jié)構(gòu)預(yù)測性能。當(dāng)將DeepClust生成的數(shù)據(jù)用于 AlphaFold2 的輸入時，可以為低覆蓋序列提供更豐富的進(jìn)化信息，從而改善預(yù)測質(zhì)量。這說明聚類不僅是壓縮工具，更是下游 AI 模型性能的關(guān)鍵基礎(chǔ)。

蛋白組學(xué)的「底層重建」

DeepClust 為未來打開了諸多可能。它能支持地球生物基因組計劃，促進(jìn) AI 驅(qū)動的結(jié)構(gòu)生物學(xué)，還可以催化比較基因組學(xué)。該算法通過對算法架構(gòu)、并行策略和計算資源進(jìn)行極致優(yōu)化，將已有技術(shù)的邊界推向了前所未有的遠(yuǎn)方。

DeepClust 提供的更大、更敏感的聚類數(shù)據(jù)庫，有望成為下一代結(jié)構(gòu)預(yù)測模型的「燃料」。當(dāng)數(shù)萬億條序列即將涌入科學(xué)家的硬盤時，這樣的工具正是當(dāng)下迫切需要的基礎(chǔ)設(shè)施。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.