![]()
編輯丨&
生命的所有信息都編碼在 DNA 中。盡管基因組測序、合成和編輯工具已徹底改變了生物學(xué)研究,但我們?nèi)匀蝗狈蚪M浩瀚復(fù)雜性的足夠理解——無法精準(zhǔn)預(yù)測大多數(shù)基因變化的后果,更無法智能地設(shè)計全新的生物系統(tǒng)。
但一切都可以從零開始。Arc 研究所、英偉達(dá)、斯坦福大學(xué)等機構(gòu)帶來了 Evo 2——一個在 9 萬億 DNA 堿基對上訓(xùn)練、覆蓋細(xì)菌、古菌、真核生物和噬菌體所有生命領(lǐng)域的基因組基礎(chǔ)模型。他們利用 Evo 2 設(shè)計了全基因組序列,其中包括一個受生殖單粒(M. genitalium)啟發(fā)的序列。
相關(guān)研究以「Genome modelling and design across all domains of life with Evo 2」為題,于 2026 年 3 月 4 日發(fā)布在《Nature》。
![]()
論文鏈接:https://www.nature.com/articles/s41586-026-10176-5
通用基因語言模型
基于其前身 Evo 1,Evo 2 完全基于單細(xì)胞基因組訓(xùn)練,Evo 2是迄今為止生物學(xué)領(lǐng)域最大的人工智能模型。除了擴(kuò)展的細(xì)菌、古菌和噬菌體基因組收藏外,Evo 2 還包括來自人類、植物及其他真核生物領(lǐng)域中單細(xì)胞和多細(xì)胞物種的信息。
當(dāng)下研究團(tuán)隊共訓(xùn)練了兩個版本的 Evo 2:一個較小版本,擁有 70 億參數(shù);一個更大版本,包含 400 億參數(shù)。這些數(shù)據(jù)均來自于 OpenGenome2 的新訓(xùn)練數(shù)據(jù)集,由經(jīng)過精心整理的非冗余核苷酸序列數(shù)據(jù)匯編而成,總共超過 8.8 萬億個核苷酸。
![]()
圖 1:Evo 2 的模型架構(gòu)、訓(xùn)練過程、數(shù)據(jù)集及評估概述。
在技術(shù)層面,Evo2 基于 StripedHyena 2 架構(gòu)。這一架構(gòu)融合了卷積與高效注意力機制,專門優(yōu)化超長序列建模能力。與經(jīng)典 Transformer 相比,該架構(gòu)在長序列建模上更具計算效率,使萬億級訓(xùn)練成為現(xiàn)實。
更重要的是,Evo2 并非為某一單一任務(wù)優(yōu)化,而是一個可遷移的基礎(chǔ)表示模型——下游任務(wù)僅需微調(diào)或零樣本推斷即可完成。通過計算序列的似然概率,Evo 2 可以零樣本預(yù)測突變對蛋白質(zhì)、RNA 乃至整個生物體適應(yīng)度的影響。而作為生成模型,Evo 2 可以根據(jù)給定提示,續(xù)寫出完整、自然的基因組序列,從線粒體到細(xì)菌染色體。
特征解讀
倘若想深入模型內(nèi)部,探究黑箱其中的秘密,研究團(tuán)隊同樣也準(zhǔn)備了工具——稀疏自編碼器(SAE)。它將模型的神經(jīng)元激活模式分解為稀疏、高維的表示,其中每個潛在維度往往呈現(xiàn)出人類可解釋的模式。
![]()
圖 2:Evo 2 的機制可解釋性揭示了 DNA、RNA、蛋白質(zhì)和生物體層面特征。
通過尋找包含特定注釋的序列片段中的特征并與已學(xué)習(xí)的 SAE 潛在維度、已知生物學(xué)概念匹配,團(tuán)隊成功發(fā)現(xiàn)了大腸桿菌有關(guān)特征、人類基因啟動子的激活、人類基因中外顯子和內(nèi)含子結(jié)構(gòu)密切相關(guān)的特征。這些發(fā)現(xiàn)證明,Evo 2 的內(nèi)部表示捕獲了從移動遺傳元件、調(diào)控基序到蛋白質(zhì)二級結(jié)構(gòu)的廣泛生物學(xué)信號。
變異、序列、進(jìn)化
鑒于 Evo 2 能夠?qū)W習(xí)中心法則三種模態(tài)(DNA、RNA 和蛋白質(zhì))以及生命的三個領(lǐng)域中的概然圖景,團(tuán)隊嘗試在多個維度對該模型進(jìn)行性能上的驗證。
- 人類變異效應(yīng)預(yù)測:這是 Evo 2 最亮眼的應(yīng)用之一。在評估中,對于非 SNV(插入、缺失、重復(fù)),Evo 2 40B 在所有方法中排名第一;對于非編碼區(qū) SNV,Evo 2 在無監(jiān)督模型中排名第一。
![]()
圖 3:Evo 2 實現(xiàn)了準(zhǔn)確的零射擊人類變異效應(yīng)預(yù)測。
- 基因組規(guī)模生成
- 線粒體基因組:Evo 2 能生成完整的 16kb 人類線粒體 DNA,包含正確的編碼序列數(shù)量、tRNA 和 rRNA 基因數(shù)量,并保持正確的共線性。
- 原核基因組:在生成生殖支原體基因組時,Evo 2生成的基因中近 70% 具有顯著 Pfam hit,遠(yuǎn)超 Evo 1 的 18%。
- 真核染色體:Evo 2 能生成酵母染色體III(約 330kb)規(guī)模的 DNA,包含 tRNA、啟動子和具有內(nèi)含子結(jié)構(gòu)的基因。
![]()
圖 4:跨生命領(lǐng)域的基因組尺度生成。
- 引導(dǎo)生成特定染色質(zhì)模式: 這是 Evo 2 最令人驚嘆的應(yīng)用。團(tuán)隊將 Evo 2 與染色質(zhì)可及性預(yù)測模型 Enformer和 Borzoi 結(jié)合,通過束搜索引導(dǎo)生成,使 Evo 2 能夠按需設(shè)計出特定位置和長度的染色質(zhì)開放區(qū)域。 他們甚至用這種技術(shù)在小鼠基因組中寫入了摩斯密碼消息("EVO2"、"ARC"、"LO"),并通過實驗驗證——將合成的DNA整合到小鼠胚胎干細(xì)胞中。
最大規(guī)模的開源生物基礎(chǔ)模型
Evo 2 團(tuán)隊秉持開放科學(xué)理念,發(fā)布了模型的 40B、7B、1B 版本,并給出了完整的 OpenGenome2 訓(xùn)練數(shù)據(jù)集。在生物安全方面,團(tuán)隊采取了負(fù)責(zé)任的設(shè)計:他們將感染人類及其他復(fù)雜生物的病原體排除在Evo 2的基礎(chǔ)數(shù)據(jù)集中,并確保模型不會對這些病原體的詢問提供有建設(shè)性答案。
雖然 Evo 2 生成的序列在計算機指標(biāo)上更“自然”,但這不保證序列在細(xì)胞中具有功能。基因組規(guī)模的設(shè)計還缺少一些必需基因,實驗測試需要大規(guī)模、迭代的努力。未來的方向一定是與大規(guī)模DNA合成技術(shù)結(jié)合、引入實驗反饋的強化學(xué)習(xí)。這些方向?qū)⑹?Evo 2 走向真正可編程的復(fù)雜生物系統(tǒng)設(shè)計。
相關(guān)報道:https://www.nature.com/articles/d41586-026-00681-y
https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.