網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌用上中國(guó)“神器”，AI+高質(zhì)量基因測(cè)序數(shù)據(jù)，讓基因變異無(wú)處隱藏

2026-05-12 12:24:14　來(lái)源: 生物世界

上海舉報(bào)

分享至

編輯丨王多魚(yú)

排版丨水成文

當(dāng)我們?cè)谡務(wù)?strong>人工智能（AI）如何變革基因組學(xué)時(shí)，討論的焦點(diǎn)往往集中在算法模型多么精妙、算力如何強(qiáng)大。但一場(chǎng)由Google Research團(tuán)隊(duì)舉辦的最新線上研討會(huì)，卻將聚光燈打向了一個(gè)更為基礎(chǔ)、卻常被忽視的要素——基因測(cè)序數(shù)據(jù)本身的質(zhì)量。

這場(chǎng)名為：Scaling Genomics with Higher Throughput and AI-Driven Variant Calling 的技術(shù)研討會(huì)，系統(tǒng)展示了 Google 開(kāi)發(fā)的一系列高性能 AI 變異檢測(cè)工具 DeepVariant、DeepConsensus、DeepSomatic 等的最新進(jìn)展。引人注目的是，當(dāng)這些頂尖AI工具遇上了來(lái)自華大智造/Complete Genomics的DNBSEQ平臺(tái)的高質(zhì)量數(shù)據(jù)，產(chǎn)生了“1+1>2”的卓越效果。

在進(jìn)一步解讀之前，我們先快速了解幾個(gè)關(guān)鍵指標(biāo)，方便理解后續(xù)數(shù)據(jù)：

Mean Identity（平均序列一致性）：簡(jiǎn)單來(lái)說(shuō)，就是測(cè)出來(lái)的 DNA 序列和真實(shí)基因組究竟有多像。這個(gè)數(shù)字越高，代表測(cè)序本身的原始錯(cuò)誤越少，數(shù)據(jù)越“干凈”。
Indel（插入缺失）：指? 1-50 bp?的小片段 DNA 的插入（Insertion）和缺失（Deletion），是基因變異的一種類(lèi)型，也是測(cè)序中容易出錯(cuò)的地方。
Homopolymer（同源聚合物）：像“AAAAAA”這樣一長(zhǎng)串相同堿基的區(qū)域，這里是所有測(cè)序技術(shù)的“噩夢(mèng)區(qū)”，極易出錯(cuò)。
False Negative（假陰性）：該檢出的變異實(shí)際未檢出，也就是漏檢。
False Positive（假陽(yáng)性）：沒(méi)有變異的位置檢出變異，也就是錯(cuò)檢。

明白了這些，讓我們看看這場(chǎng)研討會(huì)揭示了哪些關(guān)鍵洞察。

更優(yōu)質(zhì)的起點(diǎn)，更高的天花板

研討會(huì)上首先比較了不同測(cè)序平臺(tái)數(shù)據(jù)的Mean Identity（平均序列一致性）。結(jié)果顯示，在采用先進(jìn)的泛基因組圖（Pangenome Graph）進(jìn)行比對(duì)時(shí)，華大智造最新款超高通量測(cè)序儀 DNBSEQ-T7+ 的數(shù)據(jù)獲得了 0.995999 的平均序列一致性，優(yōu)于另一主流平臺(tái) Illumina NovaSeq 的 0.993489。

平均序列一致性比較

如果把 AI 模型比作一位學(xué)生，那么測(cè)序數(shù)據(jù)就是它的教材。教材本身錯(cuò)誤越少（數(shù)據(jù)越干凈），學(xué)生（AI 模型）就越不容易被誤導(dǎo)，從而能學(xué)到更準(zhǔn)確的知識(shí)，最終在“考試”（變異檢測(cè)）中取得更可信的成績(jī)。DNBSEQ 平臺(tái)提供了更優(yōu)質(zhì)的“教材”，通過(guò)更優(yōu)質(zhì)的起點(diǎn)，為后續(xù) AI 分析奠定了更高的天花板。

專(zhuān)屬訓(xùn)練模型，錯(cuò)誤率顯著降低

Google Research 團(tuán)隊(duì)還做了一次深入實(shí)驗(yàn)：他們不再使用通用模型，而是使用高質(zhì)量的 DNBSEQ-T7+ 數(shù)據(jù)，為 DeepVariant 訓(xùn)練了一個(gè) DNBSEQ 專(zhuān)屬模型——DeepVariant DNBSEQ-specific。

這個(gè)模型的訓(xùn)練集采用了 GIAB（Genome in a Bottle）標(biāo)準(zhǔn)品（HG001、HG002、HG004、HG005-HG007），并特意將 HG003 樣本和第 20 號(hào)染色體（chr20）的數(shù)據(jù)“扣下”，作為從未見(jiàn)過(guò)的“考試題”來(lái)驗(yàn)證模型效果。

結(jié)果令人印象深刻：在 HG003 樣本上，DNBSEQ 專(zhuān)屬模型產(chǎn)生的假陽(yáng)性和假陰性錯(cuò)誤位點(diǎn)總數(shù)（14183個(gè)），顯著少于基于 NovaSeq 數(shù)據(jù)訓(xùn)練的模型（15481 個(gè)）。

使用NIST v4.2.1版本變異真集評(píng)估（DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN）

為了進(jìn)行更嚴(yán)苛的評(píng)估，團(tuán)隊(duì)還請(qǐng)出了最新的“終極考官”——HG002 樣本的 T2T（端粒到端粒）完整基因組變異真集。這個(gè)真集包含超過(guò) 450 萬(wàn)個(gè)變異位點(diǎn)，遠(yuǎn)超舊版本，能更全面地檢驗(yàn)性能。

在這個(gè)終極測(cè)試中，優(yōu)勢(shì)進(jìn)一步拉大：DNBSEQ-T7+ DeepVariant 的總錯(cuò)誤位點(diǎn)為 64116 個(gè)，顯著優(yōu)于 NovaSeq + DRAGEN v4.3 的 71854個(gè)，也優(yōu)于 NovaSeq + DeepVariant 的 73213 個(gè)。

使用NIST HG002 T2T版本變異真集評(píng)估 DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN vs. NovaSeq+DeepVariant

結(jié)論很直接：同樣的頂尖 AI 工具 DeepVariant，使用來(lái)自不同平臺(tái)的測(cè)序數(shù)據(jù)訓(xùn)練，產(chǎn)出的“模型成品”質(zhì)量有顯著差異。DNBSEQ 平臺(tái)數(shù)據(jù)訓(xùn)練出的模型質(zhì)量更高，變異結(jié)果中假陽(yáng)性和假陰性位點(diǎn)數(shù)量更少。

攻堅(jiān)“困難區(qū)域”，表現(xiàn)依然卓越

真正的挑戰(zhàn)在于那些讓所有技術(shù)都頭疼的“困難區(qū)域”。研討會(huì)分享的數(shù)據(jù)顯示，在這些區(qū)域，基于 DNBSEQ 的優(yōu)勢(shì)更加明顯：

同源聚合物區(qū)：在所有同源聚合物區(qū)，DNBSEQ + DeepVariant 的 Indel 檢測(cè)準(zhǔn)確率比 NovaSeq + DRAGEN 提升了約 55%。這意味著在那些連續(xù) A 或連續(xù) T 的困難區(qū)域，DNBSEQ 能更準(zhǔn)確地判斷是否發(fā)生了堿基的插入或缺失。

同源聚合物區(qū)Indel變異檢測(cè)錯(cuò)誤的比較（DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN）

復(fù)雜結(jié)構(gòu)變異區(qū)：在片段重復(fù)（Segmental Duplication）和復(fù)雜拷貝數(shù)變異（CNV）區(qū)，DNBSEQ + DeepVariant 的錯(cuò)誤位點(diǎn)數(shù)量比 NovaSeq + DRAGEN 減少了約 30%。

復(fù)雜結(jié)構(gòu)變異區(qū)域檢測(cè)錯(cuò)誤的比較（DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN）

其原因在于，兩者的測(cè)序化學(xué)原理（DNA 納米球與聯(lián)合探針錨定聚合 vs. 可逆末端終止）不同，使得 DNBSEQ 在這些特定區(qū)域的背景錯(cuò)誤率天然更低，從而為 AI 模型提供了更清晰的“信號(hào)”、帶來(lái)了更優(yōu)的變異檢測(cè)性能。

平臺(tái)間一致性高，表現(xiàn)穩(wěn)定

研討會(huì)還評(píng)估了華大智造于 2025 年新發(fā)布的另一款平臺(tái)DNBSEQ-T1+，相比主打高通量的 DNBSEQ-T7+，DNBSEQ-T1+ 主打靈活性。結(jié)果顯示，無(wú)論是更高通量的 T7+，還是更靈活的 T1+，其數(shù)據(jù)訓(xùn)練出的模型在變異檢測(cè)性能上均保持一致的高水平，且都優(yōu)于對(duì)比方案。

使用NIST HG002 T2T版本變異真集評(píng)估（DNBSEQ-T1plus+DeepVariant vs. NovaSeq+DRAGEN 4.5）

這意味著，DNBSEQ 平臺(tái)在不同型號(hào)和通量下，都能提供穩(wěn)定、可靠的高質(zhì)量數(shù)據(jù)，滿(mǎn)足從大規(guī)模種群項(xiàng)目到小型快速研究的不同需求，而無(wú)需擔(dān)心數(shù)據(jù)質(zhì)量波動(dòng)影響分析結(jié)果。

重新定義性能邊界，數(shù)據(jù)質(zhì)量是基石

這場(chǎng)研討會(huì)傳達(dá)了一個(gè)明確而重要的信號(hào)——在泛基因組參考圖譜和人工智能這兩大前沿技術(shù)的推動(dòng)下，基因組變異檢測(cè)的性能邊界正在被不斷刷新。然而，無(wú)論上層的算法如何演進(jìn)，底層測(cè)序數(shù)據(jù)的質(zhì)量，始終是決定最終分析高度的基石。

Google Research 此次系統(tǒng)性的評(píng)估表明，DNBSEQ 測(cè)序平臺(tái)所提供的高準(zhǔn)確性、低錯(cuò)誤率的數(shù)據(jù)，能夠顯著提升以 DeepVariant 為代表的 AI 變異檢測(cè)工具的性能，尤其是在最富挑戰(zhàn)性的基因組區(qū)域。這為追求最高數(shù)據(jù)質(zhì)量和分析精準(zhǔn)度的基因組學(xué)研究者，提供了一個(gè)強(qiáng)有力的技術(shù)組合選擇。

這些評(píng)估結(jié)果提示我們，AI 在基因組學(xué)領(lǐng)域的競(jìng)賽，不僅發(fā)生在算法和算力層面，更發(fā)生在數(shù)據(jù)產(chǎn)生的源頭。當(dāng) AI 模型擁有了更清澈的“眼睛”，它才能為我們看清生命密碼中更細(xì)微、更真實(shí)的奧秘。

值得一提的是，Google Research團(tuán)隊(duì)聯(lián)合華大智造及中國(guó)科學(xué)院大學(xué)的研究人員，在預(yù)印本平臺(tái)bioRxiv發(fā)表了題為：PanVariants: Best Practice for Pangenome-based Variant Calling Pipeline and Framework 的研究論文。

該研究建立了一個(gè)基于泛基因組的變異檢測(cè)的穩(wěn)健框架和最佳實(shí)踐流程——PanVariants，實(shí)現(xiàn)了對(duì)新變異的靈敏發(fā)現(xiàn)以及單核苷酸變異（SNV）、插入缺失（indel）和結(jié)構(gòu)變異（SV）的高精度檢測(cè)，有力支持了未來(lái)基因組學(xué)從線性向泛基因組參考的轉(zhuǎn)變。

DNBSEQ+PanVariants 實(shí)現(xiàn)了對(duì) NovaSeq+DRAGEN 的變異檢測(cè)性能的超越

論文鏈接：

https://doi.org/10.64898/2026.04.22.720142

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.