![]()
編輯丨&
人類基因表達(dá)調(diào)控研究中,啟動子(promoter)一直處在一個微妙的位置:它們在功能上至關(guān)重要,但在方法上卻長期被「簡化處理」。傳統(tǒng)模型往往依賴表觀組信號(如染色質(zhì)開放性、組蛋白修飾)來推斷啟動子活性,本質(zhì)上捕捉的是相關(guān)性而非序列層面的因果規(guī)則。
這導(dǎo)致一個根本問題始終懸而未決:如果只給 DNA 序列本身,研究者是否真的能預(yù)測啟動子的轉(zhuǎn)錄驅(qū)動能力?
來自荷蘭 Oncode 研究所等的研究者們提出了一種名為PARM(Promoter Activity Regression Model)的深度學(xué)習(xí)框架。該模型在實驗和計算上都很輕量,因此可以生成針對細(xì)胞類型和條件的模型,僅憑DNA序列就能可靠預(yù)測基因組中的自主啟動子活性。
相關(guān)研究內(nèi)容以「Regulatory grammar in human promoters uncovered by MPRA-based deep learning」為題,于 2026 年 2 月 4 日刊登在《Nature》。
![]()
論文鏈接:https://www.nature.com/articles/s41586-025-10093-z
MPRA × 深度學(xué)習(xí)
PARM 的技術(shù)路線并不復(fù)雜,但非常「克制」。研究的基礎(chǔ)數(shù)據(jù)來自大規(guī)模MPRA(大規(guī)模平行報告基因?qū)嶒灒?/strong>:研究團(tuán)隊系統(tǒng)性地合成并測試了超過 1000 萬條啟動子及其變體序列,在統(tǒng)一實驗條件下測量其轉(zhuǎn)錄活性。
這些數(shù)據(jù)的關(guān)鍵價值在于兩點:第一,MPRA 將序列與表達(dá)輸出直接綁定,天然具有因果屬性;第二,規(guī)模足夠大,允許模型學(xué)習(xí)到超越單一 motif 的高階調(diào)控模式。
在模型設(shè)計上,PARM 采用的是結(jié)構(gòu)相對簡潔的一維卷積神經(jīng)網(wǎng)絡(luò)(CNN),參數(shù)量控制在約 72 萬,遠(yuǎn)低于當(dāng)前主流的基因調(diào)控大模型。研究團(tuán)隊明確強(qiáng)調(diào),他們的目標(biāo)并非「參數(shù)規(guī)模競賽」,而是驗證:高質(zhì)量因果數(shù)據(jù)是否足以支撐高精度啟動子建模。
![]()
圖 1:PARM 原理及驗證。
通過該平臺,數(shù)據(jù)生成和計算建模的成本都有所降低,這一進(jìn)展使研究團(tuán)隊能夠構(gòu)建十種不同細(xì)胞類型中所有人類啟動子的序列到活性模型,并在細(xì)胞暴露于多種刺激后進(jìn)行。
功能與驗證
在多個獨立測試集上,PARM 對啟動子活性的預(yù)測與實驗測量結(jié)果之間的相關(guān)系數(shù)最高可達(dá)R ≈ 0.9。這一性能并非是訓(xùn)練集的功勞,而是建立在未見過的天然人類啟動子序列、合成啟動子、含有系統(tǒng)性突變的序列庫之上,該模型在多種場景驗證下,均保持了相當(dāng)不錯的穩(wěn)定性。
![]()
圖 2:PARM 的單核苷酸功能預(yù)測。
團(tuán)隊主要采用的是基于捕獲的策略,創(chuàng)建了對人類基因組文庫中啟動子重疊片段高度富集(90%)的新 MPRA 文庫。這一思考建立在團(tuán)隊僅使用啟動子重疊片段的數(shù)據(jù)來訓(xùn)練 PARM 的推論之上。
一個文庫包含 400 萬個足夠代表的獨特片段,約比全基因組文庫少 600 倍。后續(xù)的所有實驗均采用該文庫作為實驗來源。當(dāng)應(yīng)用于 K562 和 HepG2 細(xì)胞時,PARM 的啟動子活性和整體預(yù)測力均與全基因組 MPRA 數(shù)據(jù)相當(dāng)。
當(dāng)研究者將 PARM 與依賴 ATAC-seq、ChIP-seq 等表觀組輸入的模型進(jìn)行比較時發(fā)現(xiàn):在啟動子層面,純序列模型已經(jīng)可以達(dá)到相當(dāng)、甚至更穩(wěn)定的預(yù)測能力。
![]()
圖 3:RS的明顯優(yōu)先定位。
此外,模型還揭示了激活型與抑制型調(diào)控元件在空間分布上的系統(tǒng)性差異,這些規(guī)律并未完整記錄在現(xiàn)有注釋數(shù)據(jù)庫中。在此基礎(chǔ)上,研究團(tuán)隊進(jìn)一步測試了 PARM 的生成能力。他們利用模型進(jìn)行序列優(yōu)化,生成了一批并不存在于人類基因組中的合成啟動子。
去表觀組依賴
PARM 補充了其他深度學(xué)習(xí)方法,可用于建模增強(qiáng)子元素的語法或設(shè)計人工啟動子。它證明了在小型功能基因組數(shù)據(jù)集上訓(xùn)練的輕量級模型,是大規(guī)模建模工作的可行且強(qiáng)大的替代方案。
未來的優(yōu)化中,進(jìn)一步優(yōu)化聚焦的MPRA庫和深度學(xué)習(xí)方法論,可能會提升性能。團(tuán)隊強(qiáng)調(diào),PARM應(yīng)被視為一種還原主義模型,能夠洞察啟動子的基本特性。這為后續(xù)研究留下了一個明確方向——不是一味擴(kuò)大模型規(guī)模,而是思考:哪些生物學(xué)層級,真的需要多模態(tài);哪些層級,序列本身已經(jīng)包含足夠信息?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.