千萬級 MPRA 數(shù)據(jù)訓(xùn)練深度模型，系統(tǒng)性解碼人類啟動子的調(diào)控語法

2026-02-10 14:10:11　來源: ScienceAI

河北舉報

分享至

編輯丨&

人類基因表達(dá)調(diào)控研究中，啟動子（promoter）一直處在一個微妙的位置：它們在功能上至關(guān)重要，但在方法上卻長期被「簡化處理」。傳統(tǒng)模型往往依賴表觀組信號（如染色質(zhì)開放性、組蛋白修飾）來推斷啟動子活性，本質(zhì)上捕捉的是相關(guān)性而非序列層面的因果規(guī)則。

這導(dǎo)致一個根本問題始終懸而未決：如果只給 DNA 序列本身，研究者是否真的能預(yù)測啟動子的轉(zhuǎn)錄驅(qū)動能力？

來自荷蘭 Oncode 研究所等的研究者們提出了一種名為PARM（Promoter Activity Regression Model）的深度學(xué)習(xí)框架。該模型在實驗和計算上都很輕量，因此可以生成針對細(xì)胞類型和條件的模型，僅憑DNA序列就能可靠預(yù)測基因組中的自主啟動子活性。

相關(guān)研究內(nèi)容以「Regulatory grammar in human promoters uncovered by MPRA-based deep learning」為題，于 2026 年 2 月 4 日刊登在《Nature》。

論文鏈接：https://www.nature.com/articles/s41586-025-10093-z

MPRA × 深度學(xué)習(xí)

PARM 的技術(shù)路線并不復(fù)雜，但非常「克制」。研究的基礎(chǔ)數(shù)據(jù)來自大規(guī)模MPRA（大規(guī)模平行報告基因?qū)嶒灒?/strong>：研究團(tuán)隊系統(tǒng)性地合成并測試了超過 1000 萬條啟動子及其變體序列，在統(tǒng)一實驗條件下測量其轉(zhuǎn)錄活性。

這些數(shù)據(jù)的關(guān)鍵價值在于兩點：第一，MPRA 將序列與表達(dá)輸出直接綁定，天然具有因果屬性；第二，規(guī)模足夠大，允許模型學(xué)習(xí)到超越單一 motif 的高階調(diào)控模式。

在模型設(shè)計上，PARM 采用的是結(jié)構(gòu)相對簡潔的一維卷積神經(jīng)網(wǎng)絡(luò)（CNN），參數(shù)量控制在約 72 萬，遠(yuǎn)低于當(dāng)前主流的基因調(diào)控大模型。研究團(tuán)隊明確強(qiáng)調(diào)，他們的目標(biāo)并非「參數(shù)規(guī)模競賽」，而是驗證：高質(zhì)量因果數(shù)據(jù)是否足以支撐高精度啟動子建模。

圖 1：PARM 原理及驗證。

通過該平臺，數(shù)據(jù)生成和計算建模的成本都有所降低，這一進(jìn)展使研究團(tuán)隊能夠構(gòu)建十種不同細(xì)胞類型中所有人類啟動子的序列到活性模型，并在細(xì)胞暴露于多種刺激后進(jìn)行。

功能與驗證

在多個獨立測試集上，PARM 對啟動子活性的預(yù)測與實驗測量結(jié)果之間的相關(guān)系數(shù)最高可達(dá)R ≈ 0.9。這一性能并非是訓(xùn)練集的功勞，而是建立在未見過的天然人類啟動子序列、合成啟動子、含有系統(tǒng)性突變的序列庫之上，該模型在多種場景驗證下，均保持了相當(dāng)不錯的穩(wěn)定性。

圖 2：PARM 的單核苷酸功能預(yù)測。

團(tuán)隊主要采用的是基于捕獲的策略，創(chuàng)建了對人類基因組文庫中啟動子重疊片段高度富集（90%）的新 MPRA 文庫。這一思考建立在團(tuán)隊僅使用啟動子重疊片段的數(shù)據(jù)來訓(xùn)練 PARM 的推論之上。

一個文庫包含 400 萬個足夠代表的獨特片段，約比全基因組文庫少 600 倍。后續(xù)的所有實驗均采用該文庫作為實驗來源。當(dāng)應(yīng)用于 K562 和 HepG2 細(xì)胞時，PARM 的啟動子活性和整體預(yù)測力均與全基因組 MPRA 數(shù)據(jù)相當(dāng)。

當(dāng)研究者將 PARM 與依賴 ATAC-seq、ChIP-seq 等表觀組輸入的模型進(jìn)行比較時發(fā)現(xiàn)：在啟動子層面，純序列模型已經(jīng)可以達(dá)到相當(dāng)、甚至更穩(wěn)定的預(yù)測能力。

圖 3：RS的明顯優(yōu)先定位。

此外，模型還揭示了激活型與抑制型調(diào)控元件在空間分布上的系統(tǒng)性差異，這些規(guī)律并未完整記錄在現(xiàn)有注釋數(shù)據(jù)庫中。在此基礎(chǔ)上，研究團(tuán)隊進(jìn)一步測試了 PARM 的生成能力。他們利用模型進(jìn)行序列優(yōu)化，生成了一批并不存在于人類基因組中的合成啟動子。

去表觀組依賴

PARM 補充了其他深度學(xué)習(xí)方法，可用于建模增強(qiáng)子元素的語法或設(shè)計人工啟動子。它證明了在小型功能基因組數(shù)據(jù)集上訓(xùn)練的輕量級模型，是大規(guī)模建模工作的可行且強(qiáng)大的替代方案。

未來的優(yōu)化中，進(jìn)一步優(yōu)化聚焦的MPRA庫和深度學(xué)習(xí)方法論，可能會提升性能。團(tuán)隊強(qiáng)調(diào)，PARM應(yīng)被視為一種還原主義模型，能夠洞察啟動子的基本特性。這為后續(xù)研究留下了一個明確方向——不是一味擴(kuò)大模型規(guī)模，而是思考：哪些生物學(xué)層級，真的需要多模態(tài)；哪些層級，序列本身已經(jīng)包含足夠信息？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點推薦

滿嘴“基本盤”，不過是“盤中餐”

團(tuán)結(jié)湖參考 2026-05-21 08:05:21
26419 跟貼 26419

海南一兒童吃手撕肉干碎渣掉地上，螞蟻群啃食后短時間內(nèi)集體死亡，“零食配料中有亞硝酸鈉對螞蟻來說超量”

大象新聞 2026-05-20 20:46:05
672 跟貼 672

桂林一米粉店"本地人7元游客13元" 官方回應(yīng)來了

看看新聞Knews 2026-05-21 10:55:25
384 跟貼 384

特斯拉官宣監(jiān)督版FSD登陸中國

界面新聞 2026-05-21 09:32:00
121 跟貼 121

廣東茂名一段“荔枝在水池中加工”視頻引熱議，網(wǎng)友擔(dān)憂是在“浸泡藥水”，專家回應(yīng)：浸泡冰水是荔枝采后預(yù)冷的正常操作，并非化學(xué)處理

紅網(wǎng) 2026-05-21 10:40:00
1165 跟貼 1165

女子在高鐵靜音車廂連打20分鐘電話乘客：乘務(wù)員一直舉牌勸阻卻被忽視

封面新聞 2026-05-21 12:12:47
8 跟貼 8

剛剛！深圳福田初中生登頂珠穆朗瑪峰，成為中國最年輕登頂者

南方都市報 2026-05-21 07:42:29
909 跟貼 909

極目調(diào)查丨50余畝大蒜歉收疑云：22家農(nóng)戶使用同款菌肥，最高減產(chǎn)率達(dá)94%，經(jīng)銷商找廠家討說法反被毆

極目新聞 2026-05-21 18:33:42
22 跟貼 22

利好突襲！剛剛，暴漲20%！34萬億巨頭，大消息

證券時報 2026-05-21 14:52:12
47 跟貼 47

NBA | 哈騰夾臂扯發(fā)引爭議，亞歷山大：他是我們的脊梁

澎湃新聞 2026-05-21 14:36:32
94 跟貼 94

小學(xué)網(wǎng)購45把雨傘全損退貨記者采訪門衛(wèi)稱領(lǐng)導(dǎo)都不在

大風(fēng)新聞 2026-05-21 14:18:05
710 跟貼 710

以軍攔截“全球堅韌船隊”畫面公布，愛爾蘭總統(tǒng)的妹妹遭以軍扣留，愛爾蘭總統(tǒng)：我很擔(dān)心她，全球多地抗議以軍行徑

每日經(jīng)濟(jì)新聞 2026-05-21 11:17:36
9 跟貼 9

俄戰(zhàn)機(jī)危險攔截英偵察機(jī) 最近僅6米

新京報 2026-05-21 11:26:04
804 跟貼 804

兩部門：禁止直接或間接從菲律賓輸入豬、野豬及其相關(guān)產(chǎn)品

新京報 2026-05-21 16:29:13
64 跟貼 64

商務(wù)部回應(yīng)中國采購美國農(nóng)產(chǎn)品問題

央視新聞客戶端 2026-05-21 15:21:10
58 跟貼 58

國家電投集團(tuán)科學(xué)技術(shù)研究院發(fā)布聲明：上海交大處分學(xué)生樊同學(xué)和該院董事長無親屬關(guān)系

現(xiàn)代快報 2026-05-21 14:59:41
0 跟貼 0

滬指跌逾1% 下跌個股近4300只

財聯(lián)社 2026-05-21 14:24:07
1365 跟貼 1365

瑞幸咖啡酒精特調(diào)上架初中生輕松買到

界面新聞 2026-05-19 22:04:05
361 跟貼 361

涉柳州地震，這些信息是謠言（2026·05·21）

今日辟謠 2026-05-21 18:38:26
68 跟貼 68

再獲國際殊榮！郎朗獲授劍橋大學(xué)榮譽院士

現(xiàn)代快報 2026-05-21 11:08:17
182 跟貼 182

河南一景區(qū)現(xiàn)“爬不動了吧哈哈哈哈”標(biāo)語，游客感覺不被尊重，景區(qū)：已撤除，本意是緩解爬山壓力

極目新聞 2026-05-19 14:48:26
0 跟貼 0

突發(fā) | 河南一路口車輛相撞又撞民房引發(fā)火情！多方回應(yīng)！

天津廣播 2026-05-21 23:13:28
0 跟貼 0

突發(fā)！武漢懷孕32周女子江邊失聯(lián)6天，丈夫注銷賬號疑情緒失控

九方魚論 2026-05-21 23:14:42
0 跟貼 0

日本91歲退役老兵放言：若有機(jī)會要繼續(xù)侵略中國，說出三個原因
抽象派大師
2026-05-20 01:33:40

影后視后都在追《主角》！柯藍(lán)夸孫浩該得金獎，觀眾入戲集集飆淚
露珠聊影視
2026-05-21 18:59:50

連續(xù)19天，太陽異乎尋常地向宇宙輸出了一個強(qiáng)烈信號
星空天文
2026-05-20 08:00:57

建國后，被問當(dāng)年為何沒殺掉毛主席，趙恒惕苦笑：他的能量太大了
談古論今歷史有道
2026-05-21 08:10:03

新華網(wǎng)評多位知名教授被舉報論文造假：領(lǐng)軍者失守一寸，跟隨者便可能潰退一丈
澎湃新聞
2026-05-21 19:36:18

WNBA：李月汝末節(jié)稱霸，全場最高+18，戰(zhàn)勝舊主
體娛荒原
2026-05-21 12:14:25

“日本民航將不能過境中國”？誰在給日本民粹右翼遞彈藥
觀察者網(wǎng)
2026-05-21 16:49:06

洛杉磯最大懸念揭曉！不是樊振東回不回歸，這兩個人正式上位了
酷侃體壇
2026-05-21 09:53:10

最新慈銘北京百萬人群健康體檢數(shù)據(jù)出爐，肺結(jié)節(jié)檢出率居首
新京報
2026-05-21 11:40:53

歐盟要對中國動手？商務(wù)部靈魂拷問：你們的商品哪個不是產(chǎn)能過剩
菁菁子衿
2026-05-21 19:58:19

數(shù)十名防汛救災(zāi)人員忙到晚上10點半到餐館吃飯即將打烊的店主夫妻叫來活魚、蔬菜熱情招待
閃電新聞
2026-05-21 21:18:49

《主角》張嘉益哭到哽咽，劉浩存全程眼神呆滯，老戲骨都帶不動
一娛三分地
2026-05-20 14:20:51

特朗普要搞大動作，突破47年對臺禁令？
經(jīng)點星娛
2026-05-21 15:06:56

騎士、尼克斯更新明日傷病；哈登不如布倫森！騎士勝率僅20%！
郝小小看體育
2026-05-21 19:06:03

深蹲，被嚴(yán)重低估了！研究提示：每天堅持5分鐘，能預(yù)防6種疾病
增肌減脂
2026-04-30 19:15:09

小米YU7 GT正式發(fā)布，售價38.99萬元
界面新聞
2026-05-21 20:22:32

換機(jī)無數(shù)才敢說真話：iPhone 14 Pro Max，才是蘋果無可替代的巔峰
叮當(dāng)當(dāng)科技
2026-05-10 15:22:07

深圳大外援14分15板6帽化身定海神針末節(jié)拼到抽筋燃盡一戰(zhàn)
狼叔評論
2026-05-21 22:06:05

北京協(xié)和專家：2塊錢的維生素B12，是失眠的頂尖藥，便宜又管用！
健康科普365
2026-05-19 09:25:22

自盡前，她跪請丈夫：一定將孩子撫養(yǎng)成人！自盡時，丈夫躺床裝睡
興趣知識
2026-05-20 00:41:43

2026-05-21 23:39:00