![]()
作者丨論文團隊
編輯丨ScienceAI
衰老是具體而實在的:它既體現在皺紋增多、體力下降這些多數人能感受到的變化上,也發生在身體內部細胞和分子水平的緩慢累積之中。過去十多年里,科學家逐漸認識到,DNA 甲基化作為一種穩定而系統的表觀遺傳標記,能夠記錄個體真實的生物學衰老狀態,并與多種慢性疾病的發生風險密切相關。因此,表觀遺傳時鐘(Epigenetic Clock)不僅被視為衡量「人老得快還是慢」的工具,也逐漸成為評估衰老干預效果、預測疾病風險、以及開展個體化健康管理的重要量化手段。
然而,一個長期制約該領域發展的核心難題在于泛化能力。不同研究隊列、不同測序平臺、不同預處理流程乃至不同組織來源之間,都會引入顯著的技術差異和系統偏移。許多經典的衰老時鐘(Aging Clock)在原始研究數據中表現良好,但一旦應用到新的數據集或真實臨床場景,預測精度便明顯下降。這使得表觀遺傳時鐘在臨床轉化、跨隊列研究以及長期健康隨訪中的應用受到限制。
在這一現實背景下,上海科學智能研究院(下稱上智院)與復旦大學人類表型組研究院、復旦大學人工智能創新與產業研究院(下稱復旦大學 AI3 院)、無限光年技術有限公司(下稱無限光年)等進行聯合研究,提出了一個穩健的基于成對學習的甲基化年齡與疾病風險預測框架 MAPLE(A Robust Computational Framework forMethylationAge and Disease-riskPredictionBased onPairwiseLEarning),從方法學上引入成對學習思想緩解了高維小樣本條件下的過擬合問題,并為跨平臺、跨組織的統一建模提供了可行路徑。
在全部 31 項測試中,MAPLE 的平均絕對誤差為 1.6 年,顯著優于多種現有主流方法,并且在疾病識別上曲線下面積均值達 0.97,對疾病前驅狀態檢測也達到 0.85,顯示其精準識別早期風險的能力。MAPLE 不僅在數值精度上取得了突破,更重要的是在方法層面提供了一種可泛化的表觀遺傳建模范式,為衰老干預評估、慢性病早篩以及長期健康管理奠定了更加可靠的量化基礎。
![]()
論文題目:A robust computational framework for methylation age and disease-risk prediction based on pairwise learning
論文地址:https://www.nature.com/articles/s43588-025-00939-x
代碼地址:
https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/1221437
https://github.com/Drizzle-Zhang/MAPLE
該研究成果已發表于 Nature Computational Science。上智院研究員張雨、無限光年算法科學家姚易辰,為共同第一作者。復旦大學金力院士,上智院首席科學家、復旦大學特聘教授漆遠,上智院領域科學家何瑩,無限光年聯合創始人、復旦大學 AI3 院研究員徐盈輝,為共同通訊作者。無限光年實習生唐元昊,上智院生命科學方向負責人、復旦大學 AI3 院研究員程遠,為共同作者。
研究項目由星河啟智科學智能開放平臺(https://aistudio.ai4s.com.cn/)和復旦大學 CFFF 智算平臺提供技術和算力支持。
不再直接「算年齡」,而是先理解樣本之間的相對衰老關系
既往的表觀遺傳衰老模型大多遵循一個直接的建模范式:從單一樣本的甲基化譜出發,預測一個對應的「絕對年齡」或「絕對風險分數」。這種做法在數據條件理想、訓練與測試分布高度一致時往往有效,但在真實研究和臨床應用中卻面臨明顯挑戰。
其根本原因在于,甲基化數據高度敏感于測序平臺、預處理流程以及組織來源等非生物因素。在這種情況下,模型往往更容易學習到「樣本來自哪個實驗體系」,而非真正反映個體衰老或疾病風險狀態的生物學信號,導致跨隊列、跨組織應用時性能迅速下降。
針對這一問題,研究團隊在方法學上采取了不同的建模視角:不再要求模型直接輸出絕對數值,而是讓模型先學習樣本之間的相對關系 —— 哪一個樣本更老、哪一個樣本疾病風險更高。通過在訓練階段構建大量樣本對,模型被迫關注那些在不同數據來源中始終保持一致的變化趨勢,從而有效弱化技術噪聲和系統偏差的影響。
成對學習策略帶來了兩個直接收益。一方面,它顯著降低了平臺和預處理差異對模型的干擾,提高了跨數據集的穩定性;另一方面,通過樣本成對組合,模型在有限樣本規模下獲得了更充分的監督信號,有效緩解了高維小樣本條件下的過擬合問題。
![]()
衰老不僅能「算得準」,還能「對得上生物學」
在系統評估中,該方法在來自不同研究、不同測序芯片、不同數據標準化流程以及多種組織類型的 31 組獨立測試中展現出高度穩定的性能。整體來看,其甲基化年齡預測的中位絕對誤差約為 1.6 年,顯著優于多種現有主流方法;即使在非血液組織(如腦、肌肉、脂肪和皮膚)中,預測精度依然保持在較高水平,顯示出良好的跨組織泛化能力。
![]()
除了數值精度,該框架在生物學解釋層面同樣表現突出。通過對模型關注的關鍵甲基化位點進行分析,研究發現這些位點在不同獨立研究之間具有高度一致性,其關聯基因顯著富集于發育調控、組織重塑、免疫調節、神經功能及認知等經典衰老相關生物過程。這表明,模型并非僅依賴統計相關性進行擬合,而是優先捕捉具有明確生物學意義的調控信號。
進一步的人群與疾病分析顯示,該方法能夠識別一系列細微但具有生物學指向性的衰老特征。例如,在女性人群中,模型捕捉到圍絕經期附近出現的顯著衰老節律變化;在吸煙、肥胖、唐氏綜合征、HIV 感染以及阿爾茨海默病等人群中,模型一致檢測到明顯的衰老加速信號。值得注意的是,在阿爾茨海默病分析中,該方法在腦組織中識別出的衰老加速特征,在血液樣本中并不顯著,提示其具備區分組織特異性衰老信號的能力。
這些結果共同表明,該框架不僅在預測層面表現穩定,也能夠真實反映衰老相關的生物學過程。
![]()
從衰老測量走向疾病風險預測
衰老評估的最終價值,并不止于刻畫「生物年齡」,而在于揭示疾病風險的累積與演變。基于同一成對學習框架,研究團隊進一步將模型擴展至心血管疾病和 2 型糖尿病等常見慢性疾病的風險評估任務,使表觀遺傳信號能夠直接服務于疾病風險建模。
在多項獨立測試中,該方法能夠有效區分健康人群、疾病前驅狀態以及確診患者。在心血管疾病任務中,模型在疾病識別和動脈粥樣硬化等前疾病狀態的識別性能均明顯優于傳統風險模型;在 2 型糖尿病相關分析中,模型同樣能夠區分系統性胰島素抵抗、前驅糖尿病等狀態與確診患者,顯示出對疾病連續進展過程的良好刻畫能力。
更進一步的分析表明,這種性能優勢并非僅來自年齡信息的疊加。即便在控制不同人群年齡分布后,模型的判別能力依然保持穩定,說明其捕捉到的是與疾病發生和進展直接相關的表觀遺傳變化。模型所強調的關鍵甲基化位點,其關聯基因在血管結構重塑、免疫炎癥反應、代謝調控和胰島素信號通路等疾病相關生物過程中顯著富集,提示模型不僅能夠區分疾病狀態,也在分子層面識別出與病理機制一致的信號。
這一特性使得該框架在慢性病早篩、風險分層以及長期健康管理等場景中具備潛在應用價值,同時也為將表觀遺傳信息更系統地納入疾病生物學研究提供了新的計算工具。
![]()
結語
總體而言,MAPLE 的意義并不局限于在既有基準上取得更優的預測指標,更在于為表觀遺傳建模提供了一種可推廣的方法論范式。通過成對學習,模型將建模重心從不穩定的「絕對數值預測」轉向更具跨數據集一致性的「相對關系學習」,在高維、樣本規模受限且來源高度異質的甲基化數據條件下,有效緩解了過擬合與批次效應對模型泛化能力的制約。這一設計使模型能夠在不同測序平臺、預處理流程和組織來源之間提取穩定的生物學信號,為基于表觀遺傳信息的衰老時鐘和疾病風險預測工具走向真實世界應用奠定了方法學基礎。
從更長遠的科學智能發展視角來看,MAPLE 也為機制發現與方法融合打開了空間。一方面,模型在不同數據集中穩定聚焦的關鍵甲基化位點,為解析衰老與疾病相關的調控通路提供了更高信噪比的候選集合;另一方面,該框架具有良好的可擴展性,隨著縱向隨訪隊列和多組學數據的不斷積累,該框架將被應用在更多的表觀遺傳數據檢測場景,有望成為連接分子層面衰老過程、疾病演進機制與干預評估之間的重要計算橋梁。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.