網易首頁 > 網易號 > 正文申請入駐

上智院聯合復旦、上交提出全球首個強化學習與潛擴散融合框架SOLD

2026-02-04 13:55:06　來源: ScienceAI

河北舉報

分享至

作者丨上智院女媧生命大模型團隊

編輯丨ScienceAI

在 RNA 療法、基因調控和合成生物學等領域，RNA 逆折疊（RNA Inverse Folding）是至關重要的核心任務，其目標是設計出能夠折疊成特定 3D 結構的 RNA 序列。如同設計一把能開啟特定「基因鎖」的鑰匙，這要求生成的序列不僅在理論上符合要求，更需在物理上精準折疊成目標構象。

然而，面對復雜的 RNA 序列 - 結構相互作用，現有的深度學習方法盡管在序列恢復率上取得了一定進展，其局限仍非常明顯：它們往往難以直接優化次級結構一致性（SS）、最小自由能（MFE）和局部距離差測試（LDDT）等關鍵的結構與功能指標，導致生成的序列在物理真實性和結構準確性上經常「次優」。此外，現有的基于強化學習的擴散模型優化方法，通常需要采樣完整的擴散軌跡，計算成本極高，難以在 RNA 設計這種復雜任務中高效應用。

為此，上海科學智能研究院（下稱上智院）與復旦大學、上海交通大學等聯合提出了首個集成強化學習與潛擴散模型的 RNA 逆折疊框架（SOLD）。該框架從 RNA 的共進化模式出發，在預訓練階段引入 RNA-FM 嵌入，并在優化階段通過創新的「分步式」（Step-wise）強化學習策略，實現了對非導向性結構目標的直接、高效優化。實驗表明，該方法在多個權威指標上全面超越了現有的 SOTA 方法，為開發高精度、功能導向的 RNA 設計工具開辟了新路徑。

論文題目：Structure-based RNA Design by Step-wise Optimization of Latent Diffusion Model

論文地址：https://arxiv.org/abs/2601.19232

代碼地址：

https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/01301556

https://github.com/SAIS-LifeScience/SOLD

該研究成果已被 AAAI 2026 接收。上智院生命科學方向研究員斯奇、劉旭陽，上海交通大學生命科學系博士生王鵬磊，是共同第一作者。上智院首席科學家、復旦大學特聘教授漆遠，是論文共同作者。上智院生命科學方向主任研究員郭昕，上智院生命科學方向負責人、復旦大學人工智能創新與產業研究院研究員程遠，是共同通訊作者。

研究項目由星河啟智科學智能開放平臺（https://aistudio.ai4s.com.cn/）和復旦大學 CFFF 智算平臺提供技術和算力支持。

現有方法的兩大局限

既往的 RNA 逆折疊方法雖取得一定進展，但存在兩個面向實際設計的關鍵短板：

一是難以處理非可微的結構目標。現有的深度學習方法（如 GrnaDe、RDesign）雖然提升了生成序列的質量，但它們大多無法直接優化如最小自由能（MFE）或 3D 結構相似度（LDDT）等「硬指標」。這些指標對于 RNA 是否能在真實生物環境中穩定發揮功能至關重要，但由于它們通常是不可微的，傳統的梯度下降方法難以直接對其進行優化。這導致模型生成的序列往往「形似」而「神不似」，難以滿足嚴格的物理約束。

二是傳統強化學習優化效率低下。為了解決上述問題，強化學習（RL）被引入以優化這些離散目標。然而，現有的結合擴散模型與 RL 的方法（如 DDPO、DPOK），通常需要對擴散過程的完整軌跡進行采樣才能更新策略。在 RNA 設計的高維空間中，這種「全軌跡」采樣的計算開銷巨大，收斂速度極慢，且容易陷入局部最優，嚴重限制了其在大規模 RNA 設計任務中的應用潛力。

為解決這些問題，研究團隊提出了SOLD (Step-wise Optimization of Latent Diffusion Model)框架，通過引入預訓練 RNA 語言模型嵌入和創新的分步優化策略，實現了從序列生成到底層物理屬性優化的全流程突破。

SOLD 的雙階段創新設計

SOLD 框架包含潛擴散模型（LDM）預訓練和強化學習微調兩個階段，分別對應基礎表征構建與結構目標精修，形成完整的技術閉環。

1、LDM 預訓練：融合共進化信息。SOLD 首先構建了一個強大的潛擴散模型（LDM）底座。不同于以往直接在序列空間操作的方法，SOLD 利用預訓練的 RNA-FM 提取包含豐富共進化信息的嵌入表示。

潛空間建模：通過編碼器將 RNA-FM 的高維嵌入壓縮至高效的潛空間，結合 GVP-GNN 提取骨架幾何特征，使模型在生成之初就具備了對 RNA 序列 - 結構復雜依賴關系的深刻理解。
序列恢復提升：僅依靠這一階段，LDM 在序列恢復率和核苷酸恢復率上即已超越了包括 RiboDiffusion 在內的多種現有方法，為后續優化打下堅實基礎。

2、Step-wise RL 微調：分步式高效優化。微調階段是 SOLD 的核心創新。團隊提出了一種單步式（Step-wise）強化學習算法，直接針對復雜的結構指標進行優化。

單步采樣策略：受 DDIM 啟發，SOLD 無需采樣完整軌跡，而是從任意噪聲時間步直接預測去噪后的潛變量。這意味著模型可以在極短的時間內獲得反饋，大幅提升了訓練效率。
長短期獎勵融合：為了平衡訓練的穩定性與準確性，SOLD 設計了分段獎勵函數。在噪聲較大的早期階段，使用短期獎勵引導方向；在噪聲較小的后期階段，使用長期獎勵精確對齊目標。
直接指標優化: SOLD 直接集成了 ViennaRNA 和 RhoFold 作為獎勵函數，直接優化 SS、MFE 和 LDDT 等物理指標，無需額外訓練可能引入誤差的代理獎勵模型。

在現有 RNA 結構測試集上超越現有最優方法

本研究在現有 RNA 結構數據集上進行了系統評估，結果全面超越了現有最優方法。具體而言，在多目標聯合優化實驗中，SOLD 不僅保持了極高的序列自然度（Sequence Recovery），更在結構指標上實現了質的飛躍。例如，在 CASP15 測試集上，SOLD 生成的序列在SS（次級結構一致性）上達到 0.6957，遠超 RiboDiffusion 的 0.4699；在MFE（最小自由能）上達到 - 64.0375，顯著優于基線模型，證明了其設計出的 RNA 具有更高的熱力學穩定性。此外，在訓練效率方面，得益于單步優化策略，SOLD 完成一輪 MFE 優化僅需 256 秒，而同類方法 DDPO 和 DPOK 分別需要 5953 秒和 7677 秒，訓練速度提升了20 倍以上。

實際案例驗證與模塊有效性

為了驗證 SOLD 在真實生物場景中的應用潛力，研究團隊對TPP 核糖開關進行了案例研究。結果顯示，SOLD 成功設計出了能精準折疊成目標構象的序列（RMSD 僅為 2.8157?，LDDT 高達 0.6171），而其他對比方法（如 RhoDesign、RiboDiffusion）生成的序列折疊結構嚴重偏離目標，甚至完全解體。這一結果有力證明了 SOLD 在處理復雜生物學約束時的卓越能力。

總結與展望

SOLD 的成功，在于其巧妙地結合了預訓練大模型的表征能力與強化學習的策略優化能力。首先，模型利用 RNA-FM 捕捉深層的共進化模式，解決了傳統方法「只見樹木不見森林」的問題。其次，創新的單步式 RL 策略攻克了非可微目標優化的效率瓶頸，使得直接針對物理屬性（如自由能、結構偏差）進行設計成為可能。這種模塊化、工具無關的框架設計，使得未來可以無縫集成更先進的獎勵評估工具。

該研究不僅為 RNA 逆折疊任務確立了新的 SOTA 基準，也印證了 AI 驅動生物設計的發展方向 — 通過高效的算法創新，跨越從「生成序列」到「設計功能」的鴻溝。展望未來，研究團隊計劃進一步擴展高質量 RNA 結構數據集，并探索多尺度指標的協同優化，從而為 RNA 療法及合成生物學的落地持續注入新動力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.