![]()
第一作者:Hongguang Liao, Sheng Hu
通訊作者: Ichigaku Takigawa, Wei Li, Hailong Fan, Jian Ping Gong
通訊單位: 日本北海道大學,深圳大學
DOI:
https://doi.org/10.1038/s41586-025-09269-4
研究背景
設計凝膠與彈性體等軟材料是一項復雜任務。這需要篩選合適的結構單元類型與用量(如單體),并確定其在材料中的排布方式,由此產生的設計空間包含近乎無限的可能組合。更復雜的是,由于弱分子相互作用與熱漲落的共同影響,軟材料會呈現出精細的多尺度行為——其結構-性能關系跨越多個時空尺度,其中介觀尺度結構起著關鍵作用。數據驅動方法通過標準化數據集改變了具有明確原子結構的硬質材料的發現與預測范式,實現了精確的性能預測并促進設計空間的高效探索。然而由于軟材料存在復雜的多尺度結構-性能關系,相關應用仍面臨挑戰。
![]()
研究問題
本研究提出一種融合數據挖掘、實驗驗證與機器學習的數據驅動策略,從頭設計適用于嚴苛水下環境的高性能粘附水凝膠。通過挖掘蛋白質數據庫,本文開發出描述符策略,利用理想無規共聚在聚合物鏈中統計復現蛋白質序列模式,從而實現了水凝膠的定向設計與數據集構建。基于180種仿生水凝膠的初始數據集,采用機器學習優化配方后獲得粘附強度的顯著提升,最高值突破1兆帕。這類超強粘附水凝膠在生物醫學工程至深海探測等領域展現出巨大應用潛力,標志著軟材料數據驅動創新的重要突破。
圖文解析
![]()
圖1| 水下粘附水凝膠的數據驅動從頭設計
要點:
1.本文提出一種融合數據挖掘(DM)、實驗驗證與機器學習(ML)的新型數據驅動方法,用于高效開發高性能水下粘附水凝膠(圖1a)。通過挖掘粘附蛋白數據庫,本文提取特征序列信息指導水凝膠設計,并采用隨機共聚和相對組成策略在180種合成水凝膠中復現這些特征,在生物保真度與實際合成間取得平衡。這些DM驅動的水凝膠中,多個樣品展現出超越文獻報道的粘附強度(Fa)(圖1b)。這組180種合成水凝膠構成了小而優質的數據集,經ML進一步優化后,最終獲得水下Fa突破1MPa的ML驅動水凝膠——相比已報道的水下粘附水凝膠和彈性體實現了數量級提升。
![]()
圖2|粘附蛋白的數據挖掘與配方設計
要點:
1.為篩選最具代表性的蛋白質序列并降低個體差異的影響,本文根據各個物質所含粘附蛋白數量進行排序,選取前200個物種進行深入分析(圖2a)。隨后采用Clustal Omega進行多序列比對以確定各物種的共有序列,這些序列被認為在進化過程中對維持蛋白質穩定性和粘附性起關鍵作用。
2.為降低變量維度,基于物理化學特性將20種標準氨基酸劃分為六類:疏水性、親核性、酸性、陽離子性、酰胺類和芳香族。將共有序列編碼為功能類別序列時,甘氨酸、丙氨酸和脯氨酸因側鏈較小被排除在疏水性類別外——相較于其他氨基酸,這些氨基酸在界面接觸與相互作用中貢獻較弱。編碼序列中各功能類別的區塊長度通常小于3(圖2b),表明即使在粗略的功能類別層面,粘附蛋白仍存在顯著的序列異質性。不同物種在這些功能類別兩兩組合頻率上呈現出獨特模式(圖2c),提示序列中存在特定功能類別配對的偏好性,暗示在觀測到的序列異質性之下潛藏著某種規律性。
![]()
圖3| 數據挖掘驅動的水下粘附水凝膠
要點:
1.本文選取了六種功能單體(圖3a),每種單體代表氨基酸六種功能類別中的一類。通過自由基聚合法在共溶劑二甲基亞砜(DMSO)中進行共聚時,經1H NMR分析測得的成對反應競聚率接近1。這些近似1的數值表明在DMSO中共聚過程中組分漂移極微。基于Mayo-Lewis模型進行蒙特卡洛模擬,本文利用實測反應競聚率和推導的單體比例(φ?),分析了180種雜聚物中六種功能單體的序列特性。所得單體嵌段長度與成對頻率分布(圖3b,c)與粘附蛋白中的觀測結果高度吻合(圖2b,c),證實本文的合成方案能有效捕捉序列異質性和相鄰偏好等關鍵統計特征。
2.根據推導的配方,通過功能單體與交聯劑在DMSO中的一鍋法自由基共聚,合成了180種DM驅動凝膠(標記為G-001至G-180)。將溶劑從DMSO置換為生理鹽水(0.154 M NaCl)后,對水凝膠進行了體積溶脹比、流變學特性和水下粘附強度(Fa)表征。采用快速篩選法,在生理鹽水中以10N加載力和10秒接觸時間對玻璃基板進行粘性測試(圖3d)評估粘附性能。
![]()
圖4| 水下粘附水凝膠的機器學習優化
要點:
1.所有驗證均遵循與訓練集相同的流程以確保數據一致性。圖4a展示了不同SMBO方法提出配方的真實Fa值。非SMBO基線方法GP_enu和RFR_enu從千萬級隨機配方枚舉中選取前五個預測值,但未能突破訓練數據的Fa水平。相比之下,所有SMBO方法均實現更高Fa值,其中GP_KB與RFR-GP表現最優,且RFR-GP獲得全局最高Fa值。
2.圖4b通過均勻流形近似投影(UMAP)將最終數據集(含341種水凝膠)中Fa與?i的六維關系降維至二維展示。值得注意的是,RFR-GP與GP_KB生成的配方與原始180種水凝膠數據集重疊區域極小,表明優化過程存在外推現象。RFR-GP數據點較GP_KB更為分散,暗示其比傳統貝葉斯優化探索了更廣闊的空間。
3.為評估?i對Fa的影響,本文基于最終341種水凝膠數據集訓練的RFR模型進行SHAP分析。SHAP摘要圖(圖4c)顯示高?BA和?PEA值顯著提升Fa,這是因為BA和PEA能有效排斥接觸界面水分,且與ATAC鄰近時(附圖11)可增強與帶負電玻璃表面的靜電相互作用(附圖12)。相反,高?HEA、?CBEA和?AAm值會降低Fa。有趣的是,?ATAC呈現雙重效應:低濃度削弱靜電作用,過量則導致水凝膠溶脹過度,限制聚合物-表面接觸從而降低Fa,因此適中的?ATAC濃度至關重要。
![]()
圖5| 通過數據挖掘(G-max)和機器學習優化(R1-max、R2-max和R3-max)篩選出的水凝膠表征與性能
要點:
1.本文對三種性能最優的機器學習驅動水凝膠(R1-max、R2-max和R3-max)進行了詳細研究,并將其與最佳數據驅動水凝膠(G-max)進行對比(圖5)。初始狀態下,所有凝膠均呈現透明態,并表現出與頻率無關的儲能模量(G′),表明DMSO中分子間或分子內聚集作用可忽略不計。盡管組成存在差異,但相近的G′值表明其網絡拓撲結構相似。
2.在生理鹽水平衡后,所有凝膠均發生收縮。與G-max不同,機器學習驅動水凝膠表現出更高的濁度(圖5b)、更強的粘彈性及更高的模量。這表明其較高的疏水性BA和芳香族PEA含量(圖5a)促進了水介質中copolymer strands 的強相互作用,從而有利于能量耗散。此外,應力-應變曲線下更大的面積證實(圖5c),機器學習驅動水凝膠具有更優異的機械強度和韌性。相較于G-max,這種增強的粘彈性和韌性使其具備更卓越的粘附性能。
總結展望
總之,本文提出了一種數據驅動方法,通過整合蛋白質序列信息提取、可擴展聚合物合成和迭代式機器學習,解決了軟材料從頭設計與開發中的長期難題。這一設計框架不僅適用于粘附水凝膠,更為開發各類功能性軟材料提供了系統化、可擴展的端到端解決方案。然而當前仍存在主要挑戰:單體多樣性有限,控制單體序列的聚合物合成技術尚達不到材料開發所需的規模,以及數據集可擴展性不足。突破這些瓶頸需要拓展模塊化單體庫、發展聚合技術,并開發能夠適應稀疏多尺度數據集的物理信息機器學習模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.