網易首頁 > 網易號 > 正文申請入駐

14位頂尖學者聯手！深度學習終有理論，終結煉金術時代

2026-04-29 21:57:49　來源: 夢想的現實

四川舉報

分享至

大型語言模型正在以前所未有的速度改變世界，但有一個事實，AI圈子里很少有人愿意大聲說出來：沒有人真正理解它為什么管用。

深度學習誕生至今已有數十年，神經網絡的參數量從百萬膨脹到萬億，但支撐這一切的基礎理論框架，幾乎不存在。LeCun曾直言"深度學習的理論基礎仍是一片荒原"，Hinton也公開表達過類似的憂慮，把深度學習的成功類比為煉金術，我們知道配方有效，但不知道為什么。

就在最近，這片荒原上出現了一道裂縫。

ResNet的出現，是何愷明對梯度消失問題的工程性修補；Transformer的注意力機制，最初是為了解決序列建模中長距離依賴的痛點；GPT系列的擴展，更多依賴的是算力和數據規模的暴力堆疊。每一次突破，幾乎都來自工程直覺和大規模實驗，而非理論推導。

這種"先做出來再說"的模式代價慘重。一個訓練失敗的模型擺在面前，研究者往往只能靠經驗和運氣調參，因為沒有理論告訴你問題出在哪里，也沒有公式預測改變哪個變量會帶來什么后果。

其中最引人注目的是兩類發現。第一類是神經網絡版的"氫原子"，也就是那些可以被精確求解的簡化模型。深度線性網絡是其中最典型的例子，當激活函數被替換為恒等映射，研究者證明了隨機梯度下降在這類網絡上總能找到全局最優解，并能精確描述每一步更新的軌跡。另一個是NTK（神經切線核）理論，當網絡寬度趨于無窮時，訓練動態可以用一個固定的核函數完整描述，就像量子力學里可以解析求解的諧振子。這些玩具模型看起來遠離現實，但它們提供了理解復雜系統的概念基礎，正如氫原子模型奠定了整個量子化學的根基。

第二類發現更具顛覆性：不同架構的神經網絡，在完全不同的數據集上訓練之后，竟然會學到高度相似的內部表征。一個ResNet和一個Vision Transformer，在ImageNet上各自訓練到收斂，比較它們中間層的激活模式，會發現結構出奇地一致。更神奇的是，這種一致性甚至跨越了視覺和語言的模態邊界。

拉瓦錫之前的化學，是配方的積累，直到原子論和元素周期表出現，它才成為一門精密科學。深度學習此刻站在同樣的轉折點上，所有碎片已經散落在那里，等待有人把它們撿起來，拼在一起。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.