![]()
大型語言模型正在以前所未有的速度改變世界,但有一個事實,AI圈子里很少有人愿意大聲說出來:沒有人真正理解它為什么管用。
深度學習誕生至今已有數十年,神經網絡的參數量從百萬膨脹到萬億,但支撐這一切的基礎理論框架,幾乎不存在。LeCun曾直言"深度學習的理論基礎仍是一片荒原",Hinton也公開表達過類似的憂慮,把深度學習的成功類比為煉金術,我們知道配方有效,但不知道為什么。
就在最近,這片荒原上出現了一道裂縫。
![]()
ResNet的出現,是何愷明對梯度消失問題的工程性修補;Transformer的注意力機制,最初是為了解決序列建模中長距離依賴的痛點;GPT系列的擴展,更多依賴的是算力和數據規模的暴力堆疊。每一次突破,幾乎都來自工程直覺和大規模實驗,而非理論推導。
這種"先做出來再說"的模式代價慘重。一個訓練失敗的模型擺在面前,研究者往往只能靠經驗和運氣調參,因為沒有理論告訴你問題出在哪里,也沒有公式預測改變哪個變量會帶來什么后果。
![]()
其中最引人注目的是兩類發現。第一類是神經網絡版的"氫原子",也就是那些可以被精確求解的簡化模型。深度線性網絡是其中最典型的例子,當激活函數被替換為恒等映射,研究者證明了隨機梯度下降在這類網絡上總能找到全局最優解,并能精確描述每一步更新的軌跡。另一個是NTK(神經切線核)理論,當網絡寬度趨于無窮時,訓練動態可以用一個固定的核函數完整描述,就像量子力學里可以解析求解的諧振子。這些玩具模型看起來遠離現實,但它們提供了理解復雜系統的概念基礎,正如氫原子模型奠定了整個量子化學的根基。
第二類發現更具顛覆性:不同架構的神經網絡,在完全不同的數據集上訓練之后,竟然會學到高度相似的內部表征。一個ResNet和一個Vision Transformer,在ImageNet上各自訓練到收斂,比較它們中間層的激活模式,會發現結構出奇地一致。更神奇的是,這種一致性甚至跨越了視覺和語言的模態邊界。
![]()
拉瓦錫之前的化學,是配方的積累,直到原子論和元素周期表出現,它才成為一門精密科學。深度學習此刻站在同樣的轉折點上,所有碎片已經散落在那里,等待有人把它們撿起來,拼在一起。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.