網易首頁 > 網易號 > 正文申請入駐

香農、信息論、AI、Scaling Law，以及信息的觀察者效應

2026-03-05 16:48:11　來源: AI進化論花生

北京舉報

分享至

之前寫DeepSeek R1論文解讀的時候，有個細節我一直沒想通。

他們的Cold Start流程是用R1-Zero生成推理軌跡，過濾后當訓練數據。這就是合成數據。但按信息論的說法，這不應該有用。數據處理不等式說得很清楚：對數據做確定性變換，信息只會減少不會增加。你沒引入新數據，信息從哪來？

但它就是有用。效果比純人類標注數據還好。

不止DeepSeek。AlphaZero從幾KB的圍棋規則自我對弈，生成了百萬字節的戰略知識。整個AI行業都在大規模使用合成數據，而且越用越多。理論說不行，實踐說行。

這個矛盾困擾我挺久的。直到最近讀到CMU和NYU的一篇論文，叫《From Entropy to Epiplexity》。它提出了一個新概念，核心觀點就一句話：信息不是數據的固有屬性，而是取決于誰在看、用多少算力去看。

這不只解釋了合成數據的問題。它還回答了幾個做AI的人一直憑直覺知道但說不清楚的事：為什么數據質量比數據量重要？為什么LLM的泛化能力遠強于視覺模型？為什么訓練數據的順序會影響效果？

香農忽略了什么

要理解這些，得先看看經典信息論到底假設了什么。

1948年，克勞德·香農發表了《通信的數學理論》。他用熵這個概念，第一次精確定義了信息的度量方式。從電報到WiFi到5G，整個現代通信的理論基礎都是這篇論文。

但香農的框架有一個隱含假設，很少有人注意到：

它假設觀察者的計算能力是無限的。

在通信領域，這沒問題。發送端編碼、接收端解碼，編解碼器的算力不是瓶頸。但如果觀察者是一個正在學習的神經網絡呢？它的參數量有限，訓練時間有限，算力有限。這時候，香農的框架就出現了裂縫。

具體來說，經典信息論有三條推論。乍一聽都很合理，但做AI的人會覺得哪里不對：

一、確定性變換不能創造信息（數據處理不等式）。

二、信息和數據的排列順序無關。

三、如果模型完美匹配了數據分布，它就學會了數據中的一切。

每一條，在AI實踐中都被證明是錯的。第一條的反例開頭已經說了——合成數據不應該有用，但它就是有用。后面兩條也一樣站不住腳。

倒著讀一本書，信息一樣多？

香農信息論和柯爾莫哥洛夫復雜度都認為，信息的度量與數據排列順序無關。一篇從前往后寫的英文文章和同一篇字母倒過來排列的文章，「信息量」應該完全相同。

但做過大模型訓練的人知道，從左到右讀英文的訓練效果，明顯好于倒著讀。

密碼學給了一個更極端的例子。RSA加密的核心是：兩個大素數相乘很容易，一步就算完。但從乘積反推回兩個素數？目前沒有已知的高效算法。

同樣的信息，一個方向輕松提取，另一個方向幾乎不可能。

如果信息真的和順序無關，這種不對稱性不應該存在。

4條規則能涌現出多少知識

第三個悖論可能是最有意思的。

經典觀點說，如果一個模型完美匹配了訓練數據的概率分布（困惑度最低），它就「學會了」數據中的所有信息。

但Conway的生命游戲只有4條簡單規則：細胞根據鄰居數量存活或死亡。就這4條。從這4條規則出發，會涌現出滑翔機（glider）、振蕩器（oscillator）等各種復雜的動態結構。

這些結構不在規則里。你盯著規則看，怎么看都看不出來會有「滑翔機」這種東西。但它們確實存在，而且是可學習的模式。一個足夠強的模型，能從這4條規則中學到遠比規則本身豐富得多的知識。

三個悖論指向同一個漏洞：經典信息論沒有考慮觀察者的計算能力。

信息取決于誰在看

今年1月，CMU和NYU的六位研究者發了一篇論文，叫《From Entropy to Epiplexity》。作者之一Andrew Gordon Wilson說他們研究了近兩年，「抑制不住地興奮」。

說實話，「信息取決于觀察者算力」這個直覺不算全新。2020年的V-information論文就證明了計算約束下信息可以被「創造」，直接違反了DPI。更早的1988年，Bennett提出過邏輯深度（logical depth），1996年物理學家Gell-Mann提出過有效復雜度（effective complexity），都從不同角度摸到了類似的東西。ML社區在實踐中也早就知道特征工程和數據增強能提升性能，跟DPI矛盾，只是沒人太在意理論解釋。

但之前的工作更像是散落的碎片，各自解釋一個側面。這篇論文的價值在于把這些直覺整合成了一套完整框架，同時覆蓋合成數據、數據排序、涌現等多個現象，而且給出了可操作的測量方法。不只是說「有這么回事」，而是說「怎么量、怎么用」。

他們的核心思路很優雅：把數據中的信息拆成兩部分。

第一部分叫 Epiplexity（認知復雜度）。在給定算力范圍內，觀察者能從數據中提取的可學習結構。

第二部分叫 Time-bounded Entropy（時間有界熵）。在給定算力范圍內，看起來像隨機噪聲的那部分。

關鍵來了：同一份數據，對不同算力的觀察者，這兩個量是不同的。

算力越強，能看到的結構越多（epiplexity升高），噪聲變少（entropy降低）。算力越弱，結構藏在「看不見」的地方，整個數據更像噪聲。

打個比方。同一本醫學教材，對醫學生來說，里面滿是可學習的結構（高epiplexity）——癥狀和疾病之間的關聯、用藥邏輯、鑒別診斷的決策樹。對小學生來說，同樣的內容大部分看起來像噪聲（高entropy，低epiplexity）。數據沒變。變的是觀察者的「算力」。

對AI模型也一樣。同一份訓練數據，GPT-2和GPT-4能從中提取的結構量完全不同。不是數據變了，是模型的算力變了。

密碼學給了一個特別漂亮的驗證。偽隨機數生成器產生的序列，多項式時間的觀察者幾乎不可能與真隨機數區分。所以它的time-bounded entropy接近最大值（看起來全是噪聲），但epiplexity幾乎為零（沒有可學習的結構）。

翻譯成人話：你的算力不夠，你就發現不了數據里的規律。對你來說，它就是噪聲。

這不是一個哲學觀點。論文給出了嚴格的數學定義和證明。

這把尺子量出了什么

理論漂亮是一回事，能不能用是另一回事。研究者拿這個框架實際測量了，結果挺值得說。

文本數據的epiplexity遠高于圖像數據。

這可能是第一次從信息論角度解釋「為什么語言模型比視覺模型泛化更強」。文本里藏著更密集的可學習結構，所以LLM學到的東西能遷移到更多下游任務。我們直覺上一直知道，但缺少理論解釋。

他們還用國際象棋做了實驗。用不同數據集預訓練模型，測試在從未見過的棋局上的表現。結果很清楚：高epiplexity數據集訓練出的模型，在新棋局上明顯更強。

更實用的是，測量方法出奇簡單。

他們提出了一種叫 prequential coding 的估計方法，核心思想是看訓練損失曲線。損失從高到低下降的「面積」越大，說明模型從數據中學到了越多結構，epiplexity越高。

你不需要復雜的數學推導?？从柧毲€，就能大致判斷數據質量。

回到那個問題

前面三個悖論現在都能解釋了。

合成數據為什么有用？因為數據處理不等式假設了無限算力的觀察者。對無限算力來說，確定性變換確實不增加信息。但對有限算力的模型來說，一個好的合成過程可以把隱藏的結構變成可學習的結構，提高epiplexity。

數據順序為什么重要？因為有限算力的觀察者從不同方向提取信息的難度是不對稱的。從左到右和從右到左，對無限算力沒區別，但對有限算力有巨大差異。

涌現為什么發生？因為有限算力的觀察者能發現生成規則本身沒有明確包含的模式。規則簡單，但規則運行的結果中蘊含的可學習結構遠超規則本身。

飛輪還在轉嗎

之前寫Ilya Sutskever那篇文章時，他說：「2020到2025是規模時代，但現在規模已經夠大了。」很多人覺得scaling law快到頭了，原因很簡單：世界上的高質量文本數據快用完了。

但這引出了一個更大膽的問題：如果更好的模型能生成更好的合成數據，更好的合成數據又能訓練出更好的模型，這個飛輪能一直轉下去嗎？

直覺上覺得不行。合成數據不能憑空創造關于真實世界的新知識。AlphaZero學到的所有戰略，本質上都是圍棋規則的推論，不是新的物理定律。你不可能靠AI生成數據來教AI它不知道的事實。這像是踩著自己的腳想把自己舉起來。

但epiplexity給了一個不同的視角。

合成數據做的事情不是「增加知識」，而是「提高結構密度」。你有一本沒目錄、沒索引的百科全書。一個好的合成過程相當于給它重新排版、標注重點、加上交叉引用。信息沒變，但對有限算力的讀者來說，可學習的結構變多了。epiplexity提高了。

所以飛輪可能還在。只是驅動它的東西變了：從「更多的數據」變成「更高密度的結構」。不是加油，是換擋。

不過有一個關鍵前提：你需要一種方法來驗證合成數據的質量。代碼可以編譯運行，數學可以形式化證明，所以這兩個領域的合成飛輪最先跑通了。Demis Hassabis也說過，代碼和數學可以靠合成數據無限生成訓練素材，正是因為有自動驗證。

沒有驗證機制的領域呢？模型生成的「知識」可能只是幻覺。這時候合成數據不但不增加epiplexity，反而引入noise。Nature上那篇model collapse論文就是這個警告：純合成數據訓練，模型會不可避免地退化。

所以更準確地說：飛輪能不能轉，取決于你有沒有驗證器。有驗證器的領域（代碼、數學、游戲），踩自己的腳上天是可能的。沒有驗證器的領域，自舉大概率坍縮。

所有人都在說data quality matters，但一直沒人能精確定義什么是quality。Epiplexity給了一個候選答案：高epiplexity的數據就是高質量的數據。而驗證器，是確保合成數據確實有高epiplexity的守門員。

Karpathy之前在訪談里說過一個觀點，我印象很深：人類記憶差，反而是優勢。因為記憶力不好，迫使人類去尋找模式，而不是死記硬背。LLM的問題恰恰相反，過度記憶，反而忽略了可以泛化的規律。

用epiplexity的語言重新說這句話：人類的有限算力反而迫使我們只提取高epiplexity的結構，忽略noise。而LLM的巨大參數量讓它可以把noise也記住，結果反而泛化變差。

費曼說過：「如果你不能簡單地解釋它，說明你還不理解它?！?/p>

我做了兩年多內容，最大的體會是邊學、邊做、邊分享形成的飛輪。當你試圖教別人一個概念，費曼學習法會逼你把東西梳理得更清楚。現在我覺得這個過程可以用一個更精確的詞來描述：你在用有限的算力（時間、注意力、已有知識），從數據中提取結構。提取得越多，你就越「理解」了這個東西。

同一份數據，不同的人看到不同的信息。這不是雞湯。這是一個數學事實。

只是信息論花了70年才真正意識到它。

論文地址：https://arxiv.org/abs/2601.03220

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.