<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      香農、信息論、AI、Scaling Law,以及信息的觀察者效應

      0
      分享至


      之前寫DeepSeek R1論文解讀的時候,有個細節我一直沒想通。

      他們的Cold Start流程是用R1-Zero生成推理軌跡,過濾后當訓練數據。這就是合成數據。但按信息論的說法,這不應該有用。數據處理不等式說得很清楚:對數據做確定性變換,信息只會減少不會增加。你沒引入新數據,信息從哪來?

      但它就是有用。效果比純人類標注數據還好。

      不止DeepSeek。AlphaZero從幾KB的圍棋規則自我對弈,生成了百萬字節的戰略知識。整個AI行業都在大規模使用合成數據,而且越用越多。理論說不行,實踐說行。

      這個矛盾困擾我挺久的。直到最近讀到CMU和NYU的一篇論文,叫《From Entropy to Epiplexity》。它提出了一個新概念,核心觀點就一句話:信息不是數據的固有屬性,而是取決于誰在看、用多少算力去看。

      這不只解釋了合成數據的問題。它還回答了幾個做AI的人一直憑直覺知道但說不清楚的事:為什么數據質量比數據量重要?為什么LLM的泛化能力遠強于視覺模型?為什么訓練數據的順序會影響效果?

      香農忽略了什么

      要理解這些,得先看看經典信息論到底假設了什么。

      1948年,克勞德·香農發表了《通信的數學理論》。他用熵這個概念,第一次精確定義了信息的度量方式。從電報到WiFi到5G,整個現代通信的理論基礎都是這篇論文。

      但香農的框架有一個隱含假設,很少有人注意到:

      它假設觀察者的計算能力是無限的。

      在通信領域,這沒問題。發送端編碼、接收端解碼,編解碼器的算力不是瓶頸。但如果觀察者是一個正在學習的神經網絡呢?它的參數量有限,訓練時間有限,算力有限。這時候,香農的框架就出現了裂縫。

      具體來說,經典信息論有三條推論。乍一聽都很合理,但做AI的人會覺得哪里不對:

      一、確定性變換不能創造信息(數據處理不等式)。

      二、信息和數據的排列順序無關。

      三、如果模型完美匹配了數據分布,它就學會了數據中的一切。

      每一條,在AI實踐中都被證明是錯的。第一條的反例開頭已經說了——合成數據不應該有用,但它就是有用。后面兩條也一樣站不住腳。


      倒著讀一本書,信息一樣多?

      香農信息論和柯爾莫哥洛夫復雜度都認為,信息的度量與數據排列順序無關。一篇從前往后寫的英文文章和同一篇字母倒過來排列的文章,「信息量」應該完全相同。

      但做過大模型訓練的人知道,從左到右讀英文的訓練效果,明顯好于倒著讀。

      密碼學給了一個更極端的例子。RSA加密的核心是:兩個大素數相乘很容易,一步就算完。但從乘積反推回兩個素數?目前沒有已知的高效算法。

      同樣的信息,一個方向輕松提取,另一個方向幾乎不可能。

      如果信息真的和順序無關,這種不對稱性不應該存在。

      4條規則能涌現出多少知識

      第三個悖論可能是最有意思的。

      經典觀點說,如果一個模型完美匹配了訓練數據的概率分布(困惑度最低),它就「學會了」數據中的所有信息。

      但Conway的生命游戲只有4條簡單規則:細胞根據鄰居數量存活或死亡。就這4條。從這4條規則出發,會涌現出滑翔機(glider)、振蕩器(oscillator)等各種復雜的動態結構。

      這些結構不在規則里。你盯著規則看,怎么看都看不出來會有「滑翔機」這種東西。但它們確實存在,而且是可學習的模式。一個足夠強的模型,能從這4條規則中學到遠比規則本身豐富得多的知識。

      三個悖論指向同一個漏洞:經典信息論沒有考慮觀察者的計算能力。

      信息取決于誰在看

      今年1月,CMU和NYU的六位研究者發了一篇論文,叫《From Entropy to Epiplexity》。作者之一Andrew Gordon Wilson說他們研究了近兩年,「抑制不住地興奮」。

      說實話,「信息取決于觀察者算力」這個直覺不算全新。2020年的V-information論文就證明了計算約束下信息可以被「創造」,直接違反了DPI。更早的1988年,Bennett提出過邏輯深度(logical depth),1996年物理學家Gell-Mann提出過有效復雜度(effective complexity),都從不同角度摸到了類似的東西。ML社區在實踐中也早就知道特征工程和數據增強能提升性能,跟DPI矛盾,只是沒人太在意理論解釋。

      但之前的工作更像是散落的碎片,各自解釋一個側面。這篇論文的價值在于把這些直覺整合成了一套完整框架,同時覆蓋合成數據、數據排序、涌現等多個現象,而且給出了可操作的測量方法。不只是說「有這么回事」,而是說「怎么量、怎么用」。

      他們的核心思路很優雅:把數據中的信息拆成兩部分。

      第一部分叫 Epiplexity(認知復雜度)。在給定算力范圍內,觀察者能從數據中提取的可學習結構。

      第二部分叫 Time-bounded Entropy(時間有界熵)。在給定算力范圍內,看起來像隨機噪聲的那部分。

      關鍵來了:同一份數據,對不同算力的觀察者,這兩個量是不同的。

      算力越強,能看到的結構越多(epiplexity升高),噪聲變少(entropy降低)。算力越弱,結構藏在「看不見」的地方,整個數據更像噪聲。

      打個比方。同一本醫學教材,對醫學生來說,里面滿是可學習的結構(高epiplexity)——癥狀和疾病之間的關聯、用藥邏輯、鑒別診斷的決策樹。對小學生來說,同樣的內容大部分看起來像噪聲(高entropy,低epiplexity)。數據沒變。變的是觀察者的「算力」。

      對AI模型也一樣。同一份訓練數據,GPT-2和GPT-4能從中提取的結構量完全不同。不是數據變了,是模型的算力變了。

      密碼學給了一個特別漂亮的驗證。偽隨機數生成器產生的序列,多項式時間的觀察者幾乎不可能與真隨機數區分。所以它的time-bounded entropy接近最大值(看起來全是噪聲),但epiplexity幾乎為零(沒有可學習的結構)。

      翻譯成人話:你的算力不夠,你就發現不了數據里的規律。對你來說,它就是噪聲。

      這不是一個哲學觀點。論文給出了嚴格的數學定義和證明。


      這把尺子量出了什么

      理論漂亮是一回事,能不能用是另一回事。研究者拿這個框架實際測量了,結果挺值得說。

      文本數據的epiplexity遠高于圖像數據。

      這可能是第一次從信息論角度解釋「為什么語言模型比視覺模型泛化更強」。文本里藏著更密集的可學習結構,所以LLM學到的東西能遷移到更多下游任務。我們直覺上一直知道,但缺少理論解釋。

      他們還用國際象棋做了實驗。用不同數據集預訓練模型,測試在從未見過的棋局上的表現。結果很清楚:高epiplexity數據集訓練出的模型,在新棋局上明顯更強。

      更實用的是,測量方法出奇簡單。

      他們提出了一種叫 prequential coding 的估計方法,核心思想是看訓練損失曲線。損失從高到低下降的「面積」越大,說明模型從數據中學到了越多結構,epiplexity越高。

      你不需要復雜的數學推導??从柧毲€,就能大致判斷數據質量。


      回到那個問題

      前面三個悖論現在都能解釋了。

      合成數據為什么有用?因為數據處理不等式假設了無限算力的觀察者。對無限算力來說,確定性變換確實不增加信息。但對有限算力的模型來說,一個好的合成過程可以把隱藏的結構變成可學習的結構,提高epiplexity。

      數據順序為什么重要?因為有限算力的觀察者從不同方向提取信息的難度是不對稱的。從左到右和從右到左,對無限算力沒區別,但對有限算力有巨大差異。

      涌現為什么發生?因為有限算力的觀察者能發現生成規則本身沒有明確包含的模式。規則簡單,但規則運行的結果中蘊含的可學習結構遠超規則本身。

      飛輪還在轉嗎

      之前寫Ilya Sutskever那篇文章時,他說:「2020到2025是規模時代,但現在規模已經夠大了。」很多人覺得scaling law快到頭了,原因很簡單:世界上的高質量文本數據快用完了。

      但這引出了一個更大膽的問題:如果更好的模型能生成更好的合成數據,更好的合成數據又能訓練出更好的模型,這個飛輪能一直轉下去嗎?

      直覺上覺得不行。合成數據不能憑空創造關于真實世界的新知識。AlphaZero學到的所有戰略,本質上都是圍棋規則的推論,不是新的物理定律。你不可能靠AI生成數據來教AI它不知道的事實。這像是踩著自己的腳想把自己舉起來。

      但epiplexity給了一個不同的視角。

      合成數據做的事情不是「增加知識」,而是「提高結構密度」。你有一本沒目錄、沒索引的百科全書。一個好的合成過程相當于給它重新排版、標注重點、加上交叉引用。信息沒變,但對有限算力的讀者來說,可學習的結構變多了。epiplexity提高了。

      所以飛輪可能還在。只是驅動它的東西變了:從「更多的數據」變成「更高密度的結構」。不是加油,是換擋。

      不過有一個關鍵前提:你需要一種方法來驗證合成數據的質量。代碼可以編譯運行,數學可以形式化證明,所以這兩個領域的合成飛輪最先跑通了。Demis Hassabis也說過,代碼和數學可以靠合成數據無限生成訓練素材,正是因為有自動驗證。

      沒有驗證機制的領域呢?模型生成的「知識」可能只是幻覺。這時候合成數據不但不增加epiplexity,反而引入noise。Nature上那篇model collapse論文就是這個警告:純合成數據訓練,模型會不可避免地退化。

      所以更準確地說:飛輪能不能轉,取決于你有沒有驗證器。有驗證器的領域(代碼、數學、游戲),踩自己的腳上天是可能的。沒有驗證器的領域,自舉大概率坍縮。

      所有人都在說data quality matters,但一直沒人能精確定義什么是quality。Epiplexity給了一個候選答案:高epiplexity的數據就是高質量的數據。而驗證器,是確保合成數據確實有高epiplexity的守門員。


      Karpathy之前在訪談里說過一個觀點,我印象很深:人類記憶差,反而是優勢。因為記憶力不好,迫使人類去尋找模式,而不是死記硬背。LLM的問題恰恰相反,過度記憶,反而忽略了可以泛化的規律。

      用epiplexity的語言重新說這句話:人類的有限算力反而迫使我們只提取高epiplexity的結構,忽略noise。而LLM的巨大參數量讓它可以把noise也記住,結果反而泛化變差。

      費曼說過:「如果你不能簡單地解釋它,說明你還不理解它?!?/p>

      我做了兩年多內容,最大的體會是邊學、邊做、邊分享形成的飛輪。當你試圖教別人一個概念,費曼學習法會逼你把東西梳理得更清楚。現在我覺得這個過程可以用一個更精確的詞來描述:你在用有限的算力(時間、注意力、已有知識),從數據中提取結構。提取得越多,你就越「理解」了這個東西。

      同一份數據,不同的人看到不同的信息。這不是雞湯。這是一個數學事實。

      只是信息論花了70年才真正意識到它。

      論文地址:https://arxiv.org/abs/2601.03220

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      九方魚論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      財聯社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      聽我說球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說游戲
      2026-04-28 16:31:31
      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      丁丁鯉史紀
      2026-05-05 10:33:14
      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      狐貍先森講升學規劃
      2026-05-06 05:35:03
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      界面新聞
      2026-05-11 12:33:18
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      時分秒說
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      安安說
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      200文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      房產
      健康
      教育
      時尚
      藝術

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      干細胞能讓人“返老還童”嗎

      教育要聞

      奔赴一場英法教育之旅,遇見更好的未來

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      藝術要聞

      2026中央美術學院博士生畢業作品選

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 极品人妻少妇一区二区三区| 仙女白丝jk小脚夹得我好爽| 久久久久亚洲精品| 日韩欧美亚洲每的更新在线| 成年女人片免费视频播放A| 国产精品久久久久久99人妻精品 | 无码人妻一区二区三区尽卡亚| 亚洲第一国产综合| 四虎国产精品永久入口| 亚洲熟妇少妇任你躁在线观看无码| 成人午夜福利免费专区无码| a级国产乱理伦片在线观看al| 亚洲男人的天堂久久香蕉| 麻豆一区二区99久久久久 | 日韩av色一区二区三区| 国产一区二区日韩在线| 久久综合中文字幕一区二区三区| 亚洲中文字幕无码专区| 人妻少妇偷人无码视频| 中文有码无码人妻在线| 中文字幕在线永久免费视频| 国模吧视频| 国产成人三级| 秋霞av一区二区三区| 熟女国产精品一区二区三| 国产乱人妻精品秘?入口-国产精品亚| 一卡二卡三卡无码| 亚洲熟少妇在线播放999| 国产综合亚洲区在线观看| 国产萌白酱喷水视频在线观看| 免费午夜无码片在线观看影院| 国产亚洲精品| 久久婷婷激情亚洲综合色| 亚洲欧美日韩高清一区| 国产精品老熟女400部| 亚洲色一色噜一噜噜噜| 精品?一区?卡| 亚洲AV午夜成人无码电影| 日本黄网站免费| 免费国产在线精品三区| 久久99精品国产99久久6尤物|