網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MiniMax 定理：壓縮即智能

2026-03-23 19:28:16　來(lái)源: 賽博禪心

北京舉報(bào)

分享至

ESSAY

我們?cè)诤芏嗟胤蕉伎吹搅艘粋€(gè)詞，叫「壓縮即智能」

第一次碰到這個(gè)詞的時(shí)候，很多人會(huì)愣一下。壓縮？壓縮怎么就智能了？zip 文件很智能嗎？后來(lái)讀到劉慈欣的《詩(shī)云》，突然就通了

故事的背景是，一個(gè)技術(shù)遠(yuǎn)超人類(lèi)的外星神級(jí)文明來(lái)到地球。人類(lèi)在它面前毫無(wú)還手之力，科技、軍事、能源，全面碾壓

但有一個(gè)人類(lèi)詩(shī)人對(duì)它說(shuō)：你寫(xiě)不出超越李白的詩(shī)

這個(gè)文明不服。它決定用自己的方式解決這個(gè)問(wèn)題：窮舉。把所有漢字的所有可能排列組合，全部生成出來(lái)，存進(jìn)一團(tuán)圍繞恒星運(yùn)行的巨大存儲(chǔ)結(jié)構(gòu)里。劉慈欣管它叫「詩(shī)云」

雕床欄頭春故少光里更層朱似國(guó) 夜國(guó) 鄉(xiāng) 欄事中風(fēng) 樓雕昨前千鄉(xiāng) 舉山流霜國(guó) 前改多又千改窮有春事只砌小了樓東知了玉水猶故樓了往前夜東月低花知幾國(guó) 疑望昨是流少能日昨目白多多玉向向似山雕只舉月樓幾春花秋月何時(shí) 了 ? 50002? 種排列 · 好詩(shī)在哪里？

從數(shù)學(xué)的角度，這朵云里一定包含了超越李白的作品。所有可能的漢字排列都在里面，當(dāng)然也包括最好的那幾首

但這個(gè)文明做完之后，沉默了。因?yàn)樗?strong>找不到那些詩(shī)。擁有一切可能的詩(shī)句，卻沒(méi)有辦法判斷哪些是好的

一個(gè)圖書(shū)館把世界上所有的書(shū)都收齊了。這不叫智能。一個(gè)人讀完之后，用三頁(yè)紙寫(xiě)清楚這些書(shū)的共同規(guī)律。這叫智能，區(qū)別在于：丟掉了什么

窮舉不產(chǎn)生智能。壓縮才產(chǎn)生智能

從 Shannon 開(kāi)始

那壓縮和智能之間的關(guān)系，到底是文學(xué)直覺(jué)，還是有數(shù)學(xué)支撐？

有。而且這條線(xiàn)索比大多數(shù)人想象的要長(zhǎng)

1948 年，Claude Shannon 發(fā)表「A Mathematical Theory of Communication」，定義了信息熵：一條消息的信息量，等于編碼它所需的最小比特?cái)?shù)

最小。這兩個(gè)字是整個(gè)信息論的地基

你能用 10 個(gè) bit 無(wú)損表達(dá)原本需要 100 個(gè) bit 的信息，說(shuō)明你找到了 90% 的冗余結(jié)構(gòu)。你理解了它

1960 年代，Solomonoff、Kolmogorov 和 Chaitin 從三個(gè)不同國(guó)家獨(dú)立提出了算法信息論。Kolmogorov 復(fù)雜度：一個(gè)對(duì)象的復(fù)雜度 = 生成它的最短程序長(zhǎng)度

最短的程序，能還原全部的信息

100 bits 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 compress 10 bits 1 0 1 0 1 90% 冗余被消除 H(X) = ?Σ p(x) log p(x) 找到冗余結(jié)構(gòu) = 理解它

100 bits → 10 bits：找到冗余，就是理解

2006 年，Marcus Hutter 發(fā)起了一個(gè) 50 萬(wàn)歐元的競(jìng)賽：誰(shuí)能更好地壓縮維基百科的前 1GB，誰(shuí)就更智能。他說(shuō)，智能是一個(gè)模糊的概念，但文件大小是硬數(shù)字

Ilya Sutskever 說(shuō)過(guò)，通過(guò)壓縮實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)，是創(chuàng)立 OpenAI 的兩個(gè) founding ideas 之一

DeepMind 的論文「Language Modeling Is Compression」證明了語(yǔ)言建模和數(shù)據(jù)壓縮在數(shù)學(xué)上等價(jià)。訓(xùn)練一個(gè)語(yǔ)言模型，就是在訓(xùn)練一個(gè)壓縮器

從 Shannon 到 Kolmogorov 到 Hutter 到 Ilya，幾十年，所有人到了同一個(gè)地方：

最小化描述長(zhǎng)度，最大化預(yù)測(cè)能力

這就是「壓縮即智能」的數(shù)學(xué)含義

F = ma

不止數(shù)學(xué)。回頭看整個(gè)科學(xué)史，「壓縮即智能」一直在場(chǎng)

第谷花了二十多年記錄天文觀(guān)測(cè)數(shù)據(jù)，手稿好幾米高。開(kāi)普勒壓縮成了三條定律

然后牛頓來(lái)了。F = ma 加上萬(wàn)有引力公式，兩行字，把前面所有東西全部裝進(jìn)去了

麥克斯韋用四個(gè)方程壓縮了整個(gè)電磁學(xué)。愛(ài)因斯坦用五個(gè)符號(hào) E=mc2 壓縮了質(zhì)量和能量的關(guān)系

科學(xué)的進(jìn)步史，就是壓縮率的提升史

第谷 20 年觀(guān)測(cè) 開(kāi)普勒 3 條定律牛頓 F = ma 2 行字數(shù)據(jù) → 定律 → 公式：壓縮率越來(lái)越高

20 年觀(guān)測(cè) → 3 條定律 → 2 行字

每一次重大突破，都是用更少的符號(hào)解釋更多的現(xiàn)象

物理學(xué)最底層的原理叫最小作用量原理。光走最短路徑。物體沿作用量最小的軌跡運(yùn)動(dòng)。宇宙在每一個(gè)尺度上都偏好最經(jīng)濟(jì)的方案

壓縮，即智能

馮·諾依曼

說(shuō)到數(shù)學(xué)結(jié)構(gòu)，這里有一段有意思的歷史

1928 年，馮·諾依曼證明了博弈論的基石定理：在零和博弈中，存在一個(gè)最優(yōu)策略，使得最大可能損失被最小化

這個(gè)定理叫Minimax 定理

找到所有最壞情況（max loss），然后在里面選最好的（min）。反過(guò)來(lái)也成立，在所有保守策略中找收益最高的（max min）

后來(lái)這個(gè)框架到處都是。Nash 均衡、Alpha-Beta 剪枝、對(duì)抗訓(xùn)練，都建立在它上面

max min loss gain min(max loss) = max(min gain) Minimax 定理：兩條線(xiàn)終將收斂

兩條線(xiàn)終將收斂：這就是 Minimax

還有一件事比較有意思，可以把前面說(shuō)的「壓縮即智能」放進(jìn)數(shù)學(xué)框架里看

Kolmogorov 復(fù)雜度：最短的程序，還原全部信息

min 描述長(zhǎng)度，max 保真度

Shannon 最優(yōu)編碼：最少的比特?cái)?shù)，無(wú)損傳輸全部信息

min 碼長(zhǎng)，max 保真

訓(xùn)練語(yǔ)言模型：找一組參數(shù)，使得在任何未知數(shù)據(jù)上的預(yù)測(cè)誤差盡可能小

min loss，max generalization

這三個(gè)問(wèn)題的數(shù)學(xué)結(jié)構(gòu)是一樣的。都是 Minimax

馮·諾依曼在 1928 年就把這個(gè)結(jié)構(gòu)命名好了。只是當(dāng)時(shí)沒(méi)人在討論 AI

大腦

「壓縮即智能」在生物學(xué)里也有對(duì)應(yīng)

人類(lèi)嬰兒出生時(shí)，大腦有大約100 萬(wàn)億個(gè)突觸連接。到成年，減少到 50 萬(wàn)億

少了一半。這個(gè)過(guò)程叫突觸修剪。大腦主動(dòng)丟棄低效連接，保留最有用的路徑。大腦在對(duì)自己做壓縮

自閉癥譜系的一種理論認(rèn)為，部分患者的突觸修剪不夠充分。連接太多，信號(hào)互相干擾，無(wú)法提取清晰的模式

連接太多和信息太多，是同一類(lèi)問(wèn)題。詩(shī)云的困境，在生物學(xué)里也存在

人腦每秒接收大約 1100 萬(wàn) bits 的感官信息，意識(shí)只能處理大約 50 bits。99.9995%被丟棄了

意識(shí)，大概就是一個(gè)極其挑剔的壓縮器

它的工作就是決定丟掉哪些信息

10 的 103 次方

最后回到詩(shī)云，算一筆賬

假設(shè)漢字 5000 個(gè)，一首七言絕句 28 個(gè)字。所有可能的排列組合是 50002?，大約101?3

可觀(guān)測(cè)宇宙中的原子總數(shù)大約 10??。詩(shī)云里的「詩(shī)」比宇宙里的原子還多

好詩(shī)大概率不超過(guò)幾百萬(wàn)首。占比 10? / 101?3 =10???

隨機(jī)抽樣找好詩(shī)，在宇宙的整個(gè)生命周期里，一首都找不到

窮舉的失敗在于搜索空間太大。什么都不壓縮，好的東西就被淹沒(méi)了

而李白不在 101?3 的空間里搜索。他對(duì)語(yǔ)言、情感、韻律、意象有一套高度壓縮的理解，可以直接跳到好詩(shī)的鄰域

他的腦子里裝的是一個(gè)壓縮過(guò)的生成模型

10? 首好詩(shī) 101?3 李白壓縮 = 知道往哪里跳

李白不窮舉。他知道往哪里跳

大語(yǔ)言模型也是一回事。GPT 的參數(shù)量遠(yuǎn)小于訓(xùn)練數(shù)據(jù)量，但它能生成從沒(méi)見(jiàn)過(guò)的合理文本。因?yàn)樗鼔嚎s了數(shù)據(jù)背后的結(jié)構(gòu)

外星文明輸給了李白。它的算力夠了。它不會(huì)壓縮

「壓縮即智能」這個(gè)詞表達(dá)得不好。兩個(gè)抽象概念中間一個(gè)「即」字，沒(méi)有信息論背景的人很難直覺(jué)理解

但它說(shuō)的事情很簡(jiǎn)單。用最少的符號(hào)解釋最多的現(xiàn)象，用最短的程序還原全部信息，用最少的參數(shù)做最好的預(yù)測(cè)。換句話(huà)說(shuō)：Mini 這個(gè) Max

我建議以后別說(shuō)「壓縮即智能」了，說(shuō)：MiniMax

以上內(nèi)容，是認(rèn)真的

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.