ESSAY
我們?cè)诤芏嗟胤蕉伎吹搅艘粋€(gè)詞,叫「壓縮即智能」
第一次碰到這個(gè)詞的時(shí)候,很多人會(huì)愣一下。壓縮?壓縮怎么就智能了?zip 文件很智能嗎?后來(lái)讀到劉慈欣的《詩(shī)云》,突然就通了
故事的背景是,一個(gè)技術(shù)遠(yuǎn)超人類(lèi)的外星神級(jí)文明來(lái)到地球。人類(lèi)在它面前毫無(wú)還手之力,科技、軍事、能源,全面碾壓
但有一個(gè)人類(lèi)詩(shī)人對(duì)它說(shuō):你寫(xiě)不出超越李白的詩(shī)
這個(gè)文明不服。它決定用自己的方式解決這個(gè)問(wèn)題:窮舉。把所有漢字的所有可能排列組合,全部生成出來(lái),存進(jìn)一團(tuán)圍繞恒星運(yùn)行的巨大存儲(chǔ)結(jié)構(gòu)里。劉慈欣管它叫「詩(shī)云」
雕 床 欄 頭 春 故 少 光 里 更 層 朱 似 國(guó) 夜 國(guó) 鄉(xiāng) 欄 事 中 風(fēng) 樓 雕 昨 前 千 鄉(xiāng) 舉 山 流 霜 國(guó) 前 改 多 又 千 改 窮 有 春 事 只 砌 小 了 樓 東 知 了 玉 水 猶 故 樓 了 往 前 夜 東 月 低 花 知 幾 國(guó) 疑 望 昨 是 流 少 能 日 昨 目 白 多 多 玉 向 向 似 山 雕 只 舉 月 樓 幾 春 花 秋 月 何 時(shí) 了 ? 50002? 種排列 · 好詩(shī)在哪里?
從數(shù)學(xué)的角度,這朵云里一定包含了超越李白的作品。所有可能的漢字排列都在里面,當(dāng)然也包括最好的那幾首
但這個(gè)文明做完之后,沉默了。因?yàn)樗?strong>找不到那些詩(shī)。擁有一切可能的詩(shī)句,卻沒(méi)有辦法判斷哪些是好的
一個(gè)圖書(shū)館把世界上所有的書(shū)都收齊了。這不叫智能。一個(gè)人讀完之后,用三頁(yè)紙寫(xiě)清楚這些書(shū)的共同規(guī)律。這叫智能,區(qū)別在于:丟掉了什么
窮舉不產(chǎn)生智能。壓縮才產(chǎn)生智能
從 Shannon 開(kāi)始
那壓縮和智能之間的關(guān)系,到底是文學(xué)直覺(jué),還是有數(shù)學(xué)支撐?
有。而且這條線(xiàn)索比大多數(shù)人想象的要長(zhǎng)
1948 年,Claude Shannon 發(fā)表「A Mathematical Theory of Communication」,定義了信息熵:一條消息的信息量,等于編碼它所需的最小比特?cái)?shù)
最小。這兩個(gè)字是整個(gè)信息論的地基
你能用 10 個(gè) bit 無(wú)損表達(dá)原本需要 100 個(gè) bit 的信息,說(shuō)明你找到了 90% 的冗余結(jié)構(gòu)。你理解了它
1960 年代,Solomonoff、Kolmogorov 和 Chaitin 從三個(gè)不同國(guó)家獨(dú)立提出了算法信息論。Kolmogorov 復(fù)雜度:一個(gè)對(duì)象的復(fù)雜度 = 生成它的最短程序長(zhǎng)度
最短的程序,能還原全部的信息
100 bits 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 compress 10 bits 1 0 1 0 1 90% 冗余被消除 H(X) = ?Σ p(x) log p(x) 找到冗余結(jié)構(gòu) = 理解它
100 bits → 10 bits:找到冗余,就是理解
2006 年,Marcus Hutter 發(fā)起了一個(gè) 50 萬(wàn)歐元的競(jìng)賽:誰(shuí)能更好地壓縮維基百科的前 1GB,誰(shuí)就更智能。他說(shuō),智能是一個(gè)模糊的概念,但文件大小是硬數(shù)字
Ilya Sutskever 說(shuō)過(guò),通過(guò)壓縮實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí),是創(chuàng)立 OpenAI 的兩個(gè) founding ideas 之一
DeepMind 的論文「Language Modeling Is Compression」證明了語(yǔ)言建模和數(shù)據(jù)壓縮在數(shù)學(xué)上等價(jià)。訓(xùn)練一個(gè)語(yǔ)言模型,就是在訓(xùn)練一個(gè)壓縮器
從 Shannon 到 Kolmogorov 到 Hutter 到 Ilya,幾十年,所有人到了同一個(gè)地方:
最小化描述長(zhǎng)度,最大化預(yù)測(cè)能力
這就是「壓縮即智能」的數(shù)學(xué)含義
F = ma
不止數(shù)學(xué)。回頭看整個(gè)科學(xué)史,「壓縮即智能」一直在場(chǎng)
第谷花了二十多年記錄天文觀(guān)測(cè)數(shù)據(jù),手稿好幾米高。開(kāi)普勒壓縮成了三條定律
然后牛頓來(lái)了。F = ma 加上萬(wàn)有引力公式,兩行字,把前面所有東西全部裝進(jìn)去了
麥克斯韋用四個(gè)方程壓縮了整個(gè)電磁學(xué)。愛(ài)因斯坦用五個(gè)符號(hào) E=mc2 壓縮了質(zhì)量和能量的關(guān)系
科學(xué)的進(jìn)步史,就是壓縮率的提升史
第谷 20 年觀(guān)測(cè) 開(kāi)普勒 3 條定律 牛頓 F = ma 2 行字 數(shù)據(jù) → 定律 → 公式:壓縮率越來(lái)越高
20 年觀(guān)測(cè) → 3 條定律 → 2 行字
每一次重大突破,都是用更少的符號(hào)解釋更多的現(xiàn)象
物理學(xué)最底層的原理叫最小作用量原理。光走最短路徑。物體沿作用量最小的軌跡運(yùn)動(dòng)。宇宙在每一個(gè)尺度上都偏好最經(jīng)濟(jì)的方案
壓縮,即智能
馮·諾依曼
說(shuō)到數(shù)學(xué)結(jié)構(gòu),這里有一段有意思的歷史
1928 年,馮·諾依曼證明了博弈論的基石定理:在零和博弈中,存在一個(gè)最優(yōu)策略,使得最大可能損失被最小化
這個(gè)定理叫Minimax 定理
找到所有最壞情況(max loss),然后在里面選最好的(min)。反過(guò)來(lái)也成立,在所有保守策略中找收益最高的(max min)
后來(lái)這個(gè)框架到處都是。Nash 均衡、Alpha-Beta 剪枝、對(duì)抗訓(xùn)練,都建立在它上面
max min loss gain min(max loss) = max(min gain) Minimax 定理:兩條線(xiàn)終將收斂
兩條線(xiàn)終將收斂:這就是 Minimax
還有一件事比較有意思,可以把前面說(shuō)的「壓縮即智能」放進(jìn)數(shù)學(xué)框架里看
Kolmogorov 復(fù)雜度:最短的程序,還原全部信息
min 描述長(zhǎng)度,max 保真度
Shannon 最優(yōu)編碼:最少的比特?cái)?shù),無(wú)損傳輸全部信息
min 碼長(zhǎng),max 保真
訓(xùn)練語(yǔ)言模型:找一組參數(shù),使得在任何未知數(shù)據(jù)上的預(yù)測(cè)誤差盡可能小
min loss,max generalization
這三個(gè)問(wèn)題的數(shù)學(xué)結(jié)構(gòu)是一樣的。都是 Minimax
馮·諾依曼在 1928 年就把這個(gè)結(jié)構(gòu)命名好了。只是當(dāng)時(shí)沒(méi)人在討論 AI
![]()
大腦
「壓縮即智能」在生物學(xué)里也有對(duì)應(yīng)
人類(lèi)嬰兒出生時(shí),大腦有大約100 萬(wàn)億個(gè)突觸連接。到成年,減少到 50 萬(wàn)億
少了一半。這個(gè)過(guò)程叫突觸修剪。大腦主動(dòng)丟棄低效連接,保留最有用的路徑。大腦在對(duì)自己做壓縮
自閉癥譜系的一種理論認(rèn)為,部分患者的突觸修剪不夠充分。連接太多,信號(hào)互相干擾,無(wú)法提取清晰的模式
連接太多和信息太多,是同一類(lèi)問(wèn)題。詩(shī)云的困境,在生物學(xué)里也存在
人腦每秒接收大約 1100 萬(wàn) bits 的感官信息,意識(shí)只能處理大約 50 bits。99.9995%被丟棄了
意識(shí),大概就是一個(gè)極其挑剔的壓縮器
它的工作就是決定丟掉哪些信息
10 的 103 次方
最后回到詩(shī)云,算一筆賬
假設(shè)漢字 5000 個(gè),一首七言絕句 28 個(gè)字。所有可能的排列組合是 50002?,大約101?3
可觀(guān)測(cè)宇宙中的原子總數(shù)大約 10??。詩(shī)云里的「詩(shī)」比宇宙里的原子還多
好詩(shī)大概率不超過(guò)幾百萬(wàn)首。占比 10? / 101?3 =10???
隨機(jī)抽樣找好詩(shī),在宇宙的整個(gè)生命周期里,一首都找不到
窮舉的失敗在于搜索空間太大。什么都不壓縮,好的東西就被淹沒(méi)了
而李白不在 101?3 的空間里搜索。他對(duì)語(yǔ)言、情感、韻律、意象有一套高度壓縮的理解,可以直接跳到好詩(shī)的鄰域
他的腦子里裝的是一個(gè)壓縮過(guò)的生成模型
10? 首好詩(shī) 101?3 李白 壓縮 = 知道往哪里跳
李白不窮舉。他知道往哪里跳
大語(yǔ)言模型也是一回事。GPT 的參數(shù)量遠(yuǎn)小于訓(xùn)練數(shù)據(jù)量,但它能生成從沒(méi)見(jiàn)過(guò)的合理文本。因?yàn)樗鼔嚎s了數(shù)據(jù)背后的結(jié)構(gòu)
外星文明輸給了李白。它的算力夠了。它不會(huì)壓縮
「壓縮即智能」這個(gè)詞表達(dá)得不好。兩個(gè)抽象概念中間一個(gè)「即」字,沒(méi)有信息論背景的人很難直覺(jué)理解
但它說(shuō)的事情很簡(jiǎn)單。用最少的符號(hào)解釋最多的現(xiàn)象,用最短的程序還原全部信息,用最少的參數(shù)做最好的預(yù)測(cè)。換句話(huà)說(shuō):Mini 這個(gè) Max
我建議以后別說(shuō)「壓縮即智能」了,說(shuō):MiniMax
以上內(nèi)容,是認(rèn)真的
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.