![]()
新智元報道
編輯:桃子
【新智元導(dǎo)讀】你敢信?一個活在95年前的AI,竟寫出了Python代碼。GPT之父下場,用2600億Token煉出了一個「老古董」AI。
一個從未見過電腦的AI,竟寫出了現(xiàn)代編程語言!
這可不是什么科幻的設(shè)定。
就在今天,GPT之父Alec Radford帶隊發(fā)布了震撼全網(wǎng)的「talkie」——
總參數(shù)130億,一個只讀過1931年之前舊文獻(xiàn)的大模型。
![]()
talkie的「世界觀」(全部訓(xùn)練數(shù)據(jù)),被凍結(jié)在了1930年12月31日。
那個時代,沒有互聯(lián)網(wǎng),沒有維基百科,更沒有任何現(xiàn)代代碼。
它讀過的最「新」的東西,是近百年前的專利書、科學(xué)期刊、禮儀手冊和私人書信。
![]()
但就是這樣一個「活在95年前」的AI,居然能寫出Python代碼。
![]()
![]()
![]()
沒學(xué)過編程,
卻寫出了Python,理解了「逆函數(shù)」
talkie最炸裂的發(fā)現(xiàn),藏在一組編程測試?yán)铩?/p>
Alec Radford團(tuán)隊突發(fā)奇想,用HumanEval去測試talkie的編程能力——
給它幾個Python函數(shù)作為上下文示例,然后讓它解決新的編程問題。
要知道,talkie的訓(xùn)練數(shù)據(jù)中,沒有任何一行現(xiàn)代代碼。連數(shù)字計算機(jī)的概念,都不存在于它的「知識體系」中。
![]()
但結(jié)果令人震驚,通過少樣本學(xué)習(xí),它竟然能寫出正確的Python程序。
雖然目前只能完成簡單的單行程序,比如兩個數(shù)相加,或者對上下文示例做微小修改。
![]()
Alec Radford:GPT、CLIP、Whisper背后核心大佬
但其中一個案例讓人印象深刻:給定一個旋轉(zhuǎn)密碼的編碼函數(shù)encode_shift,它的邏輯是把每個字母在字母表中向后移動5位。
talkie自己寫出了對應(yīng)的解碼函數(shù),整個修改只有一個字符:把+5改成了-5,加號換成了減號。
它真正理解了「逆函數(shù)」:加密是加,解密就是減」這個逆運(yùn)算的概念。
![]()
傳送門:https://talkie-lm.com/chat
2600億Token,專喂百年前的紙
Alec Radford團(tuán)隊為什么要費(fèi)這么大勁,手動OCR近百年前的物理文獻(xiàn),來訓(xùn)練一個「老古董」?
因為他們要回答AI領(lǐng)域最核心的一個問題:LLM的能力,到底是推理,還是背誦?
talkie可以寫出Python,證明了——
LLM可以用19世紀(jì)的知識做推理,并非只是檢索。不得不說,這才是真正意義上的「泛化」!
![]()
再來看talkie的訓(xùn)練語料庫,可以稱得上是一個龐大的「考古工程」。
它的訓(xùn)練語料達(dá)到了2600億token,全部來自1931年之前的英語文本,包括書籍、報紙、期刊、科學(xué)論文、美國專利、判例法。
要知道,這么多文本皆需要從實體文檔掃描并OCR轉(zhuǎn)錄。
![]()
而選擇1930年作為截止日期,原因很實際:這是美國公共版權(quán)法(public domain)的分界線。
不過,這帶來了一個意想不到的瓶頸:數(shù)據(jù)質(zhì)量。
團(tuán)隊做了一組對照實驗:用傳統(tǒng)OCR系統(tǒng)轉(zhuǎn)錄的舊文本訓(xùn)練模型,和用人工轉(zhuǎn)錄的同一批文本訓(xùn)練模型相比,前者的學(xué)習(xí)效率只有后者的30%。
簡單的正則清洗能把這個數(shù)字提升到70%,但仍然有巨大的差距。
![]()
在評估talkie性能實驗中,團(tuán)隊又打造了一個「現(xiàn)代孿生體」(talkie-web-13b-base)。
后者用FineWeb的現(xiàn)代網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,兩款模型用了「相同的算力」。
顯而易見,在核心語言理解、數(shù)學(xué)推理任務(wù)上,talkie的表現(xiàn)與現(xiàn)代孿生體相當(dāng)。
但在通用知識評測上,即使剔除了對1930年視角來說「穿越」的題目,talkie仍然落后。
![]()
團(tuán)隊?wèi)岩桑@跟數(shù)據(jù)質(zhì)量有很大關(guān)系。
為此,Radford團(tuán)隊計劃從零開始訓(xùn)練「復(fù)古OCR系統(tǒng)」,專門用于重新轉(zhuǎn)錄1931年前的文本。
用最現(xiàn)代的Claude 4.6
訓(xùn)練最古老的AI
talkie的「后訓(xùn)練」方案也很有意思。
要把一個只讀過舊書的「基礎(chǔ)模型」變成能對話的聊天機(jī)器人,根本沒有現(xiàn)成的指令微調(diào)的數(shù)據(jù)可用。
![]()
團(tuán)隊的做法是,從1930年之前的結(jié)構(gòu)化參考書中提取指令-回答對:禮儀手冊、書信寫作指南、菜譜、百科全書、詩歌集。
然后,再用這些「復(fù)古教材」做第一輪SFT。
在接下來的RLAIF階段,團(tuán)隊用在線DPO來提升talkie的指令遵循能力,Claude Sonnet 4.6作為裁判。
一個2026年最先進(jìn)的AI,給一個「活在」1930年的AI打分。
最終的精調(diào)階段,團(tuán)隊甚至用Claude Opus 4.6生成多輪對話數(shù)據(jù),來打磨talkie的對話能力。
訓(xùn)練過程中,Claude對talkie指令遵循能力的評分從2.0提升到了3.4(滿分5分)。
最后一步,用Claude Opus 4.6與talkie進(jìn)行多輪合成對話,再做一輪拒絕采樣+SFT,打磨對話能力。
團(tuán)隊也坦承了一個諷刺之處:用現(xiàn)代大模型訓(xùn)練一個本該凍結(jié)在1930年的模型,本身就是一種「時間污染」。
他們的長期目標(biāo)是用復(fù)古基座模型自身作為裁判,實現(xiàn)完全「自舉式」的后訓(xùn)練流水線。
值得一提的是,talkie的7B版本在RL訓(xùn)練后出現(xiàn)了一個搞笑的副作用——
它開始用列表體說話,純屬是被現(xiàn)代AI的「壞習(xí)慣」傳染了。
AI界最干凈的一次「開卷考試」
研究團(tuán)隊還做了另一個有趣的實驗。
他們從《紐約時報》的「歷史上的今天」欄目中提取了近5000條歷史事件描述,計算talkie對每條事件的「驚訝度」。
![]()
結(jié)果非常清晰,1930年之前的事件,talkie不太驚訝。1930年之后的事件,驚訝度開始攀升。
到了1950年代和1960年代達(dá)到峰值,然后趨于平穩(wěn)。
這條曲線本身就是一個關(guān)于預(yù)測能力的實驗。隨著模型規(guī)模增大,這條曲線會怎么變化?
谷歌DeepMind CEO Demis Hassabis曾提出一個思想實驗——
一個只訓(xùn)練到1911年的模型,能不能像愛因斯坦在1915年那樣獨立發(fā)現(xiàn)廣義相對論?
talkie目前當(dāng)然做不到。但它提供了一條路徑,往上Scale就行了。
今夏擴(kuò)展到GPT-3級別
talkie目前是130億參數(shù),團(tuán)隊的路線圖相當(dāng)激進(jìn)——
今年夏天,發(fā)布GPT-3級別的復(fù)古模型。
![]()
更遠(yuǎn)期的目標(biāo):將語料擴(kuò)展到超過一萬億token,理論上足夠訓(xùn)練一個GPT-3.5級別的模型,能力接近初代ChatGPT。
一個凍結(jié)在1930年的ChatGPT。
參考資料:
https://x.com/status_effects/status/2048878495539843211?s=20
https://talkie-lm.com/introducing-talkie
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.