![]()
來源:AGI Hunt
Jakub Pachocki 是 OpenAI 現(xiàn)任首席科學家,GPT-4、o1、o3 系列模型的主要設計者之一,也是歷史上最年輕的 IOI(國際信息學奧林匹克)金牌得主之一。
![]()
Jacob Effron 和 Jakub Pachocki 對談現(xiàn)場截圖(Unsupervised Learning 播客)
他很少公開接受采訪,但這一次,他在 Redpoint AI 的播客上坐下來,聊了將近一個小時。
話題包括 AGI 時間線、OpenAI 內部如何跑實驗、為什么故意把 chain of thought 藏起來、以及他對 AI 改變科學研究的真實判斷。
![]()
OpenAI 首席科學家 Jakub Pachocki 與 Jacob Effron 對談
節(jié)目叫「Unsupervised Learning」,主持人 Jacob Effron 是 Redpoint Ventures 的管理合伙人,聊的是他「最想問的那些問題」。
![]()
OpenAI Newsroom 轉發(fā)了該采訪,配文稱:「算力驅動 AI 的每一層,而 @merettm 正在談論構建自動化 AI 研究員的進展。」
下面是整場對話里,核心的內容整理。
01
2026 年 9 月
四個月前,Jakub 和 OpenAI 團隊公開說過一個時間表:
?今年 9 月:達到「研究實習生級別」的 AI 系統(tǒng)
?2028 年 3 月:實現(xiàn)完全自動化的 AI 研究員
![]()
AGI 時間線:從現(xiàn)在到 2028
這次他接受采訪,第一個問題就是:四個月過去了,還在軌道上嗎?
“「我們在 OpenAI 內部,現(xiàn)在已經用 Codex 完成了大部分實際編程。編程這件事,對大多數(shù)人來說,已經發(fā)生了相當大的變化。我把這視為一個信號,說明某些東西是在軌道上的。」
另一個讓他覺得「進展超預期」的領域,是數(shù)學和物理。
他說,過去那套靠數(shù)學比賽來衡量模型能力的方法,已經快要不夠用了。模型已經解決了 IMO 第 6 題,進入了「研究級數(shù)學」的領域。他們正在把注意力移向「模型在真實世界里有多有用」這個維度。
“「我們相信,模型現(xiàn)在的能力已經足夠,雖然不是在每個方面都比人聰明,但已經足以實質性地改變經濟運轉方式。我們對此感到非常緊迫。」
02
什么叫「實習生」
Jacob 追問:你怎么知道自己到達了那個門檻?
Jakub 的區(qū)分方式,倒是很簡單明確。
![]()
AI 實習生 vs 自動化研究員:能力邊界對比
他說,「研究實習生」和「完全自動化研究員」的區(qū)別,在于任務的時間跨度和具體程度。
不要指望今年的系統(tǒng)能接受「去提升你的模型能力」或者「去解決對齊問題」這種指令,然后自己去干。這今年還做不到。
但如果任務足夠具體,比如「我有一個改進模型的特定想法,幫我跑這個實驗,把這個評估用不同的方式跑一遍」,他認為現(xiàn)在已經有了大部分需要的組件。
“「我認為我們主要需要的,只是把這些組件拼在一起。」
Karpathy 那篇用這些模型改進自己「小得多的模型」的文章,他覺得是對這類工具未來樣子的一個預演。
03
數(shù)學是北極星
OpenAI 為什么一直盯著數(shù)學比賽跑?
這不是因為數(shù)學本身有多重要,而是因為數(shù)學是驗證「模型有沒有真的變聰明」的最好工具。
可以驗證(對就是對,錯就是錯),可以無限變難,還能告訴你模型在「推理」這件事上到底進步了多少。
他說,這條路線引出了 reasoning 模型的整套方法論。現(xiàn)在,這個「北極星」本身快到頂了。
數(shù)學沒有變得沒用,團隊的注意力開始移向更實際的問題:模型在真實科研、真實經濟活動里到底能做多少事。
有個特別的細節(jié)是,他提到了一個叫「first proofs」的挑戰(zhàn),是幾位受尊敬的數(shù)學家/理論計算機科學家發(fā)布的一批未曾發(fā)表的研究級問題,給模型來解。
這個挑戰(zhàn)發(fā)布時沒有提前通知,只有一周時間。
OpenAI 當時手上正好有一個訓練中的模型,一位叫 James Lee 的工程師直接開始手動提示那個模型,然后發(fā)現(xiàn)它真的在解那些題。
Jakub 說,其中一道題來自他自己博士研究的領域。
“「看到模型想出了我可能需要一兩周才能想到的那些思路,而它用了大概一個小時,那是一種很奇怪的感受。就像以前看我們的 Dota 機器人用非常有趣的方式下棋,感覺有什么魔法在發(fā)生……那類東西不應該是無窮盡的。」 「而現(xiàn)在,這件事發(fā)生在了數(shù)學上。發(fā)生在了我認為真正具有代表性的領域上。這大大增加了我的緊迫感。」
04
RL 的下一站![]()
RL 可驗證性譜系:從代碼/數(shù)學到醫(yī)療/法律/創(chuàng)意
代碼和數(shù)學,是 RL 最好發(fā)揮的地方,因為驗證答案很容易。
但醫(yī)療、法律、金融呢?
Jakub 的看法:他相當樂觀,但承認這是「下一個真正的前沿」。
問題的本質,他認為和「長時間任務」高度重合。想想看,一個數(shù)學題如果要研究一年,那第一天做什么,本來就是一個開放性問題。所以「難以驗證」和「長時間跨度」這兩個難點,其實是同一件事。
“「我們在這些更通用的領域擴展 RL,已經看到非常鼓舞人心的跡象。」
對于那些問「我們應不應該自己做 RL」的公司,他的建議:RL 確實是一種數(shù)據效率很高的方式讓模型專注于某個任務。但還有一種更數(shù)據高效的方式,那就是上下文學習(in-context learning)。只要把你的例子、你的指令放進去,模型就能學。
他的直覺是:與其復制目前 OpenAI 的 RL 流程,不如先把精力放在搞清楚什么 eval 是對的、積累什么數(shù)據,未來直接喂進模型上下文,效果可能更好。
05
通用 harness
關于「要不要自己搭 harness」,他也給了個明確的判斷。
“「harness 的實現(xiàn),在很長一段時間內都不應該成為限制。我們會有更通用的 harness,可以被用于各種各樣的領域。Codex 其實如果你拿去用在編程以外的地方,效果還不錯。」
他描述的未來圖景是:AI 應該主動來到你所在的地方,而不是讓你去遷就它的限制。
比如,AI 應該出現(xiàn)在 Slack 里,接入你的上下文,能夠學習、能夠執(zhí)行。不是說有這個功能是因為它能做,而是說沒有這個功能就表示它存在局限。
“「長期來看,AI 應該默認出現(xiàn)在你所在的地方。如果沒有,那只應該是因為它有了新的能力,而不是因為它有局限。」
06
推理鏈的秘密
這是整場對話里,最有深度的部分之一。
OpenAI 在發(fā)布早期 reasoning 模型時,做了一個決定:不向用戶展示 chain of thought(推理鏈)。
這個決定有爭議,也有很多人不理解。
Jakub 解釋了他當時的主要動機。
![]()
推理鏈:公開 vs 隱藏,哪種更安全?
核心邏輯是這樣的:這類 reasoning 模型的推理過程,在訓練時沒有被直接監(jiān)督(不像 ChatGPT 那樣被訓練成「禮貌、友好」)。訓練信號只作用于最終輸出,而不作用于中間推理。
這就意味著,推理鏈是模型在沒有「表演壓力」下真實運行的地方。
“「這其實是一種非常強大的范式,可以用來解讀模型在做什么。這和機制可解釋性(mechanistic interpretability)的想法并不太不同,后者是分析那些沒有被直接監(jiān)督的模型激活值……但推理鏈的優(yōu)勢在于,它默認是用英文寫的,所以理解起來容易得多。」
他說,如果 OpenAI 在產品里展示 chain of thought,最終就不可避免地會用它來做訓練。而一旦這樣做,chain of thought 就會開始被「優(yōu)化」,就會開始變成另一種表演,而不是模型真實的內部運行。
“「如果你想長期理解模型的行為,但你在擴展的方法卻在直接對抗這個目標,那你大概不會有什么好結果。」
他把讓模型擁有「私人空間」這件事,視為維持長期可監(jiān)控性的關鍵設計。
目前的過渡方案是「推理鏈摘要」,但他認為長期解決方案是讓模型實時和你對話,而不是展示原始推理鏈。
最新版本的 Codex 和推理型 GPT 模型,已經在往這個方向走了。
07
跑幾天都沒問題
多久以后,我們會看到模型可以自主工作幾天?
“「我認為,模型能夠自主工作幾天的那個階段,并不太遠。也許需要用到比現(xiàn)在更多的算力,然后能自主產出質量更高的成果。」
至于是否需要工程師背景才能有效監(jiān)督這些運行幾天的 agent:他覺得對于很多輸出,你現(xiàn)在就已經不需要太多專業(yè)經驗了。但如果你想構建更大的東西,你仍然需要「整體設計感」,需要能判斷哪些模塊合適、哪些不合適。
“「我確實預計這種技能需求會發(fā)生相當大的轉變。」
方向是:向「設定方向、把控全局」的那種能力。
08
model scheming 研究
Jakub 提到了一項他認為「非常令人興奮」的跨實驗室合作研究:
Model scheming,即:在不同訓練環(huán)境下,模型是否會發(fā)展出隱藏目標并開始「假裝」對齊?
而值得注意的是,這項研究是 OpenAI、Anthropic 和 DeepMind 合作完成的。
他們發(fā)現(xiàn),chain of thought monitoring 正是這類研究得以進行的關鍵工具,因為它讓研究者真正能夠檢查模型的動機。
“「這種能力對于研究長期對齊很有幫助。它可能會把我們帶向完全不同的緩解方向,比如修改預訓練數(shù)據,或者采用接種提示(inoculation prompting)這類想法。能夠理解,對于評估這些方法非常有幫助。」
09
對齊的真正難題
Jakub 認為,對齊問題的長期挑戰(zhàn),本質上是一個泛化問題。
在分布內的場景,他們大體上能控制模型行為。真正令人擔憂的,是模型遇到訓練時從未見過的情況時會怎樣,比如面對一個完全不同的處境,或者變得比以往任何時候都聰明得多。
“「值得泛化的價值觀是什么?當模型陷入非常不同的處境時,它會退回到哪些價值觀?對我來說,這是一條讓我相當興奮的研究線索。」
他說,過去幾年他對對齊問題的看法,從「這是一個模糊的、難以界定的問題」,演變成了「我們可以通過非常具體的技術方案來取得進展」。
他的整體判斷是:樂觀。
他相信存在一條技術路徑能把我們帶到一個「極其美好的世界」。但他同樣清楚,能力時間線在壓縮,準備時間不多。
“「我們必須做好準備,必要時接受權衡,甚至根據我們所看到的,放慢發(fā)展速度。」
10
AI 為科學
Jakub 對于 AI 驅動科學研究的判斷,分幾個層面。
關于架構的問題:他認為,LLM 加持物理世界和特定領域專用架構(比如蛋白質折疊用不同模型)并不矛盾。兩條路可以并行。
“「我不認為大型語言模型是訓練出最優(yōu)蛋白質折疊模型的最高效方式,盡管它們最終也許會產出最好的模型。」
至于哪些科學領域會最快被 AI 改變:他沒有給出具體答案,但他認為關鍵在于「模型能不能接入現(xiàn)有的生態(tài)系統(tǒng)」。
那些實驗室能夠快速改造自身、接納這些新工具的領域,會跑得更快。
他描述的圖景,不是一個「全自動 AI 科學家」獨自跑通一切,而是:
“「一個非常自然地與 AI 科學家合作的世界,這些 AI 科學家正在努力解決一個問題。」
AI 驅動設計和創(chuàng)意,人類在回路中。
11
財富的歸宿
快問快答環(huán)節(jié),Jakub 被問到:作為一個社會,我們在哪些事上想得還不夠?
他說的是「財富集中」。
“「大量腦力工作可以被自動化這件事,帶來了一些我認為沒有明顯解決方案的大問題。其中一個是工作和財富集中的問題,我猜這需要政策制定者的參與。」
他還說了另一件事,讓人更警覺一些:
“「如果你真的有一個自動化研究實驗室,一個可以做很多事情的自動化公司,它可能會被非常少數(shù)的人控制……這些組織如此強大,卻可能只由幾個人組成。如何思考對這類組織的治理,是我們作為社會必須面對的新問題。」
機器人部分,他也提了一句:時間線比虛擬 AI 要長,但算法上已經有非常有希望的思路了。
12
OpenAI 的幾個階段![]()
OpenAI 四個演變階段:從學術實驗室到 AGI 部署
他回顧了 OpenAI 的演變:
2017 年:學術實驗室,追求各種想法,還不太相信 scaling。
GPT 時代:轉向,買大計算機,開始做 scaling science 和基礎設施。
ChatGPT 時刻:他坦言當時預計會是視頻/生成式 AI 先爆發(fā),沒想到是文本對話先跑出來。但這個張力,他們其實預見到了:你有一個當下很火的產品,但你相信它會演變很多。
現(xiàn)在:他們認為,已經開始進入「部署 AGI」的階段。不是「在所有方面都比人聰明」那種 AGI,而是足以「實質性改變經濟運轉方式」的那種。
關于 Codex 和 Anthropic 的 Claude Code 的競爭,他也說了真話:在 OpenAI 內部,編程工具一直是「次要優(yōu)先級」,主要精力放在「未來那件事」上。這就給了專注于此的 Anthropic 一個先手。
“「我對我們在研究和模型智能側正在構建的東西,非常有信心。我們現(xiàn)在對產品側加大投入,是因為我們相信:現(xiàn)在這些東西真正重要了。」
13
結尾
采訪的最后,他說的是這個:
“「我們剛才談到的那些問題,關于對齊、可監(jiān)控性,我認為它們正在變得非常緊迫。而且這些問題不只是 AI 研究員的問題,是政策制定者的問題,也是我們所有人需要思考的問題。我很高興看到一些討論開始出現(xiàn),但我們需要更多。」
58 分鐘的對話,Jakub 全程干貨輸出。
2026 年 9 月,「實習生」正在到來。
2028 年 3 月,「研究員」即將問世。
那些我們以為是十年后的問題,終于已經,快到門口了!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.