網易首頁 > 網易號 > 正文申請入駐

AI 隱藏“思維鏈”，是怕被人類監督污染！OpenAI首席科學家最新訪談：駕馭工程會越來越通用

2026-04-13 17:37:46　來源: AI科技大本營

北京舉報

分享至

從接管真實代碼，到重塑社會財富分配。

編譯 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

OpenAI 這些年最不缺的，就是被放大的人。

Sam Altman 當然不用說，幾乎已經成了這家公司對外敘事的一張臉，而上周末的兩場遇襲事件，更是讓他備受煎熬。離開了好久的 Ilya Sutskever，在很長一段時間里，則更像 OpenAI 技術理想主義的化身。哪怕在 OpenAI 早期就分道揚鑣的馬斯克和 Dario Amodei，也早就是這輪 AI 競賽里繞不過去的人物。

可真正接替 Ilya、坐上 OpenAI 首席科學家位置的Jakub Pachocki，反而一直沒怎么被真正看見。

這其實有點反常。一家公司走到今天這個位置，首席科學家按理說不該是一個模糊角色。尤其是在 OpenAI 這樣一家一舉一動都被放大的公司里，誰在主導研究、誰在判斷模型能力往哪走、誰在決定哪些方向值得繼續壓重注，理論上都應該是外界最想知道的事。可過去很長一段時間里，Jakub 更像一個在背景里工作的人。你知道這個名字重要，但很少真的聽他把一整套判斷完整講出來。

最近，他接受 Jacob Efron 播客的《Unsupervised Learning》訪談，兩人從編程智能體的爆發聊起，一路談到數學和物理 benchmark 為什么曾經是 OpenAI 的北極星、強化學習怎么從 code 和 math 走向更長時程的開放任務、模型開始反過來加速模型研究之后，研究組織該怎么管，最后又落到一個比時間表更硬的問題上：當越來越多智力勞動可以被自動化，權力會不會以前所未有的速度集中到極少數人手里。

當 Codex 已經在 OpenAI 內部承擔了大多數真實編碼工作，當模型開始成為研究流程的一部分，當一個高度自動化的研究組織、甚至高度自動化的公司開始顯出輪廓，問題就不再只是，AGI 還有多遠，或者下一個 benchmark 還能不能漲。問題會慢慢變成，誰在控制這些系統，組織會被改寫成什么樣，財富和權力會不會以前所未有的速度集中到極少數人手里，而這些事，我們到底有沒有準備好。

要點速覽

編程智能體的爆發已經把研究組織帶進了新階段。Codex 在 OpenAI 內部已經承擔了大多數真實編碼工作，這不是單一產品成功，而是“研究實習生級能力”正在逼近的直接信號。
數學、物理 benchmark 的這些題不是終點，而是過去幾年 OpenAI 用來追蹤“模型到底有沒有變聰明”的北極星。但現在，隨著模型開始碰到 IMO 級問題、進入研究數學，OpenAI 也在把北極星改成“能不能在真實世界真正有用”。
在很長一段時間里，harness（駕馭工程）的實現本身都不該成為真正的限制。我們會得到越來越通用的 harness，能被用到很多別的領域。
在強化學習的問題上，不是 RL 在 code 和 math 上有多強，而是下一站其實是“長時程 + 開放任務”。
OpenAI 的方向不是讓每個行業都重造一套系統，而是讓模型越來越能在你已經使用的界面、工具和上下文里工作，最終“AI 默認應該來適應人，而不是要求人去適應 AI 的限制”。
更長期、更難的問題仍然是泛化：模型到了陌生情境、能力大幅上升之后，最終會回落到什么價值觀上。
高度自動化的研究實驗室和公司，可能被極少數人控制，而這種權力集中本身就是社會問題，而且目前沒有顯而易見的解決方案。

OpenAI 的“北極星”為何從做數學題轉向真實世界？

主持人：幾個月前，你和 OpenAI 團隊提到，希望今年 9 月前做到“研究實習生級能力”，再往后到 2028 年 3 月，走向更完整的自動化 AI 研究員。四個月過去了，你現在怎么看這些時間表？

Jakub Pachocki：過去幾個月里最明顯的變化，就是 coding tools 的爆發式增長。說它是增長都算輕描淡寫。OpenAI 現在已經到了一個階段：我們把 Codex 用在了大多數真實編碼工作上。所以我覺得，對大多數人來說，編程這件事本身已經變了。這當然會讓我覺得，有些東西確實還在軌道上。

另一個讓我很在意的更新，是模型在數學研究上的進步，以及我們在物理等領域看到的結果。模型現在展現出來的這種能力——提供洞見、調用基礎設施、在測試時動用更多算力，而這正是 Codex 現在已經在做的——再加上我預計未來幾個月里通用智能還會繼續提升，這一切都讓我們仍然非常專注于這條路線。

主持人：那你們會怎么判斷，自己真的到了“研究實習生級能力”這一步？

Jakub Pachocki：在我看來，“研究實習生”和“完全自動化的研究員”之間，最關鍵的區別，是系統能自主工作的時間跨度有多長，以及你需要把任務交代得多具體。

我并不覺得今年我們就會有這樣的系統：你只要對它說，“去提升模型能力”“去解決對齊問題”，它就能自己全包下來。今年還不會。但如果是更具體的技術想法，比如“我有一個提升模型的方法”“我有一種新的評測做法”，我覺得我們需要的那些部件，大體上已經都在了，更多只是把它們拼起來的問題。

主持人：Karpathy 之前發過一段很火的演示，用這些模型去改進他自己的小模型。雖然那遠沒有你們這里復雜，但那種方向是不是大致對路？

Jakub Pachocki：我覺得是同一個方向。我預期它會像 Codex 現在的狀態那樣，沿著一條連續演化的線往前走：更高一點自主性、能連續跑更長時間。我們會看到越來越多這樣的應用。總的來說，模型會變得更自主，也會在更多事情上動用更高的算力。

主持人：你提到數學和物理。對很多人來說，coding progress 很容易理解，因為它直接能幫助 AI research。但數學和物理上的進展，到底是怎么和這件事連起來的？

Jakub Pachocki：數學 benchmark 對我們最大的價值，是它充當了一種通用 benchmark，也是一顆北極星，幫助我們判斷該怎么繼續提升這項技術。數學高度可測，比起判斷一段軟件到底寫得好不好，判斷一道數學題有沒有做出來，容易得多。而且數學可以變得非常難：它既有清晰的對錯標準，又能無限拉高難度。

直到不久之前，我對這件事的理解還是：我們的模型能做簡單數學題，但做不了 IMO 級題目。這說明模型智能里存在一個非常清晰、非常容易測量的缺口，而這恰好給我們提供了方向。對 reasoning models 來說，這一直是我們的北極星。

但現在，這件事正在快速變化。我們已經碰到了之前一直努力想達到的幾個里程碑，比如解 IMO 問題，甚至開始試探研究級數學。從這個階段往后看，繼續用這些 benchmark 測進步仍然有意義，而且從數學推理能力到 AI 研究能力之間，的確存在遷移。我們很多最好的研究員，本來就是數學或其他理論學科出身。

但同樣很明確的是，我們正在改變自己對北極星的理解。我們越來越關心新一代模型在真實世界里到底有沒有用，尤其是對 AI research 有沒有用，對其他有經濟價值的任務有沒有用，對別的科學領域，尤其是更偏應用的科學，有沒有用。之所以發生這個轉變，是因為我們覺得模型已經足夠強了——不是說它在所有方面都比人聰明，但已經強到足以實質性改變經濟、改變做事方式。所以我們對這件事的緊迫感也在迅速上升。

未來 AI 的默認底色，是主動“長在”你的工作流與界面里

主持人：早期選擇數學這種領域，幾乎是最理想的起點：足夠難，但又容易驗證。code 也有類似屬性。但很多真正有價值的任務，比如醫學、法律、金融，并沒有那么容易驗證。大家現在都在想，RL 在這些領域還能不能復制在 code 和 math 上那種驚人的進步。

Jakub Pachocki：我當然覺得可以。我們經常會從一個對偶關系去理解這件事：對于更一般、更難評估的任務，它們其實和“更長時程的任務”共享了很多共同點。你想，就算是一個定義得很清楚的數學題或 coding 問題，如果它需要你干一年，那即便一年后的成功標準很清楚，第一天到底該干什么，仍然是一個非常開放的問題。

所以我覺得，這兩種難度其實是在重合的，而且非常清楚地構成了系統發展的下一條前沿。我們已經看到不少令人鼓舞的信號：一方面，我們在這些更一般的領域上擴展 RL 的能力是有前景的；另一方面，我們在一些相關努力上也看到了很大的潛力。

主持人：在這些領域里，一個最大的難點就是你甚至不知道“成功”到底是什么。短任務就已經更難了，長任務只會更難。你們會怎么理解這個研究挑戰？

Jakub Pachocki：我總會回到一個現實問題：怎么讓模型連續工作很久，以及怎么教會它判斷“局部進展”。

哪怕不說 RL，光看更長時程能力的來源，也能看到一些線索。隨著模型在純監督式預訓練下變得更穩定，它會逐漸獲得一種感覺：什么樣的中間產物算是好的。所以即便我們沒有在 RL 上取得特別巨大的擴展，我也覺得這些工作時長本身會繼續拉長。真正的研究難點，是怎么把這些從 RL 來的新想法，遷移到更一般的領域中去。但我對這件事是比較樂觀的。

主持人：聽起來，你有一個很重要的心智模型：模型本身也要能以某種可靠節奏檢查自己的進展。

Jakub Pachocki：是的。我們當然還在大規模買算力，因為我們仍然相信這條路，而且在某種程度上比過去更相信。我們也看到了新技術、新的擴展方式。但我們畢竟已經不再只是造一個懸在天上的“大腦”，而是想把它真正接進現實世界。

如果你真想讓它去做醫學研究，想讓它未來幫助治癌癥，它就必須以某種有意義的方式認識現實世界，甚至自己設計實驗、從實驗結果里學習。要做到這一點，你就必須把它接上去。那確實會把問題帶向你剛才說的方向，但這不意味著我們過去一直在擴展的那些簡單算法就失效了。

主持人：我最近跟很多公司聊，大家都會問同一個問題：要不要自己做 RL？拿一個開源模型，結合自己任務上的數據和 evals，值不值得自己動手？

Jakub Pachocki：強化學習當然可能是一種非常高效的方式，讓模型在某個任務上大幅提升。但我們還知道另一種更高效的學習方式，那就是 in-context learning。某種意義上，這甚至可能是人類教模型最根本的方式：你給它例子、給它指令，告訴它你想要什么。

我預計這種學習方式以后會越來越強。所以最關鍵的，還是模型能不能適應你的上下文，適應你關心的任務。我覺得這件事會非常重要。至于直接復制今天這套 RL pipeline，是不是正確路徑，我并不確定。但這確實是我們一直在想的問題。

主持人：換句話說，公司還是得自己弄清楚哪些 eval 重要、收集數據、整理例子，但未來也許并不需要自己訓模型，只要把這些內容高質量地喂給模型上下文就夠了。

Jakub Pachocki：我覺得這很有可能。

主持人：那 harness（駕馭工程）呢？很多人也在想，像法律、金融、醫療這些領域，要不要自己重造一套調用框架。

Jakub Pachocki：在很長一段時間里，harness 的實現本身都不該成為真正的限制。我們會得到越來越通用的 harness，能被用到很多別的領域。實際上，如果你愿意試試，Codex 拿去做 coding 之外的事情，也已經挺不錯了。

主持人：所以長期看，harness 會越來越通用，越來越像人類面對工具的方式？

Jakub Pachocki：我覺得還應該再往前想一步：我們到底希望人類最終通過什么界面跟模型交互？

模型當然可以擁有自己的 UI affordance，也能自己搭界面，做很多在人看來很費時間的事。但我同樣覺得，有非常大的空間，是讓模型去接入我們已經在用的那些界面。比如，我當然希望 AI 能在 Slack 里工作，能接進我們的上下文，從這些上下文里學習，去調用我們已經在使用的東西。

所以這里會有一個中間地帶。但長期來看，默認應該是 AI 來適應你所在的位置；如果它沒有這么做，那應該是因為它多出了一些新能力，而不是因為它本身有局限。

主持人：很多人會抱怨，模型做不了更長的任務、做不了更復雜的工作。但很多時候，問題是不是只是因為模型沒接上足夠的上下文、文件和系統？

Jakub Pachocki：我覺得很大程度上確實是這樣。很多人以為那是“能力缺口”，其實可能只是模型根本沒有被接入到做事需要的上下文、文件、工具和環境里。

回頭看我們對 RL 路線的討論，早期我很明確地把“先教會模型用自己的 token 做推理”看作第一優先級。之后當然還得讓它學會調用工具、學會看、學會在某個階段使用物理身體。但現在我們已經明顯進入另一個階段了：模型真的需要和環境交互，需要看見環境，而再往后，不久之后，我們也會開始真正關心機器人。

OpenAI 是如何重注算力與重構組織的？

主持人：你現在每天肯定都能在研究端看到很多瘋狂的東西。對你來說，什么樣的里程碑現在還是有沖擊力的？

Jakub Pachocki：現在最關鍵的就是 research 本身。模型到底能不能發現新東西？能不能真的執行一個更長時程的研究問題？

主持人：就像某天你看到一個結果，會想：如果這是我團隊里某個研究員提出來的點子，我也會很在意。

Jakub Pachocki：實際上，就連 GPT-4 也已經給過我們一些很小、但我認為挺有影響力的想法，我們現在內部就在使用。只不過，它離我預期中的那個階段還差得遠。

主持人：模型顯然會繼續變強，也會越來越深入地參與研究。你自己就在第一線和這些模型協作。你覺得，一個研究組織在這種變化下會變成什么樣？

Jakub Pachocki：我覺得我們已經到了一個轉折點：短期內模型本身的質量，很快就會非常直接地決定研究進展的速度，因為模型將驅動其中很大一部分工作。

這件事要求我們重新改寫一些關于“怎么管理研究組織”的直覺。正常情況下，你不會過度關注眼前模型質量，而是更看重長期。但現在不一樣。我們當然還有很多非常令人興奮的東西在排隊推進，可我也確實對執行速度有很強的緊迫感，因為我們需要把這些模型智能上的進展真正轉化成 AI research，尤其是 AI alignment research 的加速度。

主持人：這很有意思。過去的研究組織，更像是給研究員時間和空間，讓他們追那些一兩個月看不到結果、但長期更關鍵的方向。現在則像是，你必須同時盯住眼前模型質量，因為它會直接改變一切。

Jakub Pachocki：對，我們最近確實花了很多時間討論這個問題。

主持人：你們現在顯然有大量算力。預訓練有 scaling，RL 也有 scaling，同時還會有很多和這兩條主線無關、但也許很有意思的新實驗。你們到底怎么分算力？

Jakub Pachocki：這會非常復雜，因為真的有太多事情要做。我們最近開始堅持的一條紀律，是明確地把一大塊算力預算留給那些最 scalable（可擴展）的方法，留給那些我們認為最能推動通用模型智能的東西。

即便從某些時刻看，這也不一定是最有效率的分配方式。因為如果你把這么多算力都壓到一個實驗、或者一組實驗上，外面總會有很多地方，只要分一點算力過去，就能加快很多事。但問題是，如果你不這么做，很容易把算力全部切碎，最后反而沒有認真做成那些你自己最相信的重要工作。

當然，你仍然要看經驗數據，要保證 eval 體系是完整的，實驗 rigor 是夠的。然后你也要給自己一點“正則化”：我們到底理解不理解這個方法？它真的有擴展性嗎？它能不能變成未來可持續構建的東西？還是只是一次性的？這些都會決定優先級。

主持人：去年幾乎可以說是 coding 領域瘋狂爬坡的一年。Codex 當然也很成功，但 Anthropic 某種程度上在這個市場更早跑出來，Claude Code 一度是很強勢的產品。你怎么看 Anthropic 在這件事上的成功？

Jakub Pachocki：我覺得這歸根到底是，你的產品方向有多聚焦在你認為下一階段技術最重要的應用上。

如果回頭看 OpenAI 的產品優先級，我們當然也一直在做 coding 產品，但在很長一段時間里，它并不是最核心優先級。更有意思的是，這種產品優先級，并不完全反映 OpenAI 研究組織內部的優先級。

因為從 ChatGPT 在 2023 年爆發之后，我們確實獲得了一個和我們長期愿景一致、也非常成功的產品，但它并不能代表這項技術全部能做的事情。所以研究組織的大部分工作，其實一直都在押更后面的那個未來方向。我覺得，研究優先級和短期產品策略之間的脫鉤，是越來越明顯的。

我對我們在研究端、在模型智能端正在構建的東西非常有信心。而現在產品側的重新聚焦，本質上是在回答一個問題：怎么把它們真正部署出去，因為我們越來越相信，這些東西現在就已經是最重要的了。

主持人：除了這些內部節奏，現在回頭看 OpenAI 這些年的變化，你會怎么概括？

Jakub Pachocki：OpenAI 其實經歷了幾個階段。

我 2017 年初加入時，它更像一個很學院派的實驗室，追很多不同想法，實際操作里也沒有那么“scaling-pilled”（俚語，意思是“被 scaling 洗腦了”）。第一次大的變化，是 Dota 和 GPT 這些項目把公司帶進了另一個階段：我們得買大機器、得擴展、得發展 scaling 的科學，也得發展支撐 scaling 的基礎設施。那之后，OpenAI 進入了“我們真的在 scale”這個階段。

再往后，是 ChatGPT 這件大事。我原本以為，最先大規模起飛的會更像視頻那類生成式應用，文本模型反而會是要在長期研究里不斷取舍的一支。結果恰好相反，文本模型先成為了最先大規模進入現實的東西。與此同時，我們也很早就意識到，一定會出現這種張力：你已經有一個現在就很流行的產品，但你又相信它離最終要去的地方還遠，還會繼續變化。我覺得 OpenAI 過去一段時間一直處在這個階段。

而現在，我們開始進入另一個階段：我們相信自己正在部署某種接近 AGI、或者至少已經具有巨大經濟變革性的系統。

主持人：過去一年，你自己對 AI 世界最大的想法變化是什么？

Jakub Pachocki：是我越來越在認真處理一個張力：你最終造出來的 AI，當然是作用于真實世界的；但在離那個階段還遠的時候，你又只能把它當作一個相對抽象的訓練對象、算法對象來推進。現在我的想法越來越偏向另一邊：我們必須更認真地考慮，這項技術到底怎么進入現實世界、怎么真正被部署。

主持人：所以它會像 coding models 那樣，繼續變成日常生活的一部分？

Jakub Pachocki：我覺得會。而且不只是能執行更長任務這么簡單，它還會逐漸變成一種可靠、可信賴的助手，甚至某種陪伴者。

OpenAI 為何死活要“雪藏”思維鏈？

主持人：你們在 AI for Science 這邊也做了很多事。比如 First Proofs 挑戰，對很多人來說可能沒有 coding 那么直觀。你能不能講講，為什么這類結果重要？

Jakub Pachocki：我對 First Proofs 挑戰特別興奮。這個 benchmark 的設定很有意思：幾位受尊敬的數學家、理論計算機科學家，拿出一些他們認為接近自己日常工作的問題，這些題此前沒有發表出來，讓模型去真正試一試。

那次挑戰來得很突然，幾乎沒有提前預告，只給了一周時間。偏偏那時候我們手上正好有一個非常令人興奮的模型訓練。于是負責訓練的 James Lee 就開始手工給這個模型喂 prompt，看看它到底能不能解這些題。然后我們就發現：它真的在解。

其中有一道題，恰好來自我讀博士時所在的領域。你看到模型在一小時左右想出來的一些點子，是那種如果讓我自己花一兩周想出來，我也會很為之驕傲的點子。那種感覺非常奇怪。我上一次有這種感覺，還是看我們的 Dota bot 打出那些很離譜、很有創造性的 Dota 局面的時候。你會有一種近乎魔法的感覺：這種有意思的東西，本來不該無限地發生。

所以，當這種事開始發生在數學上，發生在我認為更接近現實研究、更接近真正重要工作的地方時，我的緊迫感其實是被進一步推高了。

主持人：過去大家總說，模型只是 pattern matcher（模式匹配器），不可能真正給科學帶來新想法。現在是不是已經開始動搖這個說法了？

Jakub Pachocki：我覺得是的。你可以說，我們正在按計劃看到一些很小的推進：不是驚天動地的大突破，而是一個小點子、一點真正新東西，或者和科學家合作出來的一些更大的成果。

但如果你回頭想，AlphaZero 是 pattern matcher 嗎？AlphaGo 是嗎？我們的 Dota bots 又算不算？它們都在自己的環境里發明過新策略。

當然，你永遠可以說，這些系統都有漏洞，AlphaGo 也會被特定策略擊敗，Dota bots 也一樣。未來很長一段時間里，這些模型當然還會有各種不足。但我認為，它們確實能夠發現新東西。只是從早年那種封閉小環境，走到今天這樣更一般的科學研究，中間需要它們先吞下大量人類知識、先學會所有這些語言與表示而已。底層原則，其實是相通的。

主持人：有人當時還說，你們給出的某些證明像 19 世紀數學一樣，偏 brute force（暴力破解），而不是現代數學更優雅的路線。這會讓你擔心嗎？

Jakub Pachocki：不會，我覺得這是預期之中的事。至少在其中一道題上，我們的模型實際上給出了一個比原設想更短的漂亮證明。但更一般地說，模型短時間內能展開的推理量，本來就比人類大得多。所以我并不覺得那會是一個長期特征。

主持人：如果再往前一步看，AI for Science 最終會是什么形態？是一個有物理世界接口的通用 LLM，還是會出現很多圍繞特定學科單獨構建的模型？

Jakub Pachocki：我其實會沿用我剛才談 Codex 界面的那個答案：你應該圍繞一種技術的能力來建東西，而不是圍繞它的局限來建。

如果你已經有了一個能大規模設計有趣化學實驗、生物實驗的系統，那當然值得為它搭建新的實驗室能力。但與此同時，就算模型很會設計實驗，也不代表你必須徹底把人排除出去。我們不應該把它想成一個二選一的問題——不是“要么完全自動化，要么只是個帶點工具的花哨系統”。更現實的圖景可能是，我們會進入一個人類和 AI 科學家一起工作、而且后者在設計和 ideation 里占比越來越高的世界。

主持人：那在架構層面呢？會不會還是要分出很多專用模型，比如蛋白質折疊、材料科學這些方向？

Jakub Pachocki：自然語言推理、我們現在優先擴展的這類能力，能帶來非常強的通用性。但也確實會有一些任務，更適合單獨訓練模型。比如如果你的目標只是做一個極強的圍棋模型，我并不覺得大語言模型是效率最高的路徑，盡管它最終也可能帶來最好的結果。蛋白質折疊這類問題，我覺得也有類似情況。

主持人：我也想談談 AI safety。你們之前做過一項很有代表性的工作，就是 chain-of-thought monitoring（思維鏈監控）。能不能先講講，那到底是什么？

Jakub Pachocki：這個想法，是在我們看到這一代推理模型第一次真正跑起來的時候形成的。那時我們在想：如果這件事成立，未來一兩年、兩三年，世界會發生什么變化？我們還能怎么理解這些模型到底在做什么？

后來我們意識到，因為我們并不直接監督模型的推理過程，情況和普通對話模型很不一樣。ChatGPT 會被訓練得禮貌、得體，但推理模型的思維鏈并沒有被直接優化成某種固定樣子。它唯一被優化的，是怎樣更好地幫助模型產出高質量結果。

所以，我們突然意識到，這可能正好提供了一個非常強的解釋窗口。它其實和機制可解釋性的邏輯并不遠：后者也是去觀察那些沒有被直接監督過的內部激活，因為那些激活可能會泄露模型真實的內部機制。

只不過，思維鏈最大的優勢是：它默認就是英語。概念越復雜，這個優勢越明顯。與此同時，如果我們真的走到模型可以長時間自主運行、可以完成更長任務的未來，那么推理過程只會變得更多。于是，模型能力增強到哪里，我們對它進行監督和理解的窗口，也有機會一起擴展。

主持人：但這里的關鍵前提，其實恰恰是你不能去監督思維鏈。

Jakub Pachocki：對。這也是我們當初在發布 preview model 時決定隱藏思維鏈的主要原因。對我來說，這幾乎是最根本的理由。因為如果你在產品里公開展示它，遲早就得去訓練它。你會出于和訓練其他產品能力一樣的理由，開始要求它“說得更好”“更得體”“更適合公開看”。一旦這樣，那個窗口就被污染了。

我并不是說思維鏈本身一定不能被用戶以其他方式感知。比如我們現在會用一些思維鏈摘要，當作折中方案。再往后，也許更好的方式是模型在推理時實時跟你交流，最新一代 Codex 和 reasoning GPT 已經有一點這個味道，但我覺得還會繼續進化。

真正讓我興奮的是，我們至少不用讓訓練信號和理解模型這件事直接對打。如果你一邊想理解模型長期會怎么想、動機會怎么變化，一邊又在大規模使用一種直接破壞這種可觀察性的訓練方式，你多半不會有好下場。

所以，對我來說，這種“解耦”給了我一點希望。不是說它解決了長期對齊問題，它遠遠不是終極方案，但它是工具箱里非常關鍵的一件工具。它至少能幫助我們繼續向前推進，慢慢啃這些更根本的問題。

主持人：除了思維鏈監控，還有哪些方向是你覺得值得押注的？

Jakub Pachocki：更長期的對齊問題，本質上是泛化問題。

我們當然能把模型訓練得在分布內表現得不錯，也能在那些我們明確訓練過的任務上大致控制它的行為。但真正讓人擔心的，是當模型碰到非常不一樣的任務、非常不一樣的環境，或者它比以前聰明得多、能力擴展得多時，會發生什么。我們其實并沒有真正學會怎么為那種情況訓練它。

所以，從這個角度看，長期價值對齊研究，本質上是在研究泛化：模型最終會回落到什么價值上？在這件事上，我非常感興趣的一條研究線，是理解這種泛化和預訓練數據之間的關系。我們現在也在這上面投入很多。我覺得這里面還有很大空間。

主持人：過去半年，你對對齊問題的擔憂是上升了還是下降了？

Jakub Pachocki：如果只說長期挑戰，我的想法這幾年其實變了很多。以前我會覺得，這個問題太模糊了，甚至很難定義，更別說抓手；現在我越來越覺得，它其實是可以通過非常具體的技術路徑去推進的。所以我們才會把對齊當成研究的核心部分，而不是附屬品。

也正因為如此，我對“這里有一條研究路徑，最終能把世界帶向一個非常好的狀態”這件事，信心是上升了很多的。與此同時，我對高能力模型的時間表也明顯提前了。我覺得我們離那種非常有變革性的模型已經不遠了。

我不是說它們在所有方面都比我們聰明，但它們已經足夠強到改變很多事情。所以我一方面對我們持續掌握對齊進展、評估模型風險這件事還算樂觀；另一方面，我也認為整個行業都必須做好準備，在必要時真正接受妥協，甚至在看到某些信號時放慢開發速度。

當“幾個人就能運轉一家超級公司”

主持人：你剛才提到模型接入現實世界。那在機器人這件事上，你怎么看時間線？

Jakub Pachocki：我覺得那里已經有一些非常有希望的算法想法，而且它們和我們現在所走的這套路線并沒有那么遠。所以我對機器人時間線是樂觀的，只不過我覺得它會比純虛擬世界里的 AI 稍微更慢一點。

主持人：說到更大的社會層面，你覺得今天整個社會最被低估的問題是什么？

Jakub Pachocki：如果我們真的走到大量智力勞動都可以被自動化的階段，會出現一些非常大的問題，而且我不覺得這些問題有顯而易見的解法。

最自然的一層，是工作崗位與財富集中。我懷疑這件事最后一定需要真正的 policymaker 介入。我也聽過一些比較樂觀的解法，但從根上說，如果某些過去很有價值、很昂貴、也承擔著重要功能的工作，突然能被很便宜地完成，長期看它當然可能是好事，可它也可能發生得非常快。

還有一個相關問題是：如果你真的擁有一個自動化研究實驗室、一個自動化公司，它能做非常多事，卻只需要非常少的人控制，事情就會變得很不一樣。哪怕沒有機器人，這件事也已經足夠瘋狂；有了機器人，只會更夸張。

所以，未來這些強大到驚人的組織到底該怎么治理？這些組織可能只由幾個人構成，卻擁有巨大的行動能力。我們該怎么理解這種東西？我覺得，這是一個整個社會都必須面對的新問題。

主持人：說到這些新問題，我最近剛有了孩子，所以我也一直在想：十年后，他的生活會是什么樣？你離這件事這么近，AI 改變了你對下一代該怎么被撫養、該怎么接受教育的看法嗎？

Jakub Pachocki：我覺得，我們所有人的任務，是把 AI 和這個世界一起建設成一種狀態：到頭來，仍然是人類擁有 agency，由人類來設定方向。

也許今天我們很珍視的很多技術挑戰，未來會更像一種業余愛好——但這并不意味著人沒有事做。恰恰相反，人類的挑戰會越來越多地轉向另一類問題：什么是真正重要的？我們應該去做什么？

如果世界能往那個方向去，我覺得人反而會擁有更多事情可做，而且是更多真正值得做、也更令人興奮的事。但與此同時，我依然覺得，人還是應該對技術有一定理解，不管這種基礎教育是通過什么方式獲得的，因為你得有能力去思考這些問題。

主持人：這聽起來已經不是一個單純技術問題了。

Jakub Pachocki：對。我覺得我們剛剛討論的這些問題，包括對齊、監控，都會越來越變成緊迫問題。而它們并不只是 AI 研究者自己的挑戰。它們當然是政策制定者的挑戰，也是整個社會需要一起想清楚的問題。現在已經開始出現一些討論了，但我覺得還遠遠不夠。

【活動分享】"48 小時，與 50+ 位大廠技術決策者，共探 AI 落地真路徑。"奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開，大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論，真正實現 AI 技術的規模化落地與商業價值轉化。這不僅是一場技術的盛宴，更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.