<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI 首席科學家最新采訪:為何思維鏈不能公開、首位 AI 實習生將到來、通用 harness

      0
      分享至

        

        來源:AGI Hunt

        Jakub Pachocki 是 OpenAI 現(xiàn)任首席科學家,GPT-4、o1、o3 系列模型的主要設計者之一,也是歷史上最年輕的 IOI(國際信息學奧林匹克)金牌得主之一。


      Jacob Effron 和 Jakub Pachocki 對談現(xiàn)場截圖(Unsupervised Learning 播客)

        他很少公開接受采訪,但這一次,他在 Redpoint AI 的播客上坐下來,聊了將近一個小時。

        話題包括 AGI 時間線、OpenAI 內部如何跑實驗、為什么故意把 chain of thought 藏起來、以及他對 AI 改變科學研究的真實判斷。

        

        OpenAI 首席科學家 Jakub Pachocki 與 Jacob Effron 對談

        節(jié)目叫「Unsupervised Learning」,主持人 Jacob Effron 是 Redpoint Ventures 的管理合伙人,聊的是他「最想問的那些問題」。

        

        OpenAI Newsroom 轉發(fā)了該采訪,配文稱:「算力驅動 AI 的每一層,而 @merettm 正在談論構建自動化 AI 研究員的進展。

        下面是整場對話里,核心的內容整理。

        01

        2026 年 9 月

        四個月前,Jakub 和 OpenAI 團隊公開說過一個時間表:

        ?今年 9 月:達到「研究實習生級別」的 AI 系統(tǒng)

        ?2028 年 3 月:實現(xiàn)完全自動化的 AI 研究員

        
      AGI 時間線:從現(xiàn)在到 2028

        這次他接受采訪,第一個問題就是:四個月過去了,還在軌道上嗎?

      “「我們在 OpenAI 內部,現(xiàn)在已經用 Codex 完成了大部分實際編程。編程這件事,對大多數(shù)人來說,已經發(fā)生了相當大的變化。我把這視為一個信號,說明某些東西是在軌道上的。」

        另一個讓他覺得「進展超預期」的領域,是數(shù)學和物理。

        他說,過去那套靠數(shù)學比賽來衡量模型能力的方法,已經快要不夠用了。模型已經解決了 IMO 第 6 題,進入了「研究級數(shù)學」的領域。他們正在把注意力移向「模型在真實世界里有多有用」這個維度。

      “「我們相信,模型現(xiàn)在的能力已經足夠,雖然不是在每個方面都比人聰明,但已經足以實質性地改變經濟運轉方式。我們對此感到非常緊迫。」

        02

        什么叫「實習生」

        Jacob 追問:你怎么知道自己到達了那個門檻?

        Jakub 的區(qū)分方式,倒是很簡單明確。

        
      AI 實習生 vs 自動化研究員:能力邊界對比

        他說,「研究實習生」和「完全自動化研究員」的區(qū)別,在于任務的時間跨度和具體程度。

        不要指望今年的系統(tǒng)能接受「去提升你的模型能力」或者「去解決對齊問題」這種指令,然后自己去干。這今年還做不到。

        但如果任務足夠具體,比如「我有一個改進模型的特定想法,幫我跑這個實驗,把這個評估用不同的方式跑一遍」,他認為現(xiàn)在已經有了大部分需要的組件。

      “「我認為我們主要需要的,只是把這些組件拼在一起。」

        Karpathy 那篇用這些模型改進自己「小得多的模型」的文章,他覺得是對這類工具未來樣子的一個預演。

        03

        數(shù)學是北極星

        OpenAI 為什么一直盯著數(shù)學比賽跑?

        這不是因為數(shù)學本身有多重要,而是因為數(shù)學是驗證「模型有沒有真的變聰明」的最好工具。

        可以驗證(對就是對,錯就是錯),可以無限變難,還能告訴你模型在「推理」這件事上到底進步了多少。

        他說,這條路線引出了 reasoning 模型的整套方法論。現(xiàn)在,這個「北極星」本身快到頂了。

        數(shù)學沒有變得沒用,團隊的注意力開始移向更實際的問題:模型在真實科研、真實經濟活動里到底能做多少事。

        有個特別的細節(jié)是,他提到了一個叫「first proofs」的挑戰(zhàn),是幾位受尊敬的數(shù)學家/理論計算機科學家發(fā)布的一批未曾發(fā)表的研究級問題,給模型來解。

        這個挑戰(zhàn)發(fā)布時沒有提前通知,只有一周時間。

        OpenAI 當時手上正好有一個訓練中的模型,一位叫 James Lee 的工程師直接開始手動提示那個模型,然后發(fā)現(xiàn)它真的在解那些題。

        Jakub 說,其中一道題來自他自己博士研究的領域。

      “「看到模型想出了我可能需要一兩周才能想到的那些思路,而它用了大概一個小時,那是一種很奇怪的感受。就像以前看我們的 Dota 機器人用非常有趣的方式下棋,感覺有什么魔法在發(fā)生……那類東西不應該是無窮盡的。」 「而現(xiàn)在,這件事發(fā)生在了數(shù)學上。發(fā)生在了我認為真正具有代表性的領域上。這大大增加了我的緊迫感。」

        04

        RL 的下一站
      RL 可驗證性譜系:從代碼/數(shù)學到醫(yī)療/法律/創(chuàng)意

        代碼和數(shù)學,是 RL 最好發(fā)揮的地方,因為驗證答案很容易。

        但醫(yī)療、法律、金融呢?

        Jakub 的看法:他相當樂觀,但承認這是「下一個真正的前沿」。

        問題的本質,他認為和「長時間任務」高度重合。想想看,一個數(shù)學題如果要研究一年,那第一天做什么,本來就是一個開放性問題。所以「難以驗證」和「長時間跨度」這兩個難點,其實是同一件事。

      “「我們在這些更通用的領域擴展 RL,已經看到非常鼓舞人心的跡象。」

        對于那些問「我們應不應該自己做 RL」的公司,他的建議:RL 確實是一種數(shù)據效率很高的方式讓模型專注于某個任務。但還有一種更數(shù)據高效的方式,那就是上下文學習(in-context learning)。只要把你的例子、你的指令放進去,模型就能學。

        他的直覺是:與其復制目前 OpenAI 的 RL 流程,不如先把精力放在搞清楚什么 eval 是對的、積累什么數(shù)據,未來直接喂進模型上下文,效果可能更好。

        05

        通用 harness

        關于「要不要自己搭 harness」,他也給了個明確的判斷。

      “「harness 的實現(xiàn),在很長一段時間內都不應該成為限制。我們會有更通用的 harness,可以被用于各種各樣的領域。Codex 其實如果你拿去用在編程以外的地方,效果還不錯。」

        他描述的未來圖景是:AI 應該主動來到你所在的地方,而不是讓你去遷就它的限制。

        比如,AI 應該出現(xiàn)在 Slack 里,接入你的上下文,能夠學習、能夠執(zhí)行。不是說有這個功能是因為它能做,而是說沒有這個功能就表示它存在局限。

      “「長期來看,AI 應該默認出現(xiàn)在你所在的地方。如果沒有,那只應該是因為它有了新的能力,而不是因為它有局限。」

        06

        推理鏈的秘密

        這是整場對話里,最有深度的部分之一。

        OpenAI 在發(fā)布早期 reasoning 模型時,做了一個決定:不向用戶展示 chain of thought(推理鏈)。

        這個決定有爭議,也有很多人不理解。

        Jakub 解釋了他當時的主要動機。

        
      推理鏈:公開 vs 隱藏,哪種更安全?

        核心邏輯是這樣的:這類 reasoning 模型的推理過程,在訓練時沒有被直接監(jiān)督(不像 ChatGPT 那樣被訓練成「禮貌、友好」)。訓練信號只作用于最終輸出,而不作用于中間推理。

        這就意味著,推理鏈是模型在沒有「表演壓力」下真實運行的地方。

      “「這其實是一種非常強大的范式,可以用來解讀模型在做什么。這和機制可解釋性(mechanistic interpretability)的想法并不太不同,后者是分析那些沒有被直接監(jiān)督的模型激活值……但推理鏈的優(yōu)勢在于,它默認是用英文寫的,所以理解起來容易得多。」

        他說,如果 OpenAI 在產品里展示 chain of thought,最終就不可避免地會用它來做訓練。而一旦這樣做,chain of thought 就會開始被「優(yōu)化」,就會開始變成另一種表演,而不是模型真實的內部運行。

      “「如果你想長期理解模型的行為,但你在擴展的方法卻在直接對抗這個目標,那你大概不會有什么好結果。」

        他把讓模型擁有「私人空間」這件事,視為維持長期可監(jiān)控性的關鍵設計。

        目前的過渡方案是「推理鏈摘要」,但他認為長期解決方案是讓模型實時和你對話,而不是展示原始推理鏈。

        最新版本的 Codex 和推理型 GPT 模型,已經在往這個方向走了。

        07

        跑幾天都沒問題

        多久以后,我們會看到模型可以自主工作幾天?

      “「我認為,模型能夠自主工作幾天的那個階段,并不太遠。也許需要用到比現(xiàn)在更多的算力,然后能自主產出質量更高的成果。」

        至于是否需要工程師背景才能有效監(jiān)督這些運行幾天的 agent:他覺得對于很多輸出,你現(xiàn)在就已經不需要太多專業(yè)經驗了。但如果你想構建更大的東西,你仍然需要「整體設計感」,需要能判斷哪些模塊合適、哪些不合適。

      “「我確實預計這種技能需求會發(fā)生相當大的轉變。」

        方向是:向「設定方向、把控全局」的那種能力。

        08

        model scheming 研究

        Jakub 提到了一項他認為「非常令人興奮」的跨實驗室合作研究:

        Model scheming,即:在不同訓練環(huán)境下,模型是否會發(fā)展出隱藏目標并開始「假裝」對齊?

        而值得注意的是,這項研究是 OpenAI、Anthropic 和 DeepMind 合作完成的。

        他們發(fā)現(xiàn),chain of thought monitoring 正是這類研究得以進行的關鍵工具,因為它讓研究者真正能夠檢查模型的動機。

      “「這種能力對于研究長期對齊很有幫助。它可能會把我們帶向完全不同的緩解方向,比如修改預訓練數(shù)據,或者采用接種提示(inoculation prompting)這類想法。能夠理解,對于評估這些方法非常有幫助。」

        09

        對齊的真正難題

        Jakub 認為,對齊問題的長期挑戰(zhàn),本質上是一個泛化問題

        在分布內的場景,他們大體上能控制模型行為。真正令人擔憂的,是模型遇到訓練時從未見過的情況時會怎樣,比如面對一個完全不同的處境,或者變得比以往任何時候都聰明得多。

      “「值得泛化的價值觀是什么?當模型陷入非常不同的處境時,它會退回到哪些價值觀?對我來說,這是一條讓我相當興奮的研究線索。」

        他說,過去幾年他對對齊問題的看法,從「這是一個模糊的、難以界定的問題」,演變成了「我們可以通過非常具體的技術方案來取得進展」。

        他的整體判斷是:樂觀。

        他相信存在一條技術路徑能把我們帶到一個「極其美好的世界」。但他同樣清楚,能力時間線在壓縮,準備時間不多。

      “「我們必須做好準備,必要時接受權衡,甚至根據我們所看到的,放慢發(fā)展速度。」

        10

        AI 為科學

        Jakub 對于 AI 驅動科學研究的判斷,分幾個層面。

        關于架構的問題:他認為,LLM 加持物理世界和特定領域專用架構(比如蛋白質折疊用不同模型)并不矛盾。兩條路可以并行。

      “「我不認為大型語言模型是訓練出最優(yōu)蛋白質折疊模型的最高效方式,盡管它們最終也許會產出最好的模型。」

        至于哪些科學領域會最快被 AI 改變:他沒有給出具體答案,但他認為關鍵在于「模型能不能接入現(xiàn)有的生態(tài)系統(tǒng)」。

        那些實驗室能夠快速改造自身、接納這些新工具的領域,會跑得更快。

        他描述的圖景,不是一個「全自動 AI 科學家」獨自跑通一切,而是:

      “「一個非常自然地與 AI 科學家合作的世界,這些 AI 科學家正在努力解決一個問題。」

        AI 驅動設計和創(chuàng)意,人類在回路中。

        11

        財富的歸宿

        快問快答環(huán)節(jié),Jakub 被問到:作為一個社會,我們在哪些事上想得還不夠?

        他說的是「財富集中」。

      “「大量腦力工作可以被自動化這件事,帶來了一些我認為沒有明顯解決方案的大問題。其中一個是工作和財富集中的問題,我猜這需要政策制定者的參與。」

        他還說了另一件事,讓人更警覺一些:

      “「如果你真的有一個自動化研究實驗室,一個可以做很多事情的自動化公司,它可能會被非常少數(shù)的人控制……這些組織如此強大,卻可能只由幾個人組成。如何思考對這類組織的治理,是我們作為社會必須面對的新問題。」

        機器人部分,他也提了一句:時間線比虛擬 AI 要長,但算法上已經有非常有希望的思路了。

        12

        OpenAI 的幾個階段
      OpenAI 四個演變階段:從學術實驗室到 AGI 部署

        他回顧了 OpenAI 的演變:

        2017 年:學術實驗室,追求各種想法,還不太相信 scaling。

        GPT 時代:轉向,買大計算機,開始做 scaling science 和基礎設施。

        ChatGPT 時刻:他坦言當時預計會是視頻/生成式 AI 先爆發(fā),沒想到是文本對話先跑出來。但這個張力,他們其實預見到了:你有一個當下很火的產品,但你相信它會演變很多。

        現(xiàn)在:他們認為,已經開始進入「部署 AGI」的階段。不是「在所有方面都比人聰明」那種 AGI,而是足以「實質性改變經濟運轉方式」的那種。

        關于 Codex 和 Anthropic 的 Claude Code 的競爭,他也說了真話:在 OpenAI 內部,編程工具一直是「次要優(yōu)先級」,主要精力放在「未來那件事」上。這就給了專注于此的 Anthropic 一個先手。

      “「我對我們在研究和模型智能側正在構建的東西,非常有信心。我們現(xiàn)在對產品側加大投入,是因為我們相信:現(xiàn)在這些東西真正重要了。」

        13

        結尾

        采訪的最后,他說的是這個:

      “「我們剛才談到的那些問題,關于對齊、可監(jiān)控性,我認為它們正在變得非常緊迫。而且這些問題不只是 AI 研究員的問題,是政策制定者的問題,也是我們所有人需要思考的問題。我很高興看到一些討論開始出現(xiàn),但我們需要更多。」

        58 分鐘的對話,Jakub 全程干貨輸出。

        2026 年 9 月,「實習生」正在到來。

        2028 年 3 月,「研究員」即將問世。

        那些我們以為是十年后的問題,終于已經,快到門口了!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      福建楊梅泡藥水事件持續(xù)發(fā)酵,浙江商販改口本地楊梅

      福建楊梅泡藥水事件持續(xù)發(fā)酵,浙江商販改口本地楊梅

      奇思妙想生活家
      2026-05-18 16:27:51
      現(xiàn)場直擊廣西柳州5.2級地震,柳州、桂林、貴港、南寧等多地均有震感,有人員被困,部分房屋有開裂現(xiàn)象,中國地震局啟動三級應急服務響應

      現(xiàn)場直擊廣西柳州5.2級地震,柳州、桂林、貴港、南寧等多地均有震感,有人員被困,部分房屋有開裂現(xiàn)象,中國地震局啟動三級應急服務響應

      極目新聞
      2026-05-18 08:36:26
      馬爾代夫史上最嚴重單次潛水事故:5名意大利遇難者遺體已全部打撈上岸

      馬爾代夫史上最嚴重單次潛水事故:5名意大利遇難者遺體已全部打撈上岸

      紅星新聞
      2026-05-18 21:05:38
      5個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

      5個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

      心中的麥田
      2026-05-18 19:34:44
      英國穆斯林年輕人,開始拒絕種姓婚姻

      英國穆斯林年輕人,開始拒絕種姓婚姻

      半勺甜心事
      2026-05-19 00:36:58
      金價全線跳水!國內金價跌破千元關口

      金價全線跳水!國內金價跌破千元關口

      現(xiàn)代快報
      2026-05-18 19:13:02
      菲律賓參議院正式開庭審理副總統(tǒng)莎拉彈劾案

      菲律賓參議院正式開庭審理副總統(tǒng)莎拉彈劾案

      獨舞獨舞
      2026-05-19 01:09:11
      匿名調查:字母哥下賽季去哪?69人預測留守,35人看好熱火

      匿名調查:字母哥下賽季去哪?69人預測留守,35人看好熱火

      墜入溫柔晚風
      2026-05-19 01:30:12
      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      霹靂炮
      2026-05-16 22:40:30
      這場頂級晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

      這場頂級晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

      魔都姐姐雜談
      2026-05-15 00:53:47
      國產電動SUV續(xù)航708公里,低價高配智駕超贊

      國產電動SUV續(xù)航708公里,低價高配智駕超贊

      智慧生活筆記
      2026-05-19 00:34:25
      黑龍江雙匯北大荒合資公司生產的豬肉抗生素嚴重超標近38倍

      黑龍江雙匯北大荒合資公司生產的豬肉抗生素嚴重超標近38倍

      每日質量報道網
      2026-05-18 21:24:26
      偽裝者續(xù)寫:阿誠死前才敢告訴明樓:巴黎那夜汪曼春懷了你的孩子

      偽裝者續(xù)寫:阿誠死前才敢告訴明樓:巴黎那夜汪曼春懷了你的孩子

      呆子的故事
      2026-01-23 14:59:54
      皇馬主場1-0力克塞維利亞,繼續(xù)緊追榜首。

      皇馬主場1-0力克塞維利亞,繼續(xù)緊追榜首。

      奔跑的象牙塔
      2026-05-19 01:02:34
      下月起!東莞東部"慢"速,將變快!

      下月起!東莞東部"慢"速,將變快!

      東莞潮事兒
      2026-05-17 16:27:06
      38個站點出現(xiàn)特大暴雨,湖北荊州市啟動防汛三級應急響應

      38個站點出現(xiàn)特大暴雨,湖北荊州市啟動防汛三級應急響應

      界面新聞
      2026-05-18 10:44:21
      打破魔咒!哈登生涯至今首次客場搶七取勝

      打破魔咒!哈登生涯至今首次客場搶七取勝

      北青網-北京青年報
      2026-05-18 21:12:44
      5.5噸茂名荔枝,深圳全城隨機派送!

      5.5噸茂名荔枝,深圳全城隨機派送!

      小影的娛樂
      2026-05-19 01:01:40
      別再只知道蘇錫寧了,江蘇這些悶聲發(fā)大財?shù)某鞘校攀钦嬗绣X

      別再只知道蘇錫寧了,江蘇這些悶聲發(fā)大財?shù)某鞘校攀钦嬗绣X

      奇思妙想生活家
      2026-05-18 10:38:48
      何超欣12歲那年,何鴻燊送她一棟倫敦豪宅,附帶一句叮囑:房子是讓你知道什么是資產,不是讓你住進去當公主。

      何超欣12歲那年,何鴻燊送她一棟倫敦豪宅,附帶一句叮囑:房子是讓你知道什么是資產,不是讓你住進去當公主。

      LULU生活家
      2026-05-17 14:44:10
      2026-05-19 02:03:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數(shù) 37464關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      賴清德要求美國繼續(xù)向臺出售武器 外交部表態(tài)

      頭條要聞

      賴清德要求美國繼續(xù)向臺出售武器 外交部表態(tài)

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現(xiàn)了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續(xù)航420km 騰勢N9閃充版勝算有多少?

      態(tài)度原創(chuàng)

      藝術
      游戲
      數(shù)碼
      公開課
      軍事航空

      藝術要聞

      震驚!日本80后畫家畫少女,超寫實美到窒息!

      《GTA6》多個取景地在現(xiàn)實已消失!開發(fā)太久的弊端

      數(shù)碼要聞

      索尼十周年紀念耳機The ColleXion曝光 設計全面奢華升級

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      莫斯科遭一年多來最大規(guī)模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产欧美综合在线观看第十页 | 尹人成人网| 国产精品白丝久久av网站| 国产精品无码无卡在线播放| 欧美猛少妇色XXXXX猛叫| 国产不卡精品视频男人的天堂| 四虎论坛| 亚洲高清中文字幕综合网| 国产精品白浆一区二小说| 国产视色精品亚洲一区二区| 影音先锋影音久久| 亚洲精品国产亚洲精品| 国产人妻精品一二区| 国产精品三级一区二区三区| 一二三四视频社区在线播放中国| 全球顶级metart裸体自慰全部| 偷拍美女厕所尿尿嘘嘘小便| 色综亚洲国产vv在线观看| 国产AV大全| 久肏| 亚洲av激情五月性综合| 成人超碰最大网站| 精品久久99国产精品| 国产成人精品一区二区免费看京 | 亚洲AV秘 无码一区二区三区1| 亚洲综合一区二区不卡| 国产熟女一区二区三区四区| 吾爱夜趣福利在线导航观看 | 一区二区三区不卡国产| 国产精品色哟哟| 日韩在线看片中文字幕不卡| av岛国在线免费观看| 激情97综合亚洲色婷婷五| 你懂的国产在线| 日本熟妇人妻右手影院| 免费AV网站| 亚洲第一精品一二三区| 日韩人妻无码网站| 五月丁香成人网| 国产办公室秘书无码精品99| Y111111国产精品久久久|