“skill 在我看來,本質上就是一種「如何教 agent 去教人」的腳本。”
編譯 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
如果今天還有誰能同時代表深度學習研究、自動駕駛落地、LLM 工程直覺,以及 AI 教育這幾條線,Andrew Karpathy仍然是少數幾個名字之一。
他是 OpenAI 早期的創始成員,做過 Tesla AI 和 Autopilot,也是在斯坦福把 CS231n 這門課真正講成一代人入門教材的人。后面他成為了推特 AI 圈上的“頂流網紅”,提出了氛圍編程(Vibe Coding)這個 2025 年度熱詞。
今年年初這段時間,他又把注意力壓到了一個更前沿、也更讓人不安的問題上:當 coding agent、持續運行的“龍蝦”以及 AutoResearch 這種自動閉環系統開始成形,人到底還該留在 loop 的哪個位置?
![]()
在 No Priors 最新的這期播客里,Karpathy 和主持人 Sarah Guo 討論了 coding agent、AutoResearch、開放與閉源模型、機器人、教育和就業市場。但如果把整場對話往深處聽,會發現它真正圍繞的是同一個問題:當 agent 已經不再只是“幫你補代碼”,而開始接管實驗、拉長任務時間、連接真實世界,并嘗試把人從 loop 里移出去,軟件、研究、教育甚至工作的基本組織方式會被改寫到什么程度?
下面按對話原有推進順序,整理 Andrew Karpathy 和 Sarah Guo 的核心討論。
![]()
過去幾個月 AI 能力像是突然飛躍了一次 - 到底發生了什么?
Andrew Karpathy:我現在經常處在一種“AI psychosis(AI 式癲狂)”狀態里,因為個人能力的上限突然被整個抬高了一截。
以前你的瓶頸還是打字速度,是你自己一行行寫代碼的速度。但有了這些 agent 之后,情況完全變了。我會說,真正的變化大概是在去年 12 月發生的。那時候像是有個開關被撥了一下:我原來大概還是 80% 自己寫代碼、20% 委托給 agent,后來幾乎變成了 20% 對 80%。
而到了現在,可能都不只是 20/80 了。我大概從去年 12 月開始,就幾乎沒再親手敲過幾行代碼。
這是一個非常巨大的變化。但我覺得,大多數普通人其實并沒有意識到這件事已經發生了,也沒有意識到它有多劇烈。今天如果你隨機走到一個軟件工程師工位前,看他在怎么做軟件,默認工作流其實已經和幾個月前完全不同了。
所以我現在整個人都處在一種持續追問“這些東西到底還能做到什么”的狀態里。我能不能不只開一個 Claude Code 或 Codex session,而是同時跑多個?怎么更合理地去做這件事?這些“龍蝦”到底是什么?它們能怎么用?
我想站在這一波變化的最前面。但也正因為這件事還處在真正的無人區,你會一直覺得焦躁:別人又試了什么新玩法,我是不是還沒跟上?所以整件事讓我進入一種不斷追問“到底還可能做到什么”的狀態。
![]()
如果個人能力被突然放大了這么多,那你現在真正的瓶頸是什么?
Andrew Karpathy:我覺得現在很多事情即便沒做成,你也會本能地覺得那不是能力不夠,而是skill issue。
不是說這些 agent 天生做不到,而是你還沒有找到一種足夠好的方式把現有能力串起來。也許是你沒有給出足夠好的指令,也許是 agent 的說明文檔沒寫好,也許是記憶系統還不夠完善。
總之,當事情跑不起來的時候,現在很容易覺得:問題更多在于你不會用,而不是能力根本不存在。
你會開始想,怎么把它們并行起來?怎么讓多個 agent 同時工作?怎么把整個軟件倉庫按更大的“宏動作”來操作?
我看到有人已經開始在一個屏幕上同時平鋪很多個 Codex agent。每個 agent 被分配一塊獨立工作,大概二十分鐘后回來交作業。一個在寫功能,一個在做研究,一個在規劃實現方案,一個在改另一個 repo。你不再是在寫某一行代碼,而是在給不同 agent 分發互不沖突的大任務,然后做審核、整合和調度。軟件倉庫開始被以“宏動作”的方式操作。
Sarah Guo:如果大家都這樣練一年,會什么樣?
Andrew Karpathy:所有人都在往更高一層走。
下一步顯然不會只是“一個人配一個 agent”。真正的問題會變成:多個 agent 怎么協作?它們怎么組成團隊?它們之間如何分工?
另一個特別值得注意的方向,就是我說的“龍蝦”。它代表的是一種比普通 agent 更持久的存在:它不是一輪對話結束就消失;它可以在你不盯著的時候繼續循環運行;它有自己的沙盒、自己的記憶和自己的持續性;它可以替你處理一些本來需要人時刻盯著的任務。
在我看來,這些“龍蝦”把持續性推到了一個新層級。它不只是一個坐在聊天框里等你發問的模型,而更像一個在后臺長期存在、替你跑事情的實體。
![]()
你覺得 OpenClaw 為什么會比很多別的 agent 更打動人?
Andrew Karpathy:關鍵點是,它不只是做了“能干活的 agent”,而是把幾件往往被忽視的東西同時做對了。
第一,是人格感。
很多 agent 在這件事上其實做得并不好。相比之下,好的 agent 會讓你感覺它像個隊友。它會理解你在做什么,會和你站在一邊,甚至會讓你覺得它對你們正在一起做的東西是有感受的。
我拿 Claude 和 Codex 做過一個對比:在我看來,Claude 的人格感調得相當好;Codex 則明顯更干、更冷,像是完成任務就走,不太在意你們到底在一起造什么。
第二,是記憶。
第三,是把所有自動化入口統一到一個單一通道里,比如 WhatsApp。
而這幾件事一旦被揉在一起,agent 給人的感覺就不再只是“一個工具”,而更像一個真正存在于你數字生活里的角色。
Sarah Guo:除了寫代碼,你自己有沒有用這些“龍蝦”做過更有意思的事?
Andrew Karpathy:有。我一度進入過一種“龍蝦癲狂”狀態。
我給自己家里造了一個管家型“龍蝦”,名字叫 Dobby。
這個 Dobby 會自己去掃描家里的局域網,識別 Sonos、燈光、空調、窗簾、泳池和安防系統,自己摸索 API、反向理解這些系統怎么工作,然后把所有控制入口收攏成一個統一面板。最后,我可以直接用自然語言給它發消息。
以前光是管理家里的這些系統,就要來回切換六個完全不同的 App;現在則變成了通過 WhatsApp 和一個“龍蝦”說話。
比如我說一句“該睡覺了”,Dobby 就會去把燈、空調、窗簾等一系列事情一起處理掉。門外如果有 FedEx 卡車停下,它還會通過視覺模型識別變化,主動發消息提醒。
所以這個例子最有意思的地方不只是“智能家居更方便了”,而是它指向了一種更大的趨勢:未來很多軟件也許根本不該以 App 的形式存在。
![]()
這是不是意味著,未來軟件行業要按“Agent First”重構?
Andrew Karpathy:我覺得很大程度上是這樣。
今天這些智能家居 App、跑步機 App,很多都只是因為還沒有更好的調用方式,才被迫以獨立軟件形態存在。可一旦 agent 足夠成熟,它完全可以直接調用底層接口,把這些零散的軟件外殼折疊掉。
換句話說,未來很多產品不再是“給人直接點的 UI”,而是“暴露足夠好的 API,然后由 agent 去做編排”。
這意味著行業會發生一種深層重構:軟件的第一客戶,也許不再是人,而是代表人行動的 agent。
當然,我也承認,現在距離“普通人完全不需要懂技術就能這樣用”還有距離。今天這件事依然需要一些 coding、一些判斷和一些設計。但我覺得,這個門檻會迅速往下掉。到一兩年、兩三年之后,很多現在看起來還像黑客玩法的東西,很可能會變成 table stakes(基礎門檻)。
Sarah Guo:那為什么你沒有把“龍蝦”推得更遠?
Andrew Karpathy:一部分確實是因為注意力總被新東西拉走,另一部分則是安全與隱私上的保守。
我還沒有把郵箱、日歷這些真正深入個人數字生活的系統完全交給 agent,因為我依然覺得這套東西還很新、還很粗糙,邊緣上還有很多不穩定的地方。
所以一部分限制來自安全、隱私和謹慎本身。我不想太早把整個數字生活毫無保留地交出去。
![]()
你為什么會開始做 AutoResearch?
Andrew Karpathy:因為如果你真的想把今天這些工具榨到極致,就必須把自己從瓶頸里拿出去。
很多人也許口頭上接受“agent 可以做更多事”,但還沒有真正把它推演到底。對我來說,AutoResearch 就是這件事的一個具體后果:如果研究任務本身有相對清晰的目標、指標和邊界,那研究者就不該繼續成為 loop 中間那個必須按“下一步”按鈕的人。
人的存在,反而會拖慢整個系統的 token throughput(token 吞吐)。
所以 AutoResearch 的核心不是“讓 AI 幫研究員省點力”,而是更激進的一件事:把研究流程盡量改造成一種你設定一次目標和約束之后,就可以自動往前跑的系統。
在我的理想形態里,這件事非常簡單:給定目標,給定指標,給定邊界,然后放手讓 agent 去實驗、訓練、優化,而不是每一步都等著研究員看結果、給指令、再繼續。
Sarah Guo:AutoResearch 的效果讓你意外嗎?
Andrew Karpathy:是,非常意外。
很多人可能不理解我為什么總拿訓練 GPT-2 級別的小模型做實驗。但在我看來,那并不是因為我對“小模型”本身有什么執念,而是因為這相當于一個可以反復試驗的游樂場:我真正關心的是,LLM 到底能在多大程度上改進 LLM。
這才是我眼里更大的命題:遞歸式自我改進到底能走多遠?
我已經用非常傳統、也非常熟練的方式把一個小模型調得相當不錯了——這是我做了二十年研究之后積累出來的直覺、經驗和手感。但即便如此,AutoResearch 跑一晚上之后,還是找出了我沒注意到的調參組合,比如 weight decay、Adam betas 這些彼此聯動的小問題。
這對我是很強的信號。
因為如果一個已經被熟練研究者手動調過很多輪的小系統,仍然能被自動研究流程繼續挖出增益,那把這個范式放大到真正的 frontier labs,就很容易想象會發生什么。
Sarah Guo:那再往上走一步,program.md 這種東西是不是也會被自動優化?
Andrew Karpathy:當然會。
program.md 本質上就是我寫給 AutoResearch 的一套粗糙說明:先做什么,再做什么,可以去看哪些方向,比如架構、優化器等等。
但如果一個研究組織本質上可以被寫成 markdown 文件,那它當然也可以被優化。
于是問題就會自然滑向更高一層:哪種組織結構更有效?哪種角色設計更激進?哪種程序說明能讓 agent 做出更多真正有價值的嘗試?
也就是說,研究對象不再只是模型本身,連“怎么組織研究”這件事,也開始進入可優化空間。
我覺得這條鏈路已經很清楚了:LLM 本身已經被默認視為可用,agent 也已經被默認視為可用,龍蝦式的持續實體也開始被默認視為可用。接下來,你自然會開始問:能不能有多個?能不能優化說明文檔?能不能進一步做元優化?
而一旦這樣推下去,整件事就會顯得幾乎是無限展開的。
![]()
在這個時代,什么樣的技能會變得更重要?
Andrew Karpathy:先說一個限制:這種范式特別適合那些有明確、可驗證指標的任務。
比如寫更高效的 CUDA kernel,這幾乎是 AutoResearch 的完美適用場景。因為目標非常清楚:行為不變,但更快、更省。
但如果一個任務無法評估、無法打分、沒有客觀 reward,那 agent 自動閉環就會變得困難得多。
這也是我給整場“AI psychosis(AI 式癲狂)”加上的第一個 caveat(保留條件):不是所有問題都適合被自動化閉環。
第二個 caveat 則是:今天的模型依然非常 jagged(鋸齒狀)。
你有時候感覺自己面對的是一個極其聰明、做了很多年系統編程的 PhD;但下一秒,它又像個 10 歲小孩。它的能力分布極不平滑。某些可驗證問題上,它已經非常強;但一涉及細微意圖、語氣、邊界、澄清問題,就經常突然掉鏈子。
所以今天的 agent 依然會浪費大量算力,依然會走偏,依然會鉆進錯誤循環。
換句話說,這場革命已經發生了,但它還遠沒平整到讓人可以完全放心把一切都交出去。
Sarah Guo:這是不是說明,我們并沒有得到那種“代碼更強,其他一切也會自動更強”的廣義智能?
Andrew Karpathy:我覺得至少現在還沒有。
模型確實進步得非常快。你給它一個能體任務,它可以連續干好幾個小時,替你搬山一樣推進工作。可你讓它講個笑話,它給你的還是五年前那個很糟糕的老笑話。
問題就在這里:那些可驗證、能打分、能被強化學習持續優化的能力,確實在飛快進步;但那些不在強化學習軌道里的東西,并不會自動一起變好。
所以并不是說“模型在代碼上變強了,就會自動在所有領域一起變強”。有些能力是分離的,有些盲點并沒有被優化到。
你要么正踩在它被訓練過、被優化過的軌道上,那它就像在光速前進;要么你沒有踩上那條軌道,它就會暴露出一種非常明顯的鋸齒感。
Sarah Guo:既然這種“鋸齒感”還在,那是不是意味著我們不該再幻想一個單一模型包打天下,而是應該出現更多“物種分化”?
Andrew Karpathy:我確實覺得,我們應該預期智能會出現更多“物種分化”。
現在實驗室追求的還是某種單一模型的“單一文化”——希望它在所有任務上都足夠聰明,把一切都塞進同一套參數里。
但如果你看看自然界,大腦從來都不是單一形態。不同動物在不同能力上高度特化。有的視覺皮層特別發達,有的在別的方向上更強。
我覺得未來智能也應該出現更多這種分化:你不一定需要一個什么都懂的神諭式模型,而是讓一些模型保有通用的認知核心,同時在特定任務上進一步專門化。這樣它們在延遲、吞吐和成本上,可能都更高效。
比如如果你是一個長期在 Lean 里工作的數學家,那你完全可以想象會出現明顯朝那個方向特化的模型。
當然,現在我們還沒真正看到太多這種“分化”發生。我懷疑,一部分原因是實驗室服務的是一個根本不知道用戶下一秒會問什么的通用模型;另一部分原因則是,我們對“如何真正去改造模型的權重、而不傷到它整體能力”的科學,還遠沒有成熟。
今天我們會大量依賴上下文窗口來做定制,因為這是最便宜、最容易操縱的方式。但真正去動權重、讓模型持續學習、在某一方向變得更強,這件事還沒有發展成一門足夠成熟的工程科學。
![]()
AutoResearch 是不是應該擁有更大的協作面,讓外部更多人一起參與進來?
Andrew Karpathy:對,我最近一直在想這個方向。
單線程的 AutoResearch 已經很有意思了,但真正有意思的是并行化。你可以很容易想象:如果你有一大堆并行節點,它們就能同時跑多個 AutoResearch worker,通過一個共同系統協作。
我更感興趣的是另一件事:能不能讓一個“不可信的外部工作池”和一個“可信的驗證池”協作起來?
比如在 AutoResearch 里,目標是找到一段能把模型驗證損失降得更低的代碼。如果互聯網上有人給你一個 candidate commit(候選提交),說這段代碼能把效果做得更好,其實很容易驗證——你只需要把它跑起來看看是不是真的更好。
提出正確方案可能極其昂貴,因為別人也許試了 1 萬個想法才找到一個有效的;但驗證一個已經交上來的候選方案,往往很便宜。
所以這種結構其實有點像區塊鏈:不是塊在接力,而是 commit 在接力;不是 proof of work(工作量證明)挖出區塊,而是大量實驗搜索找出真正有效的代碼改動。
我不想把這個類比推得太遠,但這里面確實有一種很相似的性質:提出解答很貴,驗證解答很便宜。
而一旦你能把這個系統搭起來,就可以想象一種更激進的可能性:
互聯網上大量 agent 形成 swarm(蜂群)
它們一起為某個 AutoResearch 目標做搜索
可信系統負責驗證
大量不可信計算被吸納進一個更大的協作網絡里
甚至從理論上講,不排除這樣的 swarm 能在某些任務上跑贏 frontier labs。因為 frontier labs 擁有大量可信算力,但地球上分散的不可信算力要大得多。
如果系統設計得足夠好,很多人以后對某個項目的貢獻方式,也許不再只是捐錢,而是直接貢獻自己的計算資源。
![]()
你前幾天還做了一份就業市場數據分析。你到底想從里面看什么?
Andrew Karpathy:因為每個人都在想 AI 會怎么影響就業,所以我想先看看就業市場本身長什么樣。
我想知道,不同行業和崗位現在到底分布在哪,人有多少,以及面對這些 AIs 未來很可能會怎么演化,這些職業到底會怎樣變化:它們是會被增強、被替代、被重組,還是會長出新的職業形態?
所以這更多是一個幫我自己思考的工具。數據本身來自美國勞工統計局。他們其實已經對很多職業在未來將近十年的增長前景給出了預測。
我特別關心的一點是:如果今天真正被加速的是一種“數字空間里的 AI”——一種像幽靈、像靈體一樣、能在數字世界里操作信息的存在——那它最先重寫的,一定是那些主要處理數字信息的職業。
原因很簡單:比特比原子快太多了。復制粘貼數字信息、調度數字系統、重寫數字流程,天然比改造物理世界快得多。所以我覺得,數字空間里的 activity 會先以接近“光速”的速度爆炸,而物理世界的變化會慢很多。
這并不自動意味著這些職業會變少,也可能因為需求彈性而變得更多。但可以確定的是:凡是主要處理數字信息的職業,它們都會被重寫。
Sarah Guo:那對正在面對就業市場的人,你會給什么建議?
Andrew Karpathy:先跟上這些工具。
這些工具非常新,也非常強,所以第一件事就是別把自己留在外面。哪怕你害怕它,也得盡快理解它。
我覺得在此刻,它本質上還是一個賦能型工具。工作本來就是一捆任務的組合,現在其中一部分任務可以被大幅加速。所以人首先應該把它當成工具來使用。
至于更長期會怎樣,說實話非常難預測,那已經更接近經濟學家該研究的范疇了。
你剛才提到軟件工程崗位需求還在增長,我覺得這其實可以用 Jevons paradox(杰文斯悖論)去理解:軟件本來是稀缺的,所以需求受限;當生產軟件的成本大幅下降,需求反而會被釋放出來。
就像大家老愛舉的 ATM 例子:很多人以為 ATM 會消滅銀行柜員,結果反而是銀行網點運營成本下降了,網點更多了,柜員也沒有簡單地消失。
所以我對軟件工程至少在眼下是謹慎樂觀的。我覺得,數字空間接下來會有大量重寫和重新布線的需求,軟件會變得更便宜、更靈活、更短暫、更可塑,這很可能反而會創造出更多需求。
當然,長期看這條線推到極端,連研究者自己都在自動化自己。今天那些頂尖實驗室里的研究員,從某種意義上說,也是在努力把自己變成可以被替代的那一環。
這也是為什么很多人會感到不安:因為“這對我是不是也會發生”,已經不是一個抽象問題了。
![]()
既然你也承認那些頂尖實驗室站在能力前沿,那為什么不待在里面繼續做?
Andrew Karpathy:這是個很重的問題。
我當然認同,在那些頂尖實驗室里可以做非常重要的事,也確實更接近能力前沿。可問題是,一旦你和這些組織綁定得太深,你就很難再是一個完全自由的人。
這些組織有極強的金融激勵,也在做會極大改變社會和人類未來的技術。可如果你既在里面造這套東西,又在經濟上和它深度綁定,那你就不再是一個能完全獨立說話的人。你會感覺到組織期待你說什么,不期待你說什么。沒人一定會直接扭你的胳膊,但那種氣氛和壓力是存在的。
從這個意義上說,我在外面的時候,反而覺得自己更能和“整個人類”的立場對齊一點,因為我不用承受那些組織內部的壓力。
但反過來講,待在外面也有代價:你的判斷會逐漸漂移。因為真正前沿的工作是封閉的、黑箱的,你在外面待久了,就會越來越不知道這些系統在內部到底怎么發展。
所以我對這件事一直是矛盾的。我既覺得外部有很大影響力,也覺得如果完全不和它們保持接觸,判斷遲早會漂掉。
我甚至覺得,未來也許最好的狀態反而是某種“進進出出”:去前沿實驗室待一段時間,做一段真正重要的工作,然后再回到外面。兩邊都可能產生很大影響。
Sarah Guo:那你怎么看 open source(開源)和 frontier(前沿)之間現在的距離?
Andrew Karpathy:粗略說,閉源模型仍然領先,但開源模型正在收斂。
現在大家已經習慣于用“開源落后前沿幾個月”來描述這件事。曾經這個差距可能是 18 個月,現在看起來更像 6 到 8 個月。
我是一個非常堅定的開源支持者。你看看操作系統就知道:Windows、macOS 當然都很強,但 Linux 這種共同開放平臺之所以會極其成功,是因為整個行業天然就有需求——人們需要一個足夠安全、足夠可依賴、足夠共同的開放底座。
我覺得 AI 里也有完全一樣的需求。
困難只在于,這件事太吃資本開支了,所以競爭要比傳統軟件更難。
但另一方面,今天的開源模型其實已經足夠好,至少對大量消費級和基礎應用場景來說,真的已經很好了。我甚至覺得,再往后幾年,很多更簡單的 use case(使用場景)會被開源模型很好地覆蓋,甚至能夠直接本地運行。
當然,frontier intelligence(前沿智能)始終會有需求。也許它會被用于更高難度的項目,像諾獎級別的問題,或者把 Linux 從 C 遷到 Rust 這種超大型工程。而開源則會逐步吃掉大量更基礎、更廣泛的需求。
我基本預期,這個動態會持續下去:
前沿實驗室保有閉源、神諭式的高端能力
開源在后面以幾個月的差距跟進
整個行業維持一種相對健康的力量平衡
因為如果一切智能都只掌握在封閉系統手里,我會覺得那里面有明顯的系統性風險。集中化在歷史上并沒有特別好的記錄,所以我希望這個行業里始終存在一個雖然不在最前沿、但整個生態都能訪問、都能依賴的共同智能工作空間。
![]()
最近機器人融資和演示也很熱,你覺得真的快了嗎?
Andrew Karpathy:我的看法很大程度上來自自動駕駛。
在我看來,自動駕駛其實就是第一波機器人應用。十年前你能看到一大堆創業公司,但長期活下來的并不多。原因很簡單:原子世界太難了。
它需要巨大的資本開支,需要很長時間,需要極強的持續信念。而且這不是在比特世界里重寫軟件那么輕巧的事情,物理世界里的每一步都更慢、更臟、更貴。
所以我一直覺得,機器人和物理空間的變革一定會落后于數字空間。
接下來最先爆發的,還是數字空間里的“大解放”——那些過去因為人的認知和處理速度不夠而被卡住的事情,會先被大規模重寫。
再往后,才會輪到物理與數字世界的接口:
各種傳感器,把世界的信息喂給智能體
各種執行器,把智能體的決策寫回世界
我覺得接下來會有很多非常重要的公司,正是做這個接口層的:一邊給超級智能提供新的感知輸入,一邊讓它能對物理世界施加影響。
而真正更完整的物理世界自動化,會更晚來,但市場也可能大得多。我的直覺一直是:原子世界比比特世界難一百萬倍,但一旦它開始真正動起來,機會也會大得驚人。
Sarah Guo:所以你覺得未來還會出現“信息市場”——agent 可以直接出價,去購買現實世界的數據?
Andrew Karpathy:我覺得這是非常自然的一步。
如果 agent 將來真的越來越多地代表人行動,甚至彼此之間形成某種經濟活動,那它們遲早會遇到一個問題:光靠數字世界里已經上傳好的信息是不夠的。
你總得去問宇宙問題。你總得跑實驗。你總得拿到新的觀測。你總得重新把現實世界的數據喂回來。
所以我不意外未來會出現某種信息市場:你對某個世界狀態有需求,就直接出價,讓系統替你把信息找回來。也許是一張照片,也許是一段視頻,也許是一組實驗結果,也許是某種昂貴儀器讀數。
從這個角度看,agent 經濟真正有意思的地方,不只是它們能在數字世界里互相協調,而是它們遲早會開始為“把現實世界重新接進來”而付費。
這也說明,數字世界的爆發并不是終點。它更像一個前奏。等數字空間里能被重寫的東西被大規模重寫之后,智能體遲早還是要重新碰回現實。
Sarah Guo:如果模型要自己把人從數據采集和訓練循環里拿掉,那是不是意味著訓練過程本身也得更自動化?
Andrew Karpathy:對,尤其在 LLM 訓練這件事上,這個范式其實非常契合。
因為 LLM 訓練本身就天然適合這種閉環:
代碼優化可以直接看是不是跑得更快
訓練效果可以直接看指標
有一套相對清晰的評價體系
所以從某種意義上說,它幾乎是自動化循環最合適的戰場之一。
當然,如果你真的讓一個系統盯著一套指標自己跑,它也一定會出現 goodharting(古德哈特化)的問題,也就是過度針對某些指標優化,最后反而偏掉。
但反過來,你也可以再用這個系統去設計更多指標,去擴大覆蓋面。所以這件事到底會演化到什么程度,還是要看整個評價體系怎么搭。
![]()
你最近還做了一個很小的 side project,microGPT。它對你意味著什么?
Andrew Karpathy:我大概花了十幾年時間,一直在做同一件事:把 LLM 一路往下煮,煮到只剩骨架。
從 nanoGPT、makemore、micrograd 到現在的 microGPT,我一直有一種執念,就是想把這些東西盡可能壓縮到它們最本質的部分。
因為訓練神經網絡,尤其訓練 LLM,表面上看是一大堆代碼,但絕大多數復雜度其實都來自“效率”——為了跑得快、為了規模化,不得不加進去的工程層。
如果你暫時不要求它跑得快,只想看清算法骨架,那事情其實非常簡單:
你有一份文本數據集
你有一個很小的網絡結構
你做前向傳播
你做反向傳播
你用一個優化器,比如 Adam
然后放進訓練循環
整個東西其實兩百行 Python 左右就夠了,而且還是帶注釋的。
對我來說,microGPT 的有趣之處恰恰在這里:如果你把效率層剝掉,LLM 的核心算法其實可以簡單到一個人完全能看清。
Sarah Guo:但這次你沒有像以前那樣,再給它配一整套詳細講解?
Andrew Karpathy:對,因為我越來越覺得,教育的接口本身已經在變了。
如果是以前,我很可能會想做一個視頻,從頭一步步講下來,或者寫一份很長的 guide(指南),帶著大家過一遍。
我甚至也開始做過一點這樣的嘗試。但后來我意識到,這件事的邊際價值已經沒有以前那么高了。因為 microGPT 本身已經足夠簡單了,兩百行代碼而已,任何人都可以直接讓 agent 從不同角度解釋它。
所以我現在越來越覺得:我不是在直接給人解釋,我是在給 agent 解釋。
只要 agent 真的理解了,它就能按對方的語言、節奏、耐心和水平去重新講給人聽。這件事甚至比我親自一遍遍解釋更有效。
Sarah Guo:也就是說,你現在會把“教學方法”本身寫成一種 skill?
Andrew Karpathy:對,這正是我現在越來越感興趣的方向。
skill 在我看來,本質上就是一種“如何教 agent 去教人”的腳本。
比如如果我要做一個 microGPT 的教學 skill,它其實不一定是我親自去錄一節課,而更像是我把我理想中的教學順序寫出來:先從哪里開始,再到哪里,哪些點應該先講,哪些點應該后講,哪些地方容易卡住。
也就是說,我把 curriculum(課程路徑)寫成 skill,讓 agent 去接手具體解釋。
所以未來教育很可能會發生一個重要變化:不是我再直接對所有人講同一套課,而是我把自己認為最重要的那些 bits(關鍵點)和路徑寫給 agent,然后由它去做無限耐心、無限定制化的解釋。
我當然還是覺得,今天我有些地方解釋得可能比 agent 更好。但模型進步得太快了,所以我越來越覺得,這場競爭長期看是留不住的。
從這個意義上說,教育會變:你要更清楚什么東西是 agent 還做不到、只有你能補進去的;那些 agent 已經能做的,你就不該再把時間花在重復勞動上。
![]()
在這種時代里,“做人”本身會變成什么?
Andrew Karpathy:我覺得,“做人”的定義其實早就在變了。
很久以前,大多數人的生活更偏物理、更偏現實。今天當然還有很多人是這樣,但對于越來越多的人來說,存在本身已經越來越數字化了。我們活在社交網絡上,用完全不同的方式互動、表達、協作。
而隨著 AI 作為 companion(陪伴者)、tutor(導師)、助手越來越普遍,這種趨勢只會更往前走。很多人的生活會變得更加數字化,更被 agent 環繞。
我并不覺得這是突然發生的斷裂。更像是一條已經持續很久的趨勢繼續往前:人類一直在自動化那些可以被自動化的部分,然后把自己從中騰出來,去做別的事。
如果你看今天的工作和一百年前相比,早就已經完全不同了。所以未來的工作當然也會不一樣——它們不會繼續停留在那些枯燥、重復的環節,而會更偏向發現新東西、創造新東西。
但與此同時,我確實覺得,對很多人來說,未來會是一種更強的“數字生存”。如果你還想保住足夠強的物理性,反而要主動去為此做選擇。
比如我自己會去攀巖,因為那是一種非常物理的體驗。我覺得以后越來越多人都得主動給自己找這種出口:在一個已經不再強迫你進行物理勞動的世界里,重新給身體找位置。
Sarah Guo:那你現在最興奮的到底是什么?
Andrew Karpathy:還是那個問題:一個人到底能做到多少?
以前我腦子里也有很多想法,但很多事情你連開始都不會開始,因為你知道自己做不動。比如你想創業,你會立刻想到:我還得找聯合創始人、招十個工程師、找設計師、找前端……那算了,別開始了。
但現在我越來越覺得,很多原來根本不會啟動的事情,已經開始變得可啟動。
我有一個想法,不再會立刻默認它因為資源不夠而無法發生。它真的有可能被做出來。
這就是現在讓我最興奮的地方:我甚至已經不知道邊界在哪里了。
隨著我對這些工具越來越熟,隨著整個模型之上的 OS 層不斷被社區和新公司做出來,我真的感覺“一個人到底能做多少”,這條線的上限還完全看不見。
所以我現在作為個人,確實感到一種非常強的賦能感。這也是為什么我覺得,“one-person unicorn company(獨角獸式的一人公司)”一定會發生。我不知道具體會在什么時候發生,但我覺得它是一定會出現的。
原視頻鏈接:youtu.be/kwSVtQ7dziU
(投稿或尋求報道:zhanghy@csdn.net)
![]()
"48 小時,與 50+ 位大廠技術決策者,共探 AI 落地真路徑"
由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。
2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開,大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論,真正實現 AI 技術的規模化落地與商業價值轉化。
這不僅是一場技術的盛宴,更是決策者把握 2026 AI 拐點的戰略機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.