網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

30萬(wàn)被引的AlphaGo之父，創(chuàng)業(yè)4個(gè)月融資近百億元！篤信RL實(shí)現(xiàn)ASI

2026-04-29 16:35:14　來(lái)源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

編輯：艾倫

AlphaGo 之父 David Silver 創(chuàng)辦的 Ineffable Intelligence 獲 11 億美元種子輪，創(chuàng)歐洲融資紀(jì)錄，估值達(dá) 51 億美元。這家公司押注強(qiáng)化學(xué)習(xí)和自我經(jīng)驗(yàn)學(xué)習(xí)，試圖挑戰(zhàn)依賴 Scaling Law 的大模型主線。

4 月 27 日，前谷歌 DeepMind 頂級(jí)研究員、UCL 教授 David Silver 創(chuàng)辦的倫敦 AI 實(shí)驗(yàn)室 Ineffable Intelligence 宣布完成 11 億美元種子輪融資，投后估值 51 億美元。

https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html

這是歐洲迄今最大規(guī)模種子輪。

Sequoia Capital 和 Lightspeed Venture Partners 共同領(lǐng)投，Nvidia、谷歌、Index、DST Global、英國(guó) Sovereign AI Fund 等參與。

Ineffable 的目標(biāo)是，做一個(gè)從自身經(jīng)驗(yàn)中發(fā)現(xiàn)知識(shí)的「superlearner」，繼續(xù)把強(qiáng)化學(xué)習(xí)推向 ASI。

這筆錢的特別之處在于階段。

Ineffable 成立時(shí)間只有數(shù)月，公開產(chǎn)品、收入、路線圖都還有限，但一上來(lái)就拿到 51 億美元估值。

AI 投資已經(jīng)進(jìn)入一個(gè)新階段，頂尖研究員的個(gè)人信用，正在替代傳統(tǒng)意義上的商業(yè)驗(yàn)證，成為早期融資最稀缺的抵押物。

這筆巨款，投向了強(qiáng)化學(xué)習(xí)

過(guò)去三年，AI 行業(yè)的主線是大語(yǔ)言模型。

更大的語(yǔ)料、更大的集群、更強(qiáng)的推理，幾乎構(gòu)成了所有頭部公司的共同劇本。

Silver 選擇的是另一條路，強(qiáng)化學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)的核心，是讓模型在環(huán)境里行動(dòng)，通過(guò)反饋修正策略。

圍棋、國(guó)際象棋、星際爭(zhēng)霸這些封閉系統(tǒng)，是它最早打出聲量的地方。

游戲《星際爭(zhēng)霸 2》

Silver 的新公司想把這套方法放大，讓系統(tǒng)從基本動(dòng)作技能一路學(xué)到科學(xué)、數(shù)學(xué)、技術(shù)層面的突破。

公司公開表述里，Ineffable 的使命是「與超級(jí)智能進(jìn)行第一次接觸」。

Silver 對(duì)大模型路線的分歧也在這里。

大語(yǔ)言模型主要從人類已經(jīng)寫下的文本和代碼中學(xué)習(xí)，能力邊界很大程度上受制于人類數(shù)據(jù)。

Silver 在接受 Wired 采訪時(shí)把人類數(shù)據(jù)比作化石燃料，把自我學(xué)習(xí)比作可再生能源。

這個(gè)比喻也解釋了為什么投資人愿意給一個(gè)沒有完全展開商業(yè)模式的實(shí)驗(yàn)室開出巨額支票。

強(qiáng)化學(xué)習(xí)

是Scaling Law撞墻后的出路嗎？

依賴海量人類數(shù)據(jù)的傳統(tǒng) Scaling Law 沒有失效，但邊際收益正在變差。

繼續(xù)堆參數(shù)、堆語(yǔ)料、堆訓(xùn)練算力仍會(huì)帶來(lái)提升，只是高質(zhì)量人類文本正在變成瓶頸。

Epoch AI 估算，公開高質(zhì)量人類文本的有效庫(kù)存約為 300 萬(wàn)億 Token，按趨勢(shì)可能最早在今年，最晚在 2032 年，被徹底用光。

https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

也就是說(shuō)，舊范式這條路還能走，但越來(lái)越貴、越來(lái)越慢。

純強(qiáng)化學(xué)習(xí)確實(shí)提供了一條更接近 AGI / ASI 的路線，因?yàn)樗屇Ｐ蛷摹改７氯祟愇谋尽罐D(zhuǎn)向「通過(guò)行動(dòng)和反饋獲得經(jīng)驗(yàn)」。

AlphaGo Zero 已經(jīng)證明，在規(guī)則清晰、反饋明確的環(huán)境里，系統(tǒng)可以不依賴人類棋譜，通過(guò)自我對(duì)弈達(dá)到超人水平。

OpenAI o1 也顯示，大規(guī)模強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)更多思考時(shí)間，能顯著增強(qiáng)復(fù)雜推理能力。

但純強(qiáng)化學(xué)習(xí)短期很難單獨(dú)承擔(dān) AGI 路線。

圍棋、數(shù)學(xué)、代碼這類任務(wù)有明確驗(yàn)證器，強(qiáng)化學(xué)習(xí)很強(qiáng)；

現(xiàn)實(shí)世界的問(wèn)題沒有穩(wěn)定獎(jiǎng)勵(lì)函數(shù)，探索成本高，安全和對(duì)齊也更難。

谷歌 DeepMind 的 AlphaProof 更像是現(xiàn)實(shí)方向的樣板，它結(jié)合預(yù)訓(xùn)練語(yǔ)言模型、Lean 形式化驗(yàn)證和 AlphaZero 式強(qiáng)化學(xué)習(xí)，在 IMO 上達(dá)到銀牌水平。

所以更靠譜的判斷是，未來(lái)不是大模型預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)二選一，而是混合路線。

預(yù)訓(xùn)練提供知識(shí)和語(yǔ)言底座，強(qiáng)化學(xué)習(xí)提供行動(dòng)反饋和目標(biāo)壓力，搜索、驗(yàn)證器、工具調(diào)用、仿真環(huán)境提供可持續(xù)的新經(jīng)驗(yàn)。

ASI 的關(guān)鍵，是讓它能持續(xù)試錯(cuò)、驗(yàn)證、發(fā)現(xiàn)，并把經(jīng)驗(yàn)重新變成能力。

大廠人，正在變成新的公司

Ineffable 趕上了一個(gè)窗口期。

OpenAI、DeepMind、Anthropic、xAI 等公司在上一輪 AI 競(jìng)賽中聚集了最稀缺的人才，也開始向創(chuàng)業(yè)市場(chǎng)外溢。

大模型公司繼續(xù)用巨額算力和產(chǎn)品分發(fā)打仗，離開的人帶著新路線、新組織和更高上行空間，去拿另一張桌子的籌碼。

類似案例正在增多。

TechCrunch 提到，前 DeepMind 研究員 Tim Rockt?schel 創(chuàng)辦的 Recursive Superintelligence 曾被報(bào)道融資需求可能上探 10 億美元；

Yann LeCun 離開 Meta AI 負(fù)責(zé)人崗位后，其參與的 AMI Labs 在 3 月宣布 10.3 億美元融資。

Ineffable 不是孤例，它是頂尖研究員創(chuàng)業(yè)潮里，金額最夸張的其中一筆。

這也解釋了英國(guó)政府為何入場(chǎng)。

英國(guó) Sovereign AI Fund 和 British Business Bank 參與了這輪融資，后者確認(rèn)投資 2000 萬(wàn)美元，并稱過(guò)去 12 個(gè)月已做出 9 筆 AI 投資，包括 Wayve、PolyAI 等公司。

對(duì)英國(guó)來(lái)說(shuō)，DeepMind 被谷歌收購(gòu)之后，倫敦長(zhǎng)期擁有頂級(jí) AI 人才密度，但缺少能留在本土、繼續(xù)擴(kuò)張的前沿實(shí)驗(yàn)室。

Ineffable 提供了一個(gè)重新下注的機(jī)會(huì)。

最大的問(wèn)題，是從游戲走向世界

Ineffable 的技術(shù)敘事很干凈，也有可見的風(fēng)險(xiǎn)。

圍棋、象棋、星際爭(zhēng)霸有規(guī)則、邊界和可計(jì)算的反饋。

真實(shí)世界的科學(xué)發(fā)現(xiàn)、技術(shù)發(fā)明和社會(huì)系統(tǒng)，沒有這么穩(wěn)定的獎(jiǎng)勵(lì)函數(shù)。

一個(gè)智能體在模擬環(huán)境中學(xué)到的策略，如何遷移到開放世界，是強(qiáng)化學(xué)習(xí)走向通用智能繞不開的問(wèn)題。

Silver 的答案仍然是模擬。

Wired 報(bào)道稱，他希望把 Agent 放進(jìn)模擬環(huán)境，讓它們學(xué)習(xí)達(dá)成目標(biāo)、相互協(xié)作，并觀察它們?nèi)绾螌?duì)待其他智能體。

這種方法有一個(gè)優(yōu)點(diǎn)，系統(tǒng)行為在更可控的空間里被觀察；

也有一個(gè)難點(diǎn)，模擬世界必須足夠豐富，才可能訓(xùn)練出對(duì)真實(shí)世界有用的能力。

安全問(wèn)題也會(huì)隨之被放大。

一個(gè)從經(jīng)驗(yàn)中學(xué)習(xí)、持續(xù)尋找更優(yōu)策略的系統(tǒng)，可能會(huì)發(fā)現(xiàn)人類沒有預(yù)設(shè)過(guò)的路徑。

強(qiáng)化學(xué)習(xí)的魅力正在這里，風(fēng)險(xiǎn)也正在這里。

投資人押注的，其實(shí)是 Silver 能不能把 AlphaGo 時(shí)代那套「從經(jīng)驗(yàn)中學(xué)習(xí)」的方法，從游戲房間帶到更大的世界。

David Silver 的第二次開局

David Silver 的履歷是這個(gè)估值的最重要支柱。

UCL 官網(wǎng)資料顯示，他曾任 DeepMind 強(qiáng)化學(xué)習(xí)研究組負(fù)責(zé)人，主導(dǎo) AlphaGo，并參與 AlphaZero，后者通過(guò)自我對(duì)弈在圍棋、國(guó)際象棋、日本將棋中達(dá)到超人類水平。

同時(shí)，他還通過(guò)國(guó)際象棋比賽認(rèn)識(shí)了 DeepMind CEO Demis Hassabis，并成為終生好友。

即便離開了 DeepMind，二人仍保持親密關(guān)系——David Silver 自述「離開只是因?yàn)橄腴_辟一條全新的道路」。

https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/

ACM 在 2020 年授予他 2019 ACM Prize in Computing，理由是其在計(jì)算機(jī)博弈上的突破性貢獻(xiàn)。

英國(guó)皇家學(xué)會(huì)資料還列出，他參與過(guò)從 Atari、AlphaGo、AlphaZero 到 AlphaStar 的多項(xiàng)關(guān)鍵工作。

其谷歌學(xué)術(shù)主頁(yè)及公開資料顯示，Silver 的學(xué)術(shù)引用量已達(dá) 30 萬(wàn)，H-index 達(dá)到 103，是強(qiáng)化學(xué)習(xí)領(lǐng)域少數(shù)同時(shí)擁有學(xué)術(shù)影響力和產(chǎn)業(yè)戰(zhàn)績(jī)的人。

https://scholar.google.com/citations?user=-8DNE4UAAAAJ&hl=zh-CN&oi=ao

Ineffable 的 11 億美元種子輪，表面是又一個(gè) AI 融資紀(jì)錄，核心是一次路線投票。

大模型仍在主賽道狂奔，Silver 試圖證明，ASI 還可以從行動(dòng)、反饋和自我經(jīng)驗(yàn)里長(zhǎng)出來(lái)。

過(guò)去，AlphaGo 讓強(qiáng)化學(xué)習(xí)第一次走到大眾面前；

現(xiàn)在，Ineffable 想讓它從棋盤走向一整套新的智能系統(tǒng)。

參考資料：

https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html

https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/

https://davidstarsilver.wordpress.com/

文章來(lái)源：新智元。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.