![]()
編輯:艾倫
AlphaGo 之父 David Silver 創(chuàng)辦的 Ineffable Intelligence 獲 11 億美元種子輪,創(chuàng)歐洲融資紀(jì)錄,估值達(dá) 51 億美元。這家公司押注強(qiáng)化學(xué)習(xí)和自我經(jīng)驗(yàn)學(xué)習(xí),試圖挑戰(zhàn)依賴 Scaling Law 的大模型主線。
4 月 27 日,前谷歌 DeepMind 頂級(jí)研究員、UCL 教授 David Silver 創(chuàng)辦的倫敦 AI 實(shí)驗(yàn)室 Ineffable Intelligence 宣布完成 11 億美元種子輪融資,投后估值 51 億美元。
![]()
https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html
這是歐洲迄今最大規(guī)模種子輪。
Sequoia Capital 和 Lightspeed Venture Partners 共同領(lǐng)投,Nvidia、谷歌、Index、DST Global、英國(guó) Sovereign AI Fund 等參與。
Ineffable 的目標(biāo)是,做一個(gè)從自身經(jīng)驗(yàn)中發(fā)現(xiàn)知識(shí)的「superlearner」,繼續(xù)把強(qiáng)化學(xué)習(xí)推向 ASI。
這筆錢的特別之處在于階段。
Ineffable 成立時(shí)間只有數(shù)月,公開產(chǎn)品、收入、路線圖都還有限,但一上來(lái)就拿到 51 億美元估值。
AI 投資已經(jīng)進(jìn)入一個(gè)新階段,頂尖研究員的個(gè)人信用,正在替代傳統(tǒng)意義上的商業(yè)驗(yàn)證,成為早期融資最稀缺的抵押物。
這筆巨款,投向了強(qiáng)化學(xué)習(xí)
過(guò)去三年,AI 行業(yè)的主線是大語(yǔ)言模型。
更大的語(yǔ)料、更大的集群、更強(qiáng)的推理,幾乎構(gòu)成了所有頭部公司的共同劇本。
Silver 選擇的是另一條路,強(qiáng)化學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)的核心,是讓模型在環(huán)境里行動(dòng),通過(guò)反饋修正策略。
圍棋、國(guó)際象棋、星際爭(zhēng)霸這些封閉系統(tǒng),是它最早打出聲量的地方。
![]()
游戲《星際爭(zhēng)霸 2》
Silver 的新公司想把這套方法放大,讓系統(tǒng)從基本動(dòng)作技能一路學(xué)到科學(xué)、數(shù)學(xué)、技術(shù)層面的突破。
公司公開表述里,Ineffable 的使命是「與超級(jí)智能進(jìn)行第一次接觸」。
Silver 對(duì)大模型路線的分歧也在這里。
大語(yǔ)言模型主要從人類已經(jīng)寫下的文本和代碼中學(xué)習(xí),能力邊界很大程度上受制于人類數(shù)據(jù)。
Silver 在接受 Wired 采訪時(shí)把人類數(shù)據(jù)比作化石燃料,把自我學(xué)習(xí)比作可再生能源。
這個(gè)比喻也解釋了為什么投資人愿意給一個(gè)沒有完全展開商業(yè)模式的實(shí)驗(yàn)室開出巨額支票。
強(qiáng)化學(xué)習(xí)
是Scaling Law撞墻后的出路嗎?
依賴海量人類數(shù)據(jù)的傳統(tǒng) Scaling Law 沒有失效,但邊際收益正在變差。
繼續(xù)堆參數(shù)、堆語(yǔ)料、堆訓(xùn)練算力仍會(huì)帶來(lái)提升,只是高質(zhì)量人類文本正在變成瓶頸。
Epoch AI 估算,公開高質(zhì)量人類文本的有效庫(kù)存約為 300 萬(wàn)億 Token,按趨勢(shì)可能最早在今年,最晚在 2032 年,被徹底用光。
![]()
https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data
也就是說(shuō),舊范式這條路還能走,但越來(lái)越貴、越來(lái)越慢。
純強(qiáng)化學(xué)習(xí)確實(shí)提供了一條更接近 AGI / ASI 的路線,因?yàn)樗屇P蛷摹改7氯祟愇谋尽罐D(zhuǎn)向「通過(guò)行動(dòng)和反饋獲得經(jīng)驗(yàn)」。
AlphaGo Zero 已經(jīng)證明,在規(guī)則清晰、反饋明確的環(huán)境里,系統(tǒng)可以不依賴人類棋譜,通過(guò)自我對(duì)弈達(dá)到超人水平。
OpenAI o1 也顯示,大規(guī)模強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)更多思考時(shí)間,能顯著增強(qiáng)復(fù)雜推理能力。
但純強(qiáng)化學(xué)習(xí)短期很難單獨(dú)承擔(dān) AGI 路線。
圍棋、數(shù)學(xué)、代碼這類任務(wù)有明確驗(yàn)證器,強(qiáng)化學(xué)習(xí)很強(qiáng);
現(xiàn)實(shí)世界的問(wèn)題沒有穩(wěn)定獎(jiǎng)勵(lì)函數(shù),探索成本高,安全和對(duì)齊也更難。
谷歌 DeepMind 的 AlphaProof 更像是現(xiàn)實(shí)方向的樣板,它結(jié)合預(yù)訓(xùn)練語(yǔ)言模型、Lean 形式化驗(yàn)證和 AlphaZero 式強(qiáng)化學(xué)習(xí),在 IMO 上達(dá)到銀牌水平。
所以更靠譜的判斷是,未來(lái)不是大模型預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)二選一,而是混合路線。
預(yù)訓(xùn)練提供知識(shí)和語(yǔ)言底座,強(qiáng)化學(xué)習(xí)提供行動(dòng)反饋和目標(biāo)壓力,搜索、驗(yàn)證器、工具調(diào)用、仿真環(huán)境提供可持續(xù)的新經(jīng)驗(yàn)。
ASI 的關(guān)鍵,是讓它能持續(xù)試錯(cuò)、驗(yàn)證、發(fā)現(xiàn),并把經(jīng)驗(yàn)重新變成能力。
大廠人,正在變成新的公司
Ineffable 趕上了一個(gè)窗口期。
OpenAI、DeepMind、Anthropic、xAI 等公司在上一輪 AI 競(jìng)賽中聚集了最稀缺的人才,也開始向創(chuàng)業(yè)市場(chǎng)外溢。
大模型公司繼續(xù)用巨額算力和產(chǎn)品分發(fā)打仗,離開的人帶著新路線、新組織和更高上行空間,去拿另一張桌子的籌碼。
類似案例正在增多。
TechCrunch 提到,前 DeepMind 研究員 Tim Rockt?schel 創(chuàng)辦的 Recursive Superintelligence 曾被報(bào)道融資需求可能上探 10 億美元;
![]()
Yann LeCun 離開 Meta AI 負(fù)責(zé)人崗位后,其參與的 AMI Labs 在 3 月宣布 10.3 億美元融資。
![]()
Ineffable 不是孤例,它是頂尖研究員創(chuàng)業(yè)潮里,金額最夸張的其中一筆。
這也解釋了英國(guó)政府為何入場(chǎng)。
英國(guó) Sovereign AI Fund 和 British Business Bank 參與了這輪融資,后者確認(rèn)投資 2000 萬(wàn)美元,并稱過(guò)去 12 個(gè)月已做出 9 筆 AI 投資,包括 Wayve、PolyAI 等公司。
對(duì)英國(guó)來(lái)說(shuō),DeepMind 被谷歌收購(gòu)之后,倫敦長(zhǎng)期擁有頂級(jí) AI 人才密度,但缺少能留在本土、繼續(xù)擴(kuò)張的前沿實(shí)驗(yàn)室。
Ineffable 提供了一個(gè)重新下注的機(jī)會(huì)。
最大的問(wèn)題,是從游戲走向世界
Ineffable 的技術(shù)敘事很干凈,也有可見的風(fēng)險(xiǎn)。
圍棋、象棋、星際爭(zhēng)霸有規(guī)則、邊界和可計(jì)算的反饋。
真實(shí)世界的科學(xué)發(fā)現(xiàn)、技術(shù)發(fā)明和社會(huì)系統(tǒng),沒有這么穩(wěn)定的獎(jiǎng)勵(lì)函數(shù)。
一個(gè)智能體在模擬環(huán)境中學(xué)到的策略,如何遷移到開放世界,是強(qiáng)化學(xué)習(xí)走向通用智能繞不開的問(wèn)題。
Silver 的答案仍然是模擬。
Wired 報(bào)道稱,他希望把 Agent 放進(jìn)模擬環(huán)境,讓它們學(xué)習(xí)達(dá)成目標(biāo)、相互協(xié)作,并觀察它們?nèi)绾螌?duì)待其他智能體。
這種方法有一個(gè)優(yōu)點(diǎn),系統(tǒng)行為在更可控的空間里被觀察;
也有一個(gè)難點(diǎn),模擬世界必須足夠豐富,才可能訓(xùn)練出對(duì)真實(shí)世界有用的能力。
安全問(wèn)題也會(huì)隨之被放大。
一個(gè)從經(jīng)驗(yàn)中學(xué)習(xí)、持續(xù)尋找更優(yōu)策略的系統(tǒng),可能會(huì)發(fā)現(xiàn)人類沒有預(yù)設(shè)過(guò)的路徑。
強(qiáng)化學(xué)習(xí)的魅力正在這里,風(fēng)險(xiǎn)也正在這里。
投資人押注的,其實(shí)是 Silver 能不能把 AlphaGo 時(shí)代那套「從經(jīng)驗(yàn)中學(xué)習(xí)」的方法,從游戲房間帶到更大的世界。
David Silver 的第二次開局
David Silver 的履歷是這個(gè)估值的最重要支柱。
UCL 官網(wǎng)資料顯示,他曾任 DeepMind 強(qiáng)化學(xué)習(xí)研究組負(fù)責(zé)人,主導(dǎo) AlphaGo,并參與 AlphaZero,后者通過(guò)自我對(duì)弈在圍棋、國(guó)際象棋、日本將棋中達(dá)到超人類水平。
同時(shí),他還通過(guò)國(guó)際象棋比賽認(rèn)識(shí)了 DeepMind CEO Demis Hassabis,并成為終生好友。
![]()
即便離開了 DeepMind,二人仍保持親密關(guān)系——David Silver 自述「離開只是因?yàn)橄腴_辟一條全新的道路」。
![]()
https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/
ACM 在 2020 年授予他 2019 ACM Prize in Computing,理由是其在計(jì)算機(jī)博弈上的突破性貢獻(xiàn)。
英國(guó)皇家學(xué)會(huì)資料還列出,他參與過(guò)從 Atari、AlphaGo、AlphaZero 到 AlphaStar 的多項(xiàng)關(guān)鍵工作。
其谷歌學(xué)術(shù)主頁(yè)及公開資料顯示,Silver 的學(xué)術(shù)引用量已達(dá) 30 萬(wàn),H-index 達(dá)到 103,是強(qiáng)化學(xué)習(xí)領(lǐng)域少數(shù)同時(shí)擁有學(xué)術(shù)影響力和產(chǎn)業(yè)戰(zhàn)績(jī)的人。
![]()
https://scholar.google.com/citations?user=-8DNE4UAAAAJ&hl=zh-CN&oi=ao
Ineffable 的 11 億美元種子輪,表面是又一個(gè) AI 融資紀(jì)錄,核心是一次路線投票。
大模型仍在主賽道狂奔,Silver 試圖證明,ASI 還可以從行動(dòng)、反饋和自我經(jīng)驗(yàn)里長(zhǎng)出來(lái)。
過(guò)去,AlphaGo 讓強(qiáng)化學(xué)習(xí)第一次走到大眾面前;
現(xiàn)在,Ineffable 想讓它從棋盤走向一整套新的智能系統(tǒng)。
參考資料:
https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html
https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/
https://davidstarsilver.wordpress.com/
文章來(lái)源:新智元。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.