當(dāng)公司估值超過200億、融資近30億的時(shí)候,你會(huì)選擇什么?
大多數(shù)人會(huì)繼續(xù)待在船上,把故事講完,把餅畫圓。但許華哲不一樣。
2025年底,他做出了一個(gè)讓很多人意外的決定:離開星海圖,放棄首席科學(xué)家兼聯(lián)合創(chuàng)始人的頭銜,自己創(chuàng)業(yè)。
許華哲是清華叉院的助理教授,也是圈子里有名的"伯克利歸國四子"之一。他的履歷很漂亮:伯克利博士、斯坦福博士后、清華任教,2023年加入星海圖當(dāng)首席科學(xué)家。按理說,這條路已經(jīng)夠好了。
但他心里一直有個(gè)念頭揮之不去——做To C。
"初高中讀完《喬布斯傳》《迪士尼傳》,就想創(chuàng)業(yè)了。"他后來說,"一直想做To C。"
這個(gè)念頭藏了十幾年。現(xiàn)在,他覺得時(shí)機(jī)到了。今年3月初創(chuàng)立了破殼機(jī)器人,做能在家庭場景干活的、真正有泛化性的具身智能機(jī)器人。
4月27日,破殼機(jī)器人宣布近期已完成數(shù)千萬美元天使輪融資,由云啟資本領(lǐng)投,順為資本、弘暉基金等一線美元基金,小米戰(zhàn)投、星海圖等知名產(chǎn)業(yè)方,以及BV百度風(fēng)投、英諾天使基金、水木清華校友種子基金、東方嘉富等一線市場化基金跟投。
![]()
PART.01
巔峰離場:為什么是2026年?
許華哲離開星海圖的時(shí)候,公司正處在最風(fēng)光的時(shí)候。估值200億,融資近30億,媒體追捧,資本追逐。
但許華哲有自己的判斷:2026年,比2023年更適合創(chuàng)業(yè)。
說實(shí)話,這個(gè)判斷不是空穴來風(fēng)。2023年他想做To C通用機(jī)器人的時(shí)候,條件確實(shí)不成熟。硬件供應(yīng)鏈還沒跑通,數(shù)據(jù)采集方式單一,融資環(huán)境也不如現(xiàn)在。
但三年過去,情況變了。
硬件供應(yīng)鏈成熟了。2023年做一個(gè)能穩(wěn)定運(yùn)行的機(jī)械手,可能要找十幾家供應(yīng)商逐一對(duì)接;現(xiàn)在找兩三家就能搞定。成本降了,迭代快了,創(chuàng)業(yè)門檻低了。
數(shù)據(jù)更豐富了。2023年大家都在用"遙操作"——用人戴著VR手套遠(yuǎn)程控制機(jī)器人采集數(shù)據(jù)。現(xiàn)在有了外骨骼采集、UMI硬手套、第一人稱視角視頻等多種方式,數(shù)據(jù)來源多元化了。
融資環(huán)境也變了。具身智能從"講故事"變成了"看落地",投資人更愿意為技術(shù)買單。
許華哲看到了這個(gè)機(jī)會(huì)。他不是盲目入場,而是等了三年,等條件成熟。
這才是真正的創(chuàng)業(yè)者心態(tài):不是盲目沖,而是看準(zhǔn)時(shí)機(jī)再出手。
PART.02
放棄主流,讓機(jī)器人真正理解物理世界
在具身智能圈子里,VLA是絕對(duì)的主流。但許華哲選擇了一條不同的路:放棄VLA,走向世界模型+原生機(jī)器人模型。
VLA的問題在哪?許華哲打了個(gè)比方:VLA就像讓一個(gè)人學(xué)做飯,先看視頻里廚師怎么切菜、怎么顛勺、怎么調(diào)味,然后模仿。這個(gè)方法在簡單任務(wù)上有效,但一旦任務(wù)復(fù)雜、場景多變,就容易"掉鏈子"。
更關(guān)鍵的是,VLA的泛化能力有限。機(jī)器人能學(xué)會(huì)"切土豆絲",但未必能學(xué)會(huì)"切蘿卜絲"——它學(xué)的是表面動(dòng)作,不是背后的物理邏輯。
許華哲想做的,是讓機(jī)器人真正理解物理世界。
他的方案叫UAG(Unconditioned Action Guidance,非條件動(dòng)作引導(dǎo))。核心思路是:先對(duì)動(dòng)作本身做預(yù)訓(xùn)練,再做整體聯(lián)合訓(xùn)練。
也就是說,傳統(tǒng)VLA是"看視頻學(xué)動(dòng)作",UAG是"先搞懂動(dòng)作本身,再看視頻理解場景"。
UAG的優(yōu)勢(shì)在于訓(xùn)練效率。他說,用這種方式,訓(xùn)練效率提升了5倍以上。
這不是小改進(jìn)。在具身智能領(lǐng)域,訓(xùn)練效率直接決定了誰能先跑出來。
許華哲還引入了一個(gè)關(guān)鍵元素:強(qiáng)化學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)的本質(zhì)是讓模型自己判斷什么是"好數(shù)據(jù)"、什么是"次優(yōu)數(shù)據(jù)"、什么是"失敗數(shù)據(jù)"。這樣模型就不會(huì)死板地模仿人類示范,而是能突破人類數(shù)據(jù)的上限。
當(dāng)人類示范"擦桌子"的時(shí)候,動(dòng)作可能不夠干凈、速度可能不夠快。傳統(tǒng)VLA學(xué)到的就是"這樣擦",效果和人類差不多。但強(qiáng)化學(xué)習(xí)能讓機(jī)器人在反復(fù)嘗試中,找到比人類更干凈、更快速的方法。
這才是真正的泛化能力——不是模仿動(dòng)作,而是理解任務(wù)本身。
PART.03
To C才是通用AGI的終局?
許華哲的判斷很明確:通用AGI應(yīng)該用在家里,不是工廠。
當(dāng)前,很多具身智能公司都在扎堆做工廠,因?yàn)楣S場景相對(duì)可控,任務(wù)相對(duì)標(biāo)準(zhǔn)化,看起來更容易落地。
但許華哲認(rèn)為,這是"撿了芝麻丟了西瓜"。
工廠的"混亂"和管理有關(guān),不是任務(wù)本身的混亂。傳送帶上零件亂扔、人走來走去,這些都是管理問題,不是任務(wù)問題。任務(wù)本身是確定的:上下料就是上下料,裝配就是裝配。
但家庭不一樣。
家里的"混亂"是任務(wù)本身的混亂。衣服可能團(tuán)成一團(tuán),碗筷可能堆成小山,桌面可能一片狼藉——機(jī)器人需要通過工作把混亂恢復(fù)成秩序。
說實(shí)話,這聽起來是缺點(diǎn),但許華哲認(rèn)為這恰恰是優(yōu)點(diǎn)。"混亂才是訓(xùn)練通用模型的最佳土壤。"他說。
工廠里的機(jī)器人學(xué)會(huì)了"標(biāo)準(zhǔn)動(dòng)作",但換到另一個(gè)工廠可能就不行了。家里的機(jī)器人需要應(yīng)對(duì)千變?nèi)f化的場景,這種"不標(biāo)準(zhǔn)"反而能訓(xùn)練出真正的泛化能力。
所以許華哲選擇To C,選擇了更難但更有價(jià)值的方向。
PART.04
數(shù)據(jù)的三層方案:破殼的核心壁壘
目前,具身智能的核心問題之一是數(shù)據(jù)。沒有足夠多、足夠好的數(shù)據(jù),再好的模型也跑不起來。
許華哲設(shè)計(jì)了一套三層數(shù)據(jù)采集方案:
第一層是外骨骼數(shù)據(jù)采集。這種方式是"提著機(jī)器人手臂直接操作"。人穿著外骨骼設(shè)備,真實(shí)地去做動(dòng)作,機(jī)器人跟著學(xué)。這種方式精度高,但成本也高,數(shù)據(jù)量有限。
第二層是UMI硬手套。和外骨骼類似,但設(shè)備和人的手構(gòu)型完全一致,戴上手套干活就能采集數(shù)據(jù)。成本低,數(shù)據(jù)量大,是目前最主流的方式。
第三層是第一人稱視角。人在家里干活,頭戴攝像頭記錄整個(gè)過程。這種方式能采集海量自然行為數(shù)據(jù),而且是人"真實(shí)生活"中的數(shù)據(jù),不是刻意表演的數(shù)據(jù)。
但許華哲加了一個(gè)差異點(diǎn):大量使用機(jī)器人自己測試探索的數(shù)據(jù)。
這批數(shù)據(jù)很有意思。它不是"完美示范",而是包含失敗和次優(yōu)的嘗試。傳統(tǒng)方法會(huì)把這些"不完美"的數(shù)據(jù)扔掉,但許華哲認(rèn)為,這些數(shù)據(jù)恰恰是強(qiáng)化學(xué)習(xí)的養(yǎng)料。
"模型需要知道什么是錯(cuò)的,才能真正學(xué)會(huì)什么是對(duì)的。"他說。
三層方案加上機(jī)器人自測數(shù)據(jù),構(gòu)成了破殼的核心數(shù)據(jù)壁壘。這個(gè)壁壘不是靠錢能砸出來的,需要時(shí)間和迭代。
![]()
PART.05
五位數(shù)定價(jià):家庭機(jī)器人的商業(yè)邏輯
許華哲給破殼的產(chǎn)品定了個(gè)價(jià):五位數(shù)起步。
這個(gè)定價(jià)很有意思。五位數(shù)意味著最低一萬,貴的可能要幾萬甚至更高。對(duì)普通消費(fèi)者來說,這不是個(gè)小數(shù)目。
但許華哲不打算降價(jià)。他說,這不是成本問題,是定位問題。
"家庭機(jī)器人不是替代人力算賬。"他說,"它是科技潮品+家庭助手+管家的復(fù)合體。用戶購買的不是工具,是一種先鋒生活方式。"
說實(shí)話,這個(gè)定位有點(diǎn)意思。
意味著破殼不打算和掃地機(jī)器人、洗碗機(jī)競爭。那些產(chǎn)品是"工具",解決的是特定問題。破殼想做的是"助手",能處理多種任務(wù),能適應(yīng)環(huán)境變化。
當(dāng)然,這不是萬能機(jī)器人。許華哲說得很清楚,有些事破殼不做——比如抱嬰兒,比如燒熱水。
"不是技術(shù)做不到,是產(chǎn)品定義的時(shí)候就決定不做了。"他說,"做減法比做加法難,但只有學(xué)會(huì)不做,才能真正把核心能力做好。"
這種產(chǎn)品邏輯聽起來有點(diǎn)反直覺。但仔細(xì)想想,它其實(shí)很務(wù)實(shí):什么都做的產(chǎn)品,往往什么都做不好。
許華哲判斷,兩年內(nèi)中國會(huì)出現(xiàn)可用的家庭機(jī)器人。這個(gè)時(shí)間表比很多人預(yù)期的要快。
但他并不是盲目樂觀。"技術(shù)還沒收斂,仍有機(jī)會(huì)。"他說,"后發(fā)優(yōu)勢(shì)是基礎(chǔ)設(shè)施更成熟、時(shí)間壓力更小。"
這就是許華哲的策略:不是第一個(gè)吃螃蟹的人,但是是最有可能把螃蟹吃好的人。
PART.06
破殼能否成功破殼而出?
破殼機(jī)器人剛剛起步。20人左右的團(tuán)隊(duì),32B參數(shù)模型剛完成首輪訓(xùn)練,數(shù)據(jù)采集手套迭代了5-6個(gè)版本。
![]()
這遠(yuǎn)不是終點(diǎn)。
但從許華哲的選擇里,我們能看到一種難得的清醒。他沒有選擇最容易的路,沒有選擇最安全的位置,而是選擇了一條更難但更接近初心的路。
"追求美和影響力。泛化性的本質(zhì)是美。"
這是許華哲的價(jià)值觀。用最簡潔優(yōu)雅的模型解決復(fù)雜問題,這不僅是技術(shù)追求,也是一種審美取向。
破殼能不能破殼而出,現(xiàn)在下結(jié)論還太早。但有一點(diǎn)可以確定:在這個(gè)所有人都想快速跑出"第一"的賽道上,有人愿意慢下來,想清楚再做,這本身就值得尊重。
文章來源:GEIA全球具身智能觀察
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.