正是這樣一位天才,也要對具身智能的研發說一句“沒有不苦的”。對他而言,人工智能的研發如同“煉丹”,需要7×24小時待命的極致投入。在與網易科技《態度》欄目的對話中,他提到了“三個九理論”:他認為具身智能的本質仍是機器學習,要達到99.9% 的準確率,第一個“九”來自數據質量,第二個“九”來自算法設計,第三個“九”則來自系統工程與實現細節。
在公司里,范浩強鼓勵員工們使用AI,甚至會給員工報銷使用AI的費用。他自己也在堅持“手搓”數年后被AI編程的效率折服。對于大眾關注的AI替代人焦慮,他認為機器人會優先接手臟活累活和高價值場景,而未來的勞動形態將演變為人類負責督促和糾正機器人群體的錯誤,人就像是趕羊群的牧羊犬。雖然單位時間創造的價值大幅提升,但人類可能依然忙碌。
在VLA和World Model的路徑之爭沸沸揚揚的時候,原力靈機則選擇了另一條道路——具身原生模型。范浩強強調,模型必須從訓練的第一天起就為“具身”考量,并推出Realtime-VLA系列技術成果,在基礎模型階段就引入大量具身數據,而非直接后期過擬合。面對AI行業的數據難題,原力靈機制定了兩步走戰略:早期依靠幾十萬小時的自有采集跨越門檻,后期則需通過規模化部署,在真實業務場景中啟動數千萬小時級的“數據飛輪”。
談及行業競爭,范浩強直言“不存在AI泡沫,但存在 OpenAI 泡沫”。盡管部分公司融資迅速、估值飛漲,但行業整體確實進展飛速。范浩強認為,終極勝負手在于三點:資本估值、大模型與大規模部署落地。從歷史經驗看,淘汰率往往在十倍左右,最終能跑到終點的極少。
目前,原力靈機已發布具身原生模型 DM0,并計劃在今年年中和年底分別推出 DM0.5和 DM1版本,核心目標是攻克“多任務泛化”難題,讓具身智能真正實現從實驗室到“拿來即用”的跨越 。
以下是網易科技《態度》欄目和原力靈機聯創范浩強的對話,為方便閱讀,我們進行了不改變原意的編輯:
技術路線:“具身原生模型”不是后期拼接,預計今年底跨越數據門檻
網易科技:近期具身模型非常熱鬧,原力靈機提出了“具身原生模型”,這一模型和別的模型有什么區別?
范浩強:具身原生模型和所謂的“拼接式模型”是不同的。模型必須從被訓練的第一天起,在每一個訓練階段,都為“具身”這個命題去考量。在基礎模型(Base Model)階段,視覺語言模型(VLM)在訓練初期就必須引入大量的具身數據,而非等到后訓練階段才進行過擬合。這種“原生認識”能極大提升模型的泛化能力。
不僅體現在預訓練上,“具身原生”在測評方式、工程基建等各個環節都和大語言模型(LLM)有本質區別。大語言模型處理的數據可能1-2TB,但具身模型需要處理PB級別的視頻數據;在測評端,大語言模型可通過標準化基準測試(Benchmark)量化性能,但具身模型需控制物理實體,目前無完全線上化的評測方案,我們專門搭建了RoboChallenge等平臺量身定制測評方法。所有環節圍繞具身需求設計,最終形成的模型才被稱為“具身原生模型”。
網易科技:海外如 Pi、Generalist 等公司也在做具身原生的概念,并在模型上取得了突破。您覺得原力靈機與這些海外同行有什么異同?
范浩強:我們與國外同行在核心理念上產生了強烈的共鳴。外界常問我們更傾向于 VLA 路線還是世界模型(World Model)路線,我們的答案是不拘泥于單一架構。我們融合多種訓練手法和數據源,既借鑒VLA的思想,也融入世界模型的技術。隨著算力和數據的增長,每個階段最優的模型架構都在動態變化,因此我們統稱為“具身原生模型”。
網易科技:數據在任何模型訓練當中都非常重要。原力靈機目前主要通過什么手段來跨越這個早期的“數據墻”?具身智能真正的數據飛輪大概會在什么時間點、什么場景下進行自我進化和加速?
范浩強:解決數據問題分為兩個階段:
第一階段是跨越門檻,主要依靠自有數據采集(如遙操作、第一人稱視頻采集)。這一階段的數據量級在幾十萬到幾百萬小時之間,旨在讓機器人從零具備初步的執行能力。
第二階段是啟動數據飛輪,這必須在機器人實際進入業務場景后才能實現。未來如果能并行部署上千臺機器人,每年將回流數百萬甚至千萬小時的業務數據,從而在應用中實現持續進化。
預計到今年年底,行業內有能力掌握百萬小時左右的訓練規模,屆時模型將具備在特定條件下進入實際場景的能力。當然,機器人的規模化部署不僅依賴模型,還需要漫長的硬件迭代及周邊配套系統的建設。
網易科技:目前制約具身智能的瓶頸,到底是模型、數據還是硬件?
范浩強: 依然是模型。現在一條9999元的輕型機械臂早就進入大眾消費區間了,但沒人買。因為最大的問題是它“不能動”——缺少控制它的腦子。就像大模型突破前,個人助手的需求不存在一樣;只有模型跨過能力奇點,真實的應用需求才會真正爆發。
網易科技:原力靈機發布具身原生模型 DM0 后,接下來的發布節奏和新目標是什么?
范浩強:我們預計在今年年中推出 DM0.5版本,并在年底或更早推出 DM 1版本。
DM0.5的核心目標是解決“多任務泛化”問題。目前的 DM0仍以單任務微調為主,真實場景中存在預設限制。下個版本將重點優化多任務和少樣本學習能力,實現用戶“拿來即用”的具身智能設想。
網易科技:具身智能與自動駕駛均涉及物理世界交互,后者更信奉World Model(如特斯拉路線),您如何看待這兩種路線的相通之處?
范浩強:特斯拉的技術路線其實也經歷了多次迭代(從BEV、端到端到OCC,再到World Model),這正是我們提出“原生”概念的原因:表象的技術架構在變,但背后“通過不斷增長數據來釋放模型推理能力”的核心主線始終未變。具身智能的發展也將遵循相同的底層邏輯。
但目前“具身原生”在行業內似乎還不完全是共識,部分企業為了在垂直場景盡早落地可能會采用更前置、妥協的技術方案。但我們堅信具身模型最終的目標是走向千家萬戶,必須優先徹底解決核心的智能問題。
網易科技:模型的突破,需要依賴基礎科學原理的躍遷嗎?
范浩強: 把模型訓到“能用”,方法論是已知的,比如大力出奇跡(Scale Up)。但也有大量未知,比如機器如何像動物一樣,在與物理世界的互動中快速產生智能?這背后的機理還是未知。
我認為最大的突破一定在哲學和數學層面。深度學習能改變世界,是因為底層的數學機制變了。如果我們追求下一階段的智能,背后一定需要新的數學機制。現在還沒出現,所以我們要靠工程師不停去試錯,去逼近那個臨界點。
網易科技:未來要實現跨機型的泛化,必然涉及軟硬件的結合。你們是計劃適配市面上所有的異構硬件,還是深度綁定標準硬件?
范浩強: 我們采取軟硬并行的策略:首先,我們一定會研發自有硬件,追求軟硬一體化的最終形態,在自有體系內將模型優化到極致。
其次,我們不認為單一硬件能通吃所有場景,真實應用中的末端執行器和身體結構必然需要定制。因此,我們既不會做一個試圖適配天下所有機器人的純軟系統,也不會局限于單一硬件。我們會在選定的場景中,圍繞最適合的硬件打磨模型的泛化能力,致力于為終端用戶提供端到端的軟硬件整體解決方案。
Realtime-VLA:特斯拉路線雖好,多數國內企業其實難以復刻
網易科技:行業內許多團隊都在關注 Realtime-VLA,原力靈機為何要聚焦這一方向?其最大難點在哪?
范浩強: 傳統的機器人運動控制多依賴稀疏的輸入點和軌跡優化。而 VLA 模型直接輸出稠密的軌跡,這對機器人的控制系統提出了極高的實時追蹤要求。同時,模型輸出存在不確定性,需要過濾物理上不可實現的動作。VLA 不能只停留在仿真環境里刷榜,它在物理世界的運動必須流暢、絲滑、自然。
去年我們率先解決了計算延遲的問題,證明了數十億參數的 VLM 完全能實現30 FPS 的推理,跟上攝像頭的速度。今年,我們推出了 Robotic Flow,進一步攻克了軌跡優化、機器人標定以及運動過程調制等難題。目前在多項任務中,機器人的運動效率已媲美部分人類。我們認為實時性和高響應速度是具身模型走入千家萬戶的基礎前提。
網易科技:可以把 Realtime-VLA 理解為大模型當中的 Skill(技能包)嗎?
范浩強: 相比于技能包,它更像是一個“Harness”(安全帶/保護設施)或基礎設施。它為模型提供保護,處理高頻的實時力反饋等模型自身難以直接應對的情況。在內部,我們提出了“System 0”的概念:在 VLA 進行推理計算后,由另一個計算系統對輸出進行二次處理與分析。兩者結合,才最終形成一個端到端的機器人智能控制器。
網易科技:面對特斯拉Optimus的數據規模優勢,以及國內宇樹、智元等硬件廠商的快速迭代,原力靈機的“大腦”如何保持不可替代性?
范浩強:國內具身智能市場空間是大語言模型的十倍甚至百倍,行業處于共同探索階段,競爭大于合作。我們的核心優勢在于全鏈路整合能力——國內少有企業能同時打通“大語言模型預訓練+機器人本體硬件+數據迭代優化”的完整Pipeline,多數企業僅聚焦硬件或純算法單一環節。原力靈機是少數能將軟件、硬件、場景三要素深度融合的公司。
網易科技:有投資人認為國內很多廠商在等特斯拉開源方案然后“一抄了之”,您怎么看?
范浩強: 多數企業“復刻不起”。特斯拉的硬件(如靈巧手)成本之所以能壓低,是建立在百萬級預期產能基礎上的。國內廠商即使拿到圖紙,也沒有財力承擔相應的制造成本。國外一線大廠在算力和資本上的投入是極其龐大的。
但我們相信工程優化的力量。正如大模型領域的演進證明,通過正確的架構和方法創新,用較少的算力依然能取得卓越成果。只要在研發過程的每一環做出正確選擇,我們完全有能力在同一起跑線上與國際大廠展開競爭。
網易科技:國內公司往往面臨較大的短期商業化壓力,而特斯拉可以“以終為始”,行業內存在這種路徑焦慮嗎?
范浩強: 國內人太多了。美國的機器人公司還能數得過來,但國內至少有幾十上百家,競爭激烈,確實有很大的動力去尋找垂直場景快速落地。但“以終為始”正是我們最大的差異化所在。我們以建設最終的人工智能為目標,要求在硬件、場景、模型和數據各個環節都做到極致。
在商業化節奏上,我們在 AI 1.0時代吸取過深刻教訓:在模型能力不足時過早進行商業化,會陷入交付泥潭,成為虧損的“AI 慈善企業”。所以我們現階段十分克制,每年只做個位數的重點項目,接觸場景是為了獲取真實問題和反饋數據。只有當模型能力達到可高效、低成本閉環時,我們才會開啟規模化商業化。
網易科技:模型訓練過程是否順利?苦不苦?
范浩強:搞人工智能可以說就沒有不苦的時候。尤其是調機器人,最終可能只能看到一個分檔的結果:機器人到底動了沒,任務成沒成功。可一旦任務失敗,問題到底出在硬件、通信、控制、模型、數據,還是訓練過程中?很多時候這就是個黑盒,需要花大量時間去手動排查。
搞過大規模訓練的人都知道,這是7×24小時待命的活。隨時哪臺服務器掛了,訓練進入未定義狀態,你就得凌晨從床上爬起來,看看炸成什么樣了,琢磨怎么修下去。我們經常說這就像煉丹,你得守著丹爐,隨時看火候發展到什么樣了。這的確是個很消耗身心能量的事情。
不過我覺得這可能也正是工作的樂趣和成就感所在。
商業化:不存在AI泡沫,但存在OpenAI 泡沫
網易科技:您在與投資人接觸時,他們最看重原力靈機哪些特點?
范浩強: 這段時間肯定都在問我 VLA 和 World Model 有什么區別,之前也會有一些關于商業化的靈魂拷問。
投資人重點關注“當前商業化與早期AI 1.0時代商業化的本質差異”,我們強調“以模型能力為核心,試點項目服務于技術驗證而非收入”的策略,獲得懂行投資人的認可。
網易科技:原力靈機的商業化營收計劃是什么?
范浩強:我們公司成立之初并不是白手起家,團隊自帶了一些過往的行業積累,所以手里是有一些重點客戶的。就像剛才提到的,我們在現階段不會盲目鋪開太多項目。但對于那些高價值、且未來具備良好可復制性的項目,我們會去跑試點,這自然會帶來一部分方案采購的收入。
另一方面,我們這兩年也在做一些開發者業務。也就是把我們的硬件系統和配套的優質軟件,提供給高校實驗室等科研群體使用,這塊也會產生一定的營收。但現階段營收不是我們核心目標,重點是通過商業化接觸保持產業感知。
網易科技:如何看待春晚機器人跳舞等娛樂性場景?原力靈機會有這方面布局嗎?
范浩強:唱歌跳舞的確是機器人的第一波應用。但其實我們公司剛成立就想明白了:我們這群“理工直男”缺乏做大眾娛樂的基因,這事兒真干不來。我們最擅長的還是“創造價值”,所以現在主打生產力,希望機器人通過實質性勞動去產生價值。
當然,早期的勞動場景里情緒價值也很重要。比如現在喝一杯機器人磨的咖啡,可能70%是圖新鮮。但行業的終局,一定是機器人躲在幕后實打實創造的生產價值。
目前從付費意愿看,只有大企業有動力做早期的技術驗證,那我們就先圍繞他們好好服務。等未來成本降到幾萬塊,小門店買得起了,甚至有一天5999元就能帶回家時,我們順理成章就會變成一家 To C 企業。就像大疆,在消費級無人機爆發前干了十年純 To B 的飛控模塊定制,筑起了極高的技術壁壘。我們也希望走這條路:早期圍繞 To B 客戶把技術打磨透,等歷史車輪真正走到爆發點時,一把抓住最大的機遇。
網易科技:這波具身智能浪潮的本質是什么?目前行業存在泡沫嗎?
范浩強: 具身智能的本質是“智能”,核心邏輯仍是機器學習的基礎原理。我把它叫做“三個九理論”:99.9%的準確率,第一個“九”來自數據質量,第二個“九”來自算法設計,第三個“九”來自系統工程與實現細節。這一規律在具身時代仍未改變。
至于你說行業里有沒有很大的泡沫?我特別想引用一句話:“不存在 AI 泡沫,但存在 OpenAI 泡沫。”單獨看某個公司可能會被估值震驚到,但放眼整個行業,技術進展是極其扎實的。過去兩年大家還在質疑機器人 Demo 的真實性,現在大家已經默認了這是由模型驅動的連續成功能力。客觀來看,行業的發展速度非常驚人。
網易科技:具身智能賽道已有15家估值超百億,您認為未來競爭格局如何?“勝負手”是什么?
范浩強:我覺得會有三輪篩選。
第一道門檻是資本和估值。現在門檻一低,可能一下子涌入幾十家公司。
第二道是關鍵的能力門檻,也就是模型。現在很多Demo基于開源模型,但海外巨頭現在都選擇不開源。能不能獨立研發出可用的模型,會讓一批公司掉隊。實在不行,他們還能回去搞分揀自動化或唱歌跳舞,但這也意味著退出了核心賽道的競爭。
第三道是大規模落地部署,考驗場景理解和硬件生產能力。過了模型關,還得過“代體”篩選。從歷史經驗看,淘汰率往往在十倍左右,最終能跑到終點的極少。就像當年的CV熱潮,最后跑通的還是頭部那幾家,但過程中會產生很多單點技術的“副產物”。
網易科技:您覺得技術路線會收斂嗎?最終會歸于一兩家巨頭嗎?
范浩強:有句話叫“從山腳分手,在山頂匯合”。技術的實質其實大家都一樣,大概率是頭部幾家你追我趕。上一波AI浪潮就這樣,今天你發個Net,明天他又追上來。現在大模型疊加了算力和數據,壁壘看似更明確,但最后很可能變成“你中有我,我中有你”。
其實OpenAI早期訓練技術也大量借鑒了DeepMind。最近還有個“反向證明”:以前是國內模型學國外,現在跟最新AI聊天,會發現它們滿屏都是“DeepSeek味”——這也算一種技術出海吧。最終,一定是大家相互借鑒、一起往前走的生態。
網易科技:榮耀團隊在馬拉松賽事中“團滅”對手,大家對當前機器人的真實水平到底有沒有底?
范浩強:大家可能低估了榮耀的技術積累。比如他們展示的液冷技術,早年就做過大量研發,如今用到機器人上立刻形成了“降維打擊”。外行看是憑空冒出的黑科技,業內看則是長年積累后注定發生的事。
機器人其他進展也一樣。幕后的工作是日常一點一滴去攻克問題,只有最后“Put everything together(整合在一起)”時才會讓人驚艷,這本來就是個循序漸進的過程。
網易科技:原力靈機會拓展海外市場嗎?
范浩強:其實我們上個創業周期做物流時,海外占比就很高了。國際市場的消費意愿和利潤空間絕對不能放棄。但國內市場對技術的要求最高。以前做倉儲物流,國內客戶會要求機器人直接對標中國工人極高的人效。一旦這套技術在國內打磨成熟,拿到國際市場就是降維應用。所以,“在國內打磨技術,在海外做規模化商業化”,這條路我們走得很堅定。
網易科技:很多人擔憂 AI 和機器人是來替代人類工作的,您怎么看這種焦慮?
范浩強: 程序員常自嘲最成功的事是“把自己替代掉”。大家開玩笑說以后去送外賣,但隨著自動駕駛和機器人發展,送外賣早晚也不是鐵飯碗,這是不可阻擋的趨勢。
大家往往容易高估技術的短期爆發力,又低估了它的長期影響。 AI 1.0時代,大家覺得工作瞬間會被取代。但實際上,像計算機視覺成熟后其實是把整個市場的體量做大了。
大模型剛出來時有個段子:我們本以為人工智能是來幫我們洗衣做飯的,結果發現是機器人在那唱歌寫詩,人還得苦哈哈地做家務。所以,機器人第一批進入的一定是高價值或者臟活累活的場景,而不是立刻取代普通人的日常工作。
至于未來的勞動形態,總會以一種意想不到的方式演變。就像有了 AI 編程助手,天下打工人本以為是“我來指揮 AI”,結果變成了“老板指揮 AI,AI 再來催我進度”——原來能寫一個月的代碼現在要求一周干完,工作強度反而增加了。推演到機器人時代也是一樣,未來我們的工作可能就像“牧羊犬趕羊群”——你一個人負責督促和糾正一堆機器人的錯誤。到那時,人活得未必比現在輕松,但你單位時間創造的價值一定會大幅提升,這就是技術向前發展的客觀規律。
網易科技:在原力靈機內部,AI Coding是強制要求的嗎?
范浩強:我做AI時間很長,有段時間被朋友笑“老古董”,我很長時間都堅持“手工編程”,總覺得AI寫得沒我好。直到朋友強行幫我裝上Copilot,用過一次就回不來了,AI確實比我有耐心、更細致。
我依然堅信,給我足夠時間,代碼質量我能贏。但AI一秒能處理幾百個token,這“體力”我比不了。所以我們常說,AI Coding是把自然語言變成了新編程語言,門檻不降反增——用得好的人得寫大段規則和指令,讓AI能7×24小時干活。
在公司,我們全員報銷AI工具費用,鼓勵大家多用。雖然我們是機器人公司,線下硬件工作暫時還沒被替代,但我們的終極目標,就是用機器人把這些活都替代掉。到時候,就是一群有物理實體的“小烏鴉”在上班,我們去干更苦更累的事。
姚班天才:在清華我意識到了自己的“弱”
網易科技:您高二時就獲得國際信息學奧林匹克競賽金牌,并被保送清華大學姚班,畢業之后很年輕就成為曠視的技術總監了。“天才少年”的經歷對您后來的技術路線選擇和創業風格有何影響?
范浩強: 在清華最深刻的觸動是讓我意識到自己的“弱”。身邊的同學個個身懷絕技,同寢室里有人做理論計算機極強,另一個室友鉆研量子,還有人做區塊鏈。這讓我產生了深深的敬畏感,明白“人外有人”。這種“空杯心態”讓我后來轉向 AI、半導體或機器人這種跨度極大的領域時,都能保持謙卑,踏實學習。
另一方面是培養了“合作心態”。當年同學們在各自領域發光,互相啟發而非內耗。回看行業也是如此,大浪淘沙后,合作遠大于競爭。現在很多同行老板也是我當年的好友,我發自內心希望大家都能成功。
網易科技:作為清華姚班同學的集體創業,您平常如何處理與唐文斌等頂尖同齡人之間的決策分配?
范浩強: 我們最推崇的詞是“簡單”——有話直說,絕不搞辦公室政治。因為我們都經歷過高效的團隊,知道好的狀態是什么樣。一旦組織出現問題,大家都能第一時間達成共識并去糾正。
網易科技:為什么公司起名叫“原力靈機”?
范浩強: “原力”來自股東“原力聚合”。“靈機”最早叫 Dexterous(靈巧的動物)。后來注冊中文名時,提了近20個全被駁回,只剩“靈機”可用,看來是上天指定的。大家覺得挺符合調性,就沿用了下來。