![]()
作者 | 樊雅婷
郵箱 | fanyating@pingwest.com
We are approaching the endgame for robotics.And this is just a beginning.
Genesis AI 在X上說我們正在接近機器人技術的終極階段。
雖然現在僅僅是開始,但也已經開始。
5月6日,Genesis AI發布首個機器人基礎模型GENE-26.5,能以1倍真實世界速度,在烹飪、移液、解魔方、線束組裝等高難度任務中展現雙手精細操作、工具使用與多物體協同能力。
在demo里,GENE-26.5能做番茄炒蛋、制作奶昔、實現精細實驗步驟、幫忙插吸管,甚至還能彈鋼琴,這一套下來,GENE-26.5已經打敗許多真實人類。
視頻里,蛋液流手上了還知道用抹布擦,居然還有摩挲的動作,高度類人。就好像它是一個愛干凈的人類,在確認到底“擦干凈了沒有”。
如果說大語言模型在文本知識的處理上已對人類形成碾壓,那么GENE-26.5的發布,則預示著這種差距正從認知維度向物理的操作維度蔓延。
它能做到你做不到的事情,全能腦又進化到靈巧手。
![]()
其實這家公司的名字很多人可能聽過。2024年底,一個叫Genesis的開源物理引擎在GitHub上炸開了鍋——用一句話就能生成完整的4D物理世界,成了GitHub上最大的具身智能開源項目。當時的項目牽頭人是周銜,卡內基梅隆大學機器人學博士,師從Katerina Fragkiadaki教授,研究方向涵蓋世界模型、模仿學習和強化學習。
2024年12月,周銜與同樣畢業于CMU的Théophile Gervet——前Mistral AI多模態模型負責人、Skild AI創始成員,共同創立了Genesis AI。2025年7月,公司宣布完成1.05億美元種子輪融資,由Khosla Ventures和Eclipse聯合領投,谷歌前董事長Eric Schmidt、歐洲科技大亨Xavier Niel、法國國家投資銀行BPI以及紅杉中國等參投。這個數字創下了硅谷具身智能行業種子輪融資紀錄,也是硅谷歷史上華人團隊完成的最大規模種子輪。創始團隊約20人,平均年齡不到28歲。
融資之后,沉默了將近一年。
5月6日,他們終于交出了第一份答卷。
1
一、物理世界操作的數字記錄
回到GENE-26.5產品本身,對于這些測試場景,官方從spatial precision(空間精度) 、temporal composition(時間編排)、contact richness(接觸豐富度)、contact coordination(接觸協同度)、tool-mediated interaction(工具中介交互)五個維度進行評估。不難發現,即使是一些高難度的場景,這只手都有很好的表現。
![]()
沒有人不被這次的Demo視頻吸引。這不奇怪,過去我們看了那么多機器人笨拙的走路、無法協調的身體、或者在真實場景下慢得像0.5倍速播放的混亂畫面。GENE-26.5的流暢,是扎眼的。更何況它既能切菜、做實驗還能彈鋼琴,使用場景不僅豐富,還兼顧藝術和實用。
但這種流暢是怎么做到的,又如何實現操作智能的規模化?官方給出了詳解。
先看數據。大語言模型和多模態模型走到今天,靠的是吃不完的文本和圖片。那是萬億級的數據盛宴。
操作智能面對的是另一張桌子。Genesis在技術博客開篇給了一個數字:超過80%的體力勞動是搬運和操作,但這些技能幾乎沒有任何數字化記錄。
一個流水線工人怎么擰螺絲、一個廚師怎么翻鍋、一個實驗室技術員怎么移液,這些行為沒有被系統地記錄下來。過程里有擰螺絲的調整、翻鍋時火候的把握,以及移液時周邊環境的差異,這些都是很難記錄的。
如果去刻意記錄,采集數據這件事本身也會干擾工作。
就像你給工人戴上一副復雜的數據手套,他的動作立刻變了,效率不僅會降,擰螺絲的手感也被分走了。采集到的,已經不是原來那個動作了。
![]()
1
二、數據引擎:三條線覆蓋帕累托前沿
但Genesis說"數據采集不能改變被采集者的行為"。
所以怎么做?答案是三條數據線同時跑。
第一,手套數據。自己做一副數據采集手套,用電磁場追蹤指尖位置,手掌和手指覆蓋密集觸覺傳感器。這副手套的設計目標很明確:盡量不干擾正常操作。人們戴著它干活,動作不需要改變,數據自然就流進來了。這是高質量、低數量的線。
第二,以自我為中心的視頻。頭戴攝像頭的第一視角拍攝。這種數據精度不如手套,但能捕捉到真實環境里的任務多樣性,而且采集成本極低。這是中等質量、中等數量的線。
第三,互聯網視頻。YouTube上做飯的視頻、修東西的視頻、工廠操作的教學視頻。精度最低,但規模幾乎無限。這是低質量、海量數量的線。
三條線一起,覆蓋了數據質量-數量的帕累托前沿。
![]()
1
三、硬件不是下游環節,是數據的關鍵
市面上大多數機器人公司不造手。他們用采購來的硬件,在上面寫軟件。
Genesis則反過來。
原因不復雜。人戴著手套采集到的動作數據,要喂給機械手去執行。如果這兩只手長得不一樣——手指長度差一截,關節活動角度對不上,表面一個硬一個軟——數據從人手傳到機器手,中間必須經過一道翻譯。翻譯就一定有損耗。手指角度對不齊,力控方式變了,觸覺反饋傳不過去。采集得再精細,執行端已經走樣了。
所以他們自己造了一只。Genesis Hand 1.0,20個自由度,直驅,可反向驅動。尺寸跟真人手1:1匹配。手掌和手指表面覆蓋柔軟材料,模擬人皮膚的接觸物理特性。
1:1尺寸匹配意味著人手怎么動,機械手就怎么動,數據和部署之間是同構的。軟材料意味著接觸物理特性跟人手接近,人拿起一個雞蛋的力道,機械手拿起來也是差不多的力道。用他們官方的說法,這叫“近無損信息傳遞”。
這條邏輯鏈很清楚:硬件的仿生程度,直接決定了人類數據能不能被模型完整吸收。硬件不是模型的配角,它是數據管道的第一環。
![]()
圖為Genesis Hand 1.0
1
四、模型架構:把所有東西放進一個聯合分布
有了數據,第二個問題是怎么訓練。
大多數機器人模型是模塊化的。一個模型處理視覺,一個模型處理語言指令,一個模型輸出動作。模塊之間要對齊,對齊就有信息損耗。
Genesis的做法又不一樣。他們的目標是學習一個統一的聯合分布,把所有東西放進去:語言、視覺、本體感覺、觸覺、動作。用流匹配來建模軌跡上的聯合分布,同時保留時間維度的耦合關系。
這個東西的實用效果是你在訓練的時候不需要顯式地對齊不同模態。模型自己學會了——當視覺出現某個模式、觸覺出現某個模式的時候,對應的動作應該是什么。缺失的模態可以通過去噪來推斷。
而且這個聯合分布可以靈活地接入外部模型。VLM(視覺語言模型)給它提供語義理解,世界模型(動作條件視頻生成)給它提供物理預測能力。聯合分布同時吸收這兩者,但不依賴其中任何一個。
![]()
1
五、評估的縮放:為什么2700小時能只用仿真
模型練出來了,下一步是判卷子。但判卷子比出卷子更耗時。
Genesis給了一個數字:如果在真實世界里跑完所有評估,需要人-機器人交互2700個小時。這在物理上幾乎不可行。
于是他們把考場搬進了仿真環境。Genesis World,他們打磨了一年多,能模擬光照變化、背景替換、物體屬性偏移、場景配置重組。每個數據點背后是200套評估設置、超過150小時的機器人執行時間,仿真把它壓縮到了可操作的范圍里。
關鍵發現是:預訓練數據規模越大,模型在從未見過的新場景里表現越好。這條曲線,跟大語言模型的縮放規律長得一樣。更大的模型、更多的數據、更多的算力,驗證損失持續降低。
或許這才是他們真正想讓行業看到的東西。一條在仿真里初步成立的Scaling Law曲線,在真實物理世界里被復現。
官方還提到:在即將到來的版本中,他們將分享關于Genesis World的更新,以及如何在模擬和現實世界中的模型評估之間建立強大的相關性。
In our upcoming release, we will share an exciting update on Genesis World and how we establish strong correlation between model evaluation in simulation and real world.
![]()
1
結語
融資之后,沉默一年。Genesis再次露面,直接往物理世界扔了一只手。
自己設計的數據手套,自己造的機械手,自己寫的控制器,自己搭的仿真環境。這套全棧系統讓Genesis擁有了極高的控制力。
但也有些問題需要進一步解答。例如它能多大程度地適應現實世界的詳細場景?又例如在產品形態上,能不能再imaginative一點,不再只是實驗室里的一只機械手?
大語言模型走到今天,底層是一條被反復驗證過的信念:更大模型、更多數據,性能就會一直漲。這是LLM的Scaling Law,行業信它,資本也信它。但物理世界還沒有摸到屬于自己的那條線。
事實上,世界模型至今仍是一個混沌的戰場。所有人都在搶入場券,卻沒幾個人能說清它到底是什么。
但GENE-26.5的出現可能會改變這件事。它用一只仿生手,一套仿真引擎,把理解物理世界這個模糊命題錨定到了更加具體、且可評測的維度上。它讓規模化看起來不再是口號。Genesis World的評估結果,也許正是物理世界Scaling Law最早的信號,也可能不是。時間會給出答案。
但不管怎樣,這套全棧系統瞄準的方向是清楚的,就是讓機器人在物理世界里像人一樣感知、適應、操作,而不是在預設腳本里重復。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.