henry 發自 凹非寺
量子位 | 公眾號 QbitAI
看過的人已經傻眼了,因為這可能是今年為止最炸的機器人demo。
剛剛,Genesis AI發布首個機器人基礎模型GENE-26.5,讓機器人能自主打雞蛋,擰試管蓋,彈鋼琴,玩魔方,切番茄。
全程自主運行,1倍速,同一個模型。
亮相后,前1x副總裁Eric Jang宋舒然教授等業內大佬紛紛轉發評論,表示贊嘆。
![]()
![]()
如果你對這個半路殺出的團隊感到陌生,下面這個gif可能會讓你想起些什么。
![]()
一年多以前,他們在GitHub上發布了那個炸穿互聯網的Genesis物理引擎。
一句話生成物理世界,28.6k Star,學術圈半壁江山參與。
![]()
創始團隊在2025年中拿了1.05億美元種子輪出來創業,沉默了將近一年。
現在回來了。
今年為止最炸的機器人demo
GENE-26.5的demo大概是機器人領域今年到目前為止最值得認真看的,咱們來速通一下。
烹飪場景
四分鐘,20個子任務串成完整流水線。單手打蛋,五指配合控制裂紋走向。
雙手切番茄,一只手調整角度,另一只手下刀。毛巾、鹽磨、打蛋器、刀、鏟、煎鍋輪番上陣。
搞笑的是,打完雞蛋他還拿毛巾擦了一下手,怪干凈的……
實驗室移液操作
從抓移液器到裝離心機,全流程毫米級精度。最難的是擰試管蓋和手內換握姿勢。
解魔方
雙臂協作,連續空中翻轉,實時閉環。
此前不靠專用夾具完成魔方的標桿還是2019年OpenAI那只單手,Genesis稱這是通用雙臂系統的首次。
做冰沙
語言指令驅動的長序列任務,固體、可變形物體、液體全涉及。
吸管翻轉
測試極脆弱半透明物體的處理,最后一步手內翻轉需要多根手指高度同步。
多物體抓取
單手同時抓四個不同尺寸物體,四種抓握方式并行,展示靈巧手相比傳統夾爪的效率差距。
線束整理
汽車產業的「圣杯任務」。雙手操控柔性線纜打捆、掛架、纏膠帶,公認最難的工業操控任務之一。
彈鋼琴
Rush-E,約130BPM,專門壓測控制棧極限,策略用RL在仿真中單獨訓練。
以上大多數復雜技能,GENE只需要不到1小時的任務專屬機器人數據,不到200個episode。
值得一提的是,Genesis CEO周銜在接受Business Insider采訪時表示:
烹飪大多數步驟成功率在90%到95%,但單手打蛋和用刀轉移切好的番茄只有50%到60%。整體操作速度大約是人類的六七成。
全棧怎么做的
Genesis博客里說了一句話把整個技術思路講透了,操控不是一個純模型訓練問題,是一個系統問題。任何一層的短板都會傳導到整個系統。
所以他們選擇每一層都自己做。
硬件,一雙和人手一樣大的手
Genesis在demo中使用的靈巧手,20個可反向驅動的自由度,與人手1:1尺寸匹配,手掌和手指覆蓋柔軟材料模擬皮膚接觸力學。
這種設計讓人手動作可以直接映射到機械手上,不需要復雜的重定向算法。
![]()
值得一提的是,不少業內人士指出這雙手與國內靈巧手公司舞肌科技(Wuji Tech)的產品高度相似。
Genesis官方博客將其稱為Genesis Hand 1.0,但未詳細說明硬件來源。
![]()
回到手的尺寸上,為什么要做到與人手1:1,是因為機器人領域存在一個叫「具身差距」的老問題,人手和機械手形態不一樣,人類動作數據就沒法直接遷移到機器人上。
Genesis的解法很粗暴,把手做成一模一樣,差距就消失了。
![]()
控制棧也一并重寫。Genesis把機械臂供應商的出廠控制器整個換掉,自研中間件跑在PREEMPT_RT實時內核上,EtherCAT通信500Hz,端到端延遲最低壓到3毫秒。
原廠控制器畫一個15厘米的圓追蹤誤差20毫米,換上Genesis的控制器后降到2毫米,提升一個數量級。單關節追蹤延遲從80毫秒降到9毫秒。
![]()
這層的意義在于,當訓練數據來自人類動作而不是機器人遙操作時,控制系統的延遲和誤差會在訓練信號和實際執行之間制造鴻溝。延遲越低,人類數據就越好用。
數據,讓工人上班順便采集
在數據采集方面,Genesis主要采用一雙與靈巧手配套的數據采集手套。
機器人手和人手尺寸一致,手套記錄的手指運動可以無損映射到機器人上,不需要復雜的重定向算法。硬件成本是傳統方案的百分之一,采集效率是遙操作的五倍。
數據引擎總共有三層來源。
![]()
手套數據提供最高保真度的手部運動和觸覺信號。第一人稱視頻捕捉自然行為和任務多樣性。第三人稱互聯網視頻提供海量覆蓋。
三層數據在質量和規模上做了帕累托分布,Genesis和合作伙伴已經收集了超過20萬小時的多模態數據。
Genesis總裁Gervet對TechCrunch說了一句有意思的話,這只手套可以讓實驗室技術員、制造業工人在干日常工作的時候順便采集數據,不打斷工作流。
當然TechCrunch也追問了一個尖銳的問題,工人會愿意戴著手套和攝像頭來訓練最終可能取代自己的機器人嗎?
Gervet的回答是,這個得看客戶和員工之間怎么談,具體細節還沒敲定。
模型,一個統一的軌跡聯合分布
GENE-26.5的模型目標是學一個能同時吸收語言、視覺、本體感覺、觸覺和動作的統一模型。用flow matching對軌跡建模聯合分布,捕捉多模態的未來可能性。
幾個關鍵設計。
第一,支持異構、部分可觀測數據的可擴展訓練,第一人稱視頻流、手套數據、機器人控制數據、互聯網視頻,不需要顯式對齊就能一起訓練。
第二,同一個模型處理所有任務,控制、狀態估計、逆動力學、目標推斷都變成對聯合分布的條件查詢,缺失的模態通過去噪推斷。
第三,可以靈活吸收預訓練模型的先驗,VLM提供語義理解,世界模型提供時序和物理動態。
簡單說就是一個模型吃所有模態的數據,做所有類型的任務。demo里展示的幾個場景,除了鋼琴演奏是單獨用RL訓練的之外,其余全部共享同一套權重。
訓練和評估,仿真是加速器
Genesis團隊在博客里放了三張scaling曲線,透露了訓練recipe的關鍵信息。
預訓練階段,open-loop評估顯示模型規模和計算量增加時驗證損失持續下降,符合經典的scaling law。
但他們強調open-loop指標對機器人來說遠遠不夠,關鍵是closed-loop表現,就是模型的動作會影響后續觀測的閉環場景。
![]()
這里Genesis物理引擎的老本行就派上用場了。他們用最新版Genesis World仿真器做大規模閉環評估,不需要在仿真數據上做任何co-training,仿真環境的保真度已經足夠直接評估真實世界訓練的模型。
每個數據點對應200個評估設置和超過150小時的機器人執行時間,整張圖如果在真實世界跑需要2700個人-機器人小時。結論是預訓練數據量越大,zero-shot泛化能力越強。
![]()
到fine-tuning階段回到真實世界。他們專門構造了預訓練中完全沒見過的新任務,在超低數據量條件下測試,每個任務只用20到30分鐘的數據。
![]()
demo里展示的那些復雜技能,大多數只需要不到1小時的任務專屬機器人數據,換算下來不到200個episode。預訓練規模越大,fine-tuning也越快、數據需求越少、最終表現越好。
周銜對TechCrunch說,模型迭代速度的真正瓶頸是評估,仿真幫他們大幅加速了這個循環。
從物理引擎到通用機器人
2024年底,CMU博士周銜牽頭開源了Genesis物理引擎。
這款純Python仿真平臺比英偉達Isaac Gym快10到80倍,GitHub上迅速成為最大的具身智能開源項目,吸引了20多個研究機構參與。
周銜本科畢業于新加坡南洋理工,是Genesis物理引擎的發起人。
![]()
2025年初,Genesis AI在法國注冊成立,由周銜擔任CEO,總裁是Théophile Gervet,同樣來自CMU,曾在具身智能獨角獸Skild AI任早期研究員,后加入Mistral AI做研究科學家。
![]()
兩人師出同門,導師都是Katerina Fragkiadaki。
成立幾個月后,團隊拿到1.05億美元種子輪,Eclipse和Khosla Ventures領投,谷歌前CEO Eric Schmidt、法國電信大亨Xavier Niel個人參投,法國國家投資銀行Bpifrance也在投資方名單里。
作為參考,此前具身智能賽道最大的種子輪是Physical Intelligence的7000萬美元。
拿到錢之后,團隊沒有急著發產品,而是花了將近一年時間悶頭搭全棧。
今天,GENE-26.5。模型、硬件、控制棧、仿真器,一次性全部亮相。團隊從創始時的幾個人擴展到60人,巴黎、加州、倫敦三地辦公,歐美大約四六開。已經收集了超過20萬小時的多模態數據,正在與多個行業客戶洽談合作。
周銜告訴TechCrunch,接下來很快會公布第一個通用機器人,全身的,不只是手。
[1]https://x.com/gs_ai_/status/2052050956272230577
[2]https://x.com/zhou_xian_/status/2052051823742312861
[3]https://www.aol.com/articles/look-hands-genesis-ai-says-130001205.html
[4]https://github.com/Genesis-Embodied-AI/genesis-world
[5]https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level
[6]https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.