![]()
含物理交互信息的數據集,將推動機器人在現實世界落地。
今年四月,戴盟機器人聯合 Google DeepMind、美國西北大學、新加坡國立大學等全球數十家機構,發布了迄今最大規模的含觸覺全模態具身數據集 Daimon-Infinity,并開源 10?000 小時數據,試圖為靈巧操作補上這關鍵一環。
值此之際,全球最大的工程與應用科學專業組織IEEE 與戴盟聯合創始人兼首席科學家王煜教授進行了一次深度對話。王煜教授在機器人操作領域深耕近四十年,師從該領域奠基人馬特·梅森。此次對話中他拆解了單色光視觸覺技術的核心原理、從 VLA 到 VTLA 架構躍遷的邏輯,以及具身智能從實驗室走向真實場景的路徑。
為什么觸覺感知將改變機器人的技術格局?具身機器人又將率先在哪些場景落地?這些問題的答案,都能從這場對話中找到。
以下為 IEEE Spectrum 與王煜教授對話的原文翻譯:
![]()
訪談鏈接:
https://spectrum.ieee.org/daimon-robotics-physical-ai
原文作者:Sujeet Dutta,Wiley科學與工程部高級編輯
戴盟想讓機器人擁有「手感」
強大的具身智能數據集
將賦能機器人實現靈巧操作
今年四月,戴盟機器人公司發布了迄今為止最大規模的含觸覺全模態物理世界具身數據集 Daimon-Infinity。該數據集由包括 Google DeepMind、美國西北大學和新加坡國立大學在內的全球合作伙伴共建,涵蓋了從居家整理衣物到工廠制造等各種任務。
此舉是這家公司成立兩年半以來的重要發展戰略,此前它們主要以觸覺傳感器聞名,尤其是單色光視觸覺技術路線,能在指尖大小的模塊上集成超過 11 萬個有效感知單元。現在,憑借行業領先的觸覺感知技術,以及每年可生產數百萬小時數據的外發式采集網絡,戴盟建立了最大規模含觸覺的具身操作數據集。在發布數據集的同時,他們開源了其中 10000 小時數據,希望以高質量數據推動具身智能在現實世界落地。
這項戰略的幕后推手是戴盟機器人的聯合創始人兼首席科學家王煜教授。王煜在卡內基梅隆大學獲得博士學位,師從馬特·梅森(Matt Mason),研究機器人操作。他與李澤湘共同創立了香港科技大學機器人研究所;作為 IEEE 會士和《IEEE 自動化科學與工程學報》前主編,他在該領域耕耘了近 40 年,被列為全球前 2% 頂尖科學家。
他的目標是解決機器人操作(manipulation)中缺失的“觸覺反饋”問題——目前機器人操作主要依賴于主流的視覺-語言-動作(VLA)模型,他和團隊則開創性地提出了 VTLA 架構,將觸覺作為與視覺同等重要的模態。
![]()
王煜教授
我們與王教授探討了觸覺如何改變靈巧操作、數據集如何提升機器人在物理環境中的表現,以及機器人將應用于現實世界中的哪些場景。
01
數據集 Daimon Infinity
IEEE Spectrum:今年四月,戴盟機器人聯合了多家頭部學術機構和企業,共同發布規模最大、最全面的具身操作數據集。為何選擇現在發布數據集,而不是繼續專注于硬件開發?這將對具身智能領域產生怎樣的影響?
王煜:戴盟機器人成立至今已有兩年半的時間。我們一直致力于研發高分辨率、多模態的觸覺傳感設備,通過記錄并處理這些觸覺信息,精密感知機器人手部(尤其是指尖)與物體之間的接觸狀態。我們的硬件產品已經非常成熟,用戶眾多,包括學術研究機構及前沿的人形機器人公司。
隨著具身智能的發展,越來越多人意識到數據的重要性:數據不足正是目前具身智能發展的瓶頸,尤其是包含物理交互信息的數據,這將是提升機器人在現實世界操作能力的關鍵。數據的質量、可靠性和成本已成為研發和商業落地需要重點關注的問題。
同時,這也是戴盟擅長的事情。憑借視觸覺技術,我們能夠提供含多模態觸覺信息的高質量數據,我們提供的觸覺信息不僅包含了接觸力,還有接觸形變、接觸狀態、滑移摩擦、物體材質與紋理等,完整還原物理交互的過程。另外,基于在觸覺模態融合方面的技術積累,我們設計了數據處理管線,將觸覺與視覺、動作軌跡、語音文本等模態精準融合,轉化為模型訓練時可以使用的數據。
因此,面對行業的數據空缺,我認為,提供高質量數據是我們戴盟能做好、也應該做的事情。通過搭建并開源數據集,我們希望為具身智能提供高質量的數據燃料,推動通用機器人大模型的最終落地。
Daimon Infinity 數據集發布
IEEE Spectrum:機器人行業競爭異常激烈,許多團隊都開始專攻數據。戴盟發布了一個最大規模的含觸覺多模態具身操作數據集。你們是如何做到這一點的?
王煜:我們擁有一支專注于拓展自身能力的內部團隊,包括硬件設備的研發和大模型的開發。盡管我們公司規模相對較小,但憑借核心的視觸覺技術與創新的采集范式,我們得以構建龐大的數據集。
我們的策略是開放合作范圍。我們打造了全球最大規模的外發式具身數據采集網絡,依托于輕便的設備,數據采集不再局限于數采廠,而是可以進入各類真實場景,并實現每年數百萬小時數據的生產能力。
IEEE Spectrum:Daimon-Infinity 由多家機構聯合發布,這些機構在數據集的開發過程中分別扮演了哪些角色?該數據集將如何惠及他們的研究和產品?
王煜:此次數據集,我們聯合了全球數十家機構合作共建,包括北京大學、清華大學、香港科技大學等中國高校,以及 Google DeepMind、美國西北大學、新加坡國立大學等全球頂尖研究團隊,另外還有中國移動、匯川技術、上聲電子等產業方。他們選擇與戴盟合作,是對我們含觸覺數據集的認可。
這些團隊中,有些已經構建了自己的模型,現在正在引入觸覺信息。通過在科研、制造等實際場景下進行采集,他們幫助我們收集到了高度真實、以實際場景為驅動的數據。反過來,我們的合作伙伴也將這些數據用于他們的模型訓練。此外,為了推動具身行業的發展,我們開源了 10000 小時數據,行業中的任何人都可以使用。
02
從 VLA 到 VTLA:
為什么觸覺感知將改變格局
IEEE Spectrum:目前機器人領域的主流范式是視覺-語言-動作(VLA)模型,但戴盟團隊提出了視覺-觸覺-語言-動作(VTLA)模型。為什么需要引入觸覺?它能使機器人實現哪些功能?如果沒有觸覺反饋,哪些任務可能會失敗?
王煜:多年來,我們致力于研發能夠執行操作任務(尤其是靈巧操作)的通用機器人——它們不僅能完成抓取或握持,還能通過施加力以實現對物體的操作。如今,這些機器人已被應用于家庭和工業裝配領域。
觸覺信息對于提供接觸狀態的反饋至關重要,它能引導機器人的手指及手部進行可靠的操作。如果沒有觸覺,機器人可能無法在黑暗環境中判斷物體的位置,可能因為無法感知滑移狀態而導致玻璃杯掉落,更有可能因為無法控制力度而導致操作任務失敗,甚至造成損害。VLA 架構已經不足以滿足機器人操作的需求,因此我們擴展架構、納入觸覺數據,創建了 VTLA 框架。
我們采用的是視觸覺感知技術,它將指尖表面的形變轉化為視覺圖像,從中推斷出力和其他接觸狀態。這與 VLA 所基于的視覺框架非常契合——將觸覺信息轉化為圖像數據,天然適合集成到 VLA 中,從而轉化為 VTLA 框架。這是關鍵優勢:視觸覺傳感器能夠提供高分辨率觸覺數據,這些數據可以被整合到框架中,無論是端到端模型還是其他類型的架構。
![]()
搭載了戴盟視觸覺傳感器的夾爪精確夾捏雞蛋殼
03
術:單色光視觸覺傳感技術
IEEE Spectrum:您和戴盟團隊多年來一直致力于視觸覺傳感技術的研究,并開發了世界上首個單色光視觸覺感知技術。您為什么選擇了這條技術路線?
王煜:從開始研究觸覺傳感器時,我們就明確了自身的需求:我們想要的是能夠高度模擬人類指尖皮膚觸覺的傳感器。生理學研究已經充分證實了人類指尖所具備的能力——知道我們觸摸了什么、是什么材質、力如何分布,以及當大腦控制手時,它是否移動到了正確的位置。我們知道,在機器人手的指尖上復制這些能力將大有裨益。
在調研現有技術時,我們發現了多種類型的觸覺感知技術,包括三色光視覺觸覺傳感及其他更簡單的設計。我們將這些技術的優勢整合到一個解決方案中,使其在保持良好性能的同時又不會過于復雜,并將成本、可靠性和靈敏度控制在令人滿意的范圍內,最終研發了單色光視觸覺技術。這本質上是一種工程方法,而非純粹的科學方法,因為大量的基礎研究已經存在。隨著人們對觸覺認知的日益加深,這些技術將攜手并進。
![]()
戴盟視觸覺傳感器裝載了11萬個感知單元
IEEE Spectrum:去年,戴盟推出了一款多維高分辨率高頻率的視觸覺傳感器。與傳統觸覺傳感器相比,它的核心優勢在哪里?它有可能變革哪些行業?
王煜:我們傳感器的關鍵特性在于高密度捕捉接觸力與接觸形變,我們擁有最高的感知單元密度,這是一個非常重要的指標。另一個指標是頻率和帶寬,即我們檢測觸覺變化、傳輸信號并實時處理信號的速度。其他方面則主要與工程技術相關,例如可靠性、漂移、硅膠表面的耐用性及對磁場、光學及其他環境因素的抗干擾能力。
越來越多人意識到觸覺的重要性,并開始使用我們的傳感器。今年第一季度我們的營收已經超過了去年一整年,我相信這會讓整個行業都邁上一個新的臺階。我們的一位潛在客戶正在便利店中部署人形機器人,便利店貨架密密麻麻,機器人需要伸入非常狹小的空間——比書架上的書縫還要狹窄,才能取出物品。觀察人類如何完成這類任務,你會發現,至少需要三根纖細的手指來觸碰并穩穩地抓取物品。我們開始看到一些非常具體的需求,觸覺感知的功能在這些場景中至關重要。
![]()
全模態觸覺信息,包含力/力矩、形狀、材質、接觸信息四大維度
04
從學術研究到創業公司
IEEE Spectrum:您在學術界耕耘 40 年,創立了香港科技大學機器人研究所,榮獲包括 IEEE Fellow 在內的諸多殊榮,并擔任 IEEE TASE 主編。是什么促使您創立了戴盟機器人?
王煜:回望過去,我走了很長的一段路。我在卡內基梅隆大學攻讀博士學位期間開始學習機器人學。當時,在波士頓動力公司創始人馬克·雷伯特(Marc Raibert)的指導下,一些團隊研究機器人運動;而在我的導師、該領域領軍人物馬特·梅森(Matt Mason)的指導下,一些團隊則專注研究機器人操作。多年來,不僅在卡內基梅隆大學,我們在全球范圍內都致力于靈巧操作的研究。
然而,機器人發展長期受限,尤其是在制造和使用靈巧手方面。直到最近,機器人運動才真正開始騰飛,而機器人手的重大突破也是近幾年才實現的。顯然,機器人的操作能力還有很大的提升空間,我們希望有朝一日機器人能夠像人類一樣工作。在香港科技大學工作期間,我看到越來越多研究人員投身于這一領域,我們也決定利用現有資本與人才資源,迅速啟動我們的研究工作。
幸運的是,我的博士后段江嘩具有敏銳的商業嗅覺。我們看到了機器人市場的發展,也看到了我們視觸覺技術所能帶來的獨一無二的價值,因此在幾年前共同創辦了戴盟機器人。如今,公司發展良好,市場份額在中國、日本、韓國、美國及歐洲都有顯著增長。
05
商業模式和策略
IEEE Spectrum:戴盟目前的商業模式和戰略重點是什么?數據集發布在商業戰略中扮演什么角色?
王煜:我們最初專注于制造高性能的觸覺感知設備,尤其是搭載于機器人手的傳感器。但隨著技術和業務的發展,大家逐漸意識到,行業需要不僅僅是一個組件,而是整個技術鏈:設備、高質量大規模的數據,以及最終能夠在實際應用環境中構建、訓練和部署機器人模型的框架。
現在,我們將自己的商業戰略定位為“3D”:設備(Devices)、數據(Data)和部署(Deployment)。我們研發用于數據采集和構建觸覺生態的設備,并通過在合作伙伴的應用場景里進行部署,完成含觸覺數據的落地與閉環驗證。任何一部分,在我們的 3D 商業模式中都不可或缺。具身領域的大多數初創公司都在遵循類似的路徑,最終一些公司可能會專注于更加細分的賽道,或與其他公司整合得更緊密。總體來說,垂直整合才是目前的主流。
06
具身技能與融合時刻
IEEE Spectrum:您之前提出了“具身技能”的概念,認為這是人形機器人超越僅擁有先進人工智能“大腦”的關鍵。是什么促使您提出這一觀點?具身技能可以帶來哪些新的能力?過去兩年模型和硬件快速發展,現在您對具身技能的定義是否有所改變?
王煜:機器人的發展一路走來,如今已到了電氣、電子和機電一體化硬件技術融合的階段,這是過去二十年里取得的巨大進步。由于硬件的快速發展,機器人現在完全是電動的,不再需要液壓系統。現代電子技術提供了高帶寬和高扭矩,如果我們能將智能融入這些系統,就能創造出真正意義上的人形機器人——能夠在非結構化環境中運行、決策并自主執行操作的機器人。
人工智能的出現恰逢其時。大量資源被投入到人工智能的開發中,特別是大型語言模型。它們如今已被推廣到世界模型中,賦能物理智能——我們希望這些能力最終能在現實世界中落地。
雖然人工智能和核心硬件技術仍在不斷發展,但如今的研究重點更加明確。例如在家庭環境中,人們更傾向于使用人形機器人。這是一個令人興奮的領域——如果我們最終能夠制造出安全、可靠且經濟高效的機器人,它將為社會帶來巨大的益處。
07
通往實際部署之路
IEEE Spectrum:如今,許多機器人都能進行令人印象深刻的演示,但距離真正進入實際應用領域仍存在差距。什么因素可能觸發實際部署?哪些場景最有可能率先實現大規模部署?
王煜:我認為通用機器人的大規模部署之路仍然漫長,但我們已經看到其在特定領域展現出可行性。這與自動駕駛汽車非常相似,我們尚未看到無人駕駛出租車的全面部署,但已經開始看到移動機器人在酒店業得到了廣泛應用。在中國,幾乎所有大型酒店都配備了送餐機器人——沒有機械臂,只是一臺從酒店大堂取貨(例如外賣)的小型機器人。送餐員只需放置食物并選擇房間號,機器人便會自行導航、自行使用電梯,最終將食物送達客房。
酒店及餐廳的機器人,為其他場景的應用提供了范本,例如夜間藥店和便利店。我預計在短期內,這些場所將全面部署人形機器人,并在之后擴展到其他領域。我們可以期待,在未來,包括人形機器人在內的自主機器人將逐步滲透到特定行業,為行業創造價值。
我們的愿景始終是讓機器人實現強大的操作能力,并發展成為人類可靠的合作伙伴。未來,機器人或許會無縫融入我們的日常生活,真正造福并服務于人類。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。F
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.