網易首頁 > 網易號 > 正文申請入駐

機器人新紀元x英特爾宋繼強:具身智能機器人,究竟需要多少算力？

2026-04-30 21:15:19　來源: 科技行者

天津舉報

分享至

作者 | 金旺

欄目 | 機器人新紀元

算力、算法、數據，是人工智能的三大核心要素，也是在具身智能加持下，機器人的三大核心要素，這其中，又以算力基礎設施發展最為成熟，無論是工藝、制程，還是產業生態。

然而，即便如此，當下特別針對具身機器人定制的芯片卻是寥寥無幾，至于其中原因，則是現在具身機器人產業發展不夠成熟，無法形成一致的標準、也無法形成規模量產。

手搓，是具身機器人現在的一個普遍現狀。

也正是在這樣一個行業背景下，《機器人新紀元》播客欄目第二期嘉賓特別邀請到了英特爾中國研究院院長宋繼強，并特邀了至頂科技CEO兼總編輯高飛，和我們一起聊一聊：

具身（智能）機器人，究竟需要多少算力？

以下為本期節目內容QA精選（經整理）：

01 早期人形機器人，一次演示，需要上百人團隊支持

Q：您有一段從業經歷是在一個叫機器人交互研究中心，這是一個什么樣的機構？它主要做的是哪些方面的研究？

宋繼強：這其實是伴隨著我們在2013、2014年剛好全球有一個創客運動，中國在那個時候也如火如荼地開展了各種創客活動。

這其中，智能設備中有一個熱點就是智能機器人，那時候機器人整體能力相較現在來講都是小兒科，但是在那時候很關鍵的是，如何讓機器人先有一些感知能力、語音交互能力，能理解人的語言，做一些簡單的輸出，能夠理解你的語言，并且做一些相應的反應，或者做一些運動，這就很重要。

所以在2014年的時候，因為英特爾自己也推出了很多小型化的計算模塊，集計算、通信、存儲為一體的一些小型計算模塊，這些模塊也會被很多機器人廠商，包括無人機廠商拿來用作計算通信整體解決方案。

那個時候，我們就在2014、2015年，在研究院內部成立了一個機器人交互創新研究中心，主要就是在新的傳感器和計算能力、通信技術的支持下，讓類似于像人形、半人形，甚至小寵物形態的機器人能跟人有更好交互體驗。

Q：我記得那個階段剛好是智能語音興起的一個時間點，當時最火的應該是NLP技術，像科大訊飛這批創業公司也是在那個時候興起的，英特爾這個研究中心當時做的主要也是語音識別技術嗎？

宋繼強：語音識別是其中必須要做的，第二塊是視覺識別，從那個時間上來看的話， NLP技術已經做了一段時間了，已經有一些比較可用的對話技術，包括交互式的，我們叫對話機器人。

在視覺這塊，剛好2012-2014年是深度神經網絡通過做ImageNet發揮了很大的作用，所以大家發現通過攝像頭其實可以捕捉很多環境里的場景，并且可以和人去做一些交互，所以在2014年的時候，我們是將視覺和語音這兩塊整合在一起來看的。

Q：我知道高飛老師在人工智能這塊也有很多研究，您對當時2014年前后做的視覺智能也好，語音智能也好，有怎樣的感受？

高飛：因為我對機器人的興趣也很大，當年看科幻小說的時候，那時候科幻小說的人工智能基本帶身體的比較多，因為我是阿西莫夫小說的科幻迷，當時他寫基地，基地里我記得那時候把機器人叫“機仆”，“機仆”實際上是人的一個仆人，從那時候開始，我覺得好像小時候看的科幻小說逐漸和現實世界比較接近了。

Q：最早的機器人，像本田的阿西莫，在運控上體現出了比較強的能力，但它還是基于經典的MPC、WBC這些運動控制理論的機器人，當時是一個怎樣的技術范式？

宋繼強：那個時候他們做這種人形機器人，做比如說運動控制、動態平衡，甚至做一些精細操作，更多是要展示它有一些控制、傳感和反饋能力，所以你可以看到在日本是以像豐田、本田，在韓國是以現代這樣一些大型車企在做這些事。

因為他們首先有雄厚的資本，第二他們也通過這樣一些高精密、高實時性控制的需求，通過人形機器人來展示他們對于這些傳感器、對于控制的這些零部件，包括一些算法，他們有很強的操控能力，但這些在產業路徑上，當時其實并沒有做很高的預期。

同理你要看回到歐洲，看德國當時在做什么？

德國其實是通過像德宇航這樣的機構在推動機器人（包括人形機器人）在太空這樣一些人去不了的地方怎么去做運動、做場景的感知和控制。

所以那個時候大家都有不同的目的，但是我們當時的觀察是，他們其實并不是真有一條產業化的路徑，都是非常昂貴的，然后去做一次演示，臺上一個機器人，臺下至少是一個百人團隊在去支持。

高飛：有點炫技的味道。

宋繼強：是的，主要就是炫技，就是展現出我有多強的這樣一個整合能力，包括我的軟件、硬件、傳感器，還有其中這些伺服電機，整個一套我都能搞定。

高飛：有點像我們做那個吉尼斯世界紀錄。

金旺：也有點像當時IBM做的那個人工智能的比賽，深藍當時后面還需要有很多的團隊在做支持，而且有很大的一個電力需求，但是大家都說其實是不實際的，如果產業化的話。

這之后其實是有了Deepmind這樣的團隊的出現，才把人工智能推向了產業化，推到一些更實際的應用場景中。

宋繼強：所以在那個時候，可以說是控制優先，而不是智能優先。

真正到了比如說2012年、2013年之后，深度神經網絡、深度學習推動了一波視覺能力的提升，然后又在語音能力、語言識別能力提升之后，機器人對于環境有了更多理解，包括開始有一些針對世界知識導入的辦法，所以才開始有更多泛化能力，讓它的智能能力能夠提升一個臺階。

02 AI+多傳感器，是人形機器人泛化能力的必備條件

Q：2013年，英特爾成立了感知計算產品線，也就是后來我們看到RealSense，在那個時間節點，是什么驅動我們做了這樣的判斷？

宋繼強：其實當時確實是因為看到了新的AI技術的產生，它對于視覺輸入有更好的理解和檢測能力，那這是不是能夠推動機器人有一波新的能力的提升，因為如果說看機器人這領域的話，它是一個發展時間很長，它遠比計算機出現的早，也比人工智能出現的早。

所以每一波新的技術，大家都在想，我能在機器人上怎么用、怎么推動它產業化，想象空間很大。所以每當有一個新的技術出現時，大家都要去看如何在機器人上用，尤其是人形機器人到底怎么能用好這些新技術，所以就要前赴后繼，一代代往里去加新技術、做新實驗。

那么在2012年、2013年的時候，因為視覺神經網絡開始可以做更多事，傳感器要跟上，例如我們要讓機器人能夠看懂這個環境，然后能在這個環境里首先能夠自由移動、做相應的交互。

那它看到的就不能只是一個平面的、二維的環境，它應該能看到三維的環境，所以就催生了感知計算這個部門，因為這個部門原來有比較好的基礎，通過打紅外結構光出去，能夠快速檢測到周圍環境的深度特征，有點像簡化版的激光雷達。

這樣的話，它就能讓機器人擁有三維深度視覺，不管你在里面運動也好，對于桌子上、環境里的物體操控也好，三維視覺比二維視覺強太多。

所以在這樣的條件推動下，就成立了這個部門，這個部門既做底層硬件，就是傳感器的設計，包括它后面所需要的硬件CPU、加速器的設計，并把它們整合成了一個硬件模塊，同時也要考慮硬件如何在軟件系統中去使用，去做上面的軟件棧。

所以當時是做了一套軟件，能夠裝在Windows、 Linux系統中，首先有這個驅動裝進去，然后上面是對接著一個視覺處理的軟件棧，所以等于說提供了一套完整的解決方案，從硬件、模塊，到軟件都做了，然后就將這套產品往社區里推，也在往客戶那兒推。

Q：基于RealSense也好，基于CV也好，其實在工業領域（工業機器人和工業自動化領域）有很多應用，我們現在回過頭來看，英特爾在工業機器人領域做得確實很不錯，這其中有哪些令您印象深刻的地方。

宋繼強：在工業領域，通常是在做相對精細的操作，這種精細的操作精度通常需要是毫米級，甚至是亞毫米級，那對于深度的要求就不是純視覺可以還原的，通常需要專門加入深度攝像頭，這樣的領域，我們可以提供比較完整的解決方案（前端深度攝像頭+后端實時計算）。

通常英特爾的CPU就能支持這種實時深度計算，如果再做操控的話，控制這些電機去做這種運動，也需要實時控制，加上逆運動學反算，就需要支持高精度浮點。

這樣的話就有了這種傳感器的支持，再有了CPU的支持，就可以形成一個相對完整的工業級解決方案，可以應用在很多工業領域，例如分揀、抓取、零件裝配，這些領域都用得上。

Q：但是那個時候應該是用機械臂來完成，現在我們是想用人形把這些工作再重做一遍，這兩個本體之間會有怎樣的gap嗎？

宋繼強：那一定會有差別，因為像用機械臂的話，通常前端執行器是根據這個場景去設計的，它不用一定是靈巧手，對于這樣一些場景，它的執行器本身就可以專門定制，例如觸覺，或者在它上面加裝一些小的攝像頭、力反饋傳感器，就可以做到比較好的抓取，相應的抓握力度的操控也比較容易做。

但是我們一講到人形，其實大家就知道我們是想利用人形，例如胳膊這種多關節的操控，加上手，而且這個手是可以去適配不同種類操作的，例如我可能要抓個杯子，可能要去開門，也可能要去抓一個蘋果。

這種操控要用簡單的視覺，或者深度攝像頭去處理的話，會有一些挑戰。

因為在這個場景下，如果說是用深度攝像頭，假如說它是基于紅外線這種結構光，在某些材質的表面、在某些顏色，它會被吸收掉，例如我們的頭發就會吸收掉紅外線，那你操控的時候如果看不到人的頭發，你把手伸到了頭發區域里，是不太合適的。

所以在這種情況下，你就要考慮，如果是開放場景，傳感器有哪些局限性是做不了的，你就要有其它方案去彌補它。

在工業場景里，因為場景相對來確定，有些東西是不會出現的，那會更可靠一些。

所以我們一旦到了這種相對多樣性、開放的這種場景里的話，對于操作，尤其是靈巧手本身它的設計也是多種多樣的，那之后針對VLA的控制模型本身也要做很好的調優，才能知道我真正要去操作這個東西要達到什么樣的精度、什么樣的力反饋，才能做得比較好，所以這個更多是一個系統性調優工程，不是專靠一個傳感器就可以搞定的了。

我們認為，現在大家都想在人形機器人領域做到更好的操控、更好的對環境的泛化能力，這時候智能能力加上多種傳感器組合一定是必須的。

在處理器這塊，得要異構計算，因為既然你是多種技術的組合的話，就意味著它的計算要求是多樣性的，但要整合起來用。

Q：在工業機器人那個階段，英特爾有針對工業機器人設計專用芯片嗎？

宋繼強：我們倒沒有專門為工業機器人做專門的芯片，基本上還是沿著CPU的主流設計，做相應的一些改造和定制。

主要會在芯片的溫度范圍，比如寬溫設計，它要達到工業級的一些耐用性，同時它對于這種確定性、實時性要求，在操作系統和硬件這個層面要能夠互相保證起來。

還有高安全性要求，這些要做到芯片設計或者它里面的一些固件，所以通常來講會專門去給它做一些改造提升。

在架構上，通常還是跟著我們CPU的異構整合方式去做。

03 編程階段的機器人“學習”要靠人，有了深度學習就可以靠智能

Q：隨著人工智能技術出現的深度學習、模仿學習，為機器人研究范式帶來了哪些改變？

宋繼強：最開始像MPC之類的預先設計好這種操控模型，對于機器人的操控精度等要求都是預設好的，這種情況下，基本上我們認為學習是人的事兒，設計者學習好了之后，你把它轉換成對機器人控制的模型設計和編程就行了。

到了有深度學習之后，大家就想我怎么利用深度學習的能力，讓機器人去學會一些原來我不太方便用編程完成的這種動作。

在這個過程中，其實就是模仿學習和強化學習在發揮作用，因為在這個時候的話，我們只需要讓機器人去跟著一個做好的動作序列，它通過視頻去觀察、去看，或者在模擬器里預先有人去做了一些編好的動作，它在模擬器里去做、去學習。

這兩種都是它模仿學習的起始，那么，通過模仿學習盡量讓機器人在做同樣類型事情的時候，通過深度學習網絡或者其它基于數據訓練出的網絡，讓它更貼近人給它的例子，你就要盡量模仿這個例子去生成后邊同樣場景、同樣目的下的一些動作序列。

那么強化學習它就要更多去看，這是一個多步驟的過程，那幾個步驟之間如何有很好的優化順序做過去，這是強化學習可以給予的，它通過設置最終目標，不斷看中間幾個步驟，給你獎勵和懲罰，最后讓這個操作序列達到一個最優路徑，所以這兩個對于現在機器人領域是非常重要的。

因為這樣它可以通過數據訓練，第一能夠讓機器人快速找到一個比較容易收斂的路徑過去，要不然它整個操作空間很大，你要全靠各種數據去迭代，那要花很多時間。

但有了模仿學習，有了強化學習，它就可以更快收斂到一個能夠達到可用的路徑的辦法，但這未必是最優路徑，這取決于它給予的這種訓練的資源，就是計算能力和給的時間，它會收斂在一個good enough，我們叫足夠好就行了的一個狀態，未必是最優的。

金旺：所以它其實是從編程階段，到數據驅動的過程。

宋繼強：編程我只能處理一定的場景，因為能編程的人本來就少，要編好、要去調，這是一個完全閉環的過程，所以它能處理的場景也少，場景一旦有一些變化，那就要重來。

但現在我們又希望機器人從應用量，比如說萬級到十萬級到百萬級，用到更多半開放或者全開放場景里邊去，編程顯然是不可能的，你只能靠有一套機制、一套方法，讓它能夠自己把后邊要做的事給推理出來，所以這就是一個靠數據去訓練的方式了，要靠工具。

高飛：編程有點像純粹的“人工的智能”，有多少人工就有多少智能。

Q：我們再看具身機器人這個領域的話，您剛才提到的端到端、VLA，現在都在講能做哪些高階任務，然后能執行多長程的一個任務，現在會有一個比較好的量化嗎，能執行多少步的長程任務算是高級智能。

宋繼強：沒有太好的量化評測，最近我們也看到一些科研機構都在針對具身智能、物理AI領域做一些評測的Benchmark，我們會看到越來越多人開始關注具身智能，不光看它的表演性，要看它真實能做的事情到底有做多復雜、質量有多好、一致性有多強，我覺得這是很好的事情。

你要把它的功能拆解出來的話，它首先要有比較好的場景理解和規劃，這個我覺得是靠現在很多強大的大模型會做得越來越好，那么它識別出來并做了一些規劃的話，之后我們要看針對用戶的輸入和場景里相應的一些條件，要生成一個它要去做的指令的話。

那現在就有不同的這種實施方法，現在VLA已經比較流行、大家用得比較多，通過視覺場景觀察、檢測，和用戶通過文字、語言方式給了指令要求，最后要產生相應的action，就是動作序列，那這是VLA它定義的價值。

如果說VLA已經能夠很好地解決了這個問題，那我們就認為它其實達標了，但目前看還不行，因為VLA更多是一個視覺響應為主的模型，它對于動作序列的產生更多的是在模仿在它訓練數據里產生的和語言進來的要求。

其實它就像是一個小朋友，假如這個小朋友還不大，他的眼睛和語言能力都ok了，但他對于真實世界里很多物理規律，很多可能出危險的東西他不懂，他會去看大人做什么事他也去做。

他做的過程中可能不知道一個鐵球比一個乒乓球重多少，把一個東西扔出去，什么東西會被砸壞，什么東西是彈回來，這個他也不知道，那這種情況下，我們就認為只靠VLA本身會有問題，所以就要加入更多對于世界知識的理解、物理定律的建模，包括對于未來可能發生事情的預測。

這都是隨著大腦的發育，對世界理解越來越多，就會做得更好，現在大家在把VLA+世界模型整合起來，這樣產生出來的規劃和動作序列才能更加可靠。

Q：英特爾在具身智能領域有怎樣的技術布局？

宋繼強：機器人領域首先它需要異構計算，那么剛好我們就用我們現在最新的CPU，例如我們的酷睿Ultra 3，它就是一個典型的XPU架構，里邊包含了CPU、GPU、NPU，它里邊的計算內核可以根據需要去配置。

英特爾酷睿Ultra 3有16個CPU的核、12個GPU核，然后還有NPU，它們組合起來是一個180TOPS的算力，180TOPS算力可以有不同的能效比。

如果說我要能效比最高，我可以選擇NPU，如果實時性要求比較高、又要求浮點運算能力的話，就用CPU的核來做，對實時性要求很高的我會單獨給它一個CPU核，不會讓任何人去打斷它，這樣就保證了它的實時性。

那如果對于這種運行視覺大模型，那就讓GPU部分去做，同時還要考慮到我這個系統還在實時有很多傳感器數據進來，要做這種數據的一些同步、處理的話，剛好可以用我們現在的XPU處理器架構去支持具身智能機器人上多樣性的負載。

Q：除了異構架構的話，酷睿Ultra 3針對具身機器人還有做哪些方面的優化嗎？

宋繼強：硬件層面上，首先滿足了工業級別要求的寬溫，還有對于工業級別耐用性的一些要求，另外在它的板級設計上，我們也專門把一些工業場景需要的接口都做了進去。

軟件層面上，相對來講支持的會更多，會把EtherCAT支持進去，然后把對于現在一些主流的AI的模型，不管是CNN、DNN，還是VLA的模型都做了支持，并配合我們客戶要求做了調優，這是和我們在PC領域的應用不一樣的地方。

Q：現在有在具身領域設計專用處理器嗎？

宋繼強：目前在英特爾的產品序列里，還沒有專門針對具身智能領域做的處理器，這是因為目前來講，具身智能領域還屬于發展的早期階段。

第一是它上面的工作負載，包括AI算法還遠遠沒有達到統一和成熟。

我們知道，硬件的設計周期比較長，硬件定義要能滿足軟件的需求，如果說是這個軟件算法一直在變，那對硬件來講最好的方法就是保持一定的通用性。

如果說軟件或者AI算法已經有通用標準在實施，類似于視頻編解碼，一旦形成這樣的標準，大家都要互相之間遵守，要不然你編出來的視頻他解不了，這就是很大的問題。

一旦這種互操作的標準出現之后，那對于硬件廠商來講，我們就可以根據這個標準的要求去設計專用的芯片，不管里邊的計算內核，對存儲的要求，對于互聯的這種要求都可以相應的做設計，在那個時候就比較容易去搭配通用部分和定制部分。

那我們的感覺是，如果說是這樣的標準出現之后，通常在10個月左右，一個芯片的定義一般就可以產生出來，那么再加上8-9個月去流片、做初步的測試，也許一年半就有這樣的一款芯片可以給到業界使用。

Q：CES 2026上有很多機器人，高飛老師最近也有去拉斯維加斯的CES，現場有什么是讓您感觸尤其深刻的？

高飛：我覺得去了CES之后有一種錯覺，就感覺好像人仍在中國。

因為很多在CES上火爆的具身本體，其實在國內基本上也是一樣，舉個例子，你在國內看宇樹打拳擊，在CES看到的還是宇樹在打拳擊，而且圍觀的人很多。

但是有一個場面給我印象很深刻，是在酒店的時候，當時我不知道是哪家企業，他帶著他的本體去展臺，因為都是從業人士，所以這個機器人在人群中走的時候就沒有太多人去圍觀，因為大家覺得好像習以為常，如果在現在街道上可能也這樣，所以就形成一種場景——一些人往場館走，然后一個機器人走在人群中，然后我就拍了張照片。

那張照片給我印象很深刻，就感覺好像機器人和人生活在一起了一樣。

我當時的感覺就是，可能過個5~10年，這樣一個場景可能變成了“通用場景”——我們走在路上，可能會有不同的機器人為我們做不同的事，我覺得這是我比較期待的一個場景。

04 機器人進場景，需要多少算力？

Q：英特爾在工業機器人領域哪些經驗可以復制到具身機器人領域？

宋繼強：首先是在芯片硬件平臺上保障它的實時性，以及在工業級別的可靠性，我覺得這是英特爾一直以來可以比較好支持的。

第二是說當這個行業發展到我要把機器人真用到業務系統里后，在業務系統里如何比較好地把上面的軟件調優和底層機器人硬件平臺達到一個很好的軟硬件優化，這也是英特爾的優勢。

前面我們講的很多場景，如果說機器人只是做酷炫的動作，那它就是個表演型的機器人，但如果說機器人除了這些之外還要完成一些任務，這些任務它一定是和整個系統里其它部分要通訊、交流的。

又有傳統的一些業務軟件在運行，又有機器人自己的一些控制類、動作類的（任務）在運行，那在我們這個系統看來，里邊就存在著競爭了，你如何保證我在運行其他任務時，還能保證你做控制的這些能有很好的完整性，并保障它的實時性。

所以這其實是一個完整的系統調優，英特爾在整個系統層級可以幫它從硬件到軟件層級都做得非常好。

Q：具身機器人對算力需求很高，三代酷睿已經做到了180TOPS，然后還有其他廠商有說需要更多算力，要做到數百TOPS、甚至2000TOPS。您覺得具身機器人需要多大的算力？如果下到一個具體的場景中，例如工業場景，做某一類任務大概需要多少算力？

宋繼強：在不同工業領域其實都不一樣，如果說是常規做一些機器人搬東西，從A處移到B處，我們叫pick and place的任務，它需要的算力基本上就在于它做視覺處理和VLA模型的算力，這取決于不同廠商用的VLA模型和它優化的程度。

VLA模型有開源的、有閉源的，如果拿開源的來講的話，通常來說，我們認為在200TOPS以內，模型優化好了，是可以在酷睿Ultra 3上運行的，我們已經有展示這樣的能力。

但如果客戶定義了一個自己的VLA的模型，這個模型對于計算量的需求我們就不好預估了，也許很高，也許同樣優化得很好。

但我們不怕，為什么呢，因為我們有兩個辦法：

第一，我可以在酷睿Ultra外邊再掛一個外接的AI加速卡；

第二，我們可以通過超低時延無線通訊，把它和邊緣計算盒子連起來，這也是現在非常有吸引力的一個方案，尤其是在未來，多個機器人在一個場景里去工作時，這種方案幾乎是必須的。

Q：您如何看待OpenClaw這個技術？它對英特爾的AI PC等產品會有什么影響？

宋繼強：這是一個非常正面的影響。

現在來看的話，原來在PC終端，我們把一些端側大模型放上去，但仍然需要不同種類app，或者說是應用接口，讓用戶去對它進行操作和調用，所以上面還是有蠻多不同的硬件入口的，一般用戶很難把它用好。

那現在有一個新的辦法，我只讓用戶通過自然語言方式去和它交流，把意圖告訴它，它再來拆解你這樣的要求，我要分成哪些步驟，我要去調用哪些功能，這些功能我這個PC上有沒有，有我可以直接用，沒有就要到網上去找、去學新的skill。

好處在于，它既然是在你的PC端，所以它也可以有一個更好的權限和隱私管控，可以用到個人數據去完成它的任務。

我覺得這其實也給大家開拓了一種全新的使用家用電腦的方式，也是一次人機交互革命，它一定會孕育新的硬件，我認為機器人一定也會受益。

高飛：機器人沒準也要有一個龍蝦。

宋繼強：機器人現在已經開始有了，已經有人把這個龍蝦放在機器人上了。

金旺：多智能體的決策也可以用龍蝦來實現。

宋繼強：這個決策就看你讓不讓它來做了，從我的角度來講，我會先把這個決策權放在我這兒。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.