網易首頁 > 網易號 > 正文申請入駐

特斯拉純視覺路線：不是為了省錢，是為了給機器人造“人的眼睛”

2026-05-15 06:30:21　來源: 民間胡扯老哥

廣東舉報

分享至

2021年，特斯拉宣布取消Model 3和Model Y上的毫米波雷達，只保留攝像頭。一時間輿論嘩然。很多人不理解：連十幾萬的國產車都上激光雷達了，特斯拉作為全球電動車的標桿，怎么反而“倒退”了？

于是兩種解讀流傳最廣：一種是“特斯拉技術真牛，靠純算法就能搞定自動駕駛”，另一種是“馬斯克就是摳門，為了省幾百美元的成本，連安全都不顧了，而且還賭錯了——激光雷達現在便宜得很”。

這兩種說法，都太淺了。

馬斯克心里真正想的，從來不是“今天的自動駕駛怎么省錢”，而是“未來的機器人需要什么樣的感知系統”。答案很簡單：機器人要進入人類世界、替代人類工作，它就必須像人一樣看世界——用眼睛，而不是頭頂頂著一個不停旋轉的激光雷達。

一、人類世界的“底層代碼”是為視覺寫的

我們先想一個問題：我們現在的城市、道路、交通標志、車道線、紅綠燈、行人手勢……這些東西是為誰設計的？

答案是人。

所有的交通規則、標識體系、建筑布局，都是基于“人能看見”這個前提設計的。紅綠燈用紅黃綠三種顏色，是因為人眼對這三種顏色最敏感；車道線用白色或黃色，是因為和柏油路面形成對比；箭頭標志、停車線、人行橫道，一切都默認觀察者擁有一雙正常的眼睛。

如果你想讓一臺機器在這個世界上自主行動，最直接、最高效的方式，就是給它一雙“人的眼睛”。攝像頭采集到的圖像信號，和人眼看到的畫面在原理上是一致的——都是光線反射后的二維投影。只要算法足夠強，機器就能從這些圖像中提取出和人腦一樣、甚至更豐富的信息。

激光雷達不一樣。它發射激光束，測量反射時間，生成三維點云。這套系統繞開了“光學圖像”這個人類世界的底層接口。它不是不好，而是不兼容。

想象一個場景：道路施工臨時擺放了一塊指示牌，上面用紅底白字寫著“前方繞行”。任何一個人類司機看到這塊牌子，瞬間就懂了。一臺只依賴激光雷達的車呢？它看到的是一個幾何形狀的物體，無法理解“紅底白字”代表警示，更讀不懂“前方繞行”四個字。它只能靠預存的高精地圖或者車聯網通信來獲取信息，一旦沒有預先錄入，它就是盲人。

而純視覺方案的車，只要這塊牌子能被攝像頭拍到，就有機會通過圖像識別讀出上面的文字、理解它的含義。

這就是底層邏輯的差異：激光雷達感知的是“幾何世界”，而人類世界運行的規則寫在“視覺符號”里。

二、機器人要走向工廠、家庭和野外，不能頭頂雷達

馬斯克做自動駕駛，最終目的不是造一輛能在高速上跑的車。他的終極目標是——擎天柱（Optimus）人形機器人。

想象一下，未來的擎天柱要在特斯拉工廠里搬零件、在普通人家里疊衣服、在災難現場搜救。這些場景有一個共同特點：環境高度非結構化。

工廠里的料箱堆疊雜亂，家庭里有沙發、茶幾、兒童玩具，野外的路面沒有車道線、沒有紅綠燈、沒有路標。你不可能在每個地方都提前架設激光雷達，更不可能讓機器人頭頂一個旋轉的64線激光雷達到處走——成本倒是其次，關鍵是這東西機械結構脆弱、功耗高、在強光或雨雪天會失效。

更重要的是，機器人要和人共存。如果一個機器人頂著激光雷達在你家里走來走去，你是什么感覺？那旋轉的激光束會不會掃到孩子的眼睛？有沒有電磁干擾？這些問題不是不能解決，但顯然不如“兩個攝像頭”來得自然。

人類的大腦經過數百萬年進化，依靠雙眼視覺就能完成抓取、避障、導航、識別等一系列復雜任務。既然生物學已經證明“純視覺”可以支撐通用智能，那為什么機器不行？

馬斯克賭的就是這件事：只要神經網絡足夠大、訓練數據足夠多、算力足夠強，純視覺就能達到甚至超越人類的感知水平。而一旦這條路走通，不僅自動駕駛的硬件成本可以降到幾百塊錢（幾個攝像頭加一塊芯片），而且這套感知系統可以無縫移植到機器人上——攝像頭不用換，算法不用大改，訓練數據可以直接復用。

反觀激光雷達，如果你訓練了一個基于點云數據的模型，它只能在帶激光雷達的平臺上跑。你想移植到機器人上？可以，那就給機器人也裝一個。但如果機器人的應用場景是火星探測、深海作業或者家庭服務，你真的愿意依賴一個機械旋轉的激光雷達嗎？

三、“省錢”只是結果，不是原因

當然，有人會反駁：馬斯克就是算經濟賬，一個激光雷達幾百美元，一年幾百萬輛車就是十幾億美元，特斯拉的利潤率就是這么摳出來的。

這個說法把因果搞反了。

特斯拉不是“因為省錢所以選純視覺”，而是“因為認定了純視覺才是終局，所以不愿意在未來注定被淘汰的技術上浪費一美元”。馬斯克對第一性原理的癡迷眾所周知：物理上，自動駕駛到底需要什么？答案是——足夠多的環境信息。而可見光波段的信息量，遠遠大于激光雷達的點云。一個1080P的攝像頭，每秒30幀，每幀200萬個像素，每個像素有RGB三個通道，這信息密度是任何現有激光雷達都望塵莫及的。

激光雷達的優勢在于直接測距，不需要算法去推斷距離。但隨著視覺算法的進步——比如特斯拉的Occupancy Network（占據網絡）——純視覺系統已經能夠從圖像中重建出稠密的三維空間結構，精度雖然不如激光雷達，但對于駕駛和機器人操作來說，已經足夠。

更重要的是，激光雷達的價格確實在下降，從幾萬塊降到了幾千甚至幾百元。但攝像頭呢？一顆車載攝像頭成本不到50美元。就算激光雷達降到100美元，攝像頭仍然是它的一半不到。而且攝像頭沒有運動部件，可靠性更高，功耗更低，更容易過車規和安規。

所以“省錢”不是原因，而是結果——因為這條路在物理上更優雅、在工程上更簡潔、在商業上更便宜，所以馬斯克選了它。

四、這個決定的真正代價，馬斯克比誰都清楚

有人可能會說：道理我都懂，但現在特斯拉的純視覺方案確實還不夠好啊，誤判白色卡車、在雨霧天表現不佳、幽靈剎車……這些都是問題。

沒錯。馬斯克不是神，純視覺這條路確實走得艱難。它需要海量的訓練數據，需要超大規模的算力集群，需要不斷迭代的神經網絡架構。特斯拉為此自研了Dojo超級計算機，建立了數據標注和仿真系統，投入的人力物力遠不止省下來的那點激光雷達的錢。

如果馬斯克只是為了“省錢”，他完全可以像其他廠商一樣，激光雷達、攝像頭、毫米波、超聲波全堆上去，供應商方案拿來就用，反而更省錢、更省事。

他沒有這么做，是因為他看到了一個更遠的終點：當自動駕駛成熟之后，下一場戰役是通用機器人。而通用機器人的感知系統，絕不能依靠激光雷達這把“拐杖”。你現在舒服地扶著拐杖走路，到時候扔掉拐杖的那一刻，你會發現自己根本不會跑。

馬斯克選擇在自動駕駛還沒跑通的時候就去掉激光雷達，相當于讓特斯拉的算法團隊從一開始就在“hard模式”下訓練。這五年里，特斯拉的視覺算法突飛猛進，從HydraNet到BEV + Transformer，再到Occupancy Network和端到端模型，每一次迭代都在逼近“純視覺天花板”。而這些技術積累，現在已經可以直接遷移到擎天柱機器人上。

反觀那些依賴激光雷達的自動駕駛公司，他們或許在L2+級別上體驗更好，但一旦去掉激光雷達，算法性能會大幅下降。因為他們從未真正解決過“靠眼睛看懂世界”這個根本問題。

五、結語：馬斯克賭的不是技術，是世界的底層邏輯

回到最初的問題：特斯拉為什么要走純視覺？

它不是技術崇拜，不是成本摳門，也不是對激光雷達的偏見。馬斯克做了一個基于第一性原理的決策：人類世界是為視覺系統設計的，任何要在人類世界中自由行動的智能體，都必須以視覺作為首要感知通道。

激光雷達是一件很好的“工具”，但它不是人類世界的“原生產品”。你可以用它來輔助，但你不能依賴它。因為你的最終目的地——不管是L5自動駕駛，還是人形機器人——那個世界里，沒有激光雷達為你提前布設好一切。

馬斯克真正相信的是：要想造出一個能在人類世界里生存的機器，就必須讓它像人類一樣看世界。這不是技術路線之爭，這是對“智能”本質的理解問題。

你認為他是對的嗎？五年后再回頭看，答案會更清晰。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.