2021年,特斯拉宣布取消Model 3和Model Y上的毫米波雷達,只保留攝像頭。一時間輿論嘩然。很多人不理解:連十幾萬的國產車都上激光雷達了,特斯拉作為全球電動車的標桿,怎么反而“倒退”了?
![]()
于是兩種解讀流傳最廣:一種是“特斯拉技術真牛,靠純算法就能搞定自動駕駛”,另一種是“馬斯克就是摳門,為了省幾百美元的成本,連安全都不顧了,而且還賭錯了——激光雷達現在便宜得很”。
這兩種說法,都太淺了。
馬斯克心里真正想的,從來不是“今天的自動駕駛怎么省錢”,而是“未來的機器人需要什么樣的感知系統”。答案很簡單:機器人要進入人類世界、替代人類工作,它就必須像人一樣看世界——用眼睛,而不是頭頂頂著一個不停旋轉的激光雷達。
一、人類世界的“底層代碼”是為視覺寫的
我們先想一個問題:我們現在的城市、道路、交通標志、車道線、紅綠燈、行人手勢……這些東西是為誰設計的?
答案是人。
所有的交通規則、標識體系、建筑布局,都是基于“人能看見”這個前提設計的。紅綠燈用紅黃綠三種顏色,是因為人眼對這三種顏色最敏感;車道線用白色或黃色,是因為和柏油路面形成對比;箭頭標志、停車線、人行橫道,一切都默認觀察者擁有一雙正常的眼睛。
如果你想讓一臺機器在這個世界上自主行動,最直接、最高效的方式,就是給它一雙“人的眼睛”。攝像頭采集到的圖像信號,和人眼看到的畫面在原理上是一致的——都是光線反射后的二維投影。只要算法足夠強,機器就能從這些圖像中提取出和人腦一樣、甚至更豐富的信息。
激光雷達不一樣。它發射激光束,測量反射時間,生成三維點云。這套系統繞開了“光學圖像”這個人類世界的底層接口。它不是不好,而是不兼容。
![]()
想象一個場景:道路施工臨時擺放了一塊指示牌,上面用紅底白字寫著“前方繞行”。任何一個人類司機看到這塊牌子,瞬間就懂了。一臺只依賴激光雷達的車呢?它看到的是一個幾何形狀的物體,無法理解“紅底白字”代表警示,更讀不懂“前方繞行”四個字。它只能靠預存的高精地圖或者車聯網通信來獲取信息,一旦沒有預先錄入,它就是盲人。
而純視覺方案的車,只要這塊牌子能被攝像頭拍到,就有機會通過圖像識別讀出上面的文字、理解它的含義。
這就是底層邏輯的差異:激光雷達感知的是“幾何世界”,而人類世界運行的規則寫在“視覺符號”里。
二、機器人要走向工廠、家庭和野外,不能頭頂雷達
馬斯克做自動駕駛,最終目的不是造一輛能在高速上跑的車。他的終極目標是——擎天柱(Optimus)人形機器人。
![]()
想象一下,未來的擎天柱要在特斯拉工廠里搬零件、在普通人家里疊衣服、在災難現場搜救。這些場景有一個共同特點:環境高度非結構化。
工廠里的料箱堆疊雜亂,家庭里有沙發、茶幾、兒童玩具,野外的路面沒有車道線、沒有紅綠燈、沒有路標。你不可能在每個地方都提前架設激光雷達,更不可能讓機器人頭頂一個旋轉的64線激光雷達到處走——成本倒是其次,關鍵是這東西機械結構脆弱、功耗高、在強光或雨雪天會失效。
更重要的是,機器人要和人共存。如果一個機器人頂著激光雷達在你家里走來走去,你是什么感覺?那旋轉的激光束會不會掃到孩子的眼睛?有沒有電磁干擾?這些問題不是不能解決,但顯然不如“兩個攝像頭”來得自然。
人類的大腦經過數百萬年進化,依靠雙眼視覺就能完成抓取、避障、導航、識別等一系列復雜任務。既然生物學已經證明“純視覺”可以支撐通用智能,那為什么機器不行?
馬斯克賭的就是這件事:只要神經網絡足夠大、訓練數據足夠多、算力足夠強,純視覺就能達到甚至超越人類的感知水平。而一旦這條路走通,不僅自動駕駛的硬件成本可以降到幾百塊錢(幾個攝像頭加一塊芯片),而且這套感知系統可以無縫移植到機器人上——攝像頭不用換,算法不用大改,訓練數據可以直接復用。
反觀激光雷達,如果你訓練了一個基于點云數據的模型,它只能在帶激光雷達的平臺上跑。你想移植到機器人上?可以,那就給機器人也裝一個。但如果機器人的應用場景是火星探測、深海作業或者家庭服務,你真的愿意依賴一個機械旋轉的激光雷達嗎?
三、“省錢”只是結果,不是原因
當然,有人會反駁:馬斯克就是算經濟賬,一個激光雷達幾百美元,一年幾百萬輛車就是十幾億美元,特斯拉的利潤率就是這么摳出來的。
這個說法把因果搞反了。
特斯拉不是“因為省錢所以選純視覺”,而是“因為認定了純視覺才是終局,所以不愿意在未來注定被淘汰的技術上浪費一美元”。馬斯克對第一性原理的癡迷眾所周知:物理上,自動駕駛到底需要什么?答案是——足夠多的環境信息。而可見光波段的信息量,遠遠大于激光雷達的點云。一個1080P的攝像頭,每秒30幀,每幀200萬個像素,每個像素有RGB三個通道,這信息密度是任何現有激光雷達都望塵莫及的。
激光雷達的優勢在于直接測距,不需要算法去推斷距離。但隨著視覺算法的進步——比如特斯拉的Occupancy Network(占據網絡)——純視覺系統已經能夠從圖像中重建出稠密的三維空間結構,精度雖然不如激光雷達,但對于駕駛和機器人操作來說,已經足夠。
更重要的是,激光雷達的價格確實在下降,從幾萬塊降到了幾千甚至幾百元。但攝像頭呢?一顆車載攝像頭成本不到50美元。就算激光雷達降到100美元,攝像頭仍然是它的一半不到。而且攝像頭沒有運動部件,可靠性更高,功耗更低,更容易過車規和安規。
所以“省錢”不是原因,而是結果——因為這條路在物理上更優雅、在工程上更簡潔、在商業上更便宜,所以馬斯克選了它。
四、這個決定的真正代價,馬斯克比誰都清楚
有人可能會說:道理我都懂,但現在特斯拉的純視覺方案確實還不夠好啊,誤判白色卡車、在雨霧天表現不佳、幽靈剎車……這些都是問題。
沒錯。馬斯克不是神,純視覺這條路確實走得艱難。它需要海量的訓練數據,需要超大規模的算力集群,需要不斷迭代的神經網絡架構。特斯拉為此自研了Dojo超級計算機,建立了數據標注和仿真系統,投入的人力物力遠不止省下來的那點激光雷達的錢。
如果馬斯克只是為了“省錢”,他完全可以像其他廠商一樣,激光雷達、攝像頭、毫米波、超聲波全堆上去,供應商方案拿來就用,反而更省錢、更省事。
他沒有這么做,是因為他看到了一個更遠的終點:當自動駕駛成熟之后,下一場戰役是通用機器人。而通用機器人的感知系統,絕不能依靠激光雷達這把“拐杖”。你現在舒服地扶著拐杖走路,到時候扔掉拐杖的那一刻,你會發現自己根本不會跑。
馬斯克選擇在自動駕駛還沒跑通的時候就去掉激光雷達,相當于讓特斯拉的算法團隊從一開始就在“hard模式”下訓練。這五年里,特斯拉的視覺算法突飛猛進,從HydraNet到BEV + Transformer,再到Occupancy Network和端到端模型,每一次迭代都在逼近“純視覺天花板”。而這些技術積累,現在已經可以直接遷移到擎天柱機器人上。
反觀那些依賴激光雷達的自動駕駛公司,他們或許在L2+級別上體驗更好,但一旦去掉激光雷達,算法性能會大幅下降。因為他們從未真正解決過“靠眼睛看懂世界”這個根本問題。
五、結語:馬斯克賭的不是技術,是世界的底層邏輯
回到最初的問題:特斯拉為什么要走純視覺?
它不是技術崇拜,不是成本摳門,也不是對激光雷達的偏見。馬斯克做了一個基于第一性原理的決策:人類世界是為視覺系統設計的,任何要在人類世界中自由行動的智能體,都必須以視覺作為首要感知通道。
激光雷達是一件很好的“工具”,但它不是人類世界的“原生產品”。你可以用它來輔助,但你不能依賴它。因為你的最終目的地——不管是L5自動駕駛,還是人形機器人——那個世界里,沒有激光雷達為你提前布設好一切。
馬斯克真正相信的是:要想造出一個能在人類世界里生存的機器,就必須讓它像人類一樣看世界。這不是技術路線之爭,這是對“智能”本質的理解問題。
你認為他是對的嗎?五年后再回頭看,答案會更清晰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.