如今,但凡是個新車發布會,“自動駕駛”、“純視覺感知”、“算力天花板”這些高大上的詞匯簡直滿天飛。銷售人員會信誓旦旦地告訴你,現在的汽車已經長了“眼睛”,不需要人管了。
但是,面對馬路上頻發的智駕失控事故,我們不禁要打一個巨大的問號:這套被包裝得極具未來感的“智能駕駛方案”,真的有那么神奇嗎?
![]()
其實,只要撕開營銷的華麗包裝,去深挖底層的技術歷史就會發現一個驚人的事實:真正限制汽車變成“老司機”的,從來都不是那幾顆外表炫酷的高清攝像頭;而很多車企引以為傲的“視覺感知”技術,其核心底層邏輯甚至在半個世紀前就已經成型了……
![]()
很多人以為自動駕駛是近幾年才有的高科技,其實不然。早在1939年的紐約世博會上,通用汽車就展出過通過無線電波引導的自動駕駛概念。但這更像是個大號的“遙控玩具車”,本質上是人在后臺遙控。到了1960年,斯坦福大學也搗鼓出了“斯坦福車”,但距離真正的自動駕駛依然遙遠。
真正的歷史轉折點,發生在1977年的日本。
在日本機械技術研究所的實驗室里,誕生了一臺極其接近現代自動駕駛定義的汽車。這臺50年前的“老古董”,沒有裝備任何雷達,而是使用了兩臺攝像機作為汽車的“眼睛”。它的核心原理非常巧妙,利用了類似人類雙眼的“雙目視差原理”。
![]()
這其實很好理解:你現在豎起一根手指放在臉前,交替閉上左眼和右眼,你會發現手指在背景中的位置好像左右移動了。人腦就是通過對比左右眼這兩幅畫面的差異,來計算出物體距離我們的遠近;差異越大離得越近,差異越小離得越遠。
1977年的這臺車,就是利用這種方式,在沒有雷達的情況下完成了收集前方路面信息的任務。
但問題來了,1977年的計算機芯片算力弱得可憐,根本無法像人腦一樣處理復雜的圖像信息。于是,當時的科研人員想出了一個極其聰明卻又死板的辦法:視頻信號二值化。
簡單來說,就是把攝像機拍到的復雜畫面,根據亮度強制過濾成“黑白兩色”。工程師設定了一個死規矩:黑色的部分就是能讓車子開的道路,白色的部分就是不能開的禁區。
系統只遵循最簡單的邏輯:看見黑就走,看見白就停。
聽到這里你可能會笑出聲,覺得這太粗糙了。但令人遺憾的是,直到今天,市面上絕大多數車企的輔助駕駛系統,其底層的運作邏輯依然沒有完全擺脫這種“背誦規則、執行規則”的老套路。
![]()
今天的汽車確實能識別出車輛和車道線,但它的核心依然是一個“規則執行器”。比如,攝像頭看到前方有障礙物,系統不會直接停車,而是去匹配規則:檢查旁邊有沒有車?檢查地上是不是虛線?如果都滿足,就變道繞開;如果有一個不滿足,就立刻停車或退出智駕。
![]()
既然是基于規則,那么這套系統就存在一個致命的軟肋:現實世界是極其復雜且充滿偶然性的,人類天生就是會“破壞規則”的物種。
我們來看一個極其生活化的場景。假設自動駕駛系統的規則庫里寫得清清楚楚:“只要攝像頭識別到紅色的‘停車(STOP)’標識牌,就必須立刻踩死剎車。”
![]()
但如果今天路邊走過一個剛從超市買完東西的大姐,她手里正好拿著一個準備帶回家掛在墻上當裝飾的“停車”標識牌呢?
作為人類老司機,我們只要瞥一眼這位大姐的動作和周圍的環境,就能輕易判斷出這根本不是交通信號,一腳油門就開過去了。但對于死板的規則匹配器來說,這簡直就是一場災難:規則告訴我看到牌子就要停,那我就必須在大馬路中央猛踩一腳急剎車!
這就是業內常說的“邊緣場景”。這些超出常規邏輯的突發狀況,往往極其致命。
為了解決系統“感知不準”和“規則死板”的問題,目前很多無人駕駛出租車(比如蘿卜快跑)背后,依然坐鎮著一個個遠程的安全員。遇到系統處理不了的奇葩情況,人類安全員就立刻遠程接管。
為什么投入百億研發的智能系統,在關鍵時刻還是得靠人類兜底?答案極其簡單:因為人是活的,人的大腦具備強大的“推理和常識補全能力”。
![]()
舉個不恰當但很直觀的例子。人類在開車時,如果看到路邊滾出來一個皮球,我們會立刻下意識地減速備剎車。因為我們的常識告訴我們:皮球后面,極有可能跟著一個追球的小孩。
但基于規則的智駕系統不懂這個常識,在它的眼里,皮球就是一個質量很輕、撞上去也無妨的低危險度障礙物。
更何況,中國城市里的交通規則簡直是多如牛毛。以杭州為例,有的公交專用道在非高峰期允許私家車借道,有的卻絕對不行;有的車道早上是由東向西,到了晚上就變成了由西向東的“潮汐車道”;有的斑馬線紅綠燈只在特定時間段亮起,不亮時又要遵循“禮讓行人”的規則。
全國那么多城市,那么多奇葩的特例,如果全靠工程師坐在辦公室里一行一行地去添加“If-Then(如果-那么)”的規則,把程序員累到脫發也寫不完。
![]()
既然“窮舉規則”這條路已經走進了死胡同,那么到底什么才是自動駕駛的終極出路?能不能讓車子變得和人類一樣,會自己思考、自己觀察、自己理解復雜的路況呢?
為了徹底解決規則匹配帶來的種種隱患,如今最前沿的汽車廠商紛紛拋出了一個革命性的技術——“端到端”(End-to-End)模型。
![]()
很多消費者一聽到這種抽象的專業詞匯就頭大。其實說句人話:“端到端”的終極目標,就是徹底拋棄那些死板的規則,利用類似于ChatGPT那樣的大模型技術,讓汽車自己在海量的真實駕駛案例中去“找規律”。
在過去的模式下,攝像頭看到東西,要先識別,再判斷,最后去規則庫里翻找對應的處理辦法。而在“端到端”的邏輯下,一切變得簡單粗暴:攝像頭看到復雜的路況(輸入端),不需要一步步去匹配規則,而是憑借大模型學到的直覺,直接輸出踩剎車還是打方向盤的動作(輸出端)。
這就像是教人學游泳。傳統的規則方案,是給學徒發一本《流體力學與人體工程學》,讓他背誦入水角度和劃水頻率;而“端到端”方案,是直接把他扔進水池里,讓他看幾萬個專業游泳運動員的動作視頻,自己去領悟。
在“端到端”的加持下,工程師不需要再去手動編寫應對每一個奇葩場景的應對方案。當系統遇到前所未見的奇怪反光、造型詭異的改裝車時,它會像人類一樣去推理,而不是死板地報錯退出。這種架構在邏輯上,才真正接近了真實人類的開車方式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.