[首發于智駕最前沿微信公眾號]這兩年自動駕駛領域出現了一個明顯的技術轉向,大家都開始談端到端、世界模型,行業也從硬件堆料走向了大模型的比拼。2026年4月,Momenta發布了R7強化學習世界模型,將端到端與世界模型推到了一個更深的層次。Momenta的R7強化學習世界模型為自動駕駛行業帶來了什么?
端到端大模型改變了什么?
傳統的自動駕駛路徑是將駕駛任務拆分成多個獨立環節,感知模塊用于識別車道線、車輛、行人,再把識別結果交給預測模塊去推測其他交通參與者的未來走向,規劃控制模塊則根據這些信息決定方向盤轉多少、車速怎么調。這種模塊化的好處是每個環節明確可控,壞處也很明顯,那就是信息在模塊之間傳遞時會丟失,各模塊的目標也不一定對齊,整個系統的上限很難突破。
端到端大模型的思路完全不同,它不再做人工切分,而是把傳感器采集到的圖像、點云等原始信號直接輸入一個統一的神經網絡,輸出的信息則是方向盤轉角、油門剎車等控制指令。2024年,Momenta推出了一段式端到端,也就是感知和規劃被整合到同一個大模型中,中間沒有傳統意義上的模塊邊界,這讓自動駕駛汽車從看見到行動可以一步完成。
![]()
圖片源自:網絡
端到端大模型也讓系統的行為表現更連貫,更接近人類的駕駛習慣。人類開車的時候不會把看見前車剎車燈和決定收油減速拆成兩個獨立環節來思考,整個過程是融合且流暢的。一段式端到端模型從數據中學到的正是這種映射關系。它不再依賴手工編寫的規則來處理跟車、變道、繞行,而是從大量真實駕駛數據中自己歸納出合理的駕駛策略,這一技術方案下,加速剎車更平順,變道時機的選擇也更自然。
強化學習能讓AI開車超過人類嗎?
端到端模型雖然解決了一體化驅動決策的問題,但它有一個內生的局限,那就是訓練方式主要依賴模仿學習。模仿學習,簡單說就是讓模型去看人類司機怎么開,然后學著開,它的效果上限就是人類的表現水平,而人類駕駛本身遠遠談不上完美。對于一些極少遇到的復雜場景,人類數據本身就很稀缺,模型也就無從學起。
2025年,Momenta在端到端的基礎上引入了強化學習,推出R6飛輪大模型。據相關報道,這是國內第一個將強化學習與端到端架構結合并真正跑通的方案。強化學習的機制和模仿學習迥然不同,系統不再只是照搬人類行為,而是在虛擬環境中自己摸索。它會嘗試各種駕駛操作,如果安全順利地完成了目標,就獲得一個獎勵信號;如果發生碰撞、壓線或急剎,就會收到懲罰。通過海量的試錯和反饋,系統可以自己找到一套更優的駕駛方式,這種方式完全可以超越人類預先提供的經驗。
![]()
圖片源自:網絡
用強化學習訓練出來的模型,有幾個看得見的能力提升。它對潛在風險的反應更快,比如在路口觀察到側方車輛有闖紅燈跡象時,系統會提前微調車速以減少沖突可能,而不是等到危險迫近才剎停。此外,它的加減速控制和車道選擇更偏向全局平順,很少出現突兀的重剎或急促的變道。當這種模型在虛擬世界里跑過千萬次交互場景之后,很多現實中萬分之一概率才會碰到的邊緣情況,它也了可以應付自如。
世界模型到底在理解什么?
如果說端到端和強化學習解決的是怎么開的問題,那Momenta在2026年推出的R7世界模型,瞄準的則是一個更前置的問題,那就是AI是不是真的理解周圍正在發生什么。
世界模型這個概念,可以從三個層級來理解。最底層叫世界模型預訓練,這個階段利用海量的真實駕駛數據,把物理規律和常識壓縮進模型。像是車輛的動力特性、行人突然橫移的運動軌跡、雨天路面摩擦力的變化,這些知識不是靠人工標注標記出來的,而是模型通過對大量視頻數據的預測訓練自己學到的。它學習的方式是嘗試預測下一時刻的畫面狀態,即物體將移動到哪個位置、交通燈會不會切換、前車會不會變道等,預測得越準,說明它對物理世界的運行邏輯理解得越好。
中間層是世界模型仿真,預先訓練好的世界模型可以在數字空間里充當一個高保真的駕駛模擬器。給模型一個自車動作,它就能推演出周圍環境接下來會如何演變,這個能力讓自動駕駛系統可以在虛擬環境中安全地經歷大量如隧道口的眩光、夜間無燈鄉道、高速公路上的落物等危險場景,而不必真的把實車放在危險場景中訓練。
![]()
圖片源自:網絡
最頂層則是在世界模型中進行強化學習,即把前兩層構建的虛擬世界作為訓練場,讓強化學習在這個高度真實的世界里充分探索。這樣一來,系統就不再是在一個死記硬背的數據集上做訓練,而是在一個懂得物理規律的模擬社會里反復推演。
可以想象一個場景,對于前方車輛掉下一箱蘋果,傳統端到端模型如果沒見過這個畫面,可能完全不知所措;而R7世界模型因為理解物體滾落這一物理過程本身的規律(蘋果會沿路面向前翻滾、擴散、逐漸停止),就可以在不必事先見過這個具體場景的情況下,做出平穩減速和合理繞行的決策。這種能力的本質,是從記憶走向了推理。
![]()
圖片源自:網絡
曹旭東在發布R7時這樣解釋他們的邏輯,預測是智能進化的核心基石。大語言模型通過預測下一個詞來壓縮數字世界的常識,而世界模型則通過預測物理世界未來的狀態來理解物體的屬性和因果關系,這就要求系統不但要看得見,還要想得明白。
從開車到理解世界,背后是一場能力重塑
沿著這條技術路線推演下來,Momenta過去幾年做的事情其實有一條清晰的主線。一段式端到端讓系統掌握了從感知直達行動的能力,強化學習讓它在自己的試錯中突破了人類行為的上限,而R7世界模型則試著把物理常識和因果推理真正放進AI的底層認知里。
三層技術疊加在一起,讓自動駕駛系統從一個執行規則的工具,逐步變成一個能理解環境規律、預判未來演變、自主做出決策的智能體。它不再讓車在固定道路上不出錯,而是讓車在面對從未見過的陌生情境時,仍然能夠基于對世界運行方式的理解,做出穩妥的判斷。如果這條路走通,自動駕駛的安全天花板會被打開一個全新的維度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.