<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ColaVLA:自動(dòng)駕駛大模型,不一定非要把「思考過(guò)程」寫(xiě)成文字

      0
      分享至



      過(guò)去兩年,自動(dòng)駕駛和大模型的結(jié)合越來(lái)越熱。一個(gè)很自然的方向是:既然視覺(jué)語(yǔ)言模型已經(jīng)具備很強(qiáng)的場(chǎng)景理解和推理能力,那能不能讓它像人類司機(jī)一樣,先理解環(huán)境、再做判斷、最后輸出軌跡?

      這條路線聽(tīng)起來(lái)很合理,但真正落到自動(dòng)駕駛上,很快就會(huì)遇到一個(gè)問(wèn)題:很多方法雖然引入了大模型,卻仍然把「推理」做成了文本鏈?zhǔn)酵评怼R簿褪钦f(shuō),模型要先生成中間解釋,再把這些解釋一步步轉(zhuǎn)成動(dòng)作或軌跡。這樣做的優(yōu)點(diǎn)是看起來(lái) 「更會(huì)思考」,但代價(jià)也非常明顯:文本是離散 token,而軌跡是連續(xù)控制;文本推理還依賴自回歸解碼,速度慢、鏈路長(zhǎng),不太適合實(shí)時(shí)駕駛。

      來(lái)自清華大學(xué)與香港中文大學(xué) MMLab 的研究團(tuán)隊(duì)提出了全新的隱空間推理與層次化軌跡規(guī)劃的 VLA 框架 --ColaVLA,論文已經(jīng)被 CVPR2026 主會(huì)接收。



      • 論文標(biāo)題:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
      • 論文鏈接: https://arxiv.org/abs/2512.22939
      • 代碼鏈接: https://github.com/pqh22/ColaVLA

      這篇論文給出的答案很直接:自動(dòng)駕駛中的推理,不一定要寫(xiě)成文字。

      與其讓模型「邊說(shuō)邊想」,不如讓它在統(tǒng)一潛空間里完成推理,再把結(jié)果直接交給動(dòng)作規(guī)劃器。這樣既能保留 VLM 的語(yǔ)義先驗(yàn)和知識(shí)能力,又能繞開(kāi)顯式文本生成帶來(lái)的延遲和表示錯(cuò)位。

      整篇論文最重要的貢獻(xiàn),其實(shí)可以概括成兩句話:第一,把推理從文本空間搬到潛空間;第二,把軌跡生成從串行過(guò)程改成分層并行過(guò)程。



      一、核心思路:先「想清楚」,再「開(kāi)出來(lái)」

      ColaVLA 的整體框架由兩個(gè)核心部分組成:

      • Cognitive Latent Reasoner:負(fù)責(zé)完成高層駕駛認(rèn)知
      • Hierarchical Parallel Planner:負(fù)責(zé)把高層策略展開(kāi)成連續(xù)軌跡

      作者的目標(biāo)不是簡(jiǎn)單把一個(gè)大模型接到規(guī)劃器前面,而是重新定義「推理」和「動(dòng)作」之間的接口,讓二者真正對(duì)齊。

      先看前半部分,也就是潛空間推理器。作者把它設(shè)計(jì)成一個(gè)很像人類司機(jī)的四步過(guò)程:

      • Understand
      • Recognize
      • Rethink
      • Decide

      這四步看上去很直觀,但真正巧妙的地方在于,它們都不是通過(guò)自然語(yǔ)言完成的,而是在統(tǒng)一潛空間中隱式完成。

      第一步 Understand,是先整體看懂場(chǎng)景。模型會(huì)把多視角視覺(jué)信息、固定駕駛提示和 ego 車狀態(tài)一起送入共享 VLM,先建立一個(gè)全局場(chǎng)景理解,而不是一上來(lái)就直接回歸軌跡。

      第二步 Recognize,是從大量視覺(jué)信息里篩出真正和當(dāng)前駕駛動(dòng)作相關(guān)的關(guān)鍵實(shí)體。這里論文設(shè)計(jì)了一個(gè) ego-adaptive router,根據(jù)當(dāng)前自車狀態(tài)動(dòng)態(tài)選擇最重要的視覺(jué) token,保留的通常是車道、鄰近車輛、行人、交通燈這些安全關(guān)鍵線索,而不是無(wú)差別地處理整張圖。

      第三步 Rethink,則是在壓縮后的關(guān)鍵信息上再做一次 “復(fù)核式推理”,并借助一組可學(xué)習(xí)的 meta-query 來(lái)表示不同高層駕駛策略。

      最后一步 Decide,輸出的也不是一句解釋文本,而是一組面向動(dòng)作生成的高層駕駛先驗(yàn)。這樣一來(lái),模型就不再需要把推理結(jié)果先翻譯成自然語(yǔ)言,再?gòu)恼Z(yǔ)言翻譯回動(dòng)作空間,而是直接完成從認(rèn)知到策略的內(nèi)部閉合。



      二、真正落到動(dòng)作層面,它的規(guī)劃器為什么更合理?

      很多自動(dòng)駕駛方法的問(wèn)題,不只是上游推理方式不合適,下游軌跡生成方式也未必真正符合駕駛動(dòng)作的結(jié)構(gòu)。有些方法一次性直接回歸整條軌跡,雖然簡(jiǎn)單,但缺少層次;有些方法依賴復(fù)雜生成過(guò)程,雖然表達(dá)能力強(qiáng),但效率和部署穩(wěn)定性不一定理想。

      ColaVLA 這里的思路很清晰:駕駛軌跡本來(lái)就是分層的,所以生成過(guò)程也應(yīng)該分層。

      論文提出的Hierarchical Parallel Planner有三個(gè)關(guān)鍵詞:

      • 先粗后細(xì)
      • 保持因果
      • 并行解碼

      它不是把未來(lái)軌跡當(dāng)作一個(gè)扁平輸出,而是先確定粗粒度意圖,再逐步補(bǔ)足中間細(xì)節(jié)。這更像真實(shí)駕駛員的決策方式:先想清楚「往哪去」,再?zèng)Q定「具體怎么走」。

      同時(shí),作者還設(shè)計(jì)了一個(gè) causality-preserving 的注意力機(jī)制,保證不同尺度之間的信息流是從粗到細(xì)、逐層細(xì)化的,而不是相互泄漏。這樣一來(lái),多尺度結(jié)構(gòu)就不只是形式上的分解,而是真正具有因果約束的軌跡生成過(guò)程。

      更重要的是,這個(gè) planner 可以在單次前向傳播中并行完成多尺度、多模式軌跡解碼,不用再像文本 CoT 那樣一步一步串行生成。



      三、實(shí)驗(yàn)結(jié)果說(shuō)明了什么?

      從結(jié)果上看,ColaVLA 最打動(dòng)人的地方,不只是「指標(biāo)更高」,而是它同時(shí)兼顧了精度、安全和效率。

      1. Open-loop:不只是預(yù)測(cè)更準(zhǔn),而且更安全

      在 nuScenes 的開(kāi)環(huán)評(píng)測(cè)中,ColaVLA 在動(dòng)作類方法里取得了最優(yōu)綜合表現(xiàn),平均 L2 誤差為0.30 m,平均碰撞率為0.23%。相比強(qiáng)基線 SOLVE-E2E,L2 進(jìn)一步下降,碰撞率也明顯降低。

      這說(shuō)明它輸出的軌跡并不只是數(shù)值上更接近真值,而是在安全性層面也更優(yōu)。



      2. Closed-loop:真正體現(xiàn)方法價(jià)值的部分

      在更關(guān)鍵的閉環(huán)評(píng)測(cè) NeuroNCAP 中,ColaVLA 的平均得分達(dá)到3.48,平均碰撞率降到36.8%,明顯優(yōu)于多種前序方法。

      論文特別指出,相比依賴文本推理、并使用額外數(shù)據(jù)的 ImpromptuVLA,ColaVLA 在不顯式生成文本思維鏈的情況下,依然取得了更好的閉環(huán)表現(xiàn)。

      這個(gè)結(jié)果很有說(shuō)服力,因?yàn)樗f(shuō)明:對(duì)自動(dòng)駕駛來(lái)說(shuō),更長(zhǎng)、更復(fù)雜的文字推理鏈,并不一定能帶來(lái)更好的真實(shí)駕駛行為;真正關(guān)鍵的,還是內(nèi)部決策表征是否適合動(dòng)作生成,以及規(guī)劃器是否具有合理的因果結(jié)構(gòu)。



      3. 推理效率:它把「落地可能性」往前推了一步

      效率上,ColaVLA 也給出了非常亮眼的結(jié)果。在扎實(shí)的工程優(yōu)化后,它的在 H200 上的端到端推理延遲為228 ms/frame,而對(duì)比的文本式方法整體快了5 倍到 10 倍左右。

      這意味著,把推理從文本搬到潛空間,并不只是概念上更優(yōu)雅,而是真的換來(lái)了實(shí)打?qū)嵉乃俣仁找妗?duì)于強(qiáng)調(diào)閉環(huán)和實(shí)時(shí)性的自動(dòng)駕駛來(lái)說(shuō),這一點(diǎn)尤其關(guān)鍵。

      四、消融實(shí)驗(yàn)最值得記住的幾點(diǎn)

      這篇論文的消融實(shí)驗(yàn)也比較完整,但最值得記住的其實(shí)只有四點(diǎn)。

      第一,潛空間推理本身確實(shí)有效。只要加入 latent reasoning,模型的軌跡誤差就會(huì)下降;再加入 rethink 階段,效果還會(huì)進(jìn)一步提升。這說(shuō)明「先抓關(guān)鍵、再做復(fù)核」的認(rèn)知鏈條不是敘事包裝,而是真正有助于決策質(zhì)量。

      第二,分層并行規(guī)劃器本身也很重要。即便把 reasoning 模塊去掉,作者的 planner 在閉環(huán)上依然明顯優(yōu)于普通 MLP 頭和 diffusion 頭,說(shuō)明它確實(shí)更符合真實(shí)駕駛動(dòng)作的生成邏輯。

      第三,關(guān)鍵 token 不是越多越好,而是平衡最好最重要。保留太少會(huì)丟信息,保留太多又會(huì)引入冗余,論文最終選擇了一個(gè)在表達(dá)能力和效率之間更均衡的配置。

      第四,最優(yōu)的軌跡生成方式不是一次性回歸整條軌跡,而是先確定關(guān)鍵點(diǎn),再逐層補(bǔ)齊中間細(xì)節(jié),這和駕駛動(dòng)作本身的因果結(jié)構(gòu)是對(duì)得上的。

      五、這篇論文真正有價(jià)值的地方是什么?

      如果只把 ColaVLA 看成「又一個(gè)自動(dòng)駕駛模型」,其實(shí)低估了它。

      我覺(jué)得這篇工作的更大意義在于,它提出了一個(gè)非常明確的判斷:

      自動(dòng)駕駛中的推理,不一定需要顯式寫(xiě)成文字。

      過(guò)去很多工作默認(rèn)認(rèn)為,大模型的優(yōu)勢(shì)來(lái)自「會(huì)解釋」「會(huì)說(shuō)話」「能輸出思維鏈」。但 ColaVLA 給出的答案是:在自動(dòng)駕駛這種連續(xù)控制任務(wù)里,更重要的也許不是「讓模型把思考說(shuō)出來(lái)」,而是「讓模型在內(nèi)部真正想清楚,并用更適合動(dòng)作生成的方式表達(dá)出來(lái)」。

      從這個(gè)角度看,它代表的是一種很值得重視的范式變化:

      • 從text reasoning轉(zhuǎn)向latent reasoning
      • 從sequential decoding轉(zhuǎn)向parallel decoding
      • 從「展示推理過(guò)程」轉(zhuǎn)向「兼顧安全、效率和閉環(huán)表現(xiàn)」

      論文最后的結(jié)論也很清楚:把推理從文本遷移到潛空間,為自動(dòng)駕駛中的知識(shí)驅(qū)動(dòng)決策提供了一條更可擴(kuò)展、也更現(xiàn)實(shí)的路徑。

      六、總結(jié)

      如果要用一句話總結(jié) ColaVLA,我會(huì)這樣說(shuō):

      它不是讓自動(dòng)駕駛大模型「更會(huì)說(shuō)」,而是讓它「更會(huì)在內(nèi)部想清楚,再更快地開(kāi)出來(lái)」。

      這篇論文最核心的貢獻(xiàn),不只是提出了一個(gè)新模塊,也不只是刷新了幾項(xiàng)指標(biāo),而是它證明了下面幾件事:

      1. 自動(dòng)駕駛里的推理,可以不依賴顯式文本思維鏈;
      2. 潛空間推理同樣可以保留高層駕駛決策能力;
      3. 分層并行、因果一致的規(guī)劃器,更適合真實(shí)駕駛動(dòng)作生成;
      4. 當(dāng)推理形式和動(dòng)作生成真正對(duì)齊時(shí),系統(tǒng)才能同時(shí)獲得更好的安全性、效率和閉環(huán)表現(xiàn)。

      對(duì)于后續(xù)自動(dòng)駕駛大模型的發(fā)展來(lái)說(shuō),這篇工作很可能代表著一個(gè)很值得繼續(xù)深入的方向:

      不是把大模型硬塞進(jìn)自動(dòng)駕駛,而是重新設(shè)計(jì)一種真正適合自動(dòng)駕駛的大模型推理方式。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      硬剛國(guó)際足聯(lián)!轉(zhuǎn)播費(fèi)從2.5億砍至6000萬(wàn),打破天價(jià)收割夢(mèng)

      硬剛國(guó)際足聯(lián)!轉(zhuǎn)播費(fèi)從2.5億砍至6000萬(wàn),打破天價(jià)收割夢(mèng)

      樂(lè)享人生風(fēng)雨
      2026-05-05 09:21:22
      五一高速電車與油車之爭(zhēng)再掀熱議,24%電車車主的真實(shí)困境!

      五一高速電車與油車之爭(zhēng)再掀熱議,24%電車車主的真實(shí)困境!

      阿芒娛樂(lè)說(shuō)
      2026-05-04 15:01:49
      新款不知火舞性感手辦推出!前凸后翹難以抵擋!

      新款不知火舞性感手辦推出!前凸后翹難以抵擋!

      游民星空
      2026-05-03 23:45:02
      尺度在線,沖著顏值和肉體刷一部爽片,女神美極了

      尺度在線,沖著顏值和肉體刷一部爽片,女神美極了

      嘴角上翹的弧度
      2026-05-05 08:53:48
      賴清德專機(jī)繞路返航,4架戰(zhàn)機(jī)護(hù)航盡顯心虛

      賴清德專機(jī)繞路返航,4架戰(zhàn)機(jī)護(hù)航盡顯心虛

      音樂(lè)時(shí)光的娛樂(lè)
      2026-05-05 14:30:00
      迪尼:搞不清曼聯(lián)的踢球風(fēng)格到底是什么,每周戰(zhàn)術(shù)都在變

      迪尼:搞不清曼聯(lián)的踢球風(fēng)格到底是什么,每周戰(zhàn)術(shù)都在變

      懂球帝
      2026-05-05 15:36:06
      烏克蘭無(wú)人機(jī)擊中莫斯科目標(biāo),距離克里姆林宮僅6公里

      烏克蘭無(wú)人機(jī)擊中莫斯科目標(biāo),距離克里姆林宮僅6公里

      山河路口
      2026-05-04 16:46:48
      “預(yù)言帝”墨菲惜敗吳宜澤后自嘲:我現(xiàn)在很討厭自己

      “預(yù)言帝”墨菲惜敗吳宜澤后自嘲:我現(xiàn)在很討厭自己

      封面新聞
      2026-05-05 10:24:05
      荷蘭光刻機(jī)巨頭:中國(guó)人太聰明了,封鎖中國(guó)活不下去的是西方企業(yè)

      荷蘭光刻機(jī)巨頭:中國(guó)人太聰明了,封鎖中國(guó)活不下去的是西方企業(yè)

      時(shí)尚的弄潮
      2026-05-05 14:43:31
      14.69萬(wàn)起!奔馳官宣:三車齊降價(jià)

      14.69萬(wàn)起!奔馳官宣:三車齊降價(jià)

      手機(jī)評(píng)測(cè)室
      2026-05-05 11:50:52
      他被譽(yù)為軍中“將圣”,主席評(píng)價(jià):沒(méi)有他,新中國(guó)要晚十年成立

      他被譽(yù)為軍中“將圣”,主席評(píng)價(jià):沒(méi)有他,新中國(guó)要晚十年成立

      小莜讀史
      2026-04-11 18:05:28
      5月車市“神仙打架”!這10款大六/七座SUV殺瘋了,最高純電950km

      5月車市“神仙打架”!這10款大六/七座SUV殺瘋了,最高純電950km

      侃故事的阿慶
      2026-05-04 14:57:34
      段鵬79歲臨終前說(shuō)出隱情:和尚死在黑云寨,是因?yàn)楹蜕兄懒恕?>
    </a>
        <h3>
      <a href=呆子的故事
      2026-02-10 14:44:11
      工齡39年2個(gè)月,個(gè)人賬戶215260.07元,60歲退休養(yǎng)老金真不錯(cuò)!

      工齡39年2個(gè)月,個(gè)人賬戶215260.07元,60歲退休養(yǎng)老金真不錯(cuò)!

      阿萊美食匯
      2026-05-04 19:14:22
      康利:愛(ài)德華茲為趕上G1付出了極大努力,他是我們的英雄

      康利:愛(ài)德華茲為趕上G1付出了極大努力,他是我們的英雄

      懂球帝
      2026-05-05 14:42:04
      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      奇思妙想草葉君
      2026-01-21 22:47:01
      記者:老佛爺誰(shuí)都看不上,克洛普也不行,他已經(jīng)看淡足壇事務(wù)

      記者:老佛爺誰(shuí)都看不上,克洛普也不行,他已經(jīng)看淡足壇事務(wù)

      懂球帝
      2026-05-05 12:26:04
      賴清德“偷渡式”竄訪非洲,返程路被徹底堵死,洪秀柱:別回來(lái)了

      賴清德“偷渡式”竄訪非洲,返程路被徹底堵死,洪秀柱:別回來(lái)了

      孤城落葉
      2026-05-05 15:30:59
      倫敦世乒賽:5月5日賽程出爐!16強(qiáng)席位揭曉,國(guó)乒男團(tuán)再次亮相

      倫敦世乒賽:5月5日賽程出爐!16強(qiáng)席位揭曉,國(guó)乒男團(tuán)再次亮相

      等等talk
      2026-05-05 09:45:24
      1998年數(shù)萬(wàn)華人遭屠殺,中國(guó)為何沒(méi)出兵?26年后答案讓人沉默

      1998年數(shù)萬(wàn)華人遭屠殺,中國(guó)為何沒(méi)出兵?26年后答案讓人沉默

      哄動(dòng)一時(shí)啊
      2026-02-17 22:21:25
      2026-05-05 16:39:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12917文章數(shù) 142642關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋(píng)果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      伊朗警告阿聯(lián)酋:勿當(dāng)以色列棋子 否則將得到難忘教訓(xùn)

      頭條要聞

      伊朗警告阿聯(lián)酋:勿當(dāng)以色列棋子 否則將得到難忘教訓(xùn)

      體育要聞

      全世界都等著看他笑話,他帶國(guó)米拿下冠軍

      娛樂(lè)要聞

      英皇25周年演唱會(huì) 張敬軒被救護(hù)車?yán)?/h3>

      財(cái)經(jīng)要聞

      五一假期,中國(guó)年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      本地
      健康
      教育
      游戲
      公開(kāi)課

      本地新聞

      用青花瓷的方式,打開(kāi)西溪濕地

      干細(xì)胞治燒燙傷面臨這些“瓶頸”

      教育要聞

      語(yǔ)法第3課(上)-英文造句的被動(dòng)結(jié)構(gòu)

      “百萬(wàn)元”買不到國(guó)產(chǎn)大作的廁所!玩家:美少女不需要

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: jizz亚洲| 亚洲狠狠网站色噜噜| 色 亚洲 日韩 国产 综合| 在线观看精品日本一区二| 四虎成人精品永久网站| 日韩成人av午夜福利| 麻花传媒剧电影| 夜夜嗨av色一区二区不卡| 久久99色综合| 深夜免费福利| 狠狠色婷婷久久综合频道毛片 | 人与禽的免费一级毛片| 亚洲乱码国产乱码精品精大量| 亚洲?日韩?中文?无码?制服| 精品偷自拍另类在线观看| 国产普通话对白刺激| 华人在线亚洲欧美精品| 揉着我的奶从后面进去视频| 香蕉久久久久久久AV网站| 两个人日本www免费版| 久久国产精品第一区二区| 男女爽爽无遮挡午夜视频| 中文字幕人妻无码视频| 蜜桃av一卡二卡三卡| 国产色在线观看网站| 中国精品久久久久国产| 亚洲中文字幕久久精品蜜桃| 91国内精品久久精品一本| 日韩一级片| 亚洲精品久久久久久久蜜桃臀| 99久久精品国产都在这里| 一本色道久久综合精品婷婷| 国产老肥熟一区二区三区| 看亚洲一级黄色片啪啪啪| 太仓市| 无码人妻久久一区二区三区| 久久永久视频| 国精品无码一区二区三区在线看| 夜夜精品浪潮av一区二区三区| 大陆熟妇丰满多毛xxxx| 久久人妻少妇嫩草av蜜桃|