<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      公里級場景也能穩(wěn)住了,國產(chǎn)團(tuán)隊(duì)把長視頻3D重建又往前推了一步

      0
      分享至



      長視頻 3D 重建最怕的,其實(shí)不是 "看不清"。

      前面幾十幀拍得再好,序列一拉長,軌跡就開始慢慢歪。模型在短片段上表現(xiàn)還行,但讓它一口氣吃掉幾百上千幀,誤差會(huì)一段接一段往后累。到了公里級大場景,這個(gè)問題被放得非常大。

      浙江大學(xué)、地平線機(jī)器人和之江實(shí)驗(yàn)室最近的新工作Scal3R,要解決的就是這件事。

      以往做長序列重建,大家主要在 "怎么切塊、怎么拼回去" 上做文章。

      Scal3R 則更進(jìn)一步關(guān)注問題本質(zhì):推理時(shí)要處理超長序列,訓(xùn)練時(shí)也應(yīng)該讓模型見過超長序列。作者借助 test-time training 技術(shù),設(shè)計(jì)了一個(gè)全局上下文模塊和同步機(jī)制,將長序列訓(xùn)練、推理以及跨 chunk 的信息更新放進(jìn)同一個(gè)流程里,大幅提升了長序列重建的穩(wěn)定性和精度。

      Scal3R 能夠處理超萬幀幾千米的超大規(guī)模場景三維重建,輸出精確的相機(jī)位姿和點(diǎn)云,下面是真實(shí)拍攝浙大紫金港校區(qū)的重建效果:



      視頻鏈接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

      和 Depth Anything 3(Streaming 模式)的可視化對比:



      視頻鏈接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

      論文 Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction 已上線 arXiv,代碼和模型權(quán)重分別發(fā)布在 GitHub 和 Hugging Face 平臺(tái):



      • 論文鏈接:https://arxiv.org/abs/2604.08542
      • 論文主頁:https://zju3dv.github.io/scal3r/
      • 代碼倉庫:https://github.com/zju3dv/Scal3R
      • 模型地址:https://huggingface.co/xbillowy/Scal3R

      超大規(guī)模場景重建問題在哪

      這兩年 VGGT 這類前饋式 3D foundation model 已經(jīng)能直接從 RGB 估計(jì)相機(jī)參數(shù)、深度和點(diǎn)云,精度相當(dāng)不錯(cuò)。

      但場景一變大、序列一拉長,麻煩就來了。

      一方面,Transformer 的長序列建模本身就貴,計(jì)算和顯存都會(huì)飛漲。

      另一方面,很多方法訓(xùn)練和測試時(shí)面對的序列形態(tài)根本對不上。訓(xùn)練通常喂短序列或局部窗口,測試卻要求模型吞幾百幀甚至上千幀,這種錯(cuò)位會(huì)把長程漂移放大。

      目前應(yīng)對長序列大致有兩條路。

      一條是壓縮 token,把更長序列硬塞進(jìn)模型。確實(shí)能省一些計(jì)算,但細(xì)節(jié)和長程依賴也容易跟著被壓掉。

      另一條是 chunk-based 路線:先切成多個(gè)重疊片段各自重建,再做跨塊對齊。這條路比較實(shí)用,擴(kuò)展性也好,只是前提是每一塊的局部幾何預(yù)測要夠準(zhǔn),否則塊間誤差會(huì)繼續(xù)被放大。

      所以問題的重點(diǎn)并不是 "怎么處理長序列",而是怎么讓模型訓(xùn)練時(shí)就學(xué)會(huì)處理長序列,再用同一套機(jī)制在測試時(shí)穩(wěn)住局部幾何和全局一致性。

      Scal3R 是怎么做的

      Scal3R 是在 VGGT 的視覺幾何能力上往前走的。局部幾何依然重要,Scal3R 沒打算繞開它,只是希望這份能力在長序列訓(xùn)練和長序列推理里以一致方式被使用。

      作者的想法很直接:要讓模型測試時(shí)穩(wěn)住長視頻,就不能只拿短片段訓(xùn)練然后指望它自然泛化到長序列。所以 Scal3R 借助 test-time training 相關(guān)機(jī)制,把長序列訓(xùn)練、長序列推理以及跨 chunk 的信息更新放進(jìn)同一個(gè)流程里



      Scal3R 的整體框架。輸入長序列首先被切成多個(gè)重疊 chunk 并行處理,訓(xùn)練和推理都圍繞長序列展開,并通過測試時(shí)更新與跨 chunk 同步提升大規(guī)模場景重建的一致性。

      圍繞這個(gè)思路,論文給出了兩個(gè)核心模塊。

      一個(gè)是全局上下文記憶模塊(Global Context Memory,GCM)。

      它由若干自適應(yīng)存儲(chǔ)單元(Adaptive Memory Units)組成,可以當(dāng)成一組輕量的、可更新的上下文模塊。每處理完一個(gè) chunk,模型會(huì)通過自監(jiān)督目標(biāo)更新這些單元。GCM 在這里起兩個(gè)作用:一是跨 chunk 累積并保留上下文信息;二是讓訓(xùn)練和測試階段用同一套逐 chunk 更新方式,模型從訓(xùn)練第一步起就在適應(yīng)長序列。

      另一個(gè)是全局上下文同步機(jī)制(Global Context Synchronization,GCS)。

      GCM 管逐 chunk 更新和上下文累積,GCS 負(fù)責(zé)把這些更新在不同 chunk 之間同步起來,使用 PyTorch DDP 的 all-reduce 機(jī)制,在不同的 chunk 之間同步自適應(yīng)存儲(chǔ)單元的自監(jiān)督梯度。

      Scal3R 處理長序列時(shí)會(huì)把它切成多個(gè)重疊 chunk,分配到不同 GPU 上并行跑。GCS 讓這些 chunk 的更新彼此同步,不管訓(xùn)練還是推理,整個(gè)長序列機(jī)制都是一致的,不會(huì)出現(xiàn)訓(xùn)練時(shí)學(xué)局部、測試時(shí)臨時(shí)拼一下的情況。

      關(guān)鍵的點(diǎn)是,作者并沒有把 test-time training 當(dāng)成測試階段的臨時(shí)補(bǔ)丁,而是把它變成支撐長序列訓(xùn)練和長序列推理對齊的一種方式;GCM/GCS 則在這種長序列機(jī)制里做更新、保留和同步。

      為什么 Scal3R 的做法可以穩(wěn)住長序列

      長序列重建里最棘手的情形,經(jīng)常不是 "看不見",而是局部都能看懂、時(shí)間跨度一長就不一定穩(wěn)得住。

      大尺度室外場景里的重復(fù)紋理、長距離視角變化、稀疏采樣、長走廊、回環(huán)閉合 —— 每一項(xiàng)都在考驗(yàn)局部幾何預(yù)測的魯棒性。局部塊必須先算得準(zhǔn),跨塊同步和長程約束才有意義;否則局部誤差會(huì)順著整條序列一路被放大。

      Scal3R 的價(jià)值就在這里。

      它沒有把長視頻簡單切開再拼回去,而是讓模型在訓(xùn)練階段就反復(fù)經(jīng)歷 "長序列 + 逐 chunk 更新 + 跨 chunk 同步" 的完整過程。等到測試時(shí),模型遇到的行為模式和訓(xùn)練時(shí)是一樣的。

      這時(shí) memory 的角色就清楚了:GCM 不替代局部幾何預(yù)測,只是在逐 chunk 訓(xùn)練和推理里提供一份可更新的上下文狀態(tài),把前后 chunk 的信息接起來 —— 前提依然是局部幾何得可靠。

      所以 Scal3R 重要的地方不在削弱局部幾何,而在把局部幾何、可更新上下文、長序列訓(xùn)練、測試時(shí)同步這四件事放到同一個(gè)框架里。

      一,長序列被拆成 chunk 來算。這把原本隨序列長度平方增長的計(jì)算壓力攤平了。按論文里的視角,全序列注意力的復(fù)雜度會(huì)隨長度快速上升,chunk-wise 處理則把問題改寫成更可控的局部計(jì)算,再通過融合擴(kuò)展到整段序列。

      二,不是簡單分塊,而是逐 chunk 更新、再做同步。很多分塊方法塊和塊之間是割裂的,算完就算完了。Scal3R 會(huì)在每個(gè) chunk 上算可更新模塊的變化,再由 GCS 把這些更新在 chunk 之間同步起來。網(wǎng)絡(luò)雖然按塊處理,但訓(xùn)練和測試時(shí)都在學(xué)習(xí)怎么把局部結(jié)果放回長序列里。

      三,訓(xùn)練時(shí)就直接面向長序列。論文里講得比較清楚:訓(xùn)練階段會(huì)直接采樣連續(xù)長序列,再用不同 GPU 分組去覆蓋不同的有效序列長度。TTT 在這里更像是一種手段 —— 讓長序列訓(xùn)練可行,也讓測試行為和訓(xùn)練行為保持一致。

      這三條合起來就能解釋為什么 Scal3R 不止是 "能跑長序列",而是在長序列上把局部幾何質(zhì)量、效率和整體一致性都穩(wěn)住了。

      在基準(zhǔn)測試上的效果

      論文從相機(jī)位姿和三維重建兩部分做了比較完整的評估,覆蓋室內(nèi)外和不同尺度的場景,結(jié)果顯示提升很扎實(shí)。



      論文主表中的位姿與資源對比,覆蓋 VKITTI2、KITTI Odometry 和 Oxford Spires。

      相機(jī)位姿估計(jì):表里 baseline 大致可以分成三類。SLAM / SfM 方法在條件合適時(shí)很準(zhǔn),比如 COLMAP 在 Oxford Spires 上很強(qiáng),DPVO++ 在 VKITTI2 上誤差也低;但它們要么需要內(nèi)參,要么速度慢,在資源統(tǒng)計(jì)中,COLMAP 平均一次推理要 6614.73 秒。前饋和 streaming 方法更快,但長序列漂移壓不住,F(xiàn)astVGGT 還會(huì)遇到顯存問題。最接近的對照是 VGGT-Long:它比不少 streaming baseline 穩(wěn),但 KITTI 上 ATE / RTE / RRE 仍是 25.94 / 9.67 / 1.71,而 Scal3R 是 14.55 / 4.61 / 0.97;Oxford Spires 上也從 15.46 m 降到 4.45 m。



      大規(guī)模多場景軌跡對比。藍(lán)線是預(yù)測軌跡,紅色虛線是真值軌跡。

      軌跡圖更直觀:KITTI 00 上 Scal3R 的 ATE 是 4.298,VGGT-Long 是 8.637;Oxford Keble 04 和 Oxford Quarter 01 上 ATE 分別是 2.448 和 1.624。藍(lán)線基本能貼住真值軌跡,其他方法更容易漂成局部團(tuán)塊。

      再看三維重建精度



      三維重建點(diǎn)云評測,指標(biāo)為 Chamfer Distance(越低越好)和 F1(越高越好)

      這張表更直接。Scal3R 在 ETH3D、Oxford Spires、VKITTI2 三個(gè)數(shù)據(jù)集上六個(gè)指標(biāo)都是最優(yōu):ETH3D 是 0.11 / 0.91,Oxford Spires 是 0.96 / 0.96,VKITTI2 是 0.40 / 0.91。對比最強(qiáng)的 VGGT-Long,ETH3D 從 0.24 / 0.84 提到 0.11 / 0.91;Oxford Spires 從 3.41 / 0.80 提到 0.96 / 0.96;VKITTI2 則從 1.78 / 0.70 提到 0.40 / 0.91。這里的差距不只是局部幾何更準(zhǔn),也和前面的位姿穩(wěn)定性有關(guān):軌跡一旦漂了,后面拼出來的點(diǎn)云通常也會(huì)散。



      重建對比圖,展示 Oxford Keble 04 和 ETH3D Terrains 等場景。

      定性圖也對得上表格。像 Oxford Keble 04 這種大尺度校園場景,Scal3R 的建筑輪廓和庭院結(jié)構(gòu)更完整;ETH3D Terrains 紅框里的墻面和門框邊界也更規(guī)整。FastVGGT、VGGT-Long、TTT3R 在不同場景里會(huì)出現(xiàn)局部破碎、漂散或者結(jié)構(gòu)發(fā)糊,原因往往不是某一幀深度錯(cuò)了,而是長序列位姿和局部幾何沒有一起穩(wěn)住。

      精度之外再看下資源和擴(kuò)展性。Scal3R 可以在單張 RTX 4090 上完成推理,它不是吞吐最快的方案,但在精度、長序列穩(wěn)定性和可擴(kuò)展性之間做了一個(gè)比較實(shí)用的取舍。補(bǔ)充材料里還分析了隨序列變長的趨勢:從 150 幀漲到 990 幀,整體運(yùn)行時(shí)間基本呈線性增長,相對位姿誤差則穩(wěn)在 0.07 到 0.08 m,說明它不是只適配某個(gè)固定長度。

      結(jié)語

      Scal3R 最值得留意的地方,不只是又做出來一個(gè)更強(qiáng)的長序列 3D 重建方法,而是它把問題的重點(diǎn)重新擺過一遍。

      它沒有把 "大規(guī)模 3D 重建" 簡單理解成更大的 backbone、更多 token 或者更激進(jìn)的壓縮,而是問了一個(gè)更靠前的問題:模型要想在測試時(shí)吞下長序列,訓(xùn)練時(shí)是不是也得先真正學(xué)過長序列?

      順著這個(gè)視角往下看,Scal3R 提出的其實(shí)不只是一個(gè)記憶模塊,更像是一種把局部幾何、可更新上下文、長序列訓(xùn)練和測試時(shí)同步串起來的思路。對 3D 重建如此,搬到更廣泛的長視頻場景理解任務(wù)上,可能也差不多。

      如果你正在關(guān)心這幾件事 —— 長視頻怎么做高質(zhì)量 3D 重建;foundation model 怎么擴(kuò)展到公里級場景;test-time training 除了語言和分類任務(wù),還能怎么真正落到 3D 視覺里 —— Scal3R 值得花點(diǎn)時(shí)間細(xì)讀。



      視頻鏈接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      陳東明任黃河水利委員會(huì)主任

      陳東明任黃河水利委員會(huì)主任

      大象新聞
      2026-05-08 17:50:31
      港獨(dú)、罵中國人,如今卻還想來內(nèi)地?fù)平?,這3位香港明星令人作嘔

      港獨(dú)、罵中國人,如今卻還想來內(nèi)地?fù)平穑@3位香港明星令人作嘔

      傲傲講歷史
      2026-04-19 01:20:08
      張雪機(jī)車冠軍次日退賽:16000轉(zhuǎn)速與1000度高溫揭露國產(chǎn)車的真實(shí)挑戰(zhàn)

      張雪機(jī)車冠軍次日退賽:16000轉(zhuǎn)速與1000度高溫揭露國產(chǎn)車的真實(shí)挑戰(zhàn)

      小怪吃美食
      2026-05-06 02:03:32
      搞不定中國,特朗普急紅了眼!開啟極限操作!

      搞不定中國,特朗普急紅了眼!開啟極限操作!

      李榮茂
      2026-05-07 18:35:44
      巴薩贏麻了!主場踢皇馬:打平即奪冠 票房1500萬刷新紀(jì)錄

      巴薩贏麻了!主場踢皇馬:打平即奪冠 票房1500萬刷新紀(jì)錄

      葉青足球世界
      2026-05-08 20:23:33
      26款奔馳GLC上市,僅25萬級了!

      26款奔馳GLC上市,僅25萬級了!

      米粒說車唯一呀
      2026-05-06 16:10:56
      五個(gè)水兵死在英格蘭,清廷花15英鎊買地下葬,這塊地如今還屬中國

      五個(gè)水兵死在英格蘭,清廷花15英鎊買地下葬,這塊地如今還屬中國

      飯小妹說歷史
      2026-05-07 08:56:08
      敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

      敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

      念洲
      2026-05-08 18:02:59
      爆大冷!倫敦世乒賽!4強(qiáng)誕生,奧運(yùn)亞軍2-3出局,王楚欽肩負(fù)重任

      爆大冷!倫敦世乒賽!4強(qiáng)誕生,奧運(yùn)亞軍2-3出局,王楚欽肩負(fù)重任

      樂悠悠娛樂
      2026-05-08 13:28:08
      世乒賽大亂!亞洲隊(duì)集體變臉,臺(tái)北勝瑞典,日本勝德國,玩轉(zhuǎn)計(jì)謀

      世乒賽大亂!亞洲隊(duì)集體變臉,臺(tái)北勝瑞典,日本勝德國,玩轉(zhuǎn)計(jì)謀

      劉笤說體壇
      2026-05-08 09:45:28
      美方要故技重施,先訪華再訪日?中方斬釘截鐵,特朗普能否來華?

      美方要故技重施,先訪華再訪日?中方斬釘截鐵,特朗普能否來華?

      超級無敵美少女何
      2026-05-08 20:03:08
      李國慶自曝往事:凈身出戶后不舍請司機(jī),老下屬月薪8500不離不棄

      李國慶自曝往事:凈身出戶后不舍請司機(jī),老下屬月薪8500不離不棄

      洲洲影視娛評
      2026-05-08 15:25:45
      97年我對女老師說我喜歡她,她紅著臉說:考上重點(diǎn)大學(xué)我就嫁給你

      97年我對女老師說我喜歡她,她紅著臉說:考上重點(diǎn)大學(xué)我就嫁給你

      千秋文化
      2026-05-02 19:36:54
      女子去麗江被宰35萬買玉鐲,3年后重游時(shí),老板看到手鐲癱倒在地

      女子去麗江被宰35萬買玉鐲,3年后重游時(shí),老板看到手鐲癱倒在地

      刺頭體育
      2026-05-08 20:00:59
      理想新車突然官宣:5月15日,全新上市

      理想新車突然官宣:5月15日,全新上市

      科技堡壘
      2026-05-08 11:10:56
      受權(quán)發(fā)布|中華人民共和國國務(wù)院令  第836號(hào)

      受權(quán)發(fā)布|中華人民共和國國務(wù)院令  第836號(hào)

      新華社
      2026-05-08 17:02:54
      許昕開場!日本女團(tuán)3-0烏克蘭晉級四強(qiáng) 多位男陪練曝光證劍指金牌

      許昕開場!日本女團(tuán)3-0烏克蘭晉級四強(qiáng) 多位男陪練曝光證劍指金牌

      顏小白的籃球夢
      2026-05-08 18:50:37
      沃爾沃 XC60 “放大招”!最高優(yōu)惠 23.90 萬,你會(huì)選擇它嗎?

      沃爾沃 XC60 “放大招”!最高優(yōu)惠 23.90 萬,你會(huì)選擇它嗎?

      汽車網(wǎng)評
      2026-05-08 21:59:28
      要6選秀簽+24歲DPOY!字母哥交易索要天價(jià),雄鹿老板首談字母未來

      要6選秀簽+24歲DPOY!字母哥交易索要天價(jià),雄鹿老板首談字母未來

      你的籃球頻道
      2026-05-08 08:44:24
      痛心!香港77歲老人殺妻后自縊:一切和兒子有關(guān),真相曝光太唏噓

      痛心!香港77歲老人殺妻后自縊:一切和兒子有關(guān),真相曝光太唏噓

      影像溫度
      2026-05-08 15:48:54
      2026-05-08 22:28:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12950文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎(jiǎng)金600萬 工服成相親神器

      頭條要聞

      "大衣哥"再度翻紅:五一假期3天跑5場 累到"要保命"

      頭條要聞

      "大衣哥"再度翻紅:五一假期3天跑5場 累到"要保命"

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財(cái)經(jīng)要聞

      特朗普全球關(guān)稅又受阻,也能退款?

      汽車要聞

      MG 4X實(shí)車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      旅游
      公開課
      軍事航空

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      教育要聞

      關(guān)于舉辦“圖畫書里的中國”2026年山東省原創(chuàng)兒童圖畫書素材創(chuàng)意大賽、原創(chuàng)兒童圖畫書講讀大賽的通知

      旅游要聞

      519中國旅游日 | 去追一場星光,愛上一座城!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无套内谢极品少妇视频| 少妇无码| 啊啊乱理视频在线观看| 亚洲一区二区三区在线观看精品中文| 亚洲人黑人一区二区三区| 一区二区亚洲精品国产| 国产精品福利一区二区在线播放| 亚欧精品人妻| 国产精品一码在线播放| 亚洲av日韩av永久无码电影| 无码精品一区二区三区超碰| 亚洲综合91社区精品福利| 国产精品第二页在线播放| 91视频最新网址| 98精品国产综合久久| 亚洲精品一区三区三区在| 欧美熟妇色XXXx欧美老妇多毛| 狠狠婷婷一本久久| 免费国产成人高清在线视频| 亚洲VA久久久噜噜噜久久无码| 东京热一精品无码av| 女人18毛片水真多| 内射中出无码护士在线| 人妻三级成| 亚洲乱妇老熟女爽到高潮的片| 久久精品国产主播一区二区| 张家界市| 国内嫩模私拍精品视频| 激情国产一区二区三区四区| 国产熟女网站| 聊城市| 91精品免费久久久| 国产亚洲精品AA片在线播放天 | 99久久久国产精品免费无卡顿| 欧美午夜成人片在线观看| 亚洲av永久无码精品漫画| 色噜噜狠狠色综合av| 欧美日韩北条麻妃一区二区| AV不卡在线| 男女啪啪免费观看网站| 777天堂麻豆爱综合视频|