<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      學術前沿丨連續兩篇 ICLR,南京大學林浩鑫將世界模型動力學推演推進到上千步

      0
      分享至

      轉自 機器之心

      當世界模型越來越大,真正制約它走向「內部模擬器」的,未必是表征能力,而可能是動力學建模。

      世界模型(World Models)的目標,是在模型內部構建一個可以進行未來推演的環境。過去幾年,這個方向在狀態表征上進展迅速:更強的編碼器、更好的潛變量表示、更成熟的序列建模方法,不斷提升模型對環境的壓縮和表達能力。

      但另一塊同樣關鍵、甚至更決定「世界模型到底能不能真正用起來」的問題,卻長期沒有被同等力度地推進——動力學建模。

      原因很簡單。世界模型不只是要「看懂」世界,更要能夠穩定地推演世界。它不僅要把當前觀測壓縮成內部狀態,還要回答一個更難的問題:狀態在動作作用下會如何持續演化。

      這正是南京大學LAMDA 強化學習小組博士生林浩鑫連續兩篇 ICLR 工作所聚焦的核心問題。2025 年和 2026 年,他作為第一作者先后發表:

      • Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning(ICLR 2025)

      • 作者:Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu.

      • ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation(ICLR 2026)

      • 作者:Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.

      兩篇論文沿著同一條主線持續推進:世界模型中的動力學,到底該如何建模,才能穩定支持長時域未來預測。

      其中,ADM-v2 的代表性突破在于:在離線強化學習的動力學模型設定下,它首次將完整時域滾動推演(full-horizon roll-out)穩定推進到上千步規模。這意味著,世界模型正從「能做多步預測」進一步邁向「能夠完成近整回合級別全程推演」的內部模擬器。

      世界模型不只要「看懂」世界,還要「推演」世界

      經典論文《World Models》奠定了這一方向的基本框架。一個完整的世界模型通常包含兩個核心部分,如圖 1:

      1. V 模型,即狀態表征:將原始觀測壓縮為緊湊、可計算的內部狀態;

      2. M 模型,即動力學建模:在內部狀態空間中預測未來狀態如何隨動作變化。

      前者解決「模型看到了什么」,后者解決「模型如何推演未來」。


      圖 1:David Ha 與 Jurgen Schmidhuber《World Models》論文中的整體框架圖。

      過去幾年,世界模型相關工作的很多進展都集中在狀態表征上。更強的視覺編碼器、更有效的潛變量表示、更長上下文的序列建模,都顯著提升了模型對環境信息的壓縮和表達能力。

      相比之下,動力學建模雖然直接決定模型能否穩定推演未來,卻長期沒有得到同等強度的系統推進。

      但從系統能力上看,動力學建模恰恰是最關鍵的一環。因為世界模型最核心的價值,不是「把環境壓縮一下」,而是允許智能體先在模型內部滾動推演 (roll-out),再決定是否與真實環境交互。

      這件事直接關系到:模型型強化學習、離線強化學習、策略評估,以及更一般的具身智能規劃與決策。

      一旦世界模型只能做短程預測,它更像是一個局部預測器;只有當它能夠穩定支撐長程甚至完整時域推演時,它才真正接近「內部模擬器」。

      為什么動力學建模難:問題出在「自舉式預測」

      傳統動力學模型大多采用單步預測:輸入當前狀態 和動作 ,預測下一狀態

      這種做法在短程預測中很自然,但一旦進入長程推演,就會暴露出明顯局限。原因在于,模型在連續 roll-out 時,需要不斷把自己剛剛預測出的狀態再次作為下一步輸入。這個過程就是典型的自舉式預測(bootstrapping prediction)。

      它的核心問題非常突出:

      • 只要某一步出現偏差,后續預測就會建立在這個偏差之上;

      • 誤差會在滾動推演中持續累積并不斷放大;

      • 預測 horizon 越長,軌跡偏移通常越嚴重。

      很多世界模型「短程有效、長程失穩」的根源,其實都在這里。也因此,過去不少模型式方法往往會主動限制 rollout 的長度,用更短的 horizon 來控制 model bias。

      與之相對的思路,是直接預測(direct prediction)。

      所謂直接預測,不是一步一步層層遞推,而是從一個更穩定的起始狀態出發,結合一段動作序列,跨多步直接預測未來狀態。這樣做的核心收益在于:它顯著縮短了誤差傳播鏈條,因此更適合長時域推演。

      圍繞動力學建模的改進,最終都會落到幾個最根本的問題上:

      • 長程推演時,誤差是否可控;

      • 面對未見過的動作序列,模型能否泛化;

      • 不確定性估計是否可靠;

      • 模型是否真的能支撐完整回合級別的未來推演。


      ADM:不再一步一步猜未來,而是「任意步直接預測」

      林浩鑫在 ICLR 2025 的論文《Any-step Dynamics Model》中,正面切入了這個問題。

      核心想法:未來不一定非要靠「上一步預測結果」來推出來

      傳統單步動力學學習的是從到 的映射。

      ADM 則提出:未來狀態不一定非要依賴上一步預測結果層層遞推得到,也可以從更早的狀態出發,結合一段動作序列,直接預測若干步后的狀態。

      這里最關鍵的操作是回溯 (backtracking)。模型從不同長度的歷史視角出發,對未來狀態進行任意步直接預測,因此被命名為Any-step Dynamics Model。

      這背后的變化,看起來只是「預測方式不一樣了」,但本質上是在重寫未來推演的計算路徑:

      • 過去是單步自舉、層層遞推;

      • 現在是跨時域直接預測、減少誤差鏈條。

      誤差不再需要在每一步都傳遞一次,長程 roll-out 的穩定性也就自然提升了。


      圖 2:Any-step Dynamics Model 模型結構以及不同回溯長度下的預測機制。


      一個模型,也能做出類似集成的不確定性估計

      ADM 的另一個亮點,在于它對不確定性估計的處理。

      在很多離線強化學習方法中,最常見的辦法之一是模型集成 (ensemble):訓練多個動力學模型,再用模型之間的預測分歧來估計某個區域是否可靠。

      ADM 提出了一種更有結構的思路:同一個模型在不同回溯長度下的預測差異,本身就可以作為不確定性信號。

      從直覺上看:

      • 如果模型處在訓練數據覆蓋充分的區域,那么不同回溯尺度下的預測應當相對一致;

      • 如果模型進入數據稀疏區域或分布外區域,那么不同時間尺度上的預測分歧就會明顯變大。

      換句話說,ADM 相當于把「不同時間跨度上的預測視角」組織成了一種更輕量、也更結構化的內部集成方式。

      這讓它在不依賴大規模模型集成的情況下,也能獲得有用的不確定性估計。


      圖 3:ADM 與模型集成在不確定性估計上的相關性對比。


      圖 4:ADM、模型集成和普通 RNN 動力學模型在長程滾動推演誤差增長上的對比。

      實驗結果:未來預測改善帶來策略學習提升

      基于 ADM,論文進一步構建了:

      • ADMPO-ON:面向在線模型型強化學習;

      • ADMPO-OFF:面向離線模型型強化學習。

      實驗結果表明,ADM 帶來的不是局部性質上的改動,而是對未來預測質量和最終策略性能的同步提升:

      • 在在線設置中,ADMPO-ON 具備更高的樣本效率;

      • 在離線設置中,ADMPO-OFF 在 D4RL 和 NeoRL 上優于多種強基線。


      表 1:D4RL 上與 BC、CQL、MOPO、MOBILE 等方法的對比結果。


      表 2:此處插入 ADM 論文 Table 2,展示 NeoRL 上的對比結果。


      圖 5:ADM 與自舉式預測、模型集成自舉式預測的誤差累積曲線。

      這篇工作系統地證明了,動力學建模不必局限于「單步自舉式預測」這一條路徑。世界模型中的未來預測,可以通過任意步、跨時域的直接預測方式得到重新組織。

      ADM-v2:首次把完整時域滾動推演推進到上千步

      如果說 ADM 回答的是「未來能不能不靠單步自舉來預測」,那么 2026 年的 ADM-v2 回答的則是更進一步的問題:

      動力學模型能否真正支撐完整時域滾動推演 (full-horizon roll-out)?

      這里的「完整時域」,并不是簡單地把 rollout 拉長一點,而是要盡可能覆蓋接近完整回合的推演過程,而不只是幾步、十幾步的局部展開。

      這件事為什么重要?因為它對應的是世界模型能力層級上的一次躍遷。

      • 如果模型只能做短程推演,它更像一個局部預測器;

      • 如果模型能夠穩定支撐完整時域推演,它才更接近一個真正的內部模擬器。

      ADM-v2 的關鍵突破就在于:在離線強化學習的動力學模型設定下,它首次將 full-horizon roll-out 穩定推進到上千步規模。

      這不是一個普通實驗數字,而是一個能力門檻。它意味著,模型式方法開始從「短程近似預測」走向「近整回合級別的連續推演」。

      結構改進:狀態負責初始化,動作負責演化

      原始 ADM 在循環過程中會反復引入起始狀態,這使內部表征與起點狀態存在較強耦合。

      ADM-v2 對這一結構做了更自然的重構:

      • 先將起始狀態編碼為隱表示;

      • 將這一隱表示作為循環單元的初始隱藏狀態;

      • 后續遞推只輸入動作序列,不再重復輸入起始狀態。

      這種設計把「狀態初始化」和「動作驅動演化」明確分開,提升了多步直接預測的靈活性和穩定性。


      圖 6:ADM 與 ADM-v2 的結構差異對比。

      PARoll:并行任意步滾動推演

      ADM-v2 進一步提出了并行任意步滾動推演(PARoll, Parallel Any-step Roll-out)。

      它的核心思想是:在長程推演過程中,同時維護多個由不同時間步幅構成的預測視角,并行地產生未來狀態預測,再利用這些預測之間的差異來估計不確定性。

      這樣做帶來兩方面收益:

      • 任意步直接預測可以更高效地執行;

      • 不確定性估計可以自然伴隨長程 rollout 一起產生。

      但更關鍵的是,PARoll 的價值不只在「更快」或者「更方便」。它真正把 ADM-v2 從「概念上能做長程預測」推進到了「實際上能夠執行上千步 full-horizon 推演」這一層。

      也就是說,ADM-v2 不再只是證明「任意步預測是個好主意」,而是進一步證明:這條路線確實可以支撐近整回合級別的長程推演。


      圖 7:PARoll 的并行結構和多時間線預測機制。

      從「學策略」走向「評策略」

      ADM-v2 的一個重要擴展,是把動力學模型進一步用于離線策略評估。

      這是一個非常關鍵的落點。因為在離線強化學習以及具身智能場景中,新策略往往不能輕易回到真實環境中反復試驗,如何評估策略價值就變得非常重要。

      從理想狀態出發,最直接的方式當然是:讓策略先在世界模型中完整運行若干個回合,再估計它的總回報。

      但這對動力學模型提出了極高要求。只有當模型在長程滾動推演中誤差足夠可控時,這樣的評估才具有可信度。

      ADM-v2 在這方面取得了明顯進展。論文在 DOPE benchmark 上的結果表明,基于 ADM-v2 的完整時域滾動推演評估優于多種離線策略評估方法,也優于其他動力學模型方案。

      更重要的是,這篇工作首次驗證了動力學模型可以穩定支撐上千步的全程推演,并在這一尺度上同時服務于策略學習與策略評估。

      這件事的意義在于,它讓世界模型開始擺脫「短程預測工具」的角色,進一步走向「可用于整回合模擬的內部環境」。


      圖 8:DOPE benchmark 上不同離線策略評估方法的整體對比結果。

      在離線策略學習任務中,ADM-v2 同樣表現突出。

      論文報告,基于 ADM-v2 的ADM2PO-fh在 D4RL 和 NeoRL 上取得了新的最好結果;與此前強基線相比,平均性能提升分別超過4.6%12.8%

      更值得注意的是,很多已有方法在 rollout 長度增加時,性能往往會明顯下降。原因很直接:一旦模型偏差在長時域上迅速累積,更長的推演反而會變成噪聲來源。

      但 ADM-v2 展現出一種不同的趨勢:它能夠持續從更長時域的推演中獲益。

      這恰恰說明,ADM-v2 的改進不是「把 rollout 拉長了」,而是讓更長時域的 rollout真正變得可用


      表 3:D4RL 上與 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的對比。


      表 4:NeoRL 上的對比結果。


      圖 9:不同滾動推演長度對性能的影響。

      把模型做大的同時,也要把動力學建模做對

      如果把這兩篇工作放在一起看,它們可以構成一條連續推進的技術主線。

      第一步,ADM 證明:動力學模型不必局限于單步自舉式預測。未來狀態可以通過任意步、跨時域的直接預測來重構,從而緩解長程誤差累積。

      第二步,ADM-v2 進一步證明:在 Any-step 路線已經被驗證有效之后,通過更合理的模型結構和并行滾動推演機制,動力學模型可以真正支撐上千步級別的完整時域滾動推演。

      第三步,這條路線最終指向的是:把世界模型從「局部預測工具」推進為更接近「數據驅動模擬器」的系統形態。

      今天的世界模型研究,很容易把注意力集中在更大的參數規模、更長的上下文、更豐富的數據和更強的表征能力上。

      這些當然重要,但如果未來預測仍然主要依賴誤差會不斷累積和放大的自舉式路徑,那么模型即使變得更大,也未必能穩定支撐長程推演、規劃和評估。

      從這個意義上說,林浩鑫這兩篇工作的價值,不只是提出了兩個新方法,而是把注意力重新拉回到一個更底層的問題上:世界模型的動力學,必須被認真建模。

      只有在動力學建模本身做對的前提下,模型規模的增長才更有可能轉化為真實的系統能力。尤其當目標從短程預測走向長期推演、從樣本生成走向策略評估時,動力學建模的重要性只會繼續上升。

      如果說 ADM 證明了「未來預測不必依賴單步自舉去完成」,那么 ADM-v2 則進一步證明了:在離線強化學習的動力學模型語境下,世界模型已經開始具備承擔上千步整回合推演任務的能力。

      對于離線強化學習、機器人學習、通用智能體,以及更大規模的世界模型系統而言,這條路線的潛力還遠沒有被完全展開。下一階段,動力學建模很可能會成為世界模型繼續向前演化時,最無法回避的關鍵問題之一。

      【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “空軍一號”轟鳴而過,解放軍巋然不動,視頻火爆外網

      “空軍一號”轟鳴而過,解放軍巋然不動,視頻火爆外網

      極目新聞
      2026-05-14 10:08:46
      特朗普:美中關系將比以往任何時候都更好,雙方共創美好未來

      特朗普:美中關系將比以往任何時候都更好,雙方共創美好未來

      歐時大參
      2026-05-15 00:51:50
      特朗普訪華,歡迎晚宴上有哪些中國企業家出席?

      特朗普訪華,歡迎晚宴上有哪些中國企業家出席?

      呼呼歷史論
      2026-05-14 23:21:25
      一家長稱兒子早戀被叫學校,想開寶馬鎮住對方家長,評論玩梗笑死

      一家長稱兒子早戀被叫學校,想開寶馬鎮住對方家長,評論玩梗笑死

      觀察鑒娛
      2026-05-13 11:22:56
      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      馬斯克表示:他絕對能建造出比中國任何公共交通系統都更好的系統

      華史談
      2026-04-14 13:00:13
      廣州的“強對流套餐”來了,地鐵會受影響嗎?

      廣州的“強對流套餐”來了,地鐵會受影響嗎?

      廣州地鐵
      2026-05-14 07:55:45
      重慶一棟百年古建筑以399萬元掛拍,僅限中國人競買,不得轉讓抵押給外國人

      重慶一棟百年古建筑以399萬元掛拍,僅限中國人競買,不得轉讓抵押給外國人

      極目新聞
      2026-05-14 13:19:54
      馬克龍遭妻子掌摑“真實原因”曝光:向伊朗女演員發“露骨短信”

      馬克龍遭妻子掌摑“真實原因”曝光:向伊朗女演員發“露骨短信”

      阿晪美食
      2026-05-14 12:17:25
      74歲劉鑾雄罕見露面,為楊受成撐場面再現當年雄風,甘比不在身旁

      74歲劉鑾雄罕見露面,為楊受成撐場面再現當年雄風,甘比不在身旁

      攬星河的筆記
      2026-05-14 13:40:42
      100%概率奪冠?CBA這鐵律太可怕了:北上廣深誰將笑到最后?

      100%概率奪冠?CBA這鐵律太可怕了:北上廣深誰將笑到最后?

      晚霧空青
      2026-05-15 00:17:30
      你敢信嗎?馬斯克居然是第四個下飛機的!馬斯克還在自己的平臺X上發文感慨,特意點明這次美國企業大佬里,唯獨他和黃仁勛搭乘空軍一號

      你敢信嗎?馬斯克居然是第四個下飛機的!馬斯克還在自己的平臺X上發文感慨,特意點明這次美國企業大佬里,唯獨他和黃仁勛搭乘空軍一號

      打破砂鍋看本質
      2026-05-14 23:28:07
      44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

      44歲范冰冰近照判若兩人!與媽媽同框身形暴肥,這次是真懷孕了?

      八卦王者
      2026-05-12 15:27:14
      “已建好的都不敢開業”,民營醫院已倒閉4000家

      “已建好的都不敢開業”,民營醫院已倒閉4000家

      健識局
      2026-05-14 19:25:57
      白左圣母被驅趕出家:還會說有一天我們也是難民嗎

      白左圣母被驅趕出家:還會說有一天我們也是難民嗎

      俠客棧
      2026-05-14 12:43:23
      天津一女高中生疑被男同學偷拍私密視頻并傳播致遭霸凌抑郁,學校:對當事男生作出開除學籍和留校察看處分;警方已行政立案

      天津一女高中生疑被男同學偷拍私密視頻并傳播致遭霸凌抑郁,學校:對當事男生作出開除學籍和留校察看處分;警方已行政立案

      大象新聞
      2026-05-14 20:46:15
      國足3-2取勝避日韓,亞洲杯上半區含金量提升

      國足3-2取勝避日韓,亞洲杯上半區含金量提升

      奇跡行者在刷野
      2026-05-14 07:39:34
      從熱度破萬的《低智商犯罪》開始,犯罪劇多了一種新解法

      從熱度破萬的《低智商犯罪》開始,犯罪劇多了一種新解法

      娛樂資本論
      2026-05-13 23:40:13
      連奪6金+打破世界紀錄!中國選手一鳴驚人,女子項目不敵朝鮮隊

      連奪6金+打破世界紀錄!中國選手一鳴驚人,女子項目不敵朝鮮隊

      羅掌柜體育
      2026-05-14 11:00:15
      “摸奶子”擦邊神反轉,OPPO公關部有高人指點

      “摸奶子”擦邊神反轉,OPPO公關部有高人指點

      首席品牌觀察
      2026-05-14 16:52:18
      克橋關閉,烏東告急,俄羅斯卻要求烏克蘭撤走軍隊,實在是買條咸魚放生——不知死活

      克橋關閉,烏東告急,俄羅斯卻要求烏克蘭撤走軍隊,實在是買條咸魚放生——不知死活

      李未熟擒話2
      2026-05-14 09:09:16
      2026-05-15 01:39:01
      中國人工智能學會
      中國人工智能學會
      中國人工智能學會網易官方賬號
      4036文章數 1489關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      藝術
      房產
      教育
      健康
      公開課

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      專家揭秘干細胞回輸的安全風險

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人禽杂交18禁网站免费| 精品九九人人做人人爱| 亚洲精品亚洲人成在线观看下载| 亚洲夂夂婷婷色拍ww47| 午夜剧场黄色| 无码熟妇人妻AV影音先锋| 久久日韩精品一区二区五区| 国产乱子伦精品视频| 免费国产不卡午夜福在线观看| 国产日韩丝袜一二三区| 乱女乱妇熟女熟妇综合网| 国色天香中文字幕在线视频| 国产久一视频在线观看app| 国产精品欧美福利久久| 精品国产av| 日本中文字幕有码高清| 91亚洲高清在线观看你懂的| 亚洲自在精品网久久一区| 国产福利在线观看免费第一福利| 中文字幕人妻无码专区APP| 亚洲AV无码专区亚洲AV紧身裤| 亚洲天堂无码| 亚洲精品少妇86p| 偷拍视频国内久久精品| 中文字幕日韩精品亚洲一区| 亚洲综合天堂av网站在线观看 | 亚洲无码在线观看视频| 日韩人妻精品中文字幕免费| 狂野欧美激情性XXXX在线观看| 国产suv精品一区二区四 | 正在播放国产大学生情侣| 免费VA国产高清大片在线| 国产AV日韩AV| 高级艳妇交换俱乐部小说| 中文在线а√在线| 少妇性l交大片| 国产乱码日产乱码精品精| 中文字幕日韩人妻不卡一区| 97人妻视频妓女网| 亚洲国产成人av毛片大全| 亚洲国产成人综合精品|