<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026 生成式 AI 觀察梳理:視覺模型開始重寫默認設定

      0
      分享至


      從擴散控制到語義泛化,視覺 AI 進入范式重構期。

      作者丨鄭佳美

      編輯丨岑 峰

      過去幾年,視覺生成與視覺理解領域的技術推進,整體上始終沿著一條相對明確的路徑展開:當一套建模范式被驗證有效之后,后續的大量工作往往都會圍繞這套既有框架持續做模型擴容、訓練增強、采樣優化與局部模塊修補,以此換取更高的性能上限。

      無論是擴散生成、視頻 world model,還是動作建模與視覺匹配,主流研究在很長時間里都更多表現為對既有系統的持續加固,而不是對底層假設本身的重新審視。

      但從今年 CVPR 集中出現的一批代表性工作來看,這種相對穩定的技術推進邏輯正在發生值得警惕的變化。越來越多研究已經不再滿足于在現有模型框架內部繼續做增量式性能修補,而是開始系統性地把問題重新拉回到那些長期被工程實踐視為“默認正確”的基礎設定上。

      擴散模型中的引導機制是否真的合理,視頻生成是否必須建立在 diffusion 的反復去噪之上,生成模型所學習的預測對象是否從一開始就遵循了最自然的數據流形,以及人體動作生成與語義對應任務中長期被粗粒度評價掩蓋的控制邊界和泛化邊界,是否都需要被重新定義。

      這意味著,頂會論文所呈現出的競爭重點正在悄然發生遷移。相比于過去更多強調“在原有范式內把模型做得更強、把指標推得更高”,這一批工作更值得注意的地方在于,它們開始同步觸碰那些決定模型行為方式的底層建模前提,并試圖重新建立新的生成目標、控制機制、主干架構與表示邏輯。

      換句話說,視覺 AI 的下一輪競爭,正在逐漸從性能增量競爭,轉向對既有默認設定的回溯性重寫。

      01


      視覺生成開始重寫基礎機制

      這一趨勢首先體現在由上海交通大學和 vivo BlueImage Lab 共同提出的《C2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。


      論文地址:https://arxiv.org/pdf/2603.08155v2

      Classifier-Free Guidance(CFG)作為條件擴散模型中最常用的生成引導機制,幾乎已經成為默認組件:通過調節 conditional 分支和 unconditional 分支之間的 guidance strength 來增強模型對條件信息的服從程度,從而提升生成質量。

      但長期以來,這一過程主要依賴固定 guidance weight 或少量經驗化動態調整,真正的問題在于,擴散過程內部的噪聲結構和 score 差異并不是靜止的,而是隨著時間步不斷變化,固定的引導強度很難在整個采樣階段都保持最優。

      論文正是從這一被忽視的內部動力學出發,分析不同 timestep 下 conditional score 與 unconditional score 的 discrepancy 變化規律,指出 guidance scale 本質上不應是一個靜態超參數。

      基于這種理論觀察,作者提出 C2FG(Control Classifier-Free Guidance),利用指數衰減控制函數讓 guidance strength 在采樣前期和后期自動完成動態分配:前期更強地利用條件約束保證語義對齊,后期則逐步減弱引導以避免過強 guidance 帶來的分布偏移和細節失真。

      它真正打破的是 CFG 長期依賴經驗調參的慣性,把一個原本“手工設定的 scale”重新建立成一個與擴散動力學同步變化的控制變量,而且由于整個方法 training-free、plug-in,無需重新訓練模型即可直接嵌入現有采樣流程,這也使它具備了非常強的工程可遷移性。


      而當擴散模型內部的引導控制開始被重新理論化時,蘋果團隊提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》則進一步把問題推向了更底層的生成架構本身。

      當前高質量視頻生成幾乎清一色建立在 diffusion 框架之上,反復去噪似乎已經成為視頻 world model 的默認實現方式,normalizing flow 雖然在圖像生成中重新受到關注,卻始終沒有真正進入視頻生成主流。


      論文地址:https://arxiv.org/pdf/2511.20462v2

      STARFlow-V 試圖回答的是:高質量視頻生成是否真的只有 diffusion 這一條路。為此,論文并沒有簡單把圖像 flow 結構遷移到視頻,而是針對視頻生成的長時序依賴和跨幀一致性,在時空 latent 空間中重新構建了一套 global-local 的 autoregressive normalizing flow 架構:

      全局 latent 用于控制跨幀因果依賴,減少長視頻中誤差逐幀累積的問題,局部 latent 則保留幀內細節交互,保證空間紋理質量。

      同時,作者進一步引入 flow-score matching,通過輕量級 causal denoiser 提升自回歸生成過程中的時間一致性,并利用 video-aware Jacobi iteration 提高內部更新的并行效率。

      也就是說,它并不是在 diffusion 框架內繼續做采樣優化,而是直接打破“高質量視頻生成必須依賴 diffusion 反復去噪”的默認前提,建立起一種基于 normalizing flow 的端到端視頻生成范式。

      更重要的是,由于 flow 天然具備可逆結構和顯式 likelihood 估計能力,同一個 STARFlow-V 模型就能夠原生支持 text-to-video、image-to-video 以及 video-to-video 多種任務,不需要為不同任務額外堆疊復雜分支,這使它不僅是一個替代架構,更像是在重新打開視頻生成的技術路線圖。


      如果說前兩篇工作還主要集中在“生成過程如何被重新控制與重新實現”,那么由 MIT 團隊提出的《Back to Basics: Let Denoising Generative Models Denoise》則把審視進一步推回到擴散模型最核心的預測對象上。

      當前主流 denoising diffusion model 雖然名義上是“去噪生成模型”,但大多數做法實際上并不直接預測干凈圖像,而是讓模型去擬合噪聲殘差或帶噪中間量,這一設定在工程上已經沿用多年,卻很少有人重新追問它是否真的是最合理的生成目標。


      論文地址:https://arxiv.org/pdf/2511.13720v2

      他們的研究指出,按照流形假設,自然圖像分布位于相對低維且連續的數據流形,而噪聲空間則高維、分散且更難擬合;從這個角度看,讓模型直接學習回到 clean data,本身可能比在高維噪聲空間中預測 noised quantity 更自然、更穩定。

      基于這一認識,作者提出 JiT(Just image Transformers),不再依賴額外 tokenizer、復雜預訓練模塊或輔助損失,而是直接使用大 patch Transformer 在原始像素空間完成 clean image 預測。

      這個設計表面上看是“回歸樸素”,但它真正打破的是“擴散模型默認預測噪聲”的路徑依賴,重新建立起一種以直接回歸數據流形為核心的生成思路,也讓 Transformer-based diffusion 在高分辨率自然圖像上的建模邏輯變得更加自洽。


      02


      生成模型開始從「會生成」走向「會精確編排」

      當視覺生成模型不斷回到底層機制做重構時,另一部分工作則開始把注意力轉向“模型生成結果到底能被控制到什么程度”。由德國圖賓根大學、Tübingen AI Center 以及馬克斯·普朗克信息學研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。

      當前文本驅動人體動作生成雖然已經能夠根據整體動作描述生成相對自然的人體運動,但模型控制依然停留在粗粒度層面:它能理解“一個人在走路”“一個人在揮手”,卻很難精確回答“左手什么時候抬起”“下半身何時轉向”“動作切換發生在哪一幀”。


      論文地址:https://arxiv.org/pdf/2601.10909v1

      造成這一問題的核心原因,一方面在于現有 mocap 數據大多只有序列級動作標簽,缺少按時間對齊、按身體部位拆分的細粒度標注;另一方面,模型即使理解整體語義,也很難同時兼顧局部肢體動作與全局時序一致性。

      FrankenMotion 正是重新把復雜人體運動視為由多個“原子動作單元”組成,并嘗試讓模型學習這些身體部位級動作之間的組合關系。

      論文首先借助 FrankenAgent 自動為已有動作序列生成逐幀、逐身體部位且時間對齊的層級文本標注,構建新的 FrankenStein 數據集;隨后訓練 FrankenMotion 同時接收序列級、動作級和身體部位級條件,使模型不僅知道“做什么動作”,還知道“哪部分身體在什么時候做”。

      這意味著人體動作生成開始從“生成一個合理動作片段”轉向“按指令精確編排復雜動作組合”,模型能夠組合出訓練集中并未直接出現過的細粒度復合動作。

      與這種細粒度控制需求相對應,視覺理解中的匹配任務也在經歷類似的范式轉向。由意大利都靈理工大學、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的


      由而意大利都靈理工大學(Politecnico di Torino)、德國達姆施塔特工業大學(TU Darmstadt)、德國黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。

      關注的則是語義對應(semantic correspondence)里一個很現實卻常被 benchmark 掩蓋的問題:現有方法雖然在已標注關鍵點上精度很高,但一旦查詢點超出訓練時見過的關鍵點位置,或者遇到未見類別,泛化能力就會迅速下降,導致 benchmark 成績與真實可用性之間存在明顯落差。


      論文地址:https://arxiv.org/pdf/2604.18267v1

      當前主流語義對應模型通常采用 DINOv2 加 diffusion backbone 的雙編碼器架構,雖然效果強,但模型規模接近十億參數,計算開銷大,而且依賴稀疏關鍵點監督時很難學到真正連續、致密的語義匹配關系。

      MARCO 的核心切入點,就是不再滿足于“在標注點上對得準”,而是嘗試讓模型學會在未被標注的空間中也能推斷合理的對應關系。

      為此,論文在 DINOv2 基礎上構建了一個更統一、更輕量的對應框架,并結合 coarse-to-fine 的定位目標提升細粒度空間精度,同時引入一種 dense self-distillation 機制,把原本稀疏的關鍵點監督逐步擴展成更致密的語義對齊信號。

      這種設計帶來的變化在于,模型不只是記住訓練時出現過的對應點,而是開始學習物體表面更連續的結構關聯,因此在 unseen keypoints 和 unseen categories 上都表現出更強泛化能力。

      實驗結果顯示,MARCO 不僅在 SPair-71k、AP-10K、PF-PASCAL 等標準基準上刷新了性能,在更嚴格的細粒度定位閾值和未見關鍵點測試中提升尤其明顯;與此同時,它相比 diffusion-based 方法還實現了約3 倍更小10 倍更快的效率優勢。

      這篇工作的價值在于,它打破了語義對應領域長期“高 benchmark 分數 ≠ 強真實泛化”的隱性瓶頸,建立起一種更強調致密推斷和未見空間泛化的建模思路,使 semantic correspondence 從“在標注點上匹配”,進一步走向“在整片語義空間中尋找對應”。


      把這幾項工作放在一起看,會發現它們雖然分別來自擴散控制、視頻生成、人體動作生成和語義對應等不同方向,但背后其實共享著同一條更深層的研究脈絡:視覺 AI 正在從“沿著既定范式堆模型、調參數、刷 benchmark”,轉向“重新拆掉那些被默認正確的底層設定,再建立新的生成目標、控制機制和表示方式”。

      有的工作在重新定義擴散模型應該如何引導,有的在重新打開視頻生成不止 diffusion 一條路的可能性,有的在追問生成模型到底該預測噪聲還是直接預測數據流形,也有的在把模型控制粒度和泛化空間從粗粒度推進到更連續、更真實的層面。

      換句話說,真正值得注意的已經不只是某一個模型分數提升了多少,而是這一批工作共同釋放出的信號:視覺模型的下一輪競爭,正在從性能增量競爭,轉向底層建模范式的重構競爭。

      這次去 CVPR 現場,一定不要錯過

      【認識大牛+賺外快】的機會

      需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來

      你能獲得什么?

      認識大牛:你將可以進入CVPR名師博士社群;

      錢多活少:提供豐厚獎金,任務量精簡;

      聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

      如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]

      【限額5位,先到先得】

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韓媒:中國人怒了,砸34億贊助世界杯,卻還要花大錢買轉播權

      韓媒:中國人怒了,砸34億贊助世界杯,卻還要花大錢買轉播權

      寒律
      2026-05-14 10:38:36
      事關臺灣問題,中方說了三句重話,特朗普聞言,態度像變了一個人

      事關臺灣問題,中方說了三句重話,特朗普聞言,態度像變了一個人

      蘭亭墨未干
      2026-05-14 16:34:56
      隨著騎士加時4分險勝,NBA季后賽最新排名出爐!東部第一命懸一線

      隨著騎士加時4分險勝,NBA季后賽最新排名出爐!東部第一命懸一線

      薇說體育
      2026-05-14 11:43:28
      “性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

      “性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

      新西蘭天維網
      2026-05-13 13:05:51
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      古史青云啊
      2026-05-13 09:59:29
      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      王一博回應結婚,網友:祝福。

      王一博回應結婚,網友:祝福。

      美芽
      2026-05-13 12:09:53
      錢再多有什么用?2個女兒慘死3個兒子反目,資產1250億也無人送終

      錢再多有什么用?2個女兒慘死3個兒子反目,資產1250億也無人送終

      北緯的咖啡豆
      2026-04-08 17:09:30
      江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

      江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

      書畫相約
      2026-04-14 07:21:03
      網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      燈錦年
      2026-05-13 19:39:30
      浙江寶寶“九個頭旋”引熱議,兒保醫師:頭旋數量和智商、性格無直接關系

      浙江寶寶“九個頭旋”引熱議,兒保醫師:頭旋數量和智商、性格無直接關系

      上游新聞
      2026-05-14 10:33:07
      U17國足VS沙特:4231最強出擊,萬項領銜前場進攻,海歸新星沖鋒

      U17國足VS沙特:4231最強出擊,萬項領銜前場進攻,海歸新星沖鋒

      零度眼看球
      2026-05-14 06:46:02
      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      快科技
      2026-05-14 11:54:52
      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      鐵錘簡科
      2026-05-14 13:24:35
      馬斯克太興奮了!360度狂拍照,網友笑瘋了

      馬斯克太興奮了!360度狂拍照,網友笑瘋了

      李東陽朋友圈
      2026-05-14 17:58:49
      印度每年榨糖,剩下7500萬噸甘蔗渣,中國人卻用它造出了科技王炸

      印度每年榨糖,剩下7500萬噸甘蔗渣,中國人卻用它造出了科技王炸

      毒sir財經
      2026-05-12 19:34:07
      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      史不語
      2026-05-13 08:10:10
      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      莫地方
      2026-05-14 00:55:03
      侮辱、誹謗小米汽車 四個賬號博主一審均敗訴

      侮辱、誹謗小米汽車 四個賬號博主一審均敗訴

      閃電新聞
      2026-05-13 17:52:31
      特朗普給美國埋下一個14年大雷,現在他只能賭一把“自求多福”?

      特朗普給美國埋下一個14年大雷,現在他只能賭一把“自求多福”?

      茶韻浮生
      2026-05-14 20:29:14
      2026-05-14 21:40:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      旅游
      教育
      本地
      家居
      軍事航空

      旅游要聞

      長江三峽翠屏林立 呈現碧水青山詩意畫卷

      教育要聞

      南京秦淮、雨花臺、玄武、建鄴2026高考考點公布!

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      精神奢享 對話塔尖需求

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合天天综一个色天天综合网| 国产亚洲av日韩精品熟女| 中文字幕有码在线观看| 色亚洲日韩| 久夜色精品国产噜噜| 国产精品久久久久久人妻精品动漫| 最新亚洲av日韩av二区| 精品国产亚洲一区二区三区| 亚洲成人av一区| 亚洲免费av一区二区| 国产熟女AV| 国产精品自偷一区在线观看| 手机看片欧美日韩| 午夜美女裸体福利视频| 久久香蕉国产线看观看亚洲卡| 亚洲AV成人一区二区三区天堂| 免费现黄频在线观看国产| 亚洲欧美人成电影在线观看| 亚洲人午夜射精精品日韩| 韩国三级Hb久久精品| 久热re在线视频精品免费| 国产av人人夜夜澡人人爽麻豆| 亚洲欧美日韩综合久久| 国产成人AV| www.日本H视频在线| 国产精品久久久久久影院| 真人性囗交视频| 6080啪啪| 午夜福制92视频1000集| 99国精品午夜福利视频不卡| 日本中文字幕久久网站| 午夜黄色影院| 亚洲中文字幕AV无码专区| 无码中文字幕人妻在线一区二区三区 | 亚洲高清最新AV网站| 制服.丝袜.亚洲.中文.综合| 激情五月天小说| 国产成人综合欧美精品久久| 97超碰电影| 亚洲成人av在线观看| 成人网导航|