<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      NUS、牛津等聯合發布音視頻智能綜述:系統梳理大模型時代的AVI全景圖

      0
      分享至


      新智元報道


      【新智元導讀】NUS等聯合發布音視頻智能綜述,系統梳理大模型時代AVI發展全貌,涵蓋感知、生成與交互三大主線,揭示從單模態到跨模態的演進路徑,并為未來研究與應用提供清晰方向。

      最近,由新加坡國立大學(NUS)領銜,聯合牛津大學、多倫多大學、UTD、HKUST、QMUL、羅切斯特大學等近10家機構共同發布了「第一份站在大基礎模型視角下」對音視頻智能(Audio-Visual Intelligence, AVI)做系統梳理的綜述。


      論文地址:https://arxiv.org/abs/2605.04045

      代碼鏈接:https://github.com/JavisVerse/Awesome-AVI

      目主頁:https://javisverse.github.io/

      整篇論文不僅復盤了過去近十年里散落在 ASR、數字人 / 說話頭(talking head)、Foley(擬音)合成、視頻配音 / 音頻驅動視頻生成、音視頻問答(AVQA)、空間音頻、具身導航等十幾個子方向的工作,還把它們重新組織成理解世界(Understanding the World)/ 創造世界(Creating the World)/ 與世界交互(Interacting with the World)三條主線,更像是一份「音視頻版 GPT-4o / Sora」研發團隊的全景速查圖。


      編程范式之后

      「聽-看-說-動」一體化

      論文從一條直觀的演化路徑切入:從L3-Net、Wav2Lip這類「對得上 / 唇形對齊」的早期 AV 工作,到 ImageBind、AudioLDM、MusicGen 的可擴展表示,再到 MMAudio、FoleyCrafter、JavisDiT 的跨模態生成與聯合音視頻生成,最后落到 GPT-4o、Veo-3、Seedance 2.0、HappyHorse、Qwen-Omni、OpenVLA 這一類同時聽、看、說、生成或行動的 omni / VLA 模型。

      過去我們只讓模型「對得上音和畫」,現在的趨勢正在轉變——開發者更習慣于讓一個backbone同時干完感知、生成與交互。

      隨著上下文窗口越來越長、工具調用與策略學習越來越成熟,這種范式正在悄悄改寫多模態系統的搭法。

      當一個模型能直接聽清環境聲、看懂屏幕、說出自然回應、必要時還能動手時,「音視頻智能」的起點就不再是「做單一任務」,而是組織感知-推理-響應的閉環。

      這類范式變化帶來的沖擊,比任何一次單點性能升級都更結構性。

      論文開篇的演化樹,把這條變化路徑直接畫了出來。


      統一任務體系

      感知 / 生成 / 交互三條主線

      論文首先搭建了AVI的整體任務藍圖。

      它不僅比較了通用多模態大模型與音視頻專用模型的訓練側重,也梳理了每一類任務背后的語料:LibriSpeech、AudioSet、VGGSound、AVQA、SoundSpaces、AVSpeech、HDTF……這些資源共同構成了AVI模型的「音視世界知識」。

      為了讓模型獲得跨模態理解能力,預訓練中大量使用對比對齊、masked / denoising重建、token級跨模態預測等任務,讓模型能處理跨幀、跨模態的復雜依賴。

      同時,從CLIP / AudioCLIP到AV-HuBERT、ImageBind,再到當下主流的Decoder-only LLM + omni encoder與MoE架構,模型結構的演化也體現了對AV任務需求的不斷適配。

      把這些內容拼起來,你會發現:所謂「視視頻智能」,并不是單點突破,而是整個訓練體系長期協同演進的結果。


      數據集、基準與評價指標:從單段對齊到長視頻工程級

      AVI 的評測體系一直比較碎片化。論文系統整理了音視頻理解、生成、交互、具身智能等方向的代表性數據集、benchmark 與評價指標,按粒度從片段級、單事件,到長視頻級和智能體級任務串成完整序列。

      LibriSpeech、AudioSet、VGGSound、AVE、MUSIC、AVQA 仍是基礎指標,但它們只反映模型的「底層聽看能力」。

      在更真實的多模態語境中,長視頻 AV 推理、跨場景的視頻配音 / 音頻驅動視頻生成一致性、多說話人對話理解、空間音頻推理、AV 具身任務才能真正體現模型是否「理解了世界」。

      論文同時介紹了LLM-as-a-Judge、多智能體評測、執行級校驗、低延遲交互評測等方法,并指出FAD / FVD / CLIP / SyncNet這些代理指標在音畫同步與音頻不可替代性維度上的局限,使評估更接近實際部署場景。

      這一部分很清楚地呈現出一個結論:模型能不能做好音視頻任務,取決于它能否處理真實場景的復雜依賴,而不僅僅是幾個單段benchmark上的小提升。

      基礎技術:讓模型「既會聽看,也會生成和交互」

      論文對AVI的基礎技術做了系統總結。

      從音頻與視覺表示、tokenization、跨模態對齊與融合,到VAE / GAN / Diffusion / 自回歸(AR)/ Masked Autoregressive(MAR)五類生成范式,再到Encoder + LLM、LLM + Generator、統一感知生成模型(unified Encoder + LLM + Decoder)、Agentic系統與VLA模型,每一步都圍繞同一個目標:讓模型理解世界,而不是僅「看起來會處理音視頻」。


      其中一個關鍵點是LLM-centric的設計選擇。單純把音頻特征拼到視覺模型上遠遠不夠,模型必須理解模態之間的依賴、時間結構和任務上下文,才能在真實場景中表現穩定。

      在生成能力方面,擴散 / flow matching、masked autoregressive、以及diffusion + AR的混合架構,也成為提升性能的新趨勢。

      強化學習與偏好對齊部分則系統比較了RLHF、DPO、reward shaping在AV生成上的表現。論文特別提到verifier與reward生態——通過更靠近「音頻不可替代性 / 物理合理性 / 長程一致性 / 音畫同步」的獎勵信號,讓模型基于真實任務效用學習正確性。

      這是近兩年音視頻大模型質量躍遷最顯著的方向之一。

      三條主線怎么落地:理解世界 → 創造世界 → 與世界交互

      當模型以「統一backbone」身份參與音視頻流程時,AVI 的潛力被進一步放大。

      論文從理解世界(音視頻感知、聲源定位、AVQA、跨模態檢索、推理)、創造世界(視頻配音、音頻驅動視頻生成、聯合音視頻生成、音畫編輯)、與世界交互(音視頻對話、omni-modal交互、具身智能與機器人)三條線切入,為每一步構建了對應的方法地圖與代表模型。


      在理解這條主線里,模型不再是「只看視頻」或「只聽語音」,而是要在統一表示下做對齊、grounding與推理;AV-LLM的崛起讓long-form video understanding、AVQA等任務有了新的基線。


      在生成這條主線里,論文指出當前最大的瓶頸不是單模態畫質或音質,而是聯合音視頻生成中的音畫同步、跨身份一致性與長時一致性。MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 這類近期音視頻生成模型已經能從文本或多模態條件生成帶原生音軌的視頻,但跨場景物理合理性、跨語義身份一致性,以及局部、可控的音畫編輯,仍然是開放問題。


      在交互這條主線里,從級聯式ASR + LLM + TTS,到speech-native LLM(Qwen-Audio、SALMONN),再到GPT-4o / Qwen-Omni這類原生 omni-modal 實時音視頻對話——模型從「被動執行單輪指令」走向「主動審視環境并實時響應」,這是一個完整的范式躍遷。

      代碼 / 工具 / 行動在 AVI 中的新地位

      論文也探討了AVI在更通用智能體生態中的新角色。

      對很多智能體來說,音視頻不只是輸入或輸出物,更是一種用于表達環境狀態、長期記憶和行動反饋的通用通道。

      這意味著未來的智能體體系,可能會越來越依賴以AV為核心能力的模型。

      擅長音視頻的模型在規劃、工具使用、人機協作中具有天然優勢,也更容易成為智能體系統的底層能力模塊。


      具身這條子線尤其值得關注:以SoundSpaces 一脈為起點的AV導航,疊加 OpenVLA / π0 / GR00T這類把語言、視覺、動作甚至環境聲音統一到一個策略里的方向,正在讓「聲音」重新成為機器人感知世界不可缺的一環。

      安全治理:能力越強,風險越復雜

      論文把音視頻大模型的安全風險拆成數據、模型與執行三個層面:包括訓練數據的版權、隱私與數據合規問題、生成內容的深偽與冒名、提示攻擊、多模態越獄、以及部署側實時音視頻流的濫用風險。

      對應的治理手段包括數據審計、安全微調、偏好對齊、紅隊測試、深偽檢測、水印與可溯源、運行時沙箱等機制。

      隨著AV模型越來越多地集成進社交、教育、醫療、機器人場景,這些安全治理能力正成為基礎設施的一部分。

      應用正在加速落地:AIGC、數字人、XR、機器人

      論文最后回到應用層面:從短視頻AIGC、配音與Foley(擬音)合成,到數字人、對話助手、AI教學、無障礙輔助、空間音頻與Metaverse、再到具身機器人與智慧城市,AVI已經開始進入大量真實場景的關鍵環節。


      隨著omni模型與VLA框架不斷成熟,音視頻智能也正從「輔助工具」逐漸成為大模型基礎設施的一部分。

      未來一段時間,音視頻大模型很可能繼續朝意圖驅動、閉環交互、原生音畫同步生成的方向演化,而它在通用智能體里的角色也會越來越重要。

      未來六大研究軸

      論文用一張路線圖把這件事講明白:前三階段已經把「對得上 / 感知 / 生成」的家底攢齊,當下站在交互式omni-modal與具身模型這條前沿線上,再往后兩站,是因果—上下文AVI和可驗證的agentic AVI。


      圍繞這張路線圖,論文進一步把AVI接下來的研究路線總結成六條主軸,覆蓋音畫同步、因果事件grounding、空間音頻推理、長程上下文記憶、可控生成、安全治理、水印與數據合規等關鍵問題:

      • 因果事件-聲源grounding:建模延遲、遮擋、畫外音、多源混合下的源級、事件級與因果對齊,把音畫同步推向因果可解釋層面;

      • AV世界模型:把音視頻當作幾何、材質、動力學、可供性的互補證據,并以空間音頻推理作為關鍵能力;

      • 長程AV上下文記憶:構建流式 / 情景 / 語義多層、可選擇、可溯源的 AV 記憶,而不是簡單加長上下文;

      • 因果AV干預與可控生成:讓生成與編輯支持對物體、聲音、身份、情緒、空間、時間的局部、因果且同步的干預;

      • Verifier與Reward生態:超越 FAD / FVD / CLIP / SyncNet 這類代理指標,發展面向 grounding、物理合理性、音頻不可替代性與任務效用的驗證器;

      • 交互式與負責任AVI:在低延遲、隱私、版權、水印與數據合規等安全治理約束下,把AV模型變成可信賴的實時合作者。

      這六條主軸和今天工業界正在做的「音視頻版GPT-4o / 音視頻版 Sora / 音視頻版Voyager」高度對應,也是論文對未來1–3年研究方向最具體的判斷。

      這篇綜述長文將AVI的關鍵模塊按邏輯串聯起來:從演化時間線、任務體系、技術地基、三條主線、應用版圖、到未來六軸,勾勒出一張完整、系統、可實踐的音視頻大模型地圖。

      無論你關注omni模型訓練、AV生成 / 編輯工具、AV智能體,還是想理解未來音視頻AI的演化方向,這篇文獻都值得完整讀一次!

      編輯:LRST

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩連MVP,卻成聯盟反派,四大原因揭示,亞歷山大很難得到尊重

      兩連MVP,卻成聯盟反派,四大原因揭示,亞歷山大很難得到尊重

      老梁體育漫談
      2026-05-19 23:33:21
      馬斯克輸了

      馬斯克輸了

      牛彈琴
      2026-05-19 07:47:04
      貝蒂斯官方:貝萊林現在一定樂壞了,祝賀阿森納!

      貝蒂斯官方:貝萊林現在一定樂壞了,祝賀阿森納!

      懂球帝
      2026-05-20 07:39:09
      俄羅斯這次真的豁出去了!送上了一份誰都沒想到的“技術大禮包”

      俄羅斯這次真的豁出去了!送上了一份誰都沒想到的“技術大禮包”

      回京歷史夢
      2026-05-20 16:55:15
      張本智和逃離日本!全家搬到德國,師徒反目,背后原因讓人意外

      張本智和逃離日本!全家搬到德國,師徒反目,背后原因讓人意外

      另子維愛讀史
      2026-05-18 21:42:53
      A股:收盤后,傳來一個信息,明天,周四走勢展望!

      A股:收盤后,傳來一個信息,明天,周四走勢展望!

      明心
      2026-05-20 17:05:33
      浙江:房屋出租新規,6月1日起施行

      浙江:房屋出租新規,6月1日起施行

      文匯報
      2026-05-19 21:46:04
      高二我偷拿1000塊給同桌母親看病,10年后我去工作,被她母親拉住

      高二我偷拿1000塊給同桌母親看病,10年后我去工作,被她母親拉住

      清茶淺談
      2025-04-20 13:51:19
      新生兒腰斬、房價下跌?別怪政策了,這才是中國經濟的殘酷真相!

      新生兒腰斬、房價下跌?別怪政策了,這才是中國經濟的殘酷真相!

      冷夜說
      2026-05-11 20:31:08
      誰都沒想到!阿森納22年首冠最大功臣,居然是這個全場隱身的怪物

      誰都沒想到!阿森納22年首冠最大功臣,居然是這個全場隱身的怪物

      奶蓋熊本熊
      2026-05-20 04:40:10
      大連跨海大橋旁現巨幅修腳廣告,涉事企業:已全面優化更換

      大連跨海大橋旁現巨幅修腳廣告,涉事企業:已全面優化更換

      上游新聞
      2026-05-20 15:06:13
      老羅看 《給阿嬤的情書》犀利點破:這電影為啥漏洞百出還能殺瘋?

      老羅看 《給阿嬤的情書》犀利點破:這電影為啥漏洞百出還能殺瘋?

      動物奇奇怪怪
      2026-05-19 09:25:46
      “見過最廉價的兜底”,一份趁熱吃的山姆烤雞,讓家長被全網群嘲

      “見過最廉價的兜底”,一份趁熱吃的山姆烤雞,讓家長被全網群嘲

      妍妍教育日記
      2026-05-20 16:49:27
      澳大利亞對中企下“逐客令”,要求14天之內,交出手中16.8億股份

      澳大利亞對中企下“逐客令”,要求14天之內,交出手中16.8億股份

      霽寒飄雪
      2026-05-20 16:51:58
      “體制內都不敢這么喝!”大學生每天一杯瑞幸被舉報,哭訴反被嘲

      “體制內都不敢這么喝!”大學生每天一杯瑞幸被舉報,哭訴反被嘲

      妍妍教育日記
      2026-05-19 16:26:29
      庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認過去

      庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認過去

      鶴羽說個事
      2026-05-18 22:54:43
      她是兩百年難遇的美人,靠美貌“征服”無數男人,如今49歲仍未婚

      她是兩百年難遇的美人,靠美貌“征服”無數男人,如今49歲仍未婚

      林雁飛
      2026-03-22 14:47:54
      突發 | 剛剛,廣西柳州又地震!

      突發 | 剛剛,廣西柳州又地震!

      天津廣播
      2026-05-20 08:38:43
      3 類肥皂被列入致癌黑名單,長期用或有致癌風險?告訴你真相

      3 類肥皂被列入致癌黑名單,長期用或有致癌風險?告訴你真相

      三農老歷
      2026-05-20 12:13:56
      難以置信!《監獄來的媽媽》再掀波瀾,主創團隊全員交大背景爭議

      難以置信!《監獄來的媽媽》再掀波瀾,主創團隊全員交大背景爭議

      火山詩話
      2026-05-20 14:58:46
      2026-05-20 17:39:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15261文章數 66877關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      捷克總理重申政府將堅定奉行一個中國政策 外交部表態

      頭條要聞

      捷克總理重申政府將堅定奉行一個中國政策 外交部表態

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      旅游
      藝術
      親子
      手機
      教育

      旅游要聞

      2026年首趟“京和號”旅游專列發車 開啟19天新疆深度游

      藝術要聞

      18幅 玫瑰花與女子畫作

      親子要聞

      職場媽媽和全職媽媽帶的娃,上小學就能看出來,三方面差距很明顯

      手機要聞

      釋放明確信號:時隔4年,小米17T系列手機將重返印度市場

      教育要聞

      “見過最廉價的兜底”,一份趁熱吃的山姆烤雞,讓家長被全網群嘲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东京热大乱系列无码| 国产少妇| 午夜AV色网| 国产一区二区不卡在线| 欧美野外伦姧在线观看| 国产成人av综合色| 日韩无码天堂| 精品久久中文字幕五十路人妻 | 97超级碰碰碰久久久久app| 国产av制服丝袜| 亚洲精品自拍在线视频| 国产丝袜控视频在线观看| 五月天网站在线观看| 亚洲中文字幕在线精品一区| 成人国产亚洲精品一区二区| 久久香蕉综合色一综合色88 | 亚洲AV无码综合一区二区在线| 最新亚洲av日韩av二区| 一区二区三区毛VⅤ| 内地自拍三级在线观看| 国产不卡一区二区在线| 久久发布国产伦子伦精品| 日本人妻成人| 久久国产成人av蜜臀| 日韩成人高精品一区二区| 午夜在线精品不卡国产| 熟女高潮精品一区二区| 亚洲日韩视频免费观看| 亚洲熟妇自偷自拍另类| 国产中文字幕一区二区| 国产久| 亚洲欧洲另类春色校园小说| 国产睡熟迷奷系列网站| 欧美A片在线观看| 中文字幕人妻日韩在线| 天天躁夜夜躁狠狠躁图片| 无码AV中文字幕久久专区| 91网站在线看| 亚洲?影音先锋| AV无码免费不卡在线观看| 成人国产综合|