<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI 會笑嗎?BIGAI & 上交大團隊:多模態大模型是否真的能 get 到視頻笑點|ACL 2026

      0
      分享至


      v-HUB 基準將視頻幽默理解聚焦于視覺線索與環境聲音驅動的無對白短視頻場景,系統揭示當前模型從“看見視頻”到“理解笑點”之間仍有顯著差距。

      目前GPT、Gemini、Qwen這些多模態大模型,已經能識圖、看視頻、聽聲音。而像畫面里有人摔倒、貓把球推進洞里、車門和喇叭配合出一段“停車場交響樂”,這些內容似乎只要模型能識別物體、動作和聲音,就能順帶理解哪里好笑。因此你可能以為,讓AI看懂一個搞笑短視頻,并不算太難。

      但對多模態大模型來說,看見畫面真的等于理解幽默嗎?幽默理解不是簡單的物體識別,一個人摔了一跤為什么好笑,一塊蛋糕切開后為什么像聊天氣泡,一段背景音樂為什么能把畫面變得更有梗,這些都需要模型同時理解動作、時序、常識、文化背景,以及視覺和聲音之間的配合。

      為探索這一問題,來自上海交通大學、武漢大學和北京通用人工智能研究院的研究團隊構建了一個全新的評測基準v-HUB,系統地分析當前多模態大模型的視頻幽默理解能力。


      論文:https://arxiv.org/abs/2509.25773

      項目主頁:https://spatigen.github.io/vhub.io/

      代碼:https://github.com/spatigen/vhub

      數據

      https://huggingface.co/datasets/Foreverskyou/v-HUB

      01


      看懂視頻,不等于看懂笑點

      過去不少視頻幽默數據集,往往離不開臺詞、字幕或文本描述。模型看起來像是理解了幽默,但很多時候其實是在依賴語言線索。

      這和真實世界并不完全一致,人類并不總是靠對白才會笑。幽默是一種特別的理解能力,它更多是藏在反差、時機、常識違背、文化背景和聲音氛圍里。


      比如一個人翻動紙頁,紙上的小人隨著翻頁動作逐漸“演奏”起來;或者有人說要做一個和聊天界面“一模一樣”的生日蛋糕,結果蛋糕切開后真的還原了聊天氣泡。這類笑點并不靠臺詞解釋,而是靠視覺結構、時間順序、音樂和觀眾的常識一起完成。

      v-HUB 關注的正是這類更難的問題:當笑點主要來自視覺和環境聲音,而不是對白和字幕時,模型還能不能理解?

      02


      基準構建流程

      為了構建這個基準,研究團隊從兩個互補來源收集視頻:一類是1914-1938年間卓別林默片中的幽默片段,另一類是來自互聯網的用戶生成搞笑短視頻。前者強調經典肢體喜劇和視覺敘事,后者補充現代短視頻場景、文化背景和表達方式。

      在數據篩選階段,團隊僅保留時長5-60秒的視頻,保證其笑點完整,避免片段過長導致任務變成劇情理解,并剔除低質量、有害或高度依賴語音的視頻,同時通過人工與自動轉寫相結合的方式盡量減少語音依賴。最終構建的數據集共包含1218條視頻,總時長約 4.7 小時,平均每條視頻約 14 秒。其中包括267條卓別林默片幽默片段和 951 條用戶生成短視頻。同時數據集涵蓋純視覺、視覺加聲音、視覺加文字、視覺加聲音和文字4種模態組合,覆蓋5種幽默類型6類文化區域背景


      在數據標注階段,團隊保證每條視頻都經過多輪人工標注,其中標注內容包括幽默等級、描述性標題、創意標題、視頻描述、幽默解釋、背景知識、幽默元素,以及是否存在視覺文字等。最后根據標注結果設計了Caption MatchingHumor ExplanationOpen-ended QA三類任務來全面評測模型能力。

      這樣的設計讓 v-HUB 不只是一個“判斷好不好笑”的數據集,而是一個可以診斷模型從觀察到解釋全過程能力的評測框架。


      03


      幾個值得注意的結果

      研究者評測了7個前沿模型:Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL (72B)、Intern3.5-VL (8B)、Video-SALMONN-2 (7B)、MiniCPM2.6-o (8B)和Qwen2.5-Omni (7B)。并根據它們在v-HUB上的實驗結果得到了以下四點發現。


      發現一:模型更依賴文字,而不是畫面

      最明顯的現象是,模型在 Text-Only 設置下普遍表現更好。也就是說,當人類已經把視頻內容寫成詳細文字描述后,模型的語言推理能力可以比較順利地發揮出來。

      但一旦換成原始視頻輸入,表現就會明顯下降。例如在 Open-ended QA 任務上,Qwen2.5-VL 的 SentBERT 得分便從 Text-Only 的 0.760 降到 Video-Only 的 0.445。

      這說明模型并不是完全不會推理幽默,而是很依賴別人先把視頻“翻譯”成文字。真正難的是第一步:從原始畫面里捕捉細微動作、時間關系和反差。

      發現二:模型會答題,但不一定會主動發現笑點

      另一個有意思的現象是:模型在開放問答上往往比在幽默解釋上表現更好。例如在Text-Only設置下,Qwen2.5-VL的SentBERT 得分從Open-ended QA任務中的 0.760 下降至Humor Explanation任務中的0.543。

      原因也不難理解。開放問答通常會把注意力指向一個具體事實,比如“貓對球做了什么”“車旁邊的人在做什么”。但幽默解釋沒有這么直接的提示,模型需要自己判斷哪個動作、哪個聲音、哪個反差才是笑點。

      這就像一個人能回答“畫面里有一只貓”,并不代表他理解“貓像臺球高手一樣把球推進洞里”為什么好笑。

      發現三:聲音有幫助,但效果有限

      加入環境聲音后,部分 OmniLLM 的表現確實有所提升。比如 MiniCPM2.6-o 在 Caption Matching 上從 Video-Only 的 0.362 提升到 Video+Audio 的 0.442;Qwen2.5-Omni 也從 0.553 提升到 0.617。

      這說明背景音樂、音效、節奏感并不是裝飾,它們本身就是理解幽默的一部分。尤其是短視頻里,聲音可以幫助模型判斷動作的節奏、意外發生的時機,甚至補充文化線索。

      不過,聲音并不能完全彌補視覺理解的短板。Video+Audio的表現整體仍然明顯落后于 Text-Only。這意味著現有模型還沒有真正把視覺和聲音融合成穩定的幽默理解能力,更多時候只是從聲音中獲得一點額外提示

      發現四:視覺文字、背景知識和時代語境,都是隱形線索

      除了聲音,研究團隊還進一步分析了視覺文字和背景知識的作用。結果顯示,包含視覺文字的視頻通常更容易被模型理解,尤其是在聲音不能直接貢獻笑點時,屏幕文字會成為很重要的補充線索。例如Gemini-2.5-Flash 在Caption Matching任務上的準確率便從 0.569 提升到 0.715。可見模型不是只在“聽到好笑聲音”時才變好,屏幕文字本身就能幫助模型更好地抓住笑點。

      背景知識也很關鍵。對于需要外部知識的視頻,如果顯式提供背景信息,模型的解釋能力會提高。例如 Qwen2.5-Omni 在 Video+Audio 設置下,當提供背景知識時,在Humor Explanation任務上的SentBERT得分為0.512,而沒有背景知識時的得分為0.459。這說明模型并不是完全沒有相關常識,但它未必會在合適的時候把常識調出來。而把背景知識明確告訴它,就像給它補了一句“你需要這樣看這個梗”,表現自然會更好。

      還有一個容易被忽略的點:模型理解當代短視頻,比理解更早期的默片幽默更容易。卓別林式默片喜劇高度依賴肢體表演、時代語境和經典喜劇結構,對模型來說反而更難。原因可能在于,默片的表達方式、表演節奏和社會語境都與今天的短視頻不同。人類可以借助文化經驗和影視經驗理解這種喜劇,但模型對這些時代差異的把握仍然有限。


      因此視頻幽默不是孤立的視覺識別任務,它還牽涉文化、年代、常識和表達習慣。模型要真正“懂笑點”,就必須把這些隱形線索一起納入推理。

      03


      三個具體案例

      論文中的三個案例剛好暴露了當前模型在細粒度視覺、跨模態融合和視覺文字理解上的不同短板。

      案例一:小貓打臺球


      第一個視頻里,小貓用爪子抓住球,并把球放進洞里。人類會覺得好笑,是因為這只貓的動作像是在認真完成一次臺球擊球,帶有擬人化和反差感。

      有意思的是,在Caption Matching任務上,模型在三種輸入設置下都能回答正確;但在Open-ended QA任務上,只看視頻時卻回答“小貓沒有和球互動”,盡管添加了聲音后有一定的改進,但也只是簡短地回答“推了一下”。這說明模型可能通過局部線索或選項排除猜中了標題,卻沒有穩定理解關鍵動作。

      案例二:停車場“交響樂”


      第二個視頻更依賴聲音。兩個人在車旁邊開關車門,用車門聲配合喇叭聲,制造出一種混亂但有節奏的“停車場合奏”。

      只看視頻時,模型在Caption Matching任務上則回答錯誤,把視頻理解成別的場景;加上聲音后,它能夠選回“parking garage symphony”相關的正確標題。

      但問題還沒完全解決。在Open-ended QA任務上,模型仍可能把兩個人的動作說成“說話”或“推車”。這說明聲音可以幫助模型捕捉整體氛圍,卻不一定能自動修正視覺動作識別的錯誤。

      案例三:免費WiFi


      第三個視頻里,一張“FREE WIFI”告示看起來很普通,但鏡頭一路拉開后,觀眾發現密碼長到幾乎貼滿墻。笑點則來自“每個人都能用免費WiFi”和“密碼長到沒人想輸”之間的反差。

      這個案例考驗的則是視覺文字和場景語義。在Open-ended QA任務上,如果只看視頻,模型會認為“WiFi 不能用”;但當輸入信息不斷變得充分,模型也更接近正確答案:不是 WiFi 壞了,而是密碼太長。

      04


      結語:AI 離“會笑”還有多遠?

      當前視頻理解領域已經有很多benchmark可以衡量模型能否識別動作、描述事件、回答事實問題。但幽默理解則更進一步:它要求模型知道什么是正常,什么是意外,為什么這個意外值得一笑。而從 v-HUB 的結果看,今天的多模態大模型已經能看見很多東西,也能在提示充分的情況下解釋一部分笑點。

      但真正的人類式幽默理解,往往發生在沒有提示的瞬間:看到一個動作、聽到一個聲音、讀到一行字,然后立刻意識到“不對勁但很好笑”。這一步仍然是當前模型的短板,因此未來的 AI 如果要更自然地陪伴、協作和交流,不僅要看見世界,更要理解人類為什么會對某個場景產生情緒反應。

      05


      作者


      施鄭鵬,本文第一作者,現為上海交通大學人工智能學院碩士一年級學生,師從趙波老師。主要研究方向為多模態大模型與大模型智能體,相關成果發表于 ACL 等 CCF A 類會議。

      ——本篇文章論文作者擁有所有權,轉載請聯系論文作者

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      溫莎血脈基因優良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      楓塵余往逝
      2026-05-13 14:45:33
      突發!南京又一機構跑路!

      突發!南京又一機構跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      頂級大佬思維
      2026-05-09 14:23:20
      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      農夫也瘋狂
      2026-05-13 11:40:43
      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      瀟湘晨報
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來車主:不敢開了,要求退車

      買車半年維修9次!蔚來車主:不敢開了,要求退車

      深圳晚報
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      萌蘭聊個球
      2026-05-13 16:32:05
      很多男人已經養不起家了,無數普通頂梁柱被壓垮!

      很多男人已經養不起家了,無數普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      球場沒跑道
      2026-05-14 11:16:03
      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      時尚
      本地
      旅游
      親子
      手機

      大熱天,闊腿褲配什么上衣更清涼?

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      長江三峽翠屏林立 呈現碧水青山詩意畫卷

      親子要聞

      監控下的幼兒園小可愛,主動幫老師搬桌開門,邏輯超在線

      手機要聞

      vivo S60預熱開啟,超大面積一體冷雕玻璃

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丝袜国产在线| 亚洲欧美日韩中文v在线| 自拍偷拍一区二区三区四| 丰满熟妇高潮一二三区| 91精品亚洲熟妇少妇任你躁 | 91精品一区二区蜜桃| 色猫咪av在线网址| 亚洲国产天堂一区二区三区| 无码色综合视频| 欧美曰批视频免费播放免费| 久国产精品韩国三级视频| 日韩av在线一区二区三区| 日韩人妻无码精品系列| 天天干干强奸| 亚洲精品一区二区中文字幕| 国产9191精品免费观看| 好男人社区影视在线WWW| 人人入人人爱| 福利视频福利视频| 天天精品| 日韩AV片无码一区二区不卡| 色www88| 午夜国产理论大片高清| xxxxbbbb欧美残疾人| 日韩中av免费在线观看| 91狠狠综合久久久久久| 欧美黑人少妇视频在线免费 | 天堂网在线.www天堂在线资源| 极品在线视频| 国产高清精品软件丝瓜软件| 精品国产99电影在线观看| 国产成人无码精品久久久免费| 狠狠色综合久久丁香婷婷| 亚洲成人av高清在线| 黑人巨大超大另类videos| 欧美交换配乱吟粗大25p| 一本无码人妻在中文字幕免费| 91成人免费| 激,情四虎欧美视频图片| 国产精品无码a∨麻豆| 超碰免费在线观看|