![]()
v-HUB 基準將視頻幽默理解聚焦于視覺線索與環境聲音驅動的無對白短視頻場景,系統揭示當前模型從“看見視頻”到“理解笑點”之間仍有顯著差距。
目前GPT、Gemini、Qwen這些多模態大模型,已經能識圖、看視頻、聽聲音。而像畫面里有人摔倒、貓把球推進洞里、車門和喇叭配合出一段“停車場交響樂”,這些內容似乎只要模型能識別物體、動作和聲音,就能順帶理解哪里好笑。因此你可能以為,讓AI看懂一個搞笑短視頻,并不算太難。
但對多模態大模型來說,看見畫面真的等于理解幽默嗎?幽默理解不是簡單的物體識別,一個人摔了一跤為什么好笑,一塊蛋糕切開后為什么像聊天氣泡,一段背景音樂為什么能把畫面變得更有梗,這些都需要模型同時理解動作、時序、常識、文化背景,以及視覺和聲音之間的配合。
為探索這一問題,來自上海交通大學、武漢大學和北京通用人工智能研究院的研究團隊構建了一個全新的評測基準v-HUB,系統地分析當前多模態大模型的視頻幽默理解能力。
![]()
論文:https://arxiv.org/abs/2509.25773
項目主頁:https://spatigen.github.io/vhub.io/
代碼:https://github.com/spatigen/vhub
數據:
https://huggingface.co/datasets/Foreverskyou/v-HUB
01
看懂視頻,不等于看懂笑點
過去不少視頻幽默數據集,往往離不開臺詞、字幕或文本描述。模型看起來像是理解了幽默,但很多時候其實是在依賴語言線索。
這和真實世界并不完全一致,人類并不總是靠對白才會笑。幽默是一種特別的理解能力,它更多是藏在反差、時機、常識違背、文化背景和聲音氛圍里。
![]()
比如一個人翻動紙頁,紙上的小人隨著翻頁動作逐漸“演奏”起來;或者有人說要做一個和聊天界面“一模一樣”的生日蛋糕,結果蛋糕切開后真的還原了聊天氣泡。這類笑點并不靠臺詞解釋,而是靠視覺結構、時間順序、音樂和觀眾的常識一起完成。
v-HUB 關注的正是這類更難的問題:當笑點主要來自視覺和環境聲音,而不是對白和字幕時,模型還能不能理解?
02
基準構建流程
為了構建這個基準,研究團隊從兩個互補來源收集視頻:一類是1914-1938年間卓別林默片中的幽默片段,另一類是來自互聯網的用戶生成搞笑短視頻。前者強調經典肢體喜劇和視覺敘事,后者補充現代短視頻場景、文化背景和表達方式。
在數據篩選階段,團隊僅保留時長5-60秒的視頻,保證其笑點完整,避免片段過長導致任務變成劇情理解,并剔除低質量、有害或高度依賴語音的視頻,同時通過人工與自動轉寫相結合的方式盡量減少語音依賴。最終構建的數據集共包含1218條視頻,總時長約 4.7 小時,平均每條視頻約 14 秒。其中包括267條卓別林默片幽默片段和 951 條用戶生成短視頻。同時數據集涵蓋純視覺、視覺加聲音、視覺加文字、視覺加聲音和文字4種模態組合,覆蓋5種幽默類型和6類文化區域背景。
![]()
在數據標注階段,團隊保證每條視頻都經過多輪人工標注,其中標注內容包括幽默等級、描述性標題、創意標題、視頻描述、幽默解釋、背景知識、幽默元素,以及是否存在視覺文字等。最后根據標注結果設計了Caption Matching、Humor Explanation和Open-ended QA三類任務來全面評測模型能力。
這樣的設計讓 v-HUB 不只是一個“判斷好不好笑”的數據集,而是一個可以診斷模型從觀察到解釋全過程能力的評測框架。
![]()
03
幾個值得注意的結果
研究者評測了7個前沿模型:Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL (72B)、Intern3.5-VL (8B)、Video-SALMONN-2 (7B)、MiniCPM2.6-o (8B)和Qwen2.5-Omni (7B)。并根據它們在v-HUB上的實驗結果得到了以下四點發現。
![]()
發現一:模型更依賴文字,而不是畫面
最明顯的現象是,模型在 Text-Only 設置下普遍表現更好。也就是說,當人類已經把視頻內容寫成詳細文字描述后,模型的語言推理能力可以比較順利地發揮出來。
但一旦換成原始視頻輸入,表現就會明顯下降。例如在 Open-ended QA 任務上,Qwen2.5-VL 的 SentBERT 得分便從 Text-Only 的 0.760 降到 Video-Only 的 0.445。
這說明模型并不是完全不會推理幽默,而是很依賴別人先把視頻“翻譯”成文字。真正難的是第一步:從原始畫面里捕捉細微動作、時間關系和反差。
發現二:模型會答題,但不一定會主動發現笑點
另一個有意思的現象是:模型在開放問答上往往比在幽默解釋上表現更好。例如在Text-Only設置下,Qwen2.5-VL的SentBERT 得分從Open-ended QA任務中的 0.760 下降至Humor Explanation任務中的0.543。
原因也不難理解。開放問答通常會把注意力指向一個具體事實,比如“貓對球做了什么”“車旁邊的人在做什么”。但幽默解釋沒有這么直接的提示,模型需要自己判斷哪個動作、哪個聲音、哪個反差才是笑點。
這就像一個人能回答“畫面里有一只貓”,并不代表他理解“貓像臺球高手一樣把球推進洞里”為什么好笑。
發現三:聲音有幫助,但效果有限
加入環境聲音后,部分 OmniLLM 的表現確實有所提升。比如 MiniCPM2.6-o 在 Caption Matching 上從 Video-Only 的 0.362 提升到 Video+Audio 的 0.442;Qwen2.5-Omni 也從 0.553 提升到 0.617。
這說明背景音樂、音效、節奏感并不是裝飾,它們本身就是理解幽默的一部分。尤其是短視頻里,聲音可以幫助模型判斷動作的節奏、意外發生的時機,甚至補充文化線索。
不過,聲音并不能完全彌補視覺理解的短板。Video+Audio的表現整體仍然明顯落后于 Text-Only。這意味著現有模型還沒有真正把視覺和聲音融合成穩定的幽默理解能力,更多時候只是從聲音中獲得一點額外提示
發現四:視覺文字、背景知識和時代語境,都是隱形線索
除了聲音,研究團隊還進一步分析了視覺文字和背景知識的作用。結果顯示,包含視覺文字的視頻通常更容易被模型理解,尤其是在聲音不能直接貢獻笑點時,屏幕文字會成為很重要的補充線索。例如Gemini-2.5-Flash 在Caption Matching任務上的準確率便從 0.569 提升到 0.715。可見模型不是只在“聽到好笑聲音”時才變好,屏幕文字本身就能幫助模型更好地抓住笑點。
背景知識也很關鍵。對于需要外部知識的視頻,如果顯式提供背景信息,模型的解釋能力會提高。例如 Qwen2.5-Omni 在 Video+Audio 設置下,當提供背景知識時,在Humor Explanation任務上的SentBERT得分為0.512,而沒有背景知識時的得分為0.459。這說明模型并不是完全沒有相關常識,但它未必會在合適的時候把常識調出來。而把背景知識明確告訴它,就像給它補了一句“你需要這樣看這個梗”,表現自然會更好。
還有一個容易被忽略的點:模型理解當代短視頻,比理解更早期的默片幽默更容易。卓別林式默片喜劇高度依賴肢體表演、時代語境和經典喜劇結構,對模型來說反而更難。原因可能在于,默片的表達方式、表演節奏和社會語境都與今天的短視頻不同。人類可以借助文化經驗和影視經驗理解這種喜劇,但模型對這些時代差異的把握仍然有限。
![]()
因此視頻幽默不是孤立的視覺識別任務,它還牽涉文化、年代、常識和表達習慣。模型要真正“懂笑點”,就必須把這些隱形線索一起納入推理。
03
三個具體案例
論文中的三個案例剛好暴露了當前模型在細粒度視覺、跨模態融合和視覺文字理解上的不同短板。
案例一:小貓打臺球
![]()
第一個視頻里,小貓用爪子抓住球,并把球放進洞里。人類會覺得好笑,是因為這只貓的動作像是在認真完成一次臺球擊球,帶有擬人化和反差感。
有意思的是,在Caption Matching任務上,模型在三種輸入設置下都能回答正確;但在Open-ended QA任務上,只看視頻時卻回答“小貓沒有和球互動”,盡管添加了聲音后有一定的改進,但也只是簡短地回答“推了一下”。這說明模型可能通過局部線索或選項排除猜中了標題,卻沒有穩定理解關鍵動作。
案例二:停車場“交響樂”
![]()
第二個視頻更依賴聲音。兩個人在車旁邊開關車門,用車門聲配合喇叭聲,制造出一種混亂但有節奏的“停車場合奏”。
只看視頻時,模型在Caption Matching任務上則回答錯誤,把視頻理解成別的場景;加上聲音后,它能夠選回“parking garage symphony”相關的正確標題。
但問題還沒完全解決。在Open-ended QA任務上,模型仍可能把兩個人的動作說成“說話”或“推車”。這說明聲音可以幫助模型捕捉整體氛圍,卻不一定能自動修正視覺動作識別的錯誤。
案例三:免費WiFi
![]()
第三個視頻里,一張“FREE WIFI”告示看起來很普通,但鏡頭一路拉開后,觀眾發現密碼長到幾乎貼滿墻。笑點則來自“每個人都能用免費WiFi”和“密碼長到沒人想輸”之間的反差。
這個案例考驗的則是視覺文字和場景語義。在Open-ended QA任務上,如果只看視頻,模型會認為“WiFi 不能用”;但當輸入信息不斷變得充分,模型也更接近正確答案:不是 WiFi 壞了,而是密碼太長。
04
結語:AI 離“會笑”還有多遠?
當前視頻理解領域已經有很多benchmark可以衡量模型能否識別動作、描述事件、回答事實問題。但幽默理解則更進一步:它要求模型知道什么是正常,什么是意外,為什么這個意外值得一笑。而從 v-HUB 的結果看,今天的多模態大模型已經能看見很多東西,也能在提示充分的情況下解釋一部分笑點。
但真正的人類式幽默理解,往往發生在沒有提示的瞬間:看到一個動作、聽到一個聲音、讀到一行字,然后立刻意識到“不對勁但很好笑”。這一步仍然是當前模型的短板,因此未來的 AI 如果要更自然地陪伴、協作和交流,不僅要看見世界,更要理解人類為什么會對某個場景產生情緒反應。
05
作者
![]()
施鄭鵬,本文第一作者,現為上海交通大學人工智能學院碩士一年級學生,師從趙波老師。主要研究方向為多模態大模型與大模型智能體,相關成果發表于 ACL 等 CCF A 類會議。
——本篇文章論文作者擁有所有權,轉載請聯系論文作者
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.