網易首頁 > 網易號 > 正文申請入駐

麻省理工出品，AI時代人人必修的最佳公開課！一張圖配一句話，就能讓AI理解世界

2026-05-31 12:13:48　來源: 麻省理工AI公開課

北京舉報

分享至

歡迎回來，各位。希望你們度過了愉快的一周。

今天的課程將介紹多模態人工智能。首先說一下項目的后勤工作。感謝大家提交開題報告，我很高興能讀到這些。我已經盡量對每份提案給出了反饋，也為你們的項目分配了一位主要助教，助教是David或Chanaka，我會在郵件中抄送他們。目標是讓你們每周輪流與我和主要助教會面，平均下來每周都能有人來了解你們的進展。我們的目標是把這些項目真正轉化為前沿的、高質量的研究成果。

接下來是閱讀作業。第二次閱讀作業明天（周三）截止，這是為本周四的閱讀討論做準備。同樣有兩篇論文，主要圍繞現代人工智能架構這個主題。其中一篇是關于這些現代自回歸模型的縮放定律。縮放定律本質上是指，當你投入更多數據、增加模型參數時，性能會如何變化。令人驚訝的是，這種縮放呈現出一條相當好的趨勢線。所以你基本可以預測，隨著模型規模的擴大，性能會達到什么水平。第二篇論文也有一個很有趣的洞見：也許你在做自回歸預訓練時，并不需要所有的數據單元，有些單元可能比其他更重要。這會對如何更高效地訓練模型帶來很多啟發。

好了，項目方面，開始和我們開會，在項目上取得進展。有閱讀作業明天要交，周四進行討論。

目前為止，我們已經涵蓋了人工智能的基礎知識，包括人工智能和人工智能研究導論、不同形式的數據、其中的結構化信息、從數據中學習的方法，并且在高層次上，涵蓋了一個統一的范式，涉及不同的模型架構，包括序列模型、卷積模型、空間模型，以及用于集合和圖的模型。當然，現實世界中的很多問題都會涉及多種不同的數據源、多種不同的模態。這是一個活躍的研究領域。在接下來的三周，直到春假前，我們將廣泛地概覽多模態人工智能的不同范式。今天更多是介紹，以及如何對齊不同的模態。下次課會講如何更好地利用不同模態間的信息。最后，在第七周，我們將探討遷移這個概念。你可能關心的模態數據量不多，但可以用其他更常見的模態來補充信息。

好，這就是今天課程的概覽：多模態人工智能導論，一些核心原則、挑戰，以及深入探討第一個挑戰——對齊。開始之前，先講一點關于多模態人工智能的行為學歷史。和很多事物一樣，人工智能其實起源于研究心理學和人類行為的人。在一位名叫大衛·麥克尼爾的心理學家進行這項研究之前，大多數人認為我們主要用語言交流，其他任何東西，比如手勢和聲音，都只是次要的，用處不大，并不能取代語言。大衛·麥克尼爾提出了一個實驗，叫做“麥格克效應”，這個實驗真正撼動了當時的一些主流思想。

誰能說說這兩段視頻有什么有趣的地方，異同點都可以？視覺信息很相似，但聲音方面，第一段是“bar”，第二段是“far”，盡管掩蔽得很好。視覺信息相似，但聲音不同。有人要補充嗎？是的，我確信是不同的。也許只是因為它不同，因為嘴唇看起來不同，所以感覺不同，你也聽到了一些變化。如果我沒有視覺信息的話……

我以為你舉手了，所以點了你。不過沒關系，我想大多數人都抓住了關鍵點。當我給很多人展示這個時，有一半的人在看筆記本電腦，他們會問：你播放第二段視頻了嗎？因為如果你只看筆記本電腦聽聲音，你會意識到兩段音頻完全一樣。當你開始看人的嘴唇時，你會發現第一個人做“bar”的口型（B音），第二個人做“far”的口型（F音）。所以，我們對同一個音頻的感知，會因為說話者的口型而變得非常不同。

這真正開啟了20世紀80年代多模態研究的第一個時代，即行為學時代。人們意識到，當我們識別他人的言語并與之互動時，實際上是在綜合運用多種不同的交流模態。那是更偏向行為學的時代。之后，人們有了構建人工智能工具、計算工具的雄心，來在計算機中復制這種人類對不同模態的行為學感知。在計算時代之后，多模態人機交互和界面變得非常流行。所以，你看到人工智能和人類用不同模態進行交互。最后，到了現在，我們有了深度學習時代。自2010年代以來，我們目睹了海量的GPU、海量的數據、海量的大型模型，它們真正革新了多模態人工智能。當然，這其中還有一個子時代，即基礎模型時代，真正開始于2020年代，我們看到了將這些大型Transformer模型擴展到單模態和多模態任務的巨大潛力。

從歷史上看，人們關注哪些任務呢？我舉了視聽語音識別的例子，目標是從音頻和視覺兩方面來識別說話者所說的內容。這始于行為學時代，實際上是人們應用計算方法去解決的第一個任務。緊接著出現了早期互聯網數據驅動的熱潮。當時人們對于構建數字化互聯網多媒體數據系統很感興趣。比如，給定內容，你能檢索到視頻嗎？之后不久，人們也開始關注從多模態行為中識別人的情感和情緒。進入交互時代后，出現了基于視頻事件識別的系統，還有識別多人互動時的情緒和情感的工作。而真正開啟現代多模態深度學習工作的，是圖像描述任務。如果給你一張圖像，你能為它生成正確的描述文字嗎？這基本上開創了現代語言與視覺研究的先河。當然，在過去幾年里，我們看到多模態人工智能的應用大量涌現。

在多模態深度學習中，從圖像描述到視頻描述，再到撰寫視頻的文字說明。后來人們發現描述雖然很酷，但很難評估一段描述是否正確，因為太主觀了。于是人們將描述任務轉化為問答任務。如果我問你關于某個視頻的問題，或者如何訓練一個AI系統給出正確答案，這就是視覺問答。同理，人們又將其擴展到基于視頻的問答。接著，它又從靜態系統——只寫一段描述、回答一個問題——發展到能夠進行多模態對話的AI系統。比如，針對某張特定圖像，與人類就這些模態進行引用和對話。更大規模的YouTube數據成為了重要的數據來源。人們預訓練了各種視頻模型，能夠識別、描述和檢索不同類型的視頻。

之后不久，我們看到了大量關于自主智能體的工作。這類智能體能夠利用視覺和語言進行導航。比如，你可以給它指令，像“去那里，然后在最近的加油站左轉”。這些智能體能夠基于視覺和語言進行導航。當然，自動駕駛汽車也做了大量的多模態融合，融合不同的視覺、語言和傳感器信息。如今，在生成式人工智能中，我們看到了很多將文本轉化為圖像和視頻的應用，這些生成式模型能把文字轉化為圖像和視頻。最后，可能也是目前最大的應用領域，是交互式智能體。這些運行在你電腦里、機器人里的智能體，能接收大量數據，并以數字或物理世界為基礎，完成復雜的任務，諸如此類，還有很多。

這只是對多模態人工智能各個領域及其影響的一個簡要歷史回顧。

在今天課程的第一部分，我們將對多模態人工智能進行導論性介紹。然后在下半部分，我們將深入探討一些核心方法。這里的很多內容都基于我們一篇關于多模態人工智能基礎與趨勢的綜述論文。如果你有興趣，可以在國際會議上找到更詳細的版本。

首先，什么是模態？模態是某種數據源，代表了信息在世界中被表達或感知的一種方式。就像我們在人工智能中看到的所有數據形式一樣，你可以想象一個傳感器在采集數據，比如相機或麥克風。你可以把模態看作一個頻譜，從更接近傳感器的原始模態，到經過更多處理、離傳感器更遠的抽象模態。你可以把麥克風的原始語音信號、相機拍攝的原始圖像看作是原始模態。你可以從語音信號中提取語言，從圖像中檢測物體，從語言中提取情感，并對物體進行分類。所以，顯然你獲得了更抽象的信息，甚至可以用文字來表達，比如“正面情感”、“這是桌子”、“這是椅子”。如我們所見，原始數據可能差異巨大，所有數據都有不同的結構類型和維度。

但當你使用我們學過的那些模型架構來處理這些不同模態的數據時，本質上就是在學習抽象。你在從不同形式的數據中學習抽象和語義信息。因此，就有機會把它們拉得更近。所以，多模態問題就是那些涉及不同模態的問題。

當不同模態出現時，往往會面臨幾個挑戰。這些挑戰首先是異質性，即模態本身差異很大，將它們一同處理會很困難。其次，是模態之間存在著某些相互關聯。我們將這些相互關聯分解為：首先是連接，即兩個模態本身存在一些相互重疊的信息。然后是交互，當你把它們融合在一起完成某項任務時，會產生一些新信息。

更詳細地說，異質性也應該被視為一個頻譜，一端是更同質、具有更相似特質和表征的模態，另一端是更異質、具有更多樣特質和表征的模態。你可以把來自兩個攝像頭的圖像看作是更同質的。它們都是視覺模態，都有空間結構，都對相機模糊這類噪聲敏感，所以它們更同質。但同樣，它們提供的信息也不同，比如同一物體的不同角度、不同視角。

然后你可以想想那些差異更大的。例如，兩種不同語言的文本：英語和法語，英語和中文。不同的語系有不同的結構、語法和詞匯。但你知道，它們仍然有相似之處，因為你可以訓練一個模型在兩種語言間翻譯，有時信息能完美轉換，有時會丟失一點。再想想語言和視覺，圖像和文本，差異就更大了。你開始看到更顯著的差異。你甚至可以比較語言和傳感器數據，那差異就更大的。因為至少在視覺和語言中，你可以用語言來描述圖像。但有沒有一種語言能成功地描述傳感器數據呢？這些都是差異更大的模態。

有人問含義和安全性是什么意思？指的是我們講過的模態特征中的所有維度。包括基本元素本身，元素的分布，數據是連續的還是離散的，它們包含哪種信息。我要特別強調結構和表征，因為它們是可能稍微更重要的特性。不是指圖像或語言的質量，而僅僅是關于模態本身的特性、信息、屬性。

抽象模態更容易被邊緣化。你已經看到原始模態是更接近傳感器采集的，比如原始圖像和原始傳感器數據。而抽象模態則是那些經過更多處理的。比如，從我的語音信號中提取我是開心還是難過，或者從我的生理傳感器中判斷我是開心還是難過。所以，抽象本質上能讓異質的模態變得更接近。這是第一個原則：模態是異質的，因而不同。

多模態學習的第二個關鍵原則是，我們觀察這些模態時，總會發現它們之間存在某種共享信息，將它們連接起來。同樣，你可以把它想象成一個頻譜，一端是共享信息，另一端是獨特信息。情況可能是重疊多、重疊少，甚至在有些設置下，模態之間可能完全獨立，沒有重疊。以成對出現的圖像和文本為例，你可以看到它們之間存在一些聯系，都在描述T恤的顏色和沙發。但例如，圖像中有很多信息是描述文字沒有捕捉到的，比如沙發的顏色、桌子的大小，甚至桌子的存在，這些都沒有在語言中體現出來。所以，一般來說，模態之間有一些連接，但信息并不完全重疊。

最后是交互。交互描述了我們將模態匯集并組合時發生的現象。針對你的任務，通常會有新的信息涌現。對于這些特性和任務，人們關心的一種常見交互類型是冗余：兩個模態都給你一些共有的信息，你的目標是真正利用好這些共有信息。比如，如果我說著“這部電影很棒”這種積極的話，同時又在微笑，這種冗余性就在強化“這個人真的很喜歡這部電影”這個信息。與之相對的是唯一性，即信息只存在于一個模態中，另一個沒有。例如，你用一種中性的面部表情，說著稍微積極的話，比如“這部電影在塑造角色方面做得不錯”，這里某一個模態就包含了獨特的信息。所以，挑戰在于識別出哪個模態包含了正確的信息，以及哪些是應該拋棄的。

最后，是協同。這意味著信息只有在你同時使用多個模態時才會出現。有人嘴上說“哇，看起來不錯”，這似乎很正面，但臉上卻帶著憤怒或沮喪的表情。這時你就能推斷出，這個人可能是在說反話。所以你必須同時看兩個模態。是的，我們計算得出模態之間存在差異，這暗示了諷刺。這就是交互的核心理念。

所以，從高層次來看，多模態問題就是那些涉及異質、相互關聯且交互的數據的問題。異質是因為數據源各不相同，處理不同來源的數據存在困難；連接是因為這些模態之間存在信息重疊；交互是因為當你試圖將它們融合在一起完成任務時，信息的不同部分會結合起來。這就是對多模態問題的簡要解釋。

我們將探討為什么這很難，多模態人工智能中有哪些獨有的、在計算機視覺和自然語言處理等單模態問題中通常見不到的挑戰，以及應對這些挑戰的前沿方法。

所有這些多模態模型看起來都像是這樣：用不同的顏色和形狀來表示多個模態。我也不會將這些數據分解到元素層面，比如你說的句子中的單詞，某張給定圖像中的圖像區域，或者你正在處理的遠程傳感器數據中的時間步。就像我們在所有機器學習討論中那樣，把所有事物分解成獨立的部分，學習表示，再聚合信息。這里我們也將使用類似的圖式。通常，你是在設計一個人工智能系統，它接收多個這樣的模態作為輸入，然后輸出一個表示或預測一個標簽。那么，這個模塊里究竟有什么，設計其中的組件又會遇到哪些挑戰？從高層次上講，有六個挑戰讓多模態人工智能變得困難且獨特。

第一個挑戰是表示。你擁有數據，有不同的模態，它們之間存在異質性，你如何學習到能夠將它們有效整合并結合的表示？在幾乎所有問題中，表示往往是核心構建模塊。當你從原始數據開始時，首先要思考的永遠是如何表示你的模態。為簡單起見，我們來看一個圖示。你可能會有包含不同元素的數據輸入，比如你說的多個詞，傳感器數據中的多個時間步。我們現在只看最簡單的，假設每個模態只有一個元素，只討論表示這一個元素，而忽略其他的。我們將在后續的挑戰中再看其他的。

有三種關鍵的表示方式，每種都有不同的目的。第一種叫融合。你接收兩個元素，可能已經有了一些獨立的表示，但你如何將它們融合成一個通用的表示，以最佳方式利用信息？這種融合可能利用的是重疊的信息，也可能是根據不同信息選擇正確的模態，或者可能以更復雜的方式組合它們以捕捉某種協同效應。所以，有一類方法就叫融合。

第二類方法叫協調。這些方法接收你的兩個元素，分別學習它們的表示，一個給第一個，一個給第二個。但這并非獨立，因為它們會用一些相似度函數來對齊這兩個表示。這就強制了你學到的兩個表示之間存在某種結構，而所有研究都集中在如何定義這種對齊上。當你需要做檢索時，這更有用。例如，你把這個函數定義為余弦相似度或點積相似度。然后，你可以拿一個學到的表示，在另一個模態中找到最接近的，從而檢索到最匹配的。所以，從圖像檢索最匹配的描述文字，或反之亦然。這就是協調方法。

最后一種方式是，你可能從兩個元素開始，現在試圖學習一個劃分空間，其表示數量比開始的模態數量更多。這在你想要學習更多解耦且可解釋的特征時會很有用，其中一些特征捕捉兩個模態間的重疊信息，一個捕捉第一個模態獨有的信息，另一個捕捉第二個模態獨有的信息。現在，你為兩個模態有了三個表示，甚至可以有更多。所以，三種通用的表示學習方式，區別在于你是減少、組合表示，還是保持它們獨立，抑或是學習更多表示來捕捉不同信息。

第二個挑戰是對齊。在表示學習中，我們只關注一個元素，一個和另一個模態中的一個元素。當然，在大多數問題中，你會有序列或結構中的元素。你說的話中有隨時間排列的詞語。空間圖像中有圖像區域。傳感器數據也是跨時間的。所以，對齊主要研究如何將你的數據在元素級別和全局級別上對齊。舉個例子，如果我在描述一張圖像時，我所說的“人”這個詞，應該匹配圖像中顯示人的那個區域。我說的“球桿”這個詞，應該與圖像中“曲棍球桿”的區域有關。所以，學習這種模態間的映射，就是要捕捉那些具有相似語義信息的部分。

這里有幾個子挑戰。第一個子挑戰是處理數據被細分為離散元素的情況。例如，單詞是離散的，圖像邊界框是離散的。目標是學習或設計哪個詞對應圖像中的哪個區域，哪個其他詞又代表圖像中的其他區域。解決這個匹配問題，就是學習離散連接。

第二個子挑戰是更困難的情況：你不能再將數據清晰地切分為離散邊界，你的數據是更連續的。比如，你有高頻傳感器數據、醫療數據等。在這類連續傳感器數據的同時，我想把它與醫生正在寫的記錄對齊。這部分表示心跳在加速，這部分表示病人摔倒了。所以，你需要在做匹配和對齊的同時，進行分割。因此，你增加了這一步，對連續數據進行分割和離散化。前兩個子挑戰的目標僅僅是實現對齊，找到模態間的匹配。

第三個子挑戰是利用對齊來學習更好的表示。我們稱之為上下文化表示，通過將元素與其他部分的匹配關系進行上下文化，來完成更好的表示學習。現在很多關于多模態Transformer的工作都屬于這一類。因為我試圖通過學習上下文中的其他詞，或許還通過圖像中作為上下文給出的部分，來學習某種語言的更好表示。所有這些都是為了通過考慮詞語如何與其他詞以及可能的其他圖像、視頻對齊，來學習更好的詞語表示。所以，有時我們也稱前兩個為顯式對齊，因為對齊是明確的目標。我們有時稱這個為隱式對齊，因為對齊只是學習更好表示的中間步驟。

第三個挑戰是推理。我們已經在表示中看到，如何表示一個模態中的一個元素和另一模態中的一個元素。在對齊中，我們研究了如何學習多個元素間的連接。推理的目標是，獲取所有這些信息，并通過多個推理步驟將其組合起來，做出一些預測。當你思考通過多步組合信息時，曾經人們通過多層神經網絡，每一層學習越來越接近預測目標的更抽象信息。但如今，正如大家在社交媒體上看到的，人們對更顯式地進行推理產生了濃厚興趣。

我是以樹狀結構還是圖結構來組合信息？我是否使用注意力圖來說明，我先看圖像的這部分，看到人藏在另一個人后面，然后再看圖像的這部分，看到人摔倒了，等等。或者現在，甚至用文字作為推理的中間媒介。你使用大語言模型，它不僅能做預測，還能一步步地解釋：先做這個，再做那個，看圖像，與這個結合，因此，這就是病人可能患的疾病。文字也能被用作推理的中間步驟。所以，很多推理工作是關于首先定義結構是什么：順序的（一步接一步），還是某種樹或圖？需要多少步？如何參數化中間步驟？是通過更視覺化的注意力圖，還是更語言化的文字？當然，沒有外部知識，你也無法進行推理。你需要了解問題，知道什么是好的推理序列，然后才能讓AI系統執行。

有人問，推理真的能改善多模態輸入嗎？鏈式思維通常只用在純語言領域，但我看到很多例子表明，如果在包含圖像時使用鏈式思維推理，效果反而更差。我們將有一整節課專門講推理，以及推理的現狀。這涉及過去一年內發生的事情，我的學生正在幫我準備那節課并協助講授。答案是，語言推理更容易，圖像推理可能更難。例如，數字化思維鏈更難，但如果做得對，潛力很大。我們有項研究，假設你要解一道幾何題，給你一個起始圖形和一些問題。如果一個系統能一步步做數學證明，同時一步步畫圖、標注，看這個角度、畫這條垂線，從而構成一個直角三角形，這會非常直觀。這些都是視覺化的步驟。如果做得好，不僅能提高性能，更重要的是，當我把它作為輔導系統給一個學生時，能讓過程更易理解。我們閱讀這些中間的語言和視覺，可能還有更多形式的推理媒介。我們會關注所有這些。明確一下，這是概覽。在后續課程中，我們會針對每個挑戰看具體的模型。

第四個挑戰是生成。我們已經看了很多對齊、融合并做出預測的系統。當然，人們對構建能在不同模態間運行的生成模型有濃厚興趣。有摘要，你獲取更多數據，總結出最重要的特征。有翻譯，你把一種模態作為輸入，精確地映射到另一種模態，例如文本生成圖像、文本生成視頻。還有創作，這雖非終極目標，但還沒人能真正成功做到：從更少的數據開始，比如一幀畫面，試圖生成多幀，將圖像變成視頻；或者為視頻生成同步的音樂和音頻。這些都是生成領域現在在多模態生成模型方面的工作。

第五個挑戰是遷移。你可能試圖在你關心的模態上做出預測，比如醫學圖像，但你沒有那么多數據。在醫學領域，你沒有那么多數據，沒有那么多標簽。即使有，也可能充滿噪聲。有諸多原因導致僅在你關心的單一模態上做預測可能不成功。目標是利用一些額外的模態來輔助你的學習，為你真正關心的主要模態學習更好的表示。例如，現在你可以用語言來輔助圖像分類模型。以前，你可以用ImageNet預訓練來支持醫學圖像分類。有很多例子是利用某種模態作為額外信息，來幫助你所關心的主要模態。

有幾種方法可以做到這一點。一種可能是重新構建然后初始化，有很多這樣的例子。有一類新方法叫協同學習，你在訓練過程中引入一些額外信息，要么作為訓練時的輸入，要么作為訓練時的預測目標。如果作為訓練時的輸入引入，在測試時你就把它設為零。測試時，你只有你關心的模態用于推理。如果你把它作為訓練時的預測目標，測試時你就不需要它了。所以，在推理時，你只使用你關心的那一個模態。這是在訓練期間通過更多數據輸入或更多訓練目標來補充，以幫你得到更好模型的方法。還有一類模型歸納方法，你保持分類器分離，但鼓勵它們共享一些信息，這樣好的、強的分類器就能幫助弱的分類器。

最后一個挑戰是量化。挑戰一到五更多是關于構建、設計新模型。挑戰六則更多是關于更好地理解從數據到模型、訓練目標再到評估的整個流程。現在有很多說法，但如何衡量不同模態的正式化程度仍然是一個挑戰，理解它如何影響模型優化和訓練也仍是開放問題。有很多啟發式方法，但沒有深刻的理解。我們有直覺，有些模態是冗余的，或提供獨特信息，但這些都沒有被正式化，無法通過實際估計來形式化，也不清楚如何影響學習過程。所以，量化包含了很多挑戰，主要是在更好地理解這個主題下，理解它們何時有效、何時無效。

總結這六個挑戰，表示和對齊可能是最重要的。在任何問題中，你都要將其分解為元素，把大數據分解為單個元素，你首先要決定如何表示你的數據。如果你的目標是組合，你就會關注融合。如果你在研究檢索問題，我們可能傾向于保持獨立并對齊它們。如果你在關注決策問題，對齊就是你要嘗試將一方的不同部分與另一方模態的不同部分匹配起來的問題。通常你先做表示，然后必須考慮對齊。一旦完成了這些，如果還能進行推理，一步步分解你的問題，并用語言和視覺等媒介一步步解釋正在發生的事情，那就更好了。你需要預測標簽，但有時你不關心預測標簽，你關心的是生成更多數據。還有些時候，你關心的是從一個模態向另一個模態遷移信息。當然，雖然一直做推理會很好，但有時人們會跳過推理步驟，很多模型在這里仍是黑箱。最后，量化是帶著批判的眼光，重新審視之前的這些挑戰，并試圖以某種原則性的方式，真正理解事物何時有效，何時無效。

好，這是對多模態挑戰的快速介紹。到目前為止，有什么問題嗎？

很好。在最后大約十五分鐘，我會嘗試覆蓋對齊的一部分內容。下周我們將涵蓋所有關于融合的內容，但對齊相對短一些，所以我會在十五分鐘內講完。對齊挑戰分為三個子挑戰。核心是觀察一個模態中的元素和另一個模態中的元素，試圖找出連接和匹配在哪里。最簡單的情況是數據能被分解成離散元素，比如詞和邊界框。更難的是數據是連續的。所以你必須解決這個問題：在進行對齊之前，先將連續數據分解成語義邊界。稍后我們也會在課上講到隱式對齊這個概念。

利用對齊來學習更好的表示，就像在那些大型Transformer模型中那樣。再談離散對齊。這里有一個例子，你可能會嘗試將包含詞和短語的語言，與更視覺化的非語言元素聯系起來。比如，“女人在讀報紙”，你可能只擁有整體層面的數據，整個句子和整張圖像。你的目標可能不僅僅是全局地把整個句子和圖像對齊，還要在更精細的層面，找到“女人”對應哪里，“報紙”對應哪里等等。一類常見的方法是使用對比學習。

在大多數這些設置中，你的監督信號來自于某種配對數據。比如，一張圖像配一個對應的描述，另一張圖像配另一個描述，第三張圖像配第三個描述。你可以從Instagram、維基百科、Flickr獲取這些。這些都是常見的包含圖像和文本配對數據的數據集。當然，如果你想為某些應用做這件事，但并非圖像和文本，你需要思考如何獲得正確的數據。

通常，這些表示的學習方式是，將兩個元素分別通過獨立的編碼器，每個得到某種表示，然后你試圖在這兩個表示之間施加某種相似度函數。這個相似度函數就捕捉了“這兩個表示是對齊的”這一事實。這些表示不應該對齊，它們應該離得更遠。所以通常這就是你能定義的一個相似度函數。

在對比學習中，你要做的是，對于這些正例對，即圖像和它們真正的描述，讓這個相似度函數的值非常高，或者讓它們非常非常接近。而所有紅色的部分，我們稱為負例對。比如，一張圖像和一個錯誤的描述，對于那張圖像可能有很多個錯誤的描述。你要努力讓這個相似度函數的值更小，也就是不那么相似。

你甚至可以證明，這類方法本質上可以學習到我們所說的共同信息。你將共同信息形式化，定義為這兩個隨機變量間共享的、區別于各自獨有信息的部分。那么這類對比方法，本質上是保留中間的一切，丟棄那些在一方獨有而另一方沒有的信息。這就是人們在學習這些連接時的高層視角。

更正式一點說，這些編碼器可以設計得非常專用。我們見過那種不同模型架構的路線圖。對于空間數據，你可能使用非空間方法，比如CNN或視覺Transformer。如果你有傳感器數據，你可能用其他的編碼器。所以，編碼器可以非常不同，它們能捕捉每個模態獨有的信息。而這個對齊相似度函數本質上會捕捉連接關系，即哪些表示應該被連接起來，哪些不應該。這里有幾種選擇：編碼器是什么，相似度函數G是什么。一旦你設計好了第一個模態的編碼器F和第二個的FB，然后計算這兩個表示之間的相似度函數G。你的損失函數本質上就是最大化這些表示的相似度，或者最小化它們之間的距離。你可以更新的參數包括編碼器模型FA、FB中的任何參數，以及定義相似度函數的任何參數。

關于相似度函數有幾種選擇。余弦相似度很常見，你為第一個和第二個分別學習向量Z，余弦相似度本質上是看這兩個向量在嵌入空間中是否指向同一個方向。計算非常簡單，本質上就是歸一化的點積。人們也設計過核相似度函數。你可以認為點積基本就是衡量這兩個向量在原始空間中是否鄰近，我們稱之為線性空間。也有一些方法能將向量投影到其他更具表達力的空間，然后在這個更具表達力的空間中衡量這些嵌入的相似度，我們稱之為核相似度函數。不必過于關注細節，只需理解：你可以在嵌入的原始空間中衡量相似度，也可以在一些更具表達力的變換后空間中衡量相似度。

還有一種相當流行的是基于相關性的方法。也許你不關心兩個嵌入是否非常接近，而是給定一批嵌入，你希望它們彼此相關。比如32張圖像和32個描述，你希望它們可能在某個軸上是相關的。室外的可能在這邊，室內的可能在那邊。所以這些是基于相關性的方法。

你也可以更進一步，不滿足于一個元素匹配另一個，而是可以基于成對關系來定義相似度。例如，一對圖像非常相似，我希望描述這對圖像的對應描述也非常相似。所以這些是超越了在單個數據點上定義相似度，而去考察多個數據點之間關系的方法。

看起來像是這樣：你可能在一側有圖像配對數據，另一側有描述。你將那些真正相對應的定義為正例對，例如“藍色的車”和“黃色的巴士”對應于彼此。負例對則是那些不正確的描述。你在訓練這個函數，最大化正例對的相似度，最小化負例對的相似度。你的相似度函數可以是類似余弦相似度的東西。雖然這是個非常簡單的想法，但它已經存在了很長時間，并能給出非常酷的結果。

當你學會了這種通用嵌入空間，它能把“藍色的車”拉到相應的文本旁邊，把“紅色的車”拉到相應的文本旁邊，你就可以進行一些新的操作了。你可以輸入一張“藍色的車”，把它嵌入到嵌入空間，減去“藍色”這個詞的嵌入，加上“紅色”這個詞的嵌入。這會得到另一個嵌入，然后你嘗試檢索最接近這個新嵌入的圖像，你真的會得到紅色的車！

你可以看一個很酷的例子。你把“碗里的貓”的嵌入，減去“碗”的嵌入，加上“盒子”的嵌入，用這些詞嵌入得到一個新嵌入，然后找到最近的圖像，你真的會看到“盒子里的貓”。這還只是2014年的工作！那時候圖像分辨率可能更低，詞語也只是看二元詞法之類的。當然，現在人們真正把這些系統規模化了。你大概見過CLIP，它本質上就是這種基于對齊的方法規模化的一個例子。

你擁有數百萬、數十億張圖像，以及數十億描述這些圖像的文本。你同樣可以計算一個相似度矩陣，其對角線上的條目代表那些圖像與其正確描述相對應的配對，這些相似度應該被最大化，把它們拉近。所有非對角線上的條目都代表圖像與錯誤描述的配對，它們的相似度應該被最小化。這里所有計算都只是余弦相似度的點積，圖像嵌入點乘文本嵌入。這基本上就是你常看到的那個對比損失函數：對你的數據點求和，取平均，取對數以使數值更穩定，本質上是最大化正例點的相似度，最小化負例點的相似度。有時人們也會在這里加上正例點，只是為了計算簡便，但本質上起主導作用的是所有n-1個負例對。相似度函數就是余弦相似度。CLIP非常有用，因為現在你可以做一些像零樣本分類這樣的事情。

訓練好之后，你給它一張新的圖像，比如一個看起來像電視演播室的東西。以前，當人們想對圖像中的內容進行分類時，必須訓練專門的圖像分類器，只能預測5類或10類。就像一個預訓練的ImageNet模型，你有一個固定數量的類別。而CLIP最大的好處之一，就是你現在可以實現開放集分類。所以，任何你想要對圖像進行分類的類別或描述，你都可以把它作為一個列表提供給模型。模型會做的是：將圖像嵌入到特征空間中，將每一個潛在的類別或描述也嵌入到特征空間中，然后計算點積。可能某一個是相似度較高的點積，其他是較低的。它本質上會給你一個歸一化的分數，讓你能對任何你想要的類別進行分類，而不必是一個固定的、預定義的一千個ImageNet類別。你可以看到，它在這些零樣本分類任務上表現得非常好。

正如我所提到的，你可以思考一下，使用對比學習的對齊方法與信息之間有什么關系。我們看到模態可以有關聯信息和獨特信息。你將關聯信息定義為共享信息，并且可以證明對比學習本質上捕獲了互信息。所以它學習這個，而把其他一切都扔掉。這是可以被證明的，這既是好事也是壞事。這意味著，如果你只關心共同信息，那么基于對齊的對比方法真的很棒，它能保留共同信息，拋棄其他一切，并且是一種非常可擴展的方法。但如果你關心的是獨有信息，那你就有麻煩了。因為你做越多的對比學習和對齊，你的模型在保留獨有信息方面就可能表現得越差，它會拋棄你可能關心的信息。

有幾種方法可以解決這個問題。我們有一些工作，其他人也有一些工作，只需做非常簡單的修改。你可以跨模態做對比學習，即用圖像和描述做對比學習，這會保留中間的共同信息。如果你想保留圖像獨有的信息，你可以拿圖像，在某種意義上，只做圖像模態內部的對比學習。有方法能做到這一點：你對圖像稍作修改，然后只在圖像上做對比學習。直覺上，你也應該只對文本做基于對齊的對比學習。也就是拿描述，稍作修改，只在文本上做對比學習。這樣，你就能同時學到數據中共享和獨有的信息。

我快速過一下連續對齊。大部分是參考文獻。連續對齊更難，因為你面對的是沒有離散元素的連續信號。通常，這些方法的核心是恢復并嘗試將你的連續數據分解成離散部分。我在這里提供一些參考文獻，因為我知道有些人在研究傳感器數據和視頻。例如，有方法可以接收連續數據并學習其間的離散邊界。我們在計算機視覺中研究時序視頻數據。我團隊里的一些人在研究變化點檢測，這樣就能自動將你的傳感器數據切分成離散的邊界。每個邊界都應有語義意義，比如，這是人在睡覺的時候，這是醒來鍛煉的時候，這是工作的時候。所以，有一些方法能自動將連續數據分解成語義上有意義的離散邊界，這樣你就能將其與文本對齊。

最后，還有一類常用于語音的方法：對于連續數據，找到一個固定的采樣邊界，得到一段連續數據，然后進行聚類。聚類是將連續的東西轉化為離散嵌入的一種方式，比如只聚成三類，然后你就可以用你的自監督學習Transformer來預測這些離散的標記了。

好了，總結一下。我們介紹了多模態人工智能導論，討論了幾個關鍵挑戰：數據是異質的，模態間存在關聯共享信息，它們可能交互以融合信息并得到我們關心的標簽。我們概覽了幾個挑戰，并深入探討了對齊。最后快速提醒一下，閱讀作業明天截止，為周四的討論做準備。請確保在項目上取得進展，這樣你就可以每周與我和助教會面。謝謝大家。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.