網易首頁 > 網易號 > 正文申請入駐

麻省理工出品，AI時代人人必修的最佳公開課！搞懂AI的學習方式，讓你使用AI事半功倍

2026-05-30 14:42:22　來源: 麻省理工AI公開課

北京舉報

分享至

今天我們將學習關于數據結構與學習的第二講。在這一講中，我們將探討各種形式的數據。數據大概是如今機器學習和人工智能中最重要的要素。我們將看看視覺語言、聽覺感知、集合以及圖數據的例子，然后我們將把所有這些數據形式推廣到關于是什么讓數據變得獨特的討論中：你的數據具有哪些屬性，你應該如何思考你的數據，以及為你的數據設計什么樣的合適建模架構。我們將給出可變數據集的例子，我們還會討論標簽。通常你會有原始數據輸入，我們試圖學習一些特征，以便你可以對它們進行標注或做出一些推理。為了進行這些推理，我們將介紹標簽的類型和學習范式的類型，以及你可以施加哪些不同的目標在你的方法上，使它們在實踐中能夠真正學得好。

在開始上課之前，先處理一些事務性工作。你們所有人都應該已經被加入到Piazza中了，如果還沒有，請在課后盡快告訴我。Piazza將是發布所有公告的資源平臺，例如這第一條公告，以及包含所有網站、課程幻燈片、課程日歷、教學大綱等等的鏈接。請確保你已經加入了Piazza，郵件已經發送出去了，可能需要激活并注冊你的賬戶，如果你以前沒有使用過Piazza，請盡快完成。

說到Piazza，我們的第一條公告是，項目偏好表需要在今天結束前提交。如果你計劃修這門課并把課程項目作為其中的一部分，請填寫那個表單。那個表單是一個非常簡短的表單，詢問您的姓名、您已經有哪些團隊成員，或者如果您正在尋找合法的團隊成員、需要我們幫助為您匹配志趣相投的學生，以及您對參與這門課程項目的總體興趣。請在Piazza上注冊，并在今天之前填寫該項目意向表。我也提早一點結束講座，這樣還沒有找到隊友的學生就有機會交流并找到志趣相投的人。

另一個簡短的后勤事項：我們發現下周，也就是第三周，周二和周一實際上互換了。如果你們不知道周一是總統日的話，但不是在周一上課，而是取消周二的課，并將周一的課移到周二取而代之，這似乎是學校的官方政策。因此，周二的所有活動都取消了，我們下周二沒有講座。所以我們必須重新調整一些內容，以便在這些講座中容納更多內容。

這個日歷，如果你以前沒看過的話，將會非常有用。它會涵蓋每周的主題以及任何重要的作業。例如，紅色標注的，你看到項目意向表格今天（2月11日）截止，而且很快，一個非常重要的時間節點是下周四，不是這周四，而是下周四（2月20日），將是你們的第一次提案陳述。我們將發送這些說明給大約每個正在做研究項目的學生及其隊友，我們將進行大約五分鐘的陳述，概述他們的大致想法以及他們想要開始使用的不同數據集和模型，其目的是為了獲得講師和班上其他成員的反饋。請注意看這個日歷，它再次鏈接在Piazza上，如果你還沒有加入Piazza，請加入。

其他幾件后勤事務：本周四，你會看到有一個PyTorch和HuggingFace教程，將由我的一些學生主持，主要是對不同內容的介紹性教程，涵蓋你在機器學習中會用到的工具，包括如何快速迭代代碼、使用GPU、監控你的實驗等等。你們中有些人也問過第一次閱讀材料什么時候發布。本周四將是一個Python教程，下周四你們所有人都要進行開題報告陳述，接下來的幾個周四討論將會開始。討論一、二、三、四，春假前有四次討論，這意味著閱讀材料大約會在討論前一周發布。第一次閱讀材料將在2月19日發布。一定要去查看日歷。

好的，進入今天的課程。在機器學習中，我們經常談論數據，數據是取得任何成就的關鍵。你想把這些數據看作是屬于某種感官模態，感官模態本質上是指數據在世界上被表達或感知的某種方式。當你觀察數據時，你經常會認為收集數據的背后有某種傳感器。你基本上可以從更原始的角度來看待數據模態，即更接近傳感器的，到更抽象的，即距離傳感器更遠的。

例如，原始數據可以包括直接從麥克風收集的語音信號，記錄某人；或者直接從相機記錄或捕捉的圖像。然后你可以考慮從原始模態中進行抽象：你可以提取出語言，即一個人在他們的語音信號中所說出的具體詞匯，它是通過保留一些信息并丟棄其他一些信息來進行抽象；你可以開始從圖像中檢測物體，這是一種提取形式，提取出那里有什么物體、它們在什么位置，同時丟棄圖像的其他部分。你還可以進行更深層次的抽象：從語言中，你可以檢測某人的情緒，他們感覺是積極的還是消極的，關于他們正在談論的話題；從檢測到的物體中，你可以提取出確切的物體類別。

機器學習和人工智能主要就是學習這些抽象——從原始數據出發，這些數據通常維度很高、充滿噪聲，并且在現實世界中是不干凈的，到學習有用的抽象并對該數據進行推理。整堂課和整個核心內容是涵蓋有哪些類型的數據，以及學習這些抽象的正確方法是什么，這些抽象對于你所關心的某些任務是有用的。

為了在實踐中看到其中的一些，你們所有人可能都見過視覺模態。這是一幅彩色圖像，當你觀察這些模態時，它們通常必須在你的計算機上以某種方式進行表示。你想分類的圖像可以被表示為像素，你有一個高度、一個寬度，并且每個維度都有一些通道，也就是它們背后的顏色數量，即RGB，所以它通常是一個三維矩陣：高度、寬度和通道。從這些圖像中，你可以分類某個物體的存在。這可以被設定為一個二分類問題——這里是有狗還是沒有狗；你也可以把它作為一個多類分類問題——你可能會有一大組類別試圖從圖像中推斷出來，而你的目標是選擇其中一個正確的類別。這就是視覺數據的一個例子，以及你可能會對視覺數據做出的一些推斷。

語言數據，你可以在互聯網上獲得大量的語言數據。例如，亞馬遜上的一些書面語言，可能是某人在購買商品后寫下的；你也可以獲得口頭語言，例如在電影或電視節目中人們說話的錄音。從語言數據中，你可以嘗試推斷，例如一個句子中出現的某個特定單詞——比如“humorous”這個詞——是否可以被推斷為積極或消極。你會如何表示這個數據？“humorous”是你電腦上的一個字符串，但你會如何以一種方式來表示它，從而能夠真正被你的機器學習或人工智能算法所接收？詞袋模型是實現它的一種簡單方法：這本質上意味著你首先要收集一個詞典，包含句子中出現的所有單詞，然后你在那個特定的感興趣的單詞處放一個1。所以“humorous”是詞典中的第八個單詞，你在第八個位置放一個1，其他地方放0。這是一種簡單的表示方法，用來表示計算機可以接收的數字格式的單詞。你可以分類，例如這些單詞是積極的還是消極的，你可以分類它是哪種詞性，是名詞、動詞還是形容詞，你也可以分類它是否是命名實體，例如特定的地點或特定的物體。

現如今，我們已經看到，我們并不真正訓練詞級模型，我們訓練的是句子或段落級別的模型。你可能會輸入多個詞、段落，或者在對話中，然后你試圖對其進行一些推理，比如整段話是否表明一個人持積極態度還是對他們購買的物品持消極態度，或者這整段話編碼在模型中并生成一個回復，這樣客服代理就能自動回復這個人寫的評論。這些更像是句子或文檔級別的分類任務。表示它的簡單方法是繼續使用你的詞袋，你基本上只需要統計哪些詞出現了——也許“ideal”這個詞出現了，那是詞典中的第二個標記；“anyone”這個詞出現了，那是第五個標記；“humorous”這個詞出現了，那是第八個標記。本質上，就是將句子中所有出現在詞典里的詞標為1，其他地方都標為0。

你們所有人可能都意識到，這些都是非常簡單的方法來表示你的數據。例如，詞袋模型僅僅統計哪些詞出現，并不能真正處理詞序問題。比如“nothappy”，這兩個詞緊挨著出現，實際上意味著非常重要的意思，而如果是“happy”且“not”在其他地方，意思就不同了。我們將在整個課程中看到更多關于更好表示你的數據以及更好從數據中學習的方法的例子。這只是作為各種數據形式的介紹。

我們看到了視覺，我們看到了語言。音頻是另一種常見的模態。有時，你可能會從麥克風中獲取聲學信號，并且通常這些信號會以某種方式被離散化，因為這些麥克風以某些固定頻率進行采樣，從現實世界中的連續數據中。從這個音頻信號中，你可能會嘗試推斷這個人說了什么，這就是自動語音識別的任務。音頻數據有幾個關鍵參數：采樣率是多少，也就是你以多高的頻率錄制這個人的聲音；位深度是多少，每個樣本你錄制了多少數據；還有其他你可能需要考慮的事情，例如什么是時間窗口，在這個窗口中你想識別說的是哪個詞。如果你把時間窗口設置得太短，你可能只能聽到一個特定的音素，也就是這個人所說的某個特定字母；如果時間窗口設置得太長，那么你可能會因為識別了更多東西而不僅僅識別出一個詞，你的模型可能就沒那么精確。還有不同的方式來表示音頻模態，這基本上是一個時間維度的表示。你可能也聽說過聲譜圖，它本質上將時間維度轉換為頻率維度，你可以看到振幅。聲譜圖是另一種表示音頻的方法。人們驚訝地發現，你可以將聲譜圖視為一個圖像，甚至可以把它輸入給圖像識別模型來對聲譜圖進行推理，所以音頻模態和視覺模態之間存在某種關系。

你基本上可以通過輸入觀察值來開始識別音頻，從具有某個固定時間窗口的第一時間步開始，以及具有其他時間窗口的后續時間步，并用它來識別音頻中的內容。自然地，你可以識別口頭詞匯，但你也可以識別情緒——無論某人似乎感到積極還是消極，不僅僅是從他們所說的話中，而是他們說話的方式，也許是他們聲音的大小和振幅，還有他們說話的速度是快是慢，并且你還可以看出音質如何。這就是音頻模態，感知模態。

如果你在處理機器人或環境傳感器，你通常會跨時間收集數據，跨時間測量某些特定的物理現象，并且在y軸上展示該傳感器是如何變化的。這是一個常用于機器人上的力矩傳感器的例子，在這里你正在跨時間進行感知，并且每個維度都是某種六軸力矩傳感器，在測量六個不同分量上的力。通常我們與機器人合作時，你也會有一些內部的本體感受數據，許多這類具身系統內部都有一些內部狀態，這些內部狀態可能會測量機器人的位置、機器人手臂的角度是多少、也許還有它的速度、速率，以及交互智能體內部的其他參數。這同樣是跨時間的數據，所以有一個時間維度，在這種情況下它只是在測量當前的位置（x,y,z軸）以及這個機器人手臂的速度。

通過所有這些傳感器數據，你基本上可以訓練一個模型，它接收這些傳感器數據并輸出一些東西。你可以輸出并嘗試預測它正在抓取什么物體，你可以預測機器人手臂的屬性，例如被機器人手臂抓取的物體的屬性——它是軟質材料、硬質材料、剛性材料，還是不同的形狀。你也可以嘗試預測接下來的動作：這就是當前的傳感器數據，我們可能會嘗試預測下一個機器人應該采取的動作，以便更好地抓取物體或者更好地操作物體，然后這將為你提供下一個時間步的新讀數集，或者一組新的力記錄以及機器人中一組新的本體感覺讀數。這涵蓋了傳感器模態。核心想法是現在你有了一些時間維度，你可能想把它畫出來以查看時間維度和力的大小，這可以用來識別物理世界中的事物，并且還可以采取行動，這樣你就可以看到這些數據的新出現，并可能再次采取行動。

這就是感官模態。有時人們會說傳感器，有時人們會說時間序列，它們經常被相當混用地使用。從技術上講，時間序列是將傳感器數據泛化到任何具有時間維度的東西，所以金融數據也有這個時間維度——例如，你正在測量股票價格如何變化，那也被認為是時間序列，但你可能不會認為它是傳感器數據。所以你在尋找編碼傳感器數據的模型時，你可以搜索傳感器模型，但也可以搜索時間序列模型。

表格模態。這里我展示了表格和時間序列的混合，這是醫療領域中常用的一套數據集，被稱為MIMIC數據集。有這兩種模態，包含關于特定患者的信息，比如他們的年齡、性別、種族、既往病史，所有這些你通常會在表格形式中看到的東西。同時你還有時間序列模態：一旦患者入住ICU，他們血液中的通氣量是多少，他們隨時間變化的心率是多少，他們隨時間變化的血糖率是多少，從他們入住ICU到出院。結合起來，表格和時間序列數據可以用來做出推斷，針對許多醫療程序，例如他們的死亡率是多少，根據ICD-9編碼衡量他們可能患有什么疾病，他們在ICU住了多久等等。

表格模態非常獨特，在某種意義上，它的關鍵屬性之一是你基本上可以互換這些值中的任何一個。無論你是把年齡和性別放在前面，還是把性別放在年齡前面，從技術上講不應該改變你如何對表格數據進行推斷。如果你的模型實際上對這些值的順序很敏感，那你可能會有麻煩。表格數據的另一個常見挑戰是數據在本質上通常更離散，比如性別可能會有幾個分類，種族可能會有幾個分類，所以它不是那種連續數據，就像我們在看圖像或傳感器時所習慣的那樣。處理表格數據存在一些挑戰。

圖也是另一種非常有趣的數據形式。圖無處不在，例如，如果你看一個社交網絡，你不想僅僅對該社交網絡中的單個人做出推斷，你想利用那個人以及他與該社交網絡中其他人的關系，這就是一個圖的例子：這些其他人與誰相連。經濟網絡、生物醫學網絡——這非常常見，如果你在看不同的蛋白質，你必須看這些蛋白質是如何與其他蛋白質相互作用的，以及它不與哪些相互作用，這可以被表示為一個圖，還有像互聯網之類的東西。

如果你看圖模態，通常你有一組節點，那些是圖中的單個點，并且你有邊，本質上告訴你哪些節點與哪些其他節點相連。圖上的幾個重要任務：節點分類——你能分類每個節點的某些屬性嗎？例如在社交網絡中，你能把每個人分類為更積極還是消極，或者也許是他們的政治立場（右傾、左傾）。這是一個節點的屬性，但你不能只用那個節點來做那個預測，你可能必須看看他們是朋友的其他人和他們在社交網絡中點擊的其他頁面，以此來對那個人做出推斷。鏈接預測——給定兩個特定的節點，它們可能被鏈接在一起的概率。例如，給定兩個蛋白質，它們相互作用的可能性，或者給定社交網絡中的兩個人，他們成為好朋友的可能性。這些更多是圖上的分類任務。還有很多任務涉及將圖用作數據數據庫，并用它來改進其他事物。如果你在構建一個問答系統，許多早期的問答系統（比如IBM沃森，它在《危險邊緣》中擁有超越人類的水平）有很大的權限訪問知識圖譜——所有這類常識性知識，這些是你在這類問答游戲中所需要的，它們本質上查詢了這些知識圖譜，檢索到了可以實時回答這些問題的答案。現如今人們使用大語言模型，但也有很多關于大語言模型混合體的工作，其中知識存儲在這些參數中，對比你可能希望大語言模型去進行查詢并從中檢索答案的顯式知識圖譜。用于情感分析等的社交網絡，僅僅在圖本身就有許多機會，強調圖，并且還將圖作為一種額外的輔助模態來對其他任務進行預測。

集合模態。集合模態與表格模態有一些共同點，你可能會有一組對象的組或分布，再次強調，其中的每個對象都是重要的，哪些對象在集合中、哪些不在集合中是非常重要的，但關鍵是元素的順序不重要。在這一塊，我可能在看一堆名人的圖像，這是那些機器學習數據集的常見任務，你可能會試圖對一些屬性進行分類，比如頭發顏色、皮膚顏色、也許還有年齡等等。你可能會有一個對象集合，但這位名人是先出現還是另一位名人先出現并不關鍵。事實上，如果你的模型對這些圖像出現的順序敏感，那么模型將無法工作得像對順序不敏感的模型那樣好。你可以檢測異常，找出哪些人或哪張圖像不屬于那個圖像集合；你可以擴展到集合擴展——如果我想生成更多具有特定屬性的圖像，我該如何在該集合中采樣更多元素。

我們討論集合，點云是另一個例子。我們看到了二維圖像，只有高度和寬度，點云本質上是它的三維版本。它被稱為點云，因為每個點都是x,y,z，這就是為什么你會有這種三維特性和云，因為你有一堆點。其中順序很重要，但這些點集在一起可以讓你某種程度上重建并可視化這些三維物體。你在處理某些三維表示通常會被表示為點云，你可能想要做更多的采樣，例如，我想采樣不同的、不同三維朝向的椅子，遵循椅子這一語義類別，這是一個點云擴展任務的例子；你可能想要分類是哪一個特定的物體，并且我想檢測這些三維物體中的異常。這些都是點云上的任務。

總結一下，集合模態也非常重要。關鍵的區別在于你有一個集合中的一堆元素或者你點云中的這些點，但順序并不重要。如果你構建了一個敏感的模型，對你集合中元素的順序或者你點云中的點敏感，那么你本質上就沒有充分利用你的數據，并且你的模型也不會運行得那么好。我們會在接下來的課程中把很多這些關于模型運行得好與不好的想法具體討論。

這就是對目前所有數據形式的快速一瞥，完全不是詳盡無遺的，還有目前存在的任務。很多時候，我喜歡把出現的事情歸納為一個統一的框架，我打算稱它為模態特征。給定任何特定的數據源，來自你最終收集的任何模態，你最終為其標記數據的，思考幾個維度總是很有用的，該模態的幾個維度，我稱之為模態特征。粗略地說，它是該模態所獨有的獨特品質和結構。

讓我展示一些會屬于這個模態特征的維度，使用兩個例子：一個來自視覺模態，一個來自語言模態。你可以看到這兩個是相關的。一個茶杯在筆記本電腦的右邊，在一個干凈的房間里，是這張圖片的粗略說明。那么這個模態特征里包含什么？我該如何開始對數據進行推理？第一個非常重要的維度是數據中單個元素的分布。我有這張圖片，然后我開始意識到一個元素是沙發，一個元素是茶杯，一個元素是筆記本電腦，其中一個是桌子。語言也是一樣，有一些我可能不在乎的虛詞——the、of、in這些并不是非常重要的詞，但有一些關鍵詞，我關心的句子中的關鍵元素需要建模，例如茶杯、筆記本電腦、干凈的房間。我將開始推理這些元素是什么，特別是那個分布：它們是連續分布還是離散分布，以及它們的支撐集是什么，我必須捕獲的所有可能元素是什么。在圖像中，它會是那三個邊界框區域；而在語言中，它可能是那些詞。他們首先要開始研究的是你如何對這些單個元素進行建模。我該如何學習一個能夠真正捕捉到這個元素是一個筆記本電腦的優秀表示，盡管它被茶杯部分遮擋了；我該如何學習一個優秀的表示，能夠真正將其捕捉為一個視覺的、包含其所有屬性的沙發的表示。同樣的事情，我該如何為語言中的元素學習正確的表示。我提到了這些元素，它們的分布是什么，以及它如何潛在地表示這些元素。

第二個維度是粒度。我們解決了單個元素是什么的問題，但現在這些元素出現的頻率如何？在圖像上，你可能會在每張圖像中看到幾個對象，似乎不是很擁擠，也許大概有三個、四個主要關注的對象。在文本中也是如此，無論一個人是在說話，可能是每分鐘的詞數，如果它是一個句子、一個段落或一篇文檔，是可能關注的單詞數量。這也會影響粒度如何，也會影響隨后如何設計模型來，在學習了單個元素的表示之后，在它們的粒度和頻率上組合這些表示。

第三個關鍵維度是結構。結構本質上告訴了我這些元素是如何組合形成更高級別的信息的。我們從這個自底向上的過程開始，我們觀察了這些單個元素并對它們進行了表示，并觀察了它們的頻率，但最終，你將學習整個圖像的表示，或者整個句子、整個段落的表示。結構本質上告訴了你這些元素應該如何組合起來以獲得更高階的抽象。圖像通常是一個空間結構：我們在空間上觀察圖像元素之間的相互關系，椅子在桌子前面，茶杯在桌子上面，筆記本電腦在茶杯的左邊等等。這是一個非常空間化的排列，你應該考慮到這些空間關系，當你組合這些元素來形成圖像表示時。對于語言，取決于哲學，有些人認為語言應該通過語法進行層級組合，你必須先看一個茶杯，那是一個名詞，有些名詞的前驅詞，某個東西的右邊。有些人認為語言應該通過觀察單詞并進行層級組合，通過某種語法形成更高階的意義。有很多工作，例如構建遵循這種語法的神經網絡，當然，這是非常喬姆斯基式的思考方式。如今人們知道，從經驗上看，效果最好的可能并不完全是遵循所有這些語法結構，你可以簡單地將它視為序列，也許是一個序列，并使用像序列模型Transformer、LLM這樣的東西，這樣就可以工作得很好。其他事情也是一樣，如果你有一個圖或一棵樹，可能存在某種特定的結構，在其中你的元素被組合以形成更抽象的表示，這是你在設計模型時應該考慮到的。這就是結構。你觀察了單個元素、我們如何表示它們、這些元素的頻率，以及這些元素如何結合、結構組合是怎樣的。

很多時候，我們也會關心總信息量——你的模態中的總信息量。一旦你將它們結合起來形成更抽象的高層表示，它提供了什么信息？我能對這些我關心的圖像做出什么推斷？我能對我關心的句子做出什么推斷？很自然地，某些模態會比其他模態擁有更多信息，而且很多時候這些模態在它們擁有的信息上也會有重疊。

最后，一個我們以為不會發生、但它也非常重要的維度是噪聲。當你開始從某些傳感器收集這些模態時，它們通常會是不完美的。相機會容易出現抖動、搖晃和遮擋；語言如果是電腦輸入的，就會容易出現各種拼寫錯誤；如果是口頭表達，就會容易出現人們說話時會犯的各種錯誤。這些類型的噪聲通常有獨特的模式。思考你的數據中可能會出現什么類型的噪聲，并且實際上你當前的數據在你收集和處理它時也帶來另一個重要的維度。

這是一個對各種數據形式的總結，并非詳盡無遺，也是對不同特征的概覽。在你開始收集數據時，思考這些通常非常有用：元素是什么，你的數據的單個元素，它們的分布和頻率；當你把它們組合成更高層次的抽象時，這種結構是如何出現的；不同形式的信息；是否存在噪聲或缺陷，以及它們是什么；還有我其實沒有講到這個，但它與你關心的預測任務有多大關聯。這就是數據。

現在有了數據，我們必須談談學習——你如何從數據中學習。這里我借用了一些導論的幻燈片，也就是我這學期也在教的機器學習。從高層次來看，通常有三種類型的學習范式，同樣這些并不是詳盡無遺的，它們之間也有重疊，而且它們在不斷擴展，但通常有必要去思考三種類型的學習目標：監督學習、無監督學習和強化學習。

監督學習本質上意味著對你的數據有一些監督。原始數據輸入，監督通常以一些標簽的形式出現，一些你想從數據中預測的東西。你可能會有一堆圖像，并且你擁有這些圖像中包含什么物體的標簽：貓、狗、桌子、人，非常簡單。你可能有一個蛋白質結構，并且你有一些關于它與哪些蛋白質相互作用的標簽，或者它找到了哪些蛋白質。你可能有一種語言的一個句子，例如西班牙語，那是你的輸入數據，你可能還有關于什么是其他某種語言中對應翻譯的標簽。所有這些都是監督學習的例子，你擁有數據X，你擁有標簽Y，你愿意提供那種監督，你如何從中學習。

無監督學習是不同的，基本上意味著沒有監督。現在你有了數據，但你不想在收集標簽時提供監督，因為標注數據可能很昂貴，或者需要大量的人力，或者標簽本身可能非常主觀，比如一個人的情緒可能非常主觀。所以你可能會想做無監督學習，此時你只有數據X，并且你希望能學到一些特征，這些特征最終可能對那些你愿意收集的標簽或者對其他一些任務有用。有幾種類型的無監督學習：你可能只關心降低你的維度，在低維空間中可視化你的數據不需要標簽，只需要你的數據就可以完成。你能可視化單詞嗎？這些被稱為詞嵌入，而且它們具有一定的結構，因為某些國家被歸類在一起，某些單詞被歸類在一起。你可能會想訓練生成模型：如果你有大量的蛋白質數據，但你沒有關于這些蛋白質是什么或者它們如何與其他蛋白質相互作用的標簽，你仍然可以學習一個模型，它基本上估計你蛋白質的分布，并可能生成更多蛋白質。我們也已經在圖像中看到了這一點：大量的圖像，你不想去標注里面有只狗這個事實，你仍然可以獲取大量圖像并訓練一個能夠生成新圖像的模型。

現如今，無監督學習和有監督學習已經真正地交織在了一起，伴隨著自監督學習的概念。你可能有很多無監督的數據，沒有標簽，標簽太貴了，但你仍然可以在你未標記的數據上定義一些很好的訓練目標來學習這些抽象概念，這些隨后可以被遷移或微調的特征，然后你有一些少量的標注數據和監督。一個例子是狗的圖片：如果你能夠成功學習到所有狗圖片的分布并生成新的狗圖片，那么這些特征很可能在預測和識別狗的圖片中非常有用。

第三種學習范式強化學習。監督、無監督學習通常關注涉及單個步驟的任務——你做出預測，就完成了；或者你生成另一個樣本，就完成了；或者你將數據可視化，就完成了。強化學習關注的是通常發生在多個時間步驟上的問題。游戲是一個很好的例子：如果你想訓練一個交互式的系統能夠玩像國際象棋和圍棋這樣的游戲，那么通常會有游戲的某種狀態（例如棋子的當前狀態），你正在采取的一些行動（例如走特定的一步棋），從而過渡進入具有新棋子布局的游戲新狀態，在這個狀態下你可能想采取另一個行動，以此類推。這個多步過程中的關鍵區別在于我們不能再僅僅最大化并選擇局部步驟中的最佳行動，可能有很多情況下你會采取次優的短期行動，以獲得長期來看更好的行動。這是強化學習中最大的挑戰之一：你如何可能為了長期而放棄短期行動，以獲得長期的真正好的行動。我們在游戲中能看到它們，我們在機器人技術中能看到它們，如今我們也在大型語言模型中看到了它們。你可以把這些大型語言模型與人類的交互看作是有一些多步交互，在其中你可能會提示它，它給你一個回答，你再次被提示，給它一些回答。當然，這個對話跨越了多個步驟，而你的目標是真正最大化你的長期回報。有很多工作關于應用強化學習方法以最大化人類與算法之間的長期交互質量，我們將在課堂上介紹其中的一部分。

這三個可能相當微不足道，你們中的大多數人或者有些人以前可能見過它們。我還想快速介紹更多的學習范式，當你開始在你的課程項目中尋找并思考你可以收集什么形式的數據，以便它符合當前從數據中學習的這些方式之一時，這些非常有用。

你看到了監督學習：輸入X，模型預測Y，所以你需要包含X和Y的配對且標記的數據。當然，是多模態學習：其中你有多個輸入X，每一個提供互補的信息，你可能會對Y做出一些推斷，這比X1和X2單獨給你提供了更多信息，但現在你需要包含X1、X2和Y的數據，因此對你所需要的數據有更多的要求，而且通常數據更少。這是多任務學習：輸入X，你同時預測Y1和Y2，利用這兩個任務是互補的這一事實。例如，你可能想要預測一個人的情緒，但同時，也預測一個人的壓力，這兩個任務通常非常相關。你可能想要預測機器人物體的某些屬性，并且還要采取下一步行動來再次操作該物體，這兩個任務——盡管一個是標簽、一個是動作——彼此相關。多任務學習如果效果好的話可以運行得非常理想，當然限制在于現在你需要X、Y1和Y2在一起的數據，以及兩個標簽都在一起，這反過來可能會限制你擁有的數據量。

遷移學習略有不同。你可能會在第一個任務上訓練一個模型，從X到Y1，訓練那個模型，然后把這個你已經訓練好的模型遷移到第二個任務中，也就是在第二個任務上繼續構建該模型（Y2）。這與多任務學習略有不同，因為現在你是分兩個階段來做事情：第一階段你需要X和Y1的數據，第二階段你可能只需要X和Y2的數據。這也非常常見，這種兩階段的過程特別有用，當你擁有的Y1和Y2獲取分布不均時。比如你可能會訓練一個圖像模型來分類自然圖像，你可以從互聯網上獲取海量的數據，你可以獲得海量的自然圖像標簽，但接著你想遷移到一些醫學維度——醫院收集的醫學圖像，所以你擁有的醫學圖像和醫學標簽會少得多。遷移學習允許你應對這種不對稱性。

跨模態學習可以說是針對不同模態的延伸。有時訓練可能會非常有幫助：針對Y訓練X1模態，并將其遷移到針對Y的X2模態，或者可能是略有不同的Y。輸入模態是不同的。如今當你實踐這種遷移學習的想法時，X1可以是語言，你為某些任務訓練模型。令人驚訝的是，這些大語言模型不僅能遷移語言，它們還可以遷移到代碼、數學、到蛋白質結構、到基因組序列、甚至到機器人狀態和動作的序列，甚至到游戲狀態。你可以很好地遷移到很多事情上。我們如何突破跨模態學習的極限？不同的模態，并進行這種遷移。你可以結合這個，做跨模型——模態是不同的，還有遷移，所以任務也略有不同，只要它們之間存在某種關系。

無監督和自監督預訓練也非常常見，這是遷移學習的延伸。其中，你不是以監督的方式將你的第一個模型從X訓練到Y1，而是對你的第一個模型進行一些無監督學習，從X到X'。在這種情況下，你在第一步中不需要任何標簽，你只需要X，而X'實際上就是你創建的自監督標簽。有幾種方法可以做到這一點：你可以使用圖像的左半部分來預測圖像的右半部分；你可以把圖像分成不同的部分，就像拼圖一樣，并讓模型重新構建哪些拼圖塊應該去哪里來重新構建完整的圖像；你可以在前五個詞上預訓練，自回歸生成第六、第七個詞；你可以旋轉你的圖像或向其添加噪聲，并嘗試去除該噪聲或恢復旋轉該圖像。有很多方法，只要你自動生成的X和X'之間存在某種關系，你在你的電腦上做，然后你基本上可以無限訪問X和X'對，所以你可以預訓練你的模型。然后通常那些特征，如果設計得很好，將會非常強大。因為首先，你有很多數據，X數據的數量遠多于XY標簽數據，所以你可以利用大量的數據。如果你的特征以及你的X到X'設計得很好，那么它實際上會學習到非常好的特征，然后可以被遷移到某些任務Y。我們稱之為無監督或自監督預訓練。

到目前為止有什么問題嗎？是的，在學習的過程中，你提到了LLM。所以我的問題是關于LLM的，你提到它顯然通常涉及建模多個步驟，就像人類通過重要的互動。但LLM的目標難道不是生成一個極好的回答嗎？這就是為什么我們有RL的工作，為了讓回答在單輪中就很棒，而不是來回。另外，對于強化目標函數，對于沒有目標函數的情況，我們不提供反饋。你怎么認為在未來會有個目標函數，然后那會涉及多個步驟，為了實現整體目標？很好的問題，我們之后會對此進行更多討論。簡短的回答你的問題：當然，你想最大化你在單一步驟中獲得的最佳回應，但通常情況下，當你不是指問澄清性的問題——如果你問很多澄清性問題來構成多步驟，那不好——但通常你會得到一個好的回答，你繼續和它交流，所以這將會產生一些自然的長期互動，你可以使用強化學習來建模。同樣，我們遵循學習可以是一個回應，但是其中的每個步驟都是一個詞，而整個響應可以被視為一個問題，它也可以是多個響應，每一個都對待我們一個響應、一個即時響應，這也給你帶來了所有這些。至于獎勵，有大量的工作，人們在其中對好的進行評分，或者評估大語言模型輸出的質量，并且所有的人類監督都投入到獎勵函數中，以更好地微調這些大語言模型，所以那也非常常見。當然，如果其中一些指標是自動的，那就太好了，但這些中的大多數當前的方法和RLHF仍然依賴于一定數量的人類監督和人類反饋。

關于自監督訓練的一個問題：在第一步中創建的模型，我已經看過了所有這些。你可以保留大部分模塊，因為這是一個大模型，但一旦你帶到這里，你可能會訓練一個單獨的線性分類頭，你可能會調整模型的一些最終層，你要進行低秩適應。有很多種方法，但只要你進行某種預初始化，初始化得好，然后你把它帶過來，對其進行一些微調，只需做一些微小的調整，你不需要重新訓練整個模型，微調整個模型。

更具交互性的學習范式。那大部分只是非交互式的，進行預測，但是還有交互式學習范式。我們看到了強化學習，其中X是你的數據，或者在強化學習中我們通常稱之為狀態輸入，你可能會采取多個行動來獲得多個狀態，有多個你必須采取的多個觀測和多個動作，并且你最終可能會得到一些獎勵，你的目標是最大化這種長期獎勵。你想想強化學習：多個動作，多個步驟。

除了適應之外，使模型更具交互性也是非常常見的事情。你可能會有一些本質上是被監督的模型XY，X預測Y，只是一個類別或一個數字，或者分類。你可以開始調整其中的很多，以便模型可以用語言輸出一些內容，這可能會非常有用，因為現在不僅能預測它是貓還是狗，你可能還可以問后續問題——它是什么類型的貓？它是什么種類的狗？你甚至還可以提示模型來解釋為什么它是一只貓，這樣模型就可以識別出不同顏色的四條腿等等。本質上，通過使用將語言添加到輸出空間，其他大語言模型讓你的模型更具交互性，在回答后續問題甚至解釋其決策方面。當然，如何完美、魯棒地做到這一點且沒有幻覺，仍然是一個問題。

課程學習或主動學習：這是一個非常常見的范式。比方說，你想要完成某個任務Y，那真的很難。如果你只是在Y上訓練你的模型，模型的效果會非常糟糕。所以你可以做的是，你可以先監督模型去完成一些更容易的任務，就像學生學習一樣，學生根據某種課程進行學習，從較容易的任務到較困難的任務。如何選擇該課程是一個開放性問題，但在這方面已經有大量的工作。主動學習也是一個類似的范式：在這里，你可能首先讓你的數據、一個模型在簡單的數據上做出預測，然后根據模型的當前狀態，你會去尋找越來越困難的數據或越來越困難的任務讓模型去解決，并且找一個人來看。

之前的一切大多只是在計算機中自動完成的。在許多設置中，你有X來預測一些標簽，或者采取一些行動，其中會有一些人類反饋，然后這些反饋可以用來訓練模型針對新的輸入并做出新的預測。這可以迭代地進行，根據你的需要進行多次循環，直到你對性能滿意為止。可以是原始的人類反饋，或者也許在你看過了足夠多的人類反饋之后，你就可以訓練另一個模型來模仿人類是如何給出反饋的，這樣就可以成為一種自動化方式，從一些人類反饋到最終實現自動化并預測人類會如何給出反饋。

讓我最后再過一下其他幾個重要的提示。我們看了不同形式的數據，你應該如何思考數據的屬性，你正在收集不同的學習范式來從數據中學習并找到你的學習過程。本質上，機器學習和人工智能的整個目標是找到一種好的建模方法，去學習關系，去從你的數據中學習特征。很多時候，你會考慮一個模型或一類模型——一類模型可以是一類神經網絡，其他可能的包括一類線性函數、一類決策樹等等。例如，你只在一維中，如果你有X、你有Y，你有一些同時啟用了X和Y的數據，數據本質上讓你能夠學習一個學習數據之間關系的函數。你經常會看到這些方框，其中X輸入進來，你學習了某種函數F或H，并做出預測Y。

在下一節課中，我們將探討本質上如何定義這些模型，這些模型長什么樣。你的模型基本上表現得有多好，真的取決于你如何選擇模型或者你如何定義模型的參數。但在深入研究模型之前，你甚至該如何評估一個模型有多好？經常會遇到過擬合與泛化的問題。機器學習的真正目標是泛化到未來的數據。我們談論你收集到的所有這些數據，顯然你收集了一堆圖像，并且你為其中不同的對象貼上標簽，你本質上是在這些數據上訓練一個模型，但你的希望是能泛化到新數據。如果我明天用我的相機拍一張新圖像的照片，我希望能夠做出那個預測。如果明天或一年后有人與我的大語言模型進行交互，我希望大語言模型在那種交互中表現良好。

存在風險。有時模型甚至無法捕捉到X和Y的關系，你學到了這個被稱為欠擬合的函數，它沒有很好地學習這種關系，你的模型就不會很好地工作。如果它真的把關系捕捉得太好了，我們稱之為過擬合——它已經專門針對你的訓練數據進行了特化，并且當你實際將模型部署在測試數據上時，它可能無法泛化。這條藍色曲線顯然是過擬合了，而且擬合得太貼合訓練數據，而不是實際捕捉到一個平滑的關系，這很令人擔憂。通常在實踐中，你會收集你的數據，你會將其拆分為訓練集、驗證集和測試集，這是為了模擬這種在測試新數據之前收集數據進行訓練的概念。你基本上是在訓練集上訓練一個模型，在驗證集上進行驗證、調整超參數，并在測試集上衡量模型的表現，以此來模擬模型在未來真實數據上的表現，而這些數據你目前還沒有。至關重要的是要確保你的測試數據條件盡可能地匹配你實際想要部署模型的環境條件，在現實世界中。

那么，總結一下如何處理數據。我打算在每張幻燈片的結尾都寫上“如何做某事”，但這次的主題是數據，所以是“如何處理數據”。首先，決定收集多少數據以及標注多少數據，假設你打算收集標簽，我們會考慮到收集數據的成本、雇傭人工標注員來標注數據的成本，以及資金成本、時間成本等等。清洗數據：通常你需要對數據進行一些歸一化或標準化處理，以便讓所有數據都處于一個合適的范圍內。尋找噪點數據，檢測離群值和異常值，有很多現成的工具包可以做到這一點。可視化你的數據：沒有多少人在這方面做得足夠多，但你應該把它畫出來。如果這是我的X1、這是Y，我把它畫出來，我知道我正在尋找一種X和Y之間的線性關系，這樣我就能知道該設計什么樣的模型。這是一維的，所以比較容易畫圖。如果數據是在更高維度呢？有一些降維的方法，比如PCA和t-SNE，來基本上識別你的聚類——我的數據是否甚至落入了那些我起初想要預測的類別，在對它們設計任何模型之前。評估指標：什么是評估模型好壞的好方法？無論你做的是平方誤差（連續值的預測），還是分類誤差，或者可能是更復雜的東西，比如用戶研究或可用性測試。通常你也會想看看代理指標和真實指標：如果你的真實指標是人類在未來如何使用，但你不想與人類進行迭代，當你只是在設計一個模型時，獲取一些代理指標可能會很有用，它們是真實指標的近似值。正向指標的單一指標，定量和定性的。然后，也只有在那個時候，你才會選擇一個模型類別、學習算法并進行機器學習。從這一、二、三開始，四需要先完成。

總結一下，我們看了一些常見數據模態的例子，我們提供了一個統一的范圍界定框架，關于如何思考你數據中的維度，我們看了數據的類型、標簽和學習目標，還有挑戰，例如過擬合、欠擬合以及實際推廣到現實世界的例子。

那么下周的任務安排：目前還沒有閱讀任務，那將開始，我想是下周。確保你填寫了你的項目偏好表格在今天之前，好讓我們大致了解你正在考慮的任務、數據和隊友。如果你還沒有找到隊伍，也許出去社交一下，試著尋找志同道合的人。項目提案演講將在下周四進行，每個團隊大約五分鐘，我們會發布具體說明。在本周四，我們將進行一場教程，由我們的一些學生來分享機器學習工具和實用技巧，用于訓練和調試郵件流水線。

好的，各位，至于今天和周四，如果你們想就項目碰一下，我會在我的辦公室在今天兩點到三點留出時間，以及周四的兩點到三點，這樣我們可以討論你們的課程項目，如果你們需要對其獲得任何反饋。

謝謝大家。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.