網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

麻省理工出品，AI時(shí)代人人必修的最佳公開(kāi)課！從人工智障到聊天高手，讓大模型完成逆襲

2026-05-31 14:12:53　來(lái)源: 麻省理工AI公開(kāi)課

北京舉報(bào)

分享至

好的，歡迎大家回來(lái)。今天我會(huì)簡(jiǎn)要介紹一下大語(yǔ)言模型。這是大語(yǔ)言模型課程的一個(gè)超級(jí)濃縮版，不會(huì)深入講具體的實(shí)現(xiàn)算法。但如果你們感興趣，隨時(shí)可以提問(wèn)。或者如果大家對(duì)某個(gè)特定主題特別感興趣，我們也許可以再安排一節(jié)課來(lái)深入講解。

在講大語(yǔ)言模型之前，我先簡(jiǎn)要介紹一下循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）。在Transformer問(wèn)世之前，RNN是非常流行的模型。它的思路是：我們有一串詞對(duì)應(yīng)的數(shù)值，依次輸入網(wǎng)絡(luò)，并不斷更新網(wǎng)絡(luò)的隱藏狀態(tài)。每輸入一個(gè)詞，就更新一次。輸完整句話后，最終隱藏狀態(tài)就包含了前面所有詞語(yǔ)的順序信息。然后用這個(gè)最終狀態(tài)連接一個(gè)分類器，輸出最可能的下一個(gè)詞。

在這個(gè)例子中，輸入“the student opened the”，分類器會(huì)輸出概率，最可能的下一個(gè)詞是“books”。

RNN有幾個(gè)優(yōu)點(diǎn)：第一，可以處理任意長(zhǎng)度的輸入，因?yàn)殡[藏狀態(tài)大小是固定的，無(wú)論輸入多長(zhǎng)，隱藏狀態(tài)尺寸不變。第二，輸入上下文變長(zhǎng)時(shí)，模型大小不會(huì)增加。但關(guān)鍵問(wèn)題是，這種循環(huán)計(jì)算很慢，必須逐詞處理。輸入句子越長(zhǎng)，處理時(shí)間就線性增長(zhǎng)。而且，由于只基于先前的隱藏狀態(tài)進(jìn)行計(jì)算，很難獲取很久之前的信息。所以，如果到了句子末尾，模型很可能已經(jīng)忘記前文幾個(gè)詞的信息。這就是我們引入Transformer的原因。

這張圖其實(shí)三頁(yè)前放過(guò)，我直接復(fù)制過(guò)來(lái)了。Transformer的好處在于它有全局注意力：每個(gè)詞都可以與輸入文檔中的任何其他詞交互。每個(gè)詞生成一個(gè)查詢，用來(lái)獲取并整合其他詞的信息。好處是，并行操作的數(shù)量不隨序列長(zhǎng)度增加，無(wú)論序列多長(zhǎng)，都可以一次操作處理完。第二是最大交互距離為1，模型更容易捕捉長(zhǎng)距離依賴關(guān)系，比如這句話里的某個(gè)詞與另一句話里某個(gè)詞的關(guān)系。

但Transformer也有很多缺點(diǎn)。一個(gè)突出的問(wèn)題是時(shí)間復(fù)雜度較高。可以看到，這里的Q乘K的轉(zhuǎn)置，意味著用輸入序列長(zhǎng)度對(duì)應(yīng)的矩陣乘以另一個(gè)同樣長(zhǎng)度的矩陣，注意力計(jì)算復(fù)雜度是n平方。如果輸入文檔非常長(zhǎng)，比如把整篇維基百科都放進(jìn)去，計(jì)算量就非常龐大。這就是為什么近年來(lái)出現(xiàn)了線性注意力的趨勢(shì)。基本思路是把超長(zhǎng)文檔切成若干段，每段內(nèi)部做注意力計(jì)算，讓同段內(nèi)的詞相互交互，然后用類似RNN的方式聚合各段信息。就是把RNN和Transformer結(jié)合起來(lái)，降低注意力所需的計(jì)算量。

接下來(lái)我簡(jiǎn)要講一下大語(yǔ)言模型的預(yù)訓(xùn)練。大語(yǔ)言模型之所以如此成功，是因?yàn)槲覀冇辛舜笠?guī)模預(yù)訓(xùn)練。預(yù)訓(xùn)練的做法其實(shí)很簡(jiǎn)單：把輸入文檔切成有重疊的窗口，把整段輸入給模型，讓它預(yù)測(cè)下一個(gè)詞。在整個(gè)互聯(lián)網(wǎng)文本的規(guī)模上做這個(gè)“下一個(gè)詞預(yù)測(cè)”任務(wù)。方法很簡(jiǎn)單，那為什么它如此成功？因?yàn)橛辛苏麄€(gè)互聯(lián)網(wǎng)的文本用于訓(xùn)練，這種極其多樣、海量的數(shù)據(jù)對(duì)模型獲得這些能力至關(guān)重要。

想想看，問(wèn)答數(shù)據(jù)集SQuAD 2.0算是很大的了，大約有5000萬(wàn)個(gè)token。但現(xiàn)在我們用的預(yù)訓(xùn)練文本數(shù)據(jù)集，比如DataCommon，有250萬(wàn)億個(gè)token。而整個(gè)可索引的互聯(lián)網(wǎng)文本，大約有510萬(wàn)億個(gè)token。是最大問(wèn)答數(shù)據(jù)集的一千萬(wàn)倍。所以互聯(lián)網(wǎng)文本幾乎涵蓋了你所能想到的任何任務(wù)的數(shù)據(jù)，因此模型擁有了良好的多任務(wù)能力，多樣性也極強(qiáng)。

預(yù)訓(xùn)練文本包含網(wǎng)頁(yè)、代碼，還有Reddit等社交媒體內(nèi)容，以及論文、書(shū)籍、維基百科和文章。

有人問(wèn)，為什么總共是3100萬(wàn)億，但只有510萬(wàn)億被索引？因?yàn)楹芏辔谋舅阉饕鏌o(wú)法觸及。搜索引擎確實(shí)覆蓋了大量網(wǎng)頁(yè)，但并非整個(gè)互聯(lián)網(wǎng)。如果沒(méi)有其他網(wǎng)頁(yè)指向某個(gè)頁(yè)面，搜索引擎就找不到它。此外，公司或政府的內(nèi)網(wǎng)數(shù)據(jù)，或者某些私人數(shù)據(jù)，這些都不在搜索引擎的覆蓋范圍之內(nèi)。那3100萬(wàn)億是包含搜索引擎之外信息在內(nèi)的整個(gè)互聯(lián)網(wǎng)的估算值。

這就是預(yù)訓(xùn)練部分。

接下來(lái)快速介紹一下大語(yǔ)言模型通常使用的架構(gòu)類型。主要有三大類：僅編碼器模型、編碼器-解碼器模型，以及僅解碼器模型。不細(xì)講架構(gòu)之間的區(qū)別，但關(guān)鍵是，編碼器模型具有雙向注意力。輸入一個(gè)詞時(shí)，它可以看到前面和后面的所有詞。而解碼器模型只能看到過(guò)去的詞。如果句子中間有一個(gè)詞，解碼器只能關(guān)注到句子的前半部分，但編碼器可以同時(shí)關(guān)注前后兩半。

一個(gè)著名的僅編碼器模型是BERT，用于文本分析。如果做情感分析或情緒識(shí)別等任務(wù)，BERT通常是個(gè)不錯(cuò)的起點(diǎn)。而僅解碼器模型，現(xiàn)在幾乎所有大語(yǔ)言模型都是這種。目前好像沒(méi)有哪個(gè)現(xiàn)代模型還在用僅編碼器的設(shè)計(jì)了。為什么呢？我認(rèn)為主要是性能原因。僅解碼器模型更自然地模擬語(yǔ)言生成。你讓模型生成答案時(shí)，生成過(guò)程本身就只能是逐個(gè)看過(guò)去的詞，它無(wú)法知道未來(lái)要生成的詞，所以編碼器架構(gòu)在這里不是很有用。第二，因?yàn)椴恍枰P(guān)注未來(lái)的詞，僅解碼器模型計(jì)算效率更高，這在今天的大語(yǔ)言模型訓(xùn)練中可能是主要考量。

最著名的僅編碼器模型是BERT，2018年推出，3.04億參數(shù)。當(dāng)時(shí)被認(rèn)為是非常大的模型，但現(xiàn)在只能算很小的模型了。它用書(shū)籍語(yǔ)料庫(kù)和維基百科訓(xùn)練，總共約3000萬(wàn)token。即使在今天看來(lái)是個(gè)小模型，在單塊GPU上重新訓(xùn)練整個(gè)BERT依然很困難。當(dāng)時(shí)用了64塊TPU訓(xùn)練了4天，如果你在家用一塊GPU訓(xùn)練，大概要8個(gè)月。

僅編碼器模型的預(yù)訓(xùn)練方式是掩碼詞預(yù)測(cè)。把句子的一部分用特殊掩碼token遮擋，讓模型預(yù)測(cè)被遮擋的內(nèi)容。原始訓(xùn)練中實(shí)際遮擋了80%的token，要求模型預(yù)測(cè)其中約15%。僅解碼器模型就是我們今天看到的所有大語(yǔ)言模型，從GPT-1開(kāi)始，1.17億參數(shù)，很快就變大，到GPT-3就1750億了。如前所述，僅解碼器模型的優(yōu)勢(shì)在于更自然地模擬語(yǔ)言生成。預(yù)訓(xùn)練時(shí)，就是讓模型基于過(guò)去上下文輸出最可能的下一個(gè)詞。

在僅解碼器架構(gòu)推出后，人們發(fā)現(xiàn)模型性能可以根據(jù)模型大小和訓(xùn)練計(jì)算量相當(dāng)可預(yù)測(cè)地進(jìn)行擴(kuò)展。2022年那篇論文，模型是70億參數(shù)，用1.4萬(wàn)億token訓(xùn)練，被認(rèn)為是非常標(biāo)準(zhǔn)和流行的規(guī)模定律配方，很多工作都沿用了“70B對(duì)1.4T”這種平衡。但近幾年，人們擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模的速度比擴(kuò)大模型本身更快。LLaMA 3有70億參數(shù)，但訓(xùn)練數(shù)據(jù)高達(dá)15萬(wàn)億token。參數(shù)只有70B的十分之一，訓(xùn)練token卻大了10倍。這是另一個(gè)我們正在看到的很有意思的趨勢(shì)。有人問(wèn)，我們只看訓(xùn)練token的總量，但不知道數(shù)據(jù)重疊情況，數(shù)據(jù)質(zhì)量到底如何？這確實(shí)也是目前一個(gè)開(kāi)放問(wèn)題。因?yàn)閿?shù)據(jù)規(guī)模太大，我們不太清楚有多少重復(fù)。訓(xùn)練前仍需要大量清洗和去重。斯坦福團(tuán)隊(duì)推出了一個(gè)叫RedPajama的數(shù)據(jù)集，就是DataCommon的開(kāi)放復(fù)現(xiàn)版本，其中包含了去重和含義說(shuō)明。

很多東西其實(shí)從2018年第一個(gè)模型問(wèn)世就已經(jīng)存在了，但大語(yǔ)言模型直到2022年ChatGPT發(fā)布后才真正流行起來(lái)。之前的預(yù)訓(xùn)練有什么問(wèn)題，導(dǎo)致它之前沒(méi)那么有用？最重要的是，預(yù)訓(xùn)練任務(wù)只是做語(yǔ)言建模——預(yù)測(cè)輸入句子之后最可能出現(xiàn)的句子。但這并不等同于幫助用戶。比如，你讓模型“給一個(gè)六歲小孩解釋重力”，它可能反而去預(yù)測(cè)接下來(lái)會(huì)有什么句子，而這跟問(wèn)題的答案毫無(wú)關(guān)系。預(yù)訓(xùn)練文檔里這兩個(gè)句子經(jīng)常連著出現(xiàn)，但這不是我們想要的答案。

于是人們引入了指令微調(diào)。我們收集不同任務(wù)中“輸入-輸出”的范例，讓模型在這些范例上做監(jiān)督微調(diào)。指令微調(diào)在有足夠數(shù)據(jù)后變得非常流行。Super Natural Instructions包含了超過(guò)1600個(gè)任務(wù)、300萬(wàn)個(gè)示例，涵蓋幾乎所有你能用純文本做的任務(wù)，包括翻譯、Python編程、分類、序列標(biāo)注等。這讓模型能跨任務(wù)學(xué)習(xí)，在不同任務(wù)上都取得更好的表現(xiàn)。

我們實(shí)驗(yàn)室也在做一項(xiàng)工作，收集一個(gè)基礎(chǔ)性的臨床多任務(wù)多模態(tài)指令訓(xùn)練數(shù)據(jù)集，包含13種臨床模態(tài)、超過(guò)500萬(wàn)條醫(yī)患問(wèn)答對(duì)。我們發(fā)現(xiàn)，在多個(gè)任務(wù)上訓(xùn)練，比只在單一任務(wù)上訓(xùn)練效果更好。

那如何精確優(yōu)化模型的回復(fù)，讓它符合我們的期望？這就是偏好調(diào)優(yōu)。我們根據(jù)人類偏好優(yōu)化模型回復(fù)，也就是讓它按我們期望的方式回答問(wèn)題。舉例來(lái)說(shuō)，我們讓模型總結(jié)一段文字，它會(huì)輸出一個(gè)好的總結(jié)和一個(gè)差的總結(jié)。我們訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型，對(duì)總結(jié)打分。然后設(shè)計(jì)損失函數(shù)，讓模型更傾向于輸出高獎(jiǎng)勵(lì)的答案，減少輸出低獎(jiǎng)勵(lì)的答案。GPT-3.5就是這么訓(xùn)練的。整個(gè)過(guò)程分三步：首先用少量數(shù)據(jù)收集指令-答案對(duì)，做標(biāo)準(zhǔn)的監(jiān)督微調(diào)；然后用更大規(guī)模的問(wèn)題集，讓模型對(duì)每條指令輸出多個(gè)回復(fù)，讓另一組標(biāo)注員從最好到最差排序；然后訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來(lái)學(xué)習(xí)這種人類偏好。有了獎(jiǎng)勵(lì)模型后，就能大規(guī)模訓(xùn)練，在所有數(shù)據(jù)上用獎(jiǎng)勵(lì)模型來(lái)訓(xùn)練模型。

但人類偏好存在噪聲且未經(jīng)校準(zhǔn)。同一段總結(jié)，有人可能打高分，有人打低分，有些人可能每個(gè)回復(fù)都給高分。這讓訓(xùn)練過(guò)程變?cè)腚s、更難訓(xùn)練。于是人們引入了相對(duì)偏好，用排名而非數(shù)值分?jǐn)?shù)來(lái)優(yōu)化模型。算法是讓模型對(duì)回復(fù)進(jìn)行“最好到最差”的排序，基于排序優(yōu)化模型。經(jīng)過(guò)指令和偏好微調(diào)后，模型在回答問(wèn)題方面比原始預(yù)訓(xùn)練模型好得多。

但基于人類反饋的強(qiáng)化學(xué)習(xí)并不總是如人所愿，因?yàn)槿说钠貌豢煽俊１热纾阏?qǐng)標(biāo)注員為問(wèn)答對(duì)標(biāo)注，他不可能花半小時(shí)仔細(xì)看完整段回復(fù)。他可能只看5秒鐘，覺(jué)得讀起來(lái)通順、看起來(lái)不錯(cuò)，就給高分，但這并不總是正確的。所以模型有時(shí)候被獎(jiǎng)勵(lì)去生成那些“聽(tīng)起來(lái)權(quán)威、有幫助”，但實(shí)際并不正確的回復(fù)。這是當(dāng)前大語(yǔ)言模型和RL訓(xùn)練中的一大問(wèn)題。這會(huì)導(dǎo)致模型產(chǎn)生冒犯性內(nèi)容和幻覺(jué)——模型會(huì)為了避免得低分而去編造事實(shí)。

其次，獎(jiǎng)勵(lì)模型并不總是反映人類偏好。還可能產(chǎn)生意想不到的行為。比如你問(wèn)模型“你來(lái)自哪里”，它會(huì)給出各種答案。如果模型說(shuō)自己來(lái)自發(fā)達(dá)地區(qū)（美國(guó)、加拿大或澳大利亞），獎(jiǎng)勵(lì)模型會(huì)打高分；如果說(shuō)自己來(lái)自非洲，獎(jiǎng)勵(lì)模型會(huì)打低分或懲罰。但這顯然不是我們想要的，我們希望模型公平對(duì)待所有地區(qū)。有人問(wèn)，是否有論文顯示，經(jīng)過(guò)RLHF后模型的準(zhǔn)確率反而下降了？其實(shí)有點(diǎn)難比較，因?yàn)榻?jīng)過(guò)偏好調(diào)優(yōu)之前的模型可能根本就不直接回答問(wèn)題。即使RLHF有弊端，它跟預(yù)訓(xùn)練模型也不太好直接對(duì)比。不過(guò)確實(shí)有近期關(guān)于推理訓(xùn)練的工作發(fā)現(xiàn)，如果你教模型不要輸出惡意的、有害的推理過(guò)程，模型會(huì)把自己的推理過(guò)程藏起來(lái)，但并不改變自己的內(nèi)在行為。對(duì)齊訓(xùn)練、讓模型更有用且無(wú)害，確實(shí)相當(dāng)困難。

接下來(lái)講幾個(gè)大語(yǔ)言模型最近的工作。近期的工作更關(guān)注訓(xùn)練效率。因?yàn)槿藗儼l(fā)現(xiàn)，不管怎么改架構(gòu)，當(dāng)你用海量多樣化數(shù)據(jù)訓(xùn)練到極大規(guī)模時(shí)，模型表現(xiàn)都會(huì)趨向相似。因此，目前最大的改進(jìn)空間是讓模型更高效，從而在固定計(jì)算資源下訓(xùn)練更多數(shù)據(jù)，獲得更好性能。

一個(gè)很流行的工作是低秩適應(yīng)，叫LoRA。動(dòng)機(jī)是，訓(xùn)練整個(gè)模型需要大量計(jì)算和GPU內(nèi)存。解決方案是凍結(jié)原始模型，只訓(xùn)練一個(gè)小的適配器，以低秩方式更新參數(shù)。本質(zhì)上是兩個(gè)矩陣：一個(gè)把輸入壓縮到較小維度，另一個(gè)再擴(kuò)展回原始維度。兩個(gè)適配器合起來(lái)的參數(shù)量遠(yuǎn)小于原模型，但擴(kuò)展后就能用這小得多的參數(shù)集更新整個(gè)模型。如果GPU內(nèi)存不多，LoRA通常是訓(xùn)練大模型的最佳選擇。

另一個(gè)流行的方法是混合專家模型。你可能聽(tīng)說(shuō)過(guò)。動(dòng)機(jī)不是讓不同專家擅長(zhǎng)不同領(lǐng)域。實(shí)際上，在現(xiàn)代大語(yǔ)言模型訓(xùn)練中，這些專家并不具備可解釋性，你無(wú)法說(shuō)“這個(gè)專家負(fù)責(zé)分類，那個(gè)專家負(fù)責(zé)翻譯”。但我們觀察到，使用專家模型能在小得多的計(jì)算量下訓(xùn)練出大得多的模型。做法是，在同一層里并行放置多個(gè)網(wǎng)絡(luò)，前向傳播時(shí)，有一個(gè)門控層決定每個(gè)token應(yīng)該走哪個(gè)專家。因?yàn)槊總€(gè)token只經(jīng)過(guò)網(wǎng)絡(luò)的一小部分，你就節(jié)省了計(jì)算量和內(nèi)存。

一個(gè)很有名的例子是GPT-4，它是一個(gè)混合專家模型，總共有6000億參數(shù)，但每個(gè)token只激活370億參數(shù)。通過(guò)這種設(shè)計(jì)，大約節(jié)省了95%的計(jì)算量。

另一個(gè)技術(shù)是量化。模型訓(xùn)練好后，如果想部署到手機(jī)這類小設(shè)備上，量化是很有效的技術(shù)。訓(xùn)練時(shí)，模型通常用16位或32位精度。但人們發(fā)現(xiàn)，用好的量化算法，可以把模型壓縮到4位精度，而不會(huì)有明顯的性能損失。基本做法是：先對(duì)權(quán)重進(jìn)行某種裁剪，移除異常值，把超出范圍的值限定在給定區(qū)間內(nèi)。然后把權(quán)重縮放到目標(biāo)位數(shù)的范圍內(nèi)。比如你要把32位模型壓縮到8位，就把權(quán)重范圍映射到-128到127之間。但實(shí)際上，你可以按塊縮放權(quán)重——如果某一塊里負(fù)值更多，可以把中心點(diǎn)左移，從而在固定精度下獲得更高準(zhǔn)確率。最后把模型轉(zhuǎn)換到低位精度，再做校準(zhǔn)以消除量化過(guò)程中引入的誤差。

有人問(wèn)量化應(yīng)用于哪些部分。量化應(yīng)用于模型中的權(quán)重，但不應(yīng)用于激活值，也不應(yīng)用于模型的最后一層（即softmax分類器）。由于網(wǎng)絡(luò)中不同層的權(quán)重分布不同，你需要為每層準(zhǔn)備一套獨(dú)立的量化碼本。如果感興趣，可以搜索GPTQ，那是一個(gè)量化庫(kù)，現(xiàn)在很流行。用這個(gè)庫(kù)，你可以在Hugging Face上找到幾乎所有流行大語(yǔ)言模型的量化版本。

但量化能走多遠(yuǎn)？最近有篇論文把模型權(quán)重量化到了1位或1.58位，模型依然能跑，且性能與原模型非常相似。但要真正高效運(yùn)行這種極低位模型，需要新硬件。目前的GPU硬件還無(wú)法高效處理這種超低精度量化。

最后講一些微調(diào)大語(yǔ)言模型的實(shí)用技巧。因?yàn)檫@門課偏重實(shí)踐導(dǎo)向，很多同學(xué)的項(xiàng)目也在做AI微調(diào)。

整體有四個(gè)步驟：準(zhǔn)備數(shù)據(jù)；選擇起點(diǎn)模型；微調(diào)模型；評(píng)估與部署。關(guān)于數(shù)據(jù)準(zhǔn)備，需要把任何數(shù)據(jù)轉(zhuǎn)換成問(wèn)答格式。不同的指令微調(diào)框架有很多種格式，你只需選一種。這個(gè)例子里，問(wèn)題和答案按這種格式組織，包含問(wèn)題、答案、圖片以及圖片列表。幻燈片里列出了可用于微調(diào)的格式清單。

然后，要選一個(gè)好的起點(diǎn)模型。這意味著不要用太舊的模型去微調(diào)，尤其是不要用最初發(fā)布的LLaMA，那個(gè)模型即使在當(dāng)時(shí)也不算很好。從較小的模型開(kāi)始，但別太小。人們發(fā)現(xiàn)，低于30億參數(shù)的模型，性能會(huì)急劇下降，即使經(jīng)過(guò)微調(diào)也看不到太好效果。所以從3B左右開(kāi)始。這里列出了一些推薦模型：做純文本微調(diào)可以用Gemma和Llama；如果有大型集群，也可以試DeepSeek R1。做多模態(tài)微調(diào)可以用LLaVA 1.5，尺寸從7B到72B都有，對(duì)各種應(yīng)用場(chǎng)景都相當(dāng)不錯(cuò)。

然后是訓(xùn)練。不要用原生Transformer包去訓(xùn)練，要用高效的大語(yǔ)言模型訓(xùn)練框架，比直接寫(xiě)PyTorch腳本快得多。有幾個(gè)推薦：Axolotl和LLaMA Factory是我們研究中常用的。還有一個(gè)VERA，是同一團(tuán)隊(duì)最近推出的，據(jù)說(shuō)推理框架比LLaMA Factory更高效。

再是選擇訓(xùn)練方法。這里沒(méi)有特別多的推薦。可以做標(biāo)準(zhǔn)監(jiān)督微調(diào)，也可以用PPO或DPO等強(qiáng)化學(xué)習(xí)偏好微調(diào)。建議都試試看哪個(gè)效果最好。DPO很新，但算法本身還有很多問(wèn)題，不一定效果最好。根據(jù)GPU內(nèi)存大小，再?zèng)Q定是用LoRA還是全量微調(diào)。如果是多模態(tài)大語(yǔ)言模型，還要決定是凍結(jié)視覺(jué)編碼器，還是微調(diào)連接編碼器與大語(yǔ)言模型的投影層。

最后，簡(jiǎn)單提幾個(gè)大語(yǔ)言模型訓(xùn)練和理解的潛在未來(lái)方向。當(dāng)前一個(gè)熱門趨勢(shì)是教大模型推理。最近DeepSeek R1論文在這個(gè)領(lǐng)域非常火，很多團(tuán)隊(duì)都在嘗試對(duì)模型進(jìn)行各種任務(wù)的細(xì)粒度推理微調(diào)。第二個(gè)熱門方向是多模態(tài)大語(yǔ)言模型。現(xiàn)在已經(jīng)有很多公開(kāi)的視覺(jué)語(yǔ)言模型，但還沒(méi)有真正好的音頻或時(shí)間序列大語(yǔ)言模型。這可能是大家現(xiàn)在可以研究的方向。

好了，如果有什么問(wèn)題，現(xiàn)在可以問(wèn)。沒(méi)有的話，確保今天提交中期報(bào)告，并為周四的展示做好準(zhǔn)備。謝謝大家。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.