好的,歡迎大家回來(lái)。今天我會(huì)簡(jiǎn)要介紹一下大語(yǔ)言模型。這是大語(yǔ)言模型課程的一個(gè)超級(jí)濃縮版,不會(huì)深入講具體的實(shí)現(xiàn)算法。但如果你們感興趣,隨時(shí)可以提問(wèn)。或者如果大家對(duì)某個(gè)特定主題特別感興趣,我們也許可以再安排一節(jié)課來(lái)深入講解。
在講大語(yǔ)言模型之前,我先簡(jiǎn)要介紹一下循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。在Transformer問(wèn)世之前,RNN是非常流行的模型。它的思路是:我們有一串詞對(duì)應(yīng)的數(shù)值,依次輸入網(wǎng)絡(luò),并不斷更新網(wǎng)絡(luò)的隱藏狀態(tài)。每輸入一個(gè)詞,就更新一次。輸完整句話后,最終隱藏狀態(tài)就包含了前面所有詞語(yǔ)的順序信息。然后用這個(gè)最終狀態(tài)連接一個(gè)分類器,輸出最可能的下一個(gè)詞。
![]()
在這個(gè)例子中,輸入“the student opened the”,分類器會(huì)輸出概率,最可能的下一個(gè)詞是“books”。
RNN有幾個(gè)優(yōu)點(diǎn):第一,可以處理任意長(zhǎng)度的輸入,因?yàn)殡[藏狀態(tài)大小是固定的,無(wú)論輸入多長(zhǎng),隱藏狀態(tài)尺寸不變。第二,輸入上下文變長(zhǎng)時(shí),模型大小不會(huì)增加。但關(guān)鍵問(wèn)題是,這種循環(huán)計(jì)算很慢,必須逐詞處理。輸入句子越長(zhǎng),處理時(shí)間就線性增長(zhǎng)。而且,由于只基于先前的隱藏狀態(tài)進(jìn)行計(jì)算,很難獲取很久之前的信息。所以,如果到了句子末尾,模型很可能已經(jīng)忘記前文幾個(gè)詞的信息。這就是我們引入Transformer的原因。
這張圖其實(shí)三頁(yè)前放過(guò),我直接復(fù)制過(guò)來(lái)了。Transformer的好處在于它有全局注意力:每個(gè)詞都可以與輸入文檔中的任何其他詞交互。每個(gè)詞生成一個(gè)查詢,用來(lái)獲取并整合其他詞的信息。好處是,并行操作的數(shù)量不隨序列長(zhǎng)度增加,無(wú)論序列多長(zhǎng),都可以一次操作處理完。第二是最大交互距離為1,模型更容易捕捉長(zhǎng)距離依賴關(guān)系,比如這句話里的某個(gè)詞與另一句話里某個(gè)詞的關(guān)系。
但Transformer也有很多缺點(diǎn)。一個(gè)突出的問(wèn)題是時(shí)間復(fù)雜度較高。可以看到,這里的Q乘K的轉(zhuǎn)置,意味著用輸入序列長(zhǎng)度對(duì)應(yīng)的矩陣乘以另一個(gè)同樣長(zhǎng)度的矩陣,注意力計(jì)算復(fù)雜度是n平方。如果輸入文檔非常長(zhǎng),比如把整篇維基百科都放進(jìn)去,計(jì)算量就非常龐大。這就是為什么近年來(lái)出現(xiàn)了線性注意力的趨勢(shì)。基本思路是把超長(zhǎng)文檔切成若干段,每段內(nèi)部做注意力計(jì)算,讓同段內(nèi)的詞相互交互,然后用類似RNN的方式聚合各段信息。就是把RNN和Transformer結(jié)合起來(lái),降低注意力所需的計(jì)算量。
![]()
接下來(lái)我簡(jiǎn)要講一下大語(yǔ)言模型的預(yù)訓(xùn)練。大語(yǔ)言模型之所以如此成功,是因?yàn)槲覀冇辛舜笠?guī)模預(yù)訓(xùn)練。預(yù)訓(xùn)練的做法其實(shí)很簡(jiǎn)單:把輸入文檔切成有重疊的窗口,把整段輸入給模型,讓它預(yù)測(cè)下一個(gè)詞。在整個(gè)互聯(lián)網(wǎng)文本的規(guī)模上做這個(gè)“下一個(gè)詞預(yù)測(cè)”任務(wù)。方法很簡(jiǎn)單,那為什么它如此成功?因?yàn)橛辛苏麄€(gè)互聯(lián)網(wǎng)的文本用于訓(xùn)練,這種極其多樣、海量的數(shù)據(jù)對(duì)模型獲得這些能力至關(guān)重要。
想想看,問(wèn)答數(shù)據(jù)集SQuAD 2.0算是很大的了,大約有5000萬(wàn)個(gè)token。但現(xiàn)在我們用的預(yù)訓(xùn)練文本數(shù)據(jù)集,比如DataCommon,有250萬(wàn)億個(gè)token。而整個(gè)可索引的互聯(lián)網(wǎng)文本,大約有510萬(wàn)億個(gè)token。是最大問(wèn)答數(shù)據(jù)集的一千萬(wàn)倍。所以互聯(lián)網(wǎng)文本幾乎涵蓋了你所能想到的任何任務(wù)的數(shù)據(jù),因此模型擁有了良好的多任務(wù)能力,多樣性也極強(qiáng)。
![]()
預(yù)訓(xùn)練文本包含網(wǎng)頁(yè)、代碼,還有Reddit等社交媒體內(nèi)容,以及論文、書(shū)籍、維基百科和文章。
有人問(wèn),為什么總共是3100萬(wàn)億,但只有510萬(wàn)億被索引?因?yàn)楹芏辔谋舅阉饕鏌o(wú)法觸及。搜索引擎確實(shí)覆蓋了大量網(wǎng)頁(yè),但并非整個(gè)互聯(lián)網(wǎng)。如果沒(méi)有其他網(wǎng)頁(yè)指向某個(gè)頁(yè)面,搜索引擎就找不到它。此外,公司或政府的內(nèi)網(wǎng)數(shù)據(jù),或者某些私人數(shù)據(jù),這些都不在搜索引擎的覆蓋范圍之內(nèi)。那3100萬(wàn)億是包含搜索引擎之外信息在內(nèi)的整個(gè)互聯(lián)網(wǎng)的估算值。
這就是預(yù)訓(xùn)練部分。
接下來(lái)快速介紹一下大語(yǔ)言模型通常使用的架構(gòu)類型。主要有三大類:僅編碼器模型、編碼器-解碼器模型,以及僅解碼器模型。不細(xì)講架構(gòu)之間的區(qū)別,但關(guān)鍵是,編碼器模型具有雙向注意力。輸入一個(gè)詞時(shí),它可以看到前面和后面的所有詞。而解碼器模型只能看到過(guò)去的詞。如果句子中間有一個(gè)詞,解碼器只能關(guān)注到句子的前半部分,但編碼器可以同時(shí)關(guān)注前后兩半。
![]()
一個(gè)著名的僅編碼器模型是BERT,用于文本分析。如果做情感分析或情緒識(shí)別等任務(wù),BERT通常是個(gè)不錯(cuò)的起點(diǎn)。而僅解碼器模型,現(xiàn)在幾乎所有大語(yǔ)言模型都是這種。目前好像沒(méi)有哪個(gè)現(xiàn)代模型還在用僅編碼器的設(shè)計(jì)了。為什么呢?我認(rèn)為主要是性能原因。僅解碼器模型更自然地模擬語(yǔ)言生成。你讓模型生成答案時(shí),生成過(guò)程本身就只能是逐個(gè)看過(guò)去的詞,它無(wú)法知道未來(lái)要生成的詞,所以編碼器架構(gòu)在這里不是很有用。第二,因?yàn)椴恍枰P(guān)注未來(lái)的詞,僅解碼器模型計(jì)算效率更高,這在今天的大語(yǔ)言模型訓(xùn)練中可能是主要考量。
最著名的僅編碼器模型是BERT,2018年推出,3.04億參數(shù)。當(dāng)時(shí)被認(rèn)為是非常大的模型,但現(xiàn)在只能算很小的模型了。它用書(shū)籍語(yǔ)料庫(kù)和維基百科訓(xùn)練,總共約3000萬(wàn)token。即使在今天看來(lái)是個(gè)小模型,在單塊GPU上重新訓(xùn)練整個(gè)BERT依然很困難。當(dāng)時(shí)用了64塊TPU訓(xùn)練了4天,如果你在家用一塊GPU訓(xùn)練,大概要8個(gè)月。
僅編碼器模型的預(yù)訓(xùn)練方式是掩碼詞預(yù)測(cè)。把句子的一部分用特殊掩碼token遮擋,讓模型預(yù)測(cè)被遮擋的內(nèi)容。原始訓(xùn)練中實(shí)際遮擋了80%的token,要求模型預(yù)測(cè)其中約15%。僅解碼器模型就是我們今天看到的所有大語(yǔ)言模型,從GPT-1開(kāi)始,1.17億參數(shù),很快就變大,到GPT-3就1750億了。如前所述,僅解碼器模型的優(yōu)勢(shì)在于更自然地模擬語(yǔ)言生成。預(yù)訓(xùn)練時(shí),就是讓模型基于過(guò)去上下文輸出最可能的下一個(gè)詞。
在僅解碼器架構(gòu)推出后,人們發(fā)現(xiàn)模型性能可以根據(jù)模型大小和訓(xùn)練計(jì)算量相當(dāng)可預(yù)測(cè)地進(jìn)行擴(kuò)展。2022年那篇論文,模型是70億參數(shù),用1.4萬(wàn)億token訓(xùn)練,被認(rèn)為是非常標(biāo)準(zhǔn)和流行的規(guī)模定律配方,很多工作都沿用了“70B對(duì)1.4T”這種平衡。但近幾年,人們擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模的速度比擴(kuò)大模型本身更快。LLaMA 3有70億參數(shù),但訓(xùn)練數(shù)據(jù)高達(dá)15萬(wàn)億token。參數(shù)只有70B的十分之一,訓(xùn)練token卻大了10倍。這是另一個(gè)我們正在看到的很有意思的趨勢(shì)。有人問(wèn),我們只看訓(xùn)練token的總量,但不知道數(shù)據(jù)重疊情況,數(shù)據(jù)質(zhì)量到底如何?這確實(shí)也是目前一個(gè)開(kāi)放問(wèn)題。因?yàn)閿?shù)據(jù)規(guī)模太大,我們不太清楚有多少重復(fù)。訓(xùn)練前仍需要大量清洗和去重。斯坦福團(tuán)隊(duì)推出了一個(gè)叫RedPajama的數(shù)據(jù)集,就是DataCommon的開(kāi)放復(fù)現(xiàn)版本,其中包含了去重和含義說(shuō)明。
![]()
很多東西其實(shí)從2018年第一個(gè)模型問(wèn)世就已經(jīng)存在了,但大語(yǔ)言模型直到2022年ChatGPT發(fā)布后才真正流行起來(lái)。之前的預(yù)訓(xùn)練有什么問(wèn)題,導(dǎo)致它之前沒(méi)那么有用?最重要的是,預(yù)訓(xùn)練任務(wù)只是做語(yǔ)言建模——預(yù)測(cè)輸入句子之后最可能出現(xiàn)的句子。但這并不等同于幫助用戶。比如,你讓模型“給一個(gè)六歲小孩解釋重力”,它可能反而去預(yù)測(cè)接下來(lái)會(huì)有什么句子,而這跟問(wèn)題的答案毫無(wú)關(guān)系。預(yù)訓(xùn)練文檔里這兩個(gè)句子經(jīng)常連著出現(xiàn),但這不是我們想要的答案。
于是人們引入了指令微調(diào)。我們收集不同任務(wù)中“輸入-輸出”的范例,讓模型在這些范例上做監(jiān)督微調(diào)。指令微調(diào)在有足夠數(shù)據(jù)后變得非常流行。Super Natural Instructions包含了超過(guò)1600個(gè)任務(wù)、300萬(wàn)個(gè)示例,涵蓋幾乎所有你能用純文本做的任務(wù),包括翻譯、Python編程、分類、序列標(biāo)注等。這讓模型能跨任務(wù)學(xué)習(xí),在不同任務(wù)上都取得更好的表現(xiàn)。
我們實(shí)驗(yàn)室也在做一項(xiàng)工作,收集一個(gè)基礎(chǔ)性的臨床多任務(wù)多模態(tài)指令訓(xùn)練數(shù)據(jù)集,包含13種臨床模態(tài)、超過(guò)500萬(wàn)條醫(yī)患問(wèn)答對(duì)。我們發(fā)現(xiàn),在多個(gè)任務(wù)上訓(xùn)練,比只在單一任務(wù)上訓(xùn)練效果更好。
那如何精確優(yōu)化模型的回復(fù),讓它符合我們的期望?這就是偏好調(diào)優(yōu)。我們根據(jù)人類偏好優(yōu)化模型回復(fù),也就是讓它按我們期望的方式回答問(wèn)題。舉例來(lái)說(shuō),我們讓模型總結(jié)一段文字,它會(huì)輸出一個(gè)好的總結(jié)和一個(gè)差的總結(jié)。我們訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,對(duì)總結(jié)打分。然后設(shè)計(jì)損失函數(shù),讓模型更傾向于輸出高獎(jiǎng)勵(lì)的答案,減少輸出低獎(jiǎng)勵(lì)的答案。GPT-3.5就是這么訓(xùn)練的。整個(gè)過(guò)程分三步:首先用少量數(shù)據(jù)收集指令-答案對(duì),做標(biāo)準(zhǔn)的監(jiān)督微調(diào);然后用更大規(guī)模的問(wèn)題集,讓模型對(duì)每條指令輸出多個(gè)回復(fù),讓另一組標(biāo)注員從最好到最差排序;然后訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來(lái)學(xué)習(xí)這種人類偏好。有了獎(jiǎng)勵(lì)模型后,就能大規(guī)模訓(xùn)練,在所有數(shù)據(jù)上用獎(jiǎng)勵(lì)模型來(lái)訓(xùn)練模型。
但人類偏好存在噪聲且未經(jīng)校準(zhǔn)。同一段總結(jié),有人可能打高分,有人打低分,有些人可能每個(gè)回復(fù)都給高分。這讓訓(xùn)練過(guò)程變?cè)腚s、更難訓(xùn)練。于是人們引入了相對(duì)偏好,用排名而非數(shù)值分?jǐn)?shù)來(lái)優(yōu)化模型。算法是讓模型對(duì)回復(fù)進(jìn)行“最好到最差”的排序,基于排序優(yōu)化模型。經(jīng)過(guò)指令和偏好微調(diào)后,模型在回答問(wèn)題方面比原始預(yù)訓(xùn)練模型好得多。
![]()
但基于人類反饋的強(qiáng)化學(xué)習(xí)并不總是如人所愿,因?yàn)槿说钠貌豢煽俊1热纾阏?qǐng)標(biāo)注員為問(wèn)答對(duì)標(biāo)注,他不可能花半小時(shí)仔細(xì)看完整段回復(fù)。他可能只看5秒鐘,覺(jué)得讀起來(lái)通順、看起來(lái)不錯(cuò),就給高分,但這并不總是正確的。所以模型有時(shí)候被獎(jiǎng)勵(lì)去生成那些“聽(tīng)起來(lái)權(quán)威、有幫助”,但實(shí)際并不正確的回復(fù)。這是當(dāng)前大語(yǔ)言模型和RL訓(xùn)練中的一大問(wèn)題。這會(huì)導(dǎo)致模型產(chǎn)生冒犯性內(nèi)容和幻覺(jué)——模型會(huì)為了避免得低分而去編造事實(shí)。
其次,獎(jiǎng)勵(lì)模型并不總是反映人類偏好。還可能產(chǎn)生意想不到的行為。比如你問(wèn)模型“你來(lái)自哪里”,它會(huì)給出各種答案。如果模型說(shuō)自己來(lái)自發(fā)達(dá)地區(qū)(美國(guó)、加拿大或澳大利亞),獎(jiǎng)勵(lì)模型會(huì)打高分;如果說(shuō)自己來(lái)自非洲,獎(jiǎng)勵(lì)模型會(huì)打低分或懲罰。但這顯然不是我們想要的,我們希望模型公平對(duì)待所有地區(qū)。有人問(wèn),是否有論文顯示,經(jīng)過(guò)RLHF后模型的準(zhǔn)確率反而下降了?其實(shí)有點(diǎn)難比較,因?yàn)榻?jīng)過(guò)偏好調(diào)優(yōu)之前的模型可能根本就不直接回答問(wèn)題。即使RLHF有弊端,它跟預(yù)訓(xùn)練模型也不太好直接對(duì)比。不過(guò)確實(shí)有近期關(guān)于推理訓(xùn)練的工作發(fā)現(xiàn),如果你教模型不要輸出惡意的、有害的推理過(guò)程,模型會(huì)把自己的推理過(guò)程藏起來(lái),但并不改變自己的內(nèi)在行為。對(duì)齊訓(xùn)練、讓模型更有用且無(wú)害,確實(shí)相當(dāng)困難。
接下來(lái)講幾個(gè)大語(yǔ)言模型最近的工作。近期的工作更關(guān)注訓(xùn)練效率。因?yàn)槿藗儼l(fā)現(xiàn),不管怎么改架構(gòu),當(dāng)你用海量多樣化數(shù)據(jù)訓(xùn)練到極大規(guī)模時(shí),模型表現(xiàn)都會(huì)趨向相似。因此,目前最大的改進(jìn)空間是讓模型更高效,從而在固定計(jì)算資源下訓(xùn)練更多數(shù)據(jù),獲得更好性能。
一個(gè)很流行的工作是低秩適應(yīng),叫LoRA。動(dòng)機(jī)是,訓(xùn)練整個(gè)模型需要大量計(jì)算和GPU內(nèi)存。解決方案是凍結(jié)原始模型,只訓(xùn)練一個(gè)小的適配器,以低秩方式更新參數(shù)。本質(zhì)上是兩個(gè)矩陣:一個(gè)把輸入壓縮到較小維度,另一個(gè)再擴(kuò)展回原始維度。兩個(gè)適配器合起來(lái)的參數(shù)量遠(yuǎn)小于原模型,但擴(kuò)展后就能用這小得多的參數(shù)集更新整個(gè)模型。如果GPU內(nèi)存不多,LoRA通常是訓(xùn)練大模型的最佳選擇。
另一個(gè)流行的方法是混合專家模型。你可能聽(tīng)說(shuō)過(guò)。動(dòng)機(jī)不是讓不同專家擅長(zhǎng)不同領(lǐng)域。實(shí)際上,在現(xiàn)代大語(yǔ)言模型訓(xùn)練中,這些專家并不具備可解釋性,你無(wú)法說(shuō)“這個(gè)專家負(fù)責(zé)分類,那個(gè)專家負(fù)責(zé)翻譯”。但我們觀察到,使用專家模型能在小得多的計(jì)算量下訓(xùn)練出大得多的模型。做法是,在同一層里并行放置多個(gè)網(wǎng)絡(luò),前向傳播時(shí),有一個(gè)門控層決定每個(gè)token應(yīng)該走哪個(gè)專家。因?yàn)槊總€(gè)token只經(jīng)過(guò)網(wǎng)絡(luò)的一小部分,你就節(jié)省了計(jì)算量和內(nèi)存。
一個(gè)很有名的例子是GPT-4,它是一個(gè)混合專家模型,總共有6000億參數(shù),但每個(gè)token只激活370億參數(shù)。通過(guò)這種設(shè)計(jì),大約節(jié)省了95%的計(jì)算量。
另一個(gè)技術(shù)是量化。模型訓(xùn)練好后,如果想部署到手機(jī)這類小設(shè)備上,量化是很有效的技術(shù)。訓(xùn)練時(shí),模型通常用16位或32位精度。但人們發(fā)現(xiàn),用好的量化算法,可以把模型壓縮到4位精度,而不會(huì)有明顯的性能損失。基本做法是:先對(duì)權(quán)重進(jìn)行某種裁剪,移除異常值,把超出范圍的值限定在給定區(qū)間內(nèi)。然后把權(quán)重縮放到目標(biāo)位數(shù)的范圍內(nèi)。比如你要把32位模型壓縮到8位,就把權(quán)重范圍映射到-128到127之間。但實(shí)際上,你可以按塊縮放權(quán)重——如果某一塊里負(fù)值更多,可以把中心點(diǎn)左移,從而在固定精度下獲得更高準(zhǔn)確率。最后把模型轉(zhuǎn)換到低位精度,再做校準(zhǔn)以消除量化過(guò)程中引入的誤差。
![]()
有人問(wèn)量化應(yīng)用于哪些部分。量化應(yīng)用于模型中的權(quán)重,但不應(yīng)用于激活值,也不應(yīng)用于模型的最后一層(即softmax分類器)。由于網(wǎng)絡(luò)中不同層的權(quán)重分布不同,你需要為每層準(zhǔn)備一套獨(dú)立的量化碼本。如果感興趣,可以搜索GPTQ,那是一個(gè)量化庫(kù),現(xiàn)在很流行。用這個(gè)庫(kù),你可以在Hugging Face上找到幾乎所有流行大語(yǔ)言模型的量化版本。
但量化能走多遠(yuǎn)?最近有篇論文把模型權(quán)重量化到了1位或1.58位,模型依然能跑,且性能與原模型非常相似。但要真正高效運(yùn)行這種極低位模型,需要新硬件。目前的GPU硬件還無(wú)法高效處理這種超低精度量化。
最后講一些微調(diào)大語(yǔ)言模型的實(shí)用技巧。因?yàn)檫@門課偏重實(shí)踐導(dǎo)向,很多同學(xué)的項(xiàng)目也在做AI微調(diào)。
整體有四個(gè)步驟:準(zhǔn)備數(shù)據(jù);選擇起點(diǎn)模型;微調(diào)模型;評(píng)估與部署。關(guān)于數(shù)據(jù)準(zhǔn)備,需要把任何數(shù)據(jù)轉(zhuǎn)換成問(wèn)答格式。不同的指令微調(diào)框架有很多種格式,你只需選一種。這個(gè)例子里,問(wèn)題和答案按這種格式組織,包含問(wèn)題、答案、圖片以及圖片列表。幻燈片里列出了可用于微調(diào)的格式清單。
然后,要選一個(gè)好的起點(diǎn)模型。這意味著不要用太舊的模型去微調(diào),尤其是不要用最初發(fā)布的LLaMA,那個(gè)模型即使在當(dāng)時(shí)也不算很好。從較小的模型開(kāi)始,但別太小。人們發(fā)現(xiàn),低于30億參數(shù)的模型,性能會(huì)急劇下降,即使經(jīng)過(guò)微調(diào)也看不到太好效果。所以從3B左右開(kāi)始。這里列出了一些推薦模型:做純文本微調(diào)可以用Gemma和Llama;如果有大型集群,也可以試DeepSeek R1。做多模態(tài)微調(diào)可以用LLaVA 1.5,尺寸從7B到72B都有,對(duì)各種應(yīng)用場(chǎng)景都相當(dāng)不錯(cuò)。
然后是訓(xùn)練。不要用原生Transformer包去訓(xùn)練,要用高效的大語(yǔ)言模型訓(xùn)練框架,比直接寫(xiě)PyTorch腳本快得多。有幾個(gè)推薦:Axolotl和LLaMA Factory是我們研究中常用的。還有一個(gè)VERA,是同一團(tuán)隊(duì)最近推出的,據(jù)說(shuō)推理框架比LLaMA Factory更高效。
再是選擇訓(xùn)練方法。這里沒(méi)有特別多的推薦。可以做標(biāo)準(zhǔn)監(jiān)督微調(diào),也可以用PPO或DPO等強(qiáng)化學(xué)習(xí)偏好微調(diào)。建議都試試看哪個(gè)效果最好。DPO很新,但算法本身還有很多問(wèn)題,不一定效果最好。根據(jù)GPU內(nèi)存大小,再?zèng)Q定是用LoRA還是全量微調(diào)。如果是多模態(tài)大語(yǔ)言模型,還要決定是凍結(jié)視覺(jué)編碼器,還是微調(diào)連接編碼器與大語(yǔ)言模型的投影層。
最后,簡(jiǎn)單提幾個(gè)大語(yǔ)言模型訓(xùn)練和理解的潛在未來(lái)方向。當(dāng)前一個(gè)熱門趨勢(shì)是教大模型推理。最近DeepSeek R1論文在這個(gè)領(lǐng)域非常火,很多團(tuán)隊(duì)都在嘗試對(duì)模型進(jìn)行各種任務(wù)的細(xì)粒度推理微調(diào)。第二個(gè)熱門方向是多模態(tài)大語(yǔ)言模型。現(xiàn)在已經(jīng)有很多公開(kāi)的視覺(jué)語(yǔ)言模型,但還沒(méi)有真正好的音頻或時(shí)間序列大語(yǔ)言模型。這可能是大家現(xiàn)在可以研究的方向。
好了,如果有什么問(wèn)題,現(xiàn)在可以問(wèn)。沒(méi)有的話,確保今天提交中期報(bào)告,并為周四的展示做好準(zhǔn)備。謝謝大家。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.