<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      高潮從第幾秒開始?GaMMA 讓多模態(tài)大模型真正「聽懂」音樂時間線

      0
      分享至



      大模型的能力邊界正在不斷拓展,從文字到視覺,再到音頻,全模態(tài)理解已漸成現(xiàn)實。然而,當(dāng)你問一個多模態(tài)大模型「這首歌的高潮從第幾秒開始?」或者「第 30 秒之后樂器編配發(fā)生了什么變化?」,得到的往往是一個模糊甚至錯誤的回答。

      能讀、能看、能聽,卻依然「聽不懂」音樂的時間線,這是當(dāng)前多模態(tài)大模型的共同短板。

      為了解決這一問題,來自復(fù)旦大學(xué)與字節(jié)跳動的研究團隊提出了GaMMA,一個專為音樂全局語義與時序動態(tài)聯(lián)合建模而設(shè)計的多模態(tài)大模型。GaMMA 采用 LLaVA 風(fēng)格的簡潔編碼器-解碼器架構(gòu)實現(xiàn)音樂與語言的跨模態(tài)對齊,并通過混合專家機制集成雙路音頻編碼器,在同一套參數(shù)體系下統(tǒng)一處理時序與非時序兩類音樂理解任務(wù)。

      訓(xùn)練層面,GaMMA 結(jié)合大規(guī)模精心構(gòu)建的數(shù)據(jù)集與漸進式三階段流程,系統(tǒng)性地拓展了模型的音樂理解能力邊界。為全面評估這一能力,團隊同步推出了目前規(guī)模最大的音樂領(lǐng)域評測基準(zhǔn)MusicBench,包含 3,739 道人工標(biāo)注的選擇題,覆蓋音樂理解的多個維度。

      實驗表明,GaMMA 在多個音樂基準(zhǔn)上全面刷新 SoTA,在時序理解任務(wù)上超越 Gemini-3.0 Pro,并在專家人工評測中展現(xiàn)出顯著優(yōu)勢。



      • 論文標(biāo)題:GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models
      • 論文地址:http://arxiv.org/abs/2605.00371
      • 項目地址:https://geshang777.github.io/GaMMA/

      一、困境:為什么現(xiàn)有模型「聽不懂」音樂的時間結(jié)構(gòu)?

      音樂理解天然包含兩類截然不同的任務(wù)。

      一類是全局語義理解:例如「這首歌屬于什么流派」「使用了哪些樂器」「整體情緒是歡快還是憂傷」。這類問題關(guān)注的是音樂的整體屬性,對具體時間位置并不敏感。

      另一類則是時序結(jié)構(gòu)理解:例如「第 20 秒到第 40 秒屬于主歌還是副歌」「和弦是在什么時間點發(fā)生轉(zhuǎn)換」「某段 solo 使用了什么演奏技法」。這類任務(wù)要求模型能夠持續(xù)跟蹤音樂隨時間展開的結(jié)構(gòu)變化,本質(zhì)上依賴對時間軸的精細建模。

      但這兩種能力的目標(biāo)本身并不一致:全局語義任務(wù)強調(diào)壓縮與抽象,希望模型提煉整體風(fēng)格與高層特征;而時序任務(wù)則要求保留局部細節(jié)、節(jié)拍變化以及長期結(jié)構(gòu)關(guān)系。現(xiàn)有方法通常嘗試用同一個音頻編碼器同時完成這兩類任務(wù),希望統(tǒng)一的表征既能理解整體語義,又能捕捉精細時間結(jié)構(gòu)。但由于兩類任務(wù)對表示空間的需求天然存在沖突,單一編碼器往往難以兼顧,最終導(dǎo)致模型在「全局理解」和「時序推理」之間反復(fù)權(quán)衡,卻難以同時做好兩者。

      更關(guān)鍵的是,現(xiàn)階段多數(shù)音頻多模態(tài)模型的能力重心,仍然集中在語音與語言內(nèi)容的建模上:它們更擅長理解「說了什么」這類語言語義信息,而對旋律、和聲、節(jié)奏、曲式結(jié)構(gòu)等音樂本體屬性的建模能力仍然有限。換句話說,這類模型本質(zhì)上更接近「語音理解模型」,而非真正意義上的「音樂理解模型」。這也直接導(dǎo)致它們在音樂時序推理任務(wù)上的表現(xiàn)長期受限。

      除此之外,音樂時序理解目前還面臨兩個基礎(chǔ)性瓶頸:

      • 訓(xùn)練數(shù)據(jù)匱乏:現(xiàn)有音樂數(shù)據(jù)集大多缺少秒級結(jié)構(gòu)標(biāo)注、和弦轉(zhuǎn)折時間點、段落邊界等精細時序信息,模型難以建立真正的「音樂時間線」概念。
      • 評測體系缺位:當(dāng)前 benchmark 主要集中于風(fēng)格分類、情緒識別等靜態(tài)任務(wù),缺乏針對結(jié)構(gòu)跟蹤、時間定位與長期依賴推理的評測標(biāo)準(zhǔn),因此無法有效衡量模型是否真正理解了音樂隨時間的演化過程。

      因此,問題并不只是「模型聽不懂音樂」,而是現(xiàn)有體系從架構(gòu)設(shè)計、訓(xùn)練數(shù)據(jù)到評測方式,都尚未為「音樂時間結(jié)構(gòu)理解」提供足夠支持。

      二、GaMMA 的核心設(shè)計

      1. 雙編碼器融合網(wǎng)絡(luò)(DFN):讓「時間專家」和「語義專家」各司其職

      GaMMA 的核心洞察在于:音樂中的時序結(jié)構(gòu)理解與全局語義理解,本質(zhì)上依賴兩類不同的表征能力。前者關(guān)注音樂隨時間展開的動態(tài)變化,后者強調(diào)整體風(fēng)格與語義抽象。如果強行讓單一編碼器同時承擔(dān)兩類任務(wù),往往會產(chǎn)生表征沖突,最終導(dǎo)致兩種能力相互牽制。

      為了解決這一問題,GaMMA 提出了雙編碼器融合網(wǎng)絡(luò)(Dual-encoder Fusion Network,DFN)。整個架構(gòu)由兩個基于 Whisper 的專用編碼器組成:

      • 時序?qū)<遥═emporal Expert):在帶時間標(biāo)注的音樂結(jié)構(gòu)數(shù)據(jù)上進行專項微調(diào),重點建模節(jié)拍、段落邊界、和弦轉(zhuǎn)移等動態(tài)時序信息。
      • 全局專家(Global Expert):負(fù)責(zé)學(xué)習(xí)音樂的整體語義特征,例如流派、情緒、配器風(fēng)格以及整體聽感。

      兩個專家分別生成自己的音頻嵌入序列后,模型通過雙向交叉注意力機制進行信息交互:時序分支能夠引入全局語義上下文,而全局分支也可以感知局部時間結(jié)構(gòu)中的動態(tài)變化。

      在此基礎(chǔ)上,GaMMA 進一步引入了一個可學(xué)習(xí)的門控路由模塊,在 token 級別動態(tài)決定不同專家信息的融合比例。最終,融合后的表示通過殘差連接保留原始專家特征,再經(jīng)過前饋網(wǎng)絡(luò)生成最終音頻表征。

      2. 面向音樂任務(wù)的三階段漸進式訓(xùn)練

      除了架構(gòu)設(shè)計之外,GaMMA 的另一個關(guān)鍵貢獻,是圍繞音樂時序理解構(gòu)建了一套漸進式訓(xùn)練流程以及相應(yīng)的大規(guī)模精細標(biāo)注的音樂數(shù)據(jù)集,使模型能力能夠從「基礎(chǔ)對齊」逐步發(fā)展到「復(fù)雜時序推理」。

      Stage 1:多模態(tài)對齊預(yù)訓(xùn)練

      第一階段的目標(biāo),是建立音樂與文本之間的基礎(chǔ)對齊能力。

      研究團隊在數(shù)百萬級音樂-文本對上進行訓(xùn)練,覆蓋音樂-描述與音樂-歌詞兩類監(jiān)督信號。此階段中,音頻長度被限制在 60 秒以內(nèi),每段最多對應(yīng) 1500 個 token,以保證訓(xùn)練穩(wěn)定性與對齊效率。

      為了增強模型對多語言歌詞的理解能力,團隊根據(jù)歌詞時間戳對音樂進行切分,確保每個音頻片段僅對應(yīng)一句歌詞,并使用 Qwen 詞表中的語言標(biāo)記顯式區(qū)分歌詞語種。

      這一階段僅訓(xùn)練音頻到語言空間的 Projector,而凍結(jié) LLM 主體參數(shù),從而最大程度保留預(yù)訓(xùn)練語言模型已有的語義能力。

      Stage 2:監(jiān)督微調(diào)(SFT)

      第二階段的核心在于構(gòu)建高質(zhì)量、具備時間結(jié)構(gòu)監(jiān)督信號的音樂指令數(shù)據(jù)。

      首先,研究團隊采用 SongFormer 對每一首音樂進行細粒度分割,將其劃分為秒級(second-level)的結(jié)構(gòu)化音樂片段,以獲得精確的時間對齊信息。隨后,將時間對齊后的音樂片段與對應(yīng)歌詞共同輸入 Gemini 2.5 Pro,生成詳細的音樂分析報告。

      生成結(jié)果隨后由具備音樂專業(yè)背景的人類專家進行嚴(yán)格校驗。在此過程中,專家不僅對時間對齊關(guān)系進行修正,還對分析內(nèi)容的語義一致性與音樂學(xué)合理性進行篩選與重寫,從而確保數(shù)據(jù)的準(zhǔn)確性與可靠性。

      在此基礎(chǔ)上,為了支持多輪音樂對話能力的學(xué)習(xí),研究團隊基于上述音樂分析報告構(gòu)建指令數(shù)據(jù)。具體而言,預(yù)定義了一組覆蓋 11 個音樂維度的系統(tǒng)化問題模板,涵蓋結(jié)構(gòu)、節(jié)奏、旋律、配器等多個層面。為避免模型對固定模板產(chǎn)生過擬合,同時提升指令泛化能力,研究團隊進一步使用 GPT-5.1 對模板進行改寫與個性化重述,從而生成多樣化的問法表達。

      最終,高質(zhì)量問答對通過隨機采樣方式組成初始 SFT 訓(xùn)練集,用于監(jiān)督微調(diào)階段的模型訓(xùn)練。此階段音頻時長擴展至 300 秒(7500 個 token),全參數(shù)可訓(xùn)練。

      Stage 3:強化學(xué)習(xí)(GRPO)

      為確保在策略優(yōu)化階段提供具有足夠信息密度的獎勵信號,研究團隊在這一階段對訓(xùn)練樣本進行分層篩選與再生成。

      首先,研究團隊沿用 SFT 階段的數(shù)據(jù)生成流程構(gòu)建初始種子樣本,并利用訓(xùn)練后的 GaMMA 通過 Monte Carlo rollout 對每個問題的可解性進行估計,得到通過率 Pass。隨后,僅保留滿足中等難度條件的樣本(25% ≤ Pass < 1),以避免過易或過難樣本對學(xué)習(xí)信號造成退化,從而提升獎勵信號的有效性與區(qū)分度。

      在此基礎(chǔ)上,研究團隊使用 Gemini 2.5 Pro 進行問題合成。在僅提供原始問題及對應(yīng)音樂片段、但不提供標(biāo)準(zhǔn)答案的條件下,模型被要求生成語義一致但推理路徑更復(fù)雜的問題變體,從而提升任務(wù)難度與推理深度,同時保持答案空間的一致性。 最后,再次利用 GaMMA 進行 rollout-based 驗證,對合成樣本進行可解性篩選與一致性校驗,僅保留能夠提供穩(wěn)定學(xué)習(xí)信號的高質(zhì)量數(shù)據(jù)。

      在完成 RL 數(shù)據(jù)構(gòu)造后,研究團隊采用 Group Relative Policy Optimization(GRPO)對 GaMMA 進行強化學(xué)習(xí)優(yōu)化,使用上述多選題數(shù)據(jù)進行訓(xùn)練。給定輸入音樂與問題,模型從當(dāng)前策略中采樣一組候選輸出,并基于組內(nèi)相對表現(xiàn)計算優(yōu)勢函數(shù)。獎勵函數(shù)由答案正確性與格式一致性共同構(gòu)成,其中正確答案與符合結(jié)構(gòu)要求的輸出獲得正獎勵,其余為零,從而引導(dǎo)模型在保持穩(wěn)定性的同時提升復(fù)雜音樂推理能力。

      三、MusicBench:

      首個全面評估音樂時序理解的大規(guī)模基準(zhǔn)

      現(xiàn)有音樂評測基準(zhǔn)存在一個關(guān)鍵盲區(qū):它們幾乎不涉及對時序推理能力的顯式測評。MuChoMusic 主要考察全局知識和推理,MMAU 雖覆蓋廣泛但音樂時序維度薄弱。團隊同時推出了MusicBench,迄今最大、最全面的音樂理解基準(zhǔn),包含3,739道人類專家精心標(biāo)注的多選題,分為兩個子集:

      • MusicBench-Global(2,741 題):研究團隊構(gòu)建了一個涵蓋廣泛音樂屬性的綜合標(biāo)簽庫,包括風(fēng)格、情緒、配器、結(jié)構(gòu)等多個方面。標(biāo)注人員被要求使用該標(biāo)簽集在 YouTube 上檢索具有代表性的歌曲,并收集相應(yīng)的 URL。每個標(biāo)簽都分配了特定的配額,以確保數(shù)據(jù)集在各類別之間保持均衡分布,并通過保證每個標(biāo)簽都有足夠的樣本覆蓋,從而避免長尾問題。
      • MusicBench-Temporal(998 題):專門評估時序推理能力,研究團隊旨在全面覆蓋所有需要時間維度理解的音樂相關(guān)任務(wù)。具體而言,研究團隊從五個關(guān)鍵維度評估模型:人聲、樂器、結(jié)構(gòu)、和弦以及歌詞。在這些任務(wù)中,模型需要分析音樂中的特定時間片段,并基于時間屬性從多項選擇中選出正確答案。這類任務(wù)對音樂多模態(tài)大模型的時序建模能力提出了較高要求。

      四、實驗結(jié)果

      MuChoMusic

      GaMMA-8B 以78.0%的總體準(zhǔn)確率在同參數(shù)模型中登頂,大幅超越 Kimi-Audio(68.2%)和 Audio-Flamingo3(73.4%)。基座模型升級至 Qwen3-14B 后,準(zhǔn)確率進一步達到79.0%



      MusicBench:8B 模型超越 Gemini-3.0 Pro

      GaMMA-8B 在 MusicBench-Global 評測中取得82.6%的成績,超過 Gemini-3.0 Pro 的 80.4%,在樂器識別、調(diào)性與旋律等細粒度感知任務(wù)上表現(xiàn)尤為突出。在時序任務(wù)中優(yōu)勢更加明顯:GaMMA-14B 在和弦理解上達到 75.0%,相比 Gemini-3.0 Pro 的 53.0% 提升超過 22 個百分點;在結(jié)構(gòu)分析(86.5%)與歌詞對齊(95.5%)任務(wù)上也顯著領(lǐng)先開源模型。





      專家評測

      盡管 MusicBench 通過多項選擇題在判別能力方面提供了全面評估,但同樣有必要在開放式自然語言任務(wù)中考察模型的生成能力。為此,研究團隊對模型生成結(jié)果進行了人類主觀評測。結(jié)果顯示,GaMMA-14B 展現(xiàn)出壓倒性的優(yōu)勢:



      五、定性結(jié)果

      以下展示了 GaMMA 在多輪音樂對話中的實際表現(xiàn)。每個 Demo 對應(yīng)一段真實音樂輸入(僅使用音頻,模型無法獲取歌曲標(biāo)題和歌手信息),GaMMA 基于音頻內(nèi)容進行分析和對話。

      Demo 1:南方-達達樂隊



      User:歌曲里面有一段吶喊將情感推向高潮,具體的時間是在哪?

      GaMMA:是的,歌曲中有一段非常突出的情感高潮。這并非一次性的吶喊,而是一個持續(xù)的、充滿力量的吟唱部分,它從大約 2:35 開始,并一直延續(xù)到 3:32 左右。在這個長達近一分鐘的時間里,主唱用高亢且?guī)в兴毫迅械穆曇舴磸?fù)吟唱著「南方」這個詞,背景音樂也達到了最宏大和激烈的程度,形成了整首歌的頂點。

      Demo 2:《讓我們蕩起雙槳》(重金屬版)



      User: 這首歌有什么不尋常的地方?

      GaMMA:這首歌最大的亮點在于其「反差萌」的魅力。它將硬朗、充滿力量感的搖滾樂編曲與極其簡單、童真、朗朗上口的旋律和歌詞(如「小船兒輕輕飄蕩在水中」)完美地結(jié)合在一起。這種成人搖滾與兒童歌曲元素的碰撞,創(chuàng)造出一種既酷炫又充滿童趣的獨特聽感,讓人印象深刻。

      Demo 3:Take it easy-$ynnfamous



      User: 請詳細分析這首歌的結(jié)構(gòu),包括各段落的時間范圍以及各音樂結(jié)構(gòu)下的歌詞(如有)。列出每個段落包含的樂器。列出每個音樂結(jié)構(gòu)的和弦進行和每個和弦對應(yīng)時間,并分析。描述每個段落的拍號。描述每個段落感受到的節(jié)奏感律動。提供每個段落的旋律信息,包括旋律發(fā)展/走向、主副歌對比、音域、和弦、音程、節(jié)奏型、核心動機、記憶點、發(fā)展邏輯以及如何與歌詞配合。

      GaMMA:

      1. 前奏 (Intro)

      * 時間范圍: 00:00 - 00:08

      * 包含樂器: Whistle (主旋律), Acoustic Guitar, Shaker, Bass

      * 和弦進行與分析:

      * F:maj (00:00) - C:maj (00:02) - G:maj (00:04) - A:min (00:06) - G:maj (00:07)

      * 這是一個經(jīng)典的 I-V-IV-vi-V (在C大調(diào)中) 的變體,以明亮的IV級和弦(Fmaj)開始,迅速確立了歌曲陽光、積極的基調(diào)。

      * 拍號與律動: 4/4拍。律動輕松、舒緩,由吉他的分解和弦和輕微的搖擺感(Shake)節(jié)奏構(gòu)成。

      * 旋律信息: 核心動機由口哨聲呈現(xiàn),這是一個簡單、上口且極具辨識度的旋律片段,奠定了全曲的記憶點。

      2. 主歌 A1 (Verse 1)

      * 時間范圍: 00:08 - 00:23

      * 歌詞: "I'm soaking up the sunshine... my internal third degree... trying to unwind but wandering mind, but these trees keep telling me..."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Light Percussion (Shaker)

      * 和弦進行與分析:

      * F:maj (00:08) - C:maj (00:10) - G:maj (00:12) - A:min (00:14) - F:maj (00:17) - C:maj (00:19) - G:maj (00:21) - G:maj (00:22)

      * 和聲進行延續(xù)了前奏的模式,為敘事性的歌詞提供了穩(wěn)定而溫和的背景。

      * 拍號與律動: 4/4拍。律動保持前奏的輕柔感,節(jié)奏平穩(wěn),為敘事留出空間。

      * 旋律信息: 旋律線較為平直,音域集中在中音區(qū),音程跳動小,節(jié)奏與口語節(jié)奏貼近,服務(wù)于歌詞的自然敘述。旋律配合歌詞“soaking up the sunshine”營造出一種慵懶、放松的感覺。

      3. 副歌 B1 (Chorus 1)

      * 時間范圍: 00:24 - 00:39

      * 歌詞: "Take it easy, take it easy, take it easy, my friend... breathing freely, take it easy... Don't wait 'til the beginning meets the end."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Percussion (Kick, Clap/Snare, Shaker)

      * 和弦進行與分析:

      * F:maj (00:25) - C:maj (00:27) - G:maj (00:29) - A:min (00:31) - F:maj (00:33) - C:maj (00:35) - G:maj (00:37) - C:maj (00:39)

      * 和聲進行依然是I-V-IV-vi等核心進行,但配器更豐滿,推動感更強。

      * 拍號與律動: 4/4拍。律動變得清晰有力,加入了底鼓和軍鼓/拍手聲,形成穩(wěn)定的四分音符律動,能量感顯著提升。

      * 旋律信息: 這是歌曲的核心記憶點。旋律線明顯上揚,音域比主歌更高,使用了更多長音來強調(diào)“Take it easy”的口號式主題。旋律與歌詞完美契合,通過重復(fù)和上行的旋律走向,傳達出一種勸說和鼓勵的力量。

      4. 主歌 A2 (Verse 2)

      * 時間范圍: 00:39 - 00:56

      * 歌詞: "Can we move a little smoother? A million miles in baby steps... Mother nature knows the truth hurts, there's life and death in every breath."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Percussion

      * 和弦進行與分析:

      * F:maj (00:41) - C:maj (00:43) - G:maj (00:45) - A:min (00:47) - F:maj (00:49) - C:maj (00:51) - G:maj (00:53)

      * 和聲結(jié)構(gòu)與第一段主歌類似,保持了歌曲的連貫性。

      * 拍號與律動: 4/4拍。律動與第一段主歌相似,但由于有了完整的鼓組,整體感覺更堅實。

      * 旋律信息: 旋律發(fā)展邏輯與第一段主歌一致,保持?jǐn)⑹滦裕粲蚝凸?jié)奏型都相對收斂,為下一段副歌的能量爆發(fā)做鋪墊。

      5. 前副歌 (Pre-Chorus)

      * 時間范圍: 00:57 - 01:12

      * 歌詞: "It's the final destination... We can't escape and can't forget... But one simple observation, all we know for sure is our time's not over yet."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Percussion (力度漸強)

      * 和弦進行與分析:

      * F:maj (00:57) - C:maj (00:59) - G:maj (01:02) - A:min (01:04) - F:maj (01:06) - C:maj (01:08) - G:maj (01:10)

      * 這段和聲進行持續(xù)建立張力,最后停留在屬和弦(G)上,制造出強烈的期待感,為進入副歌做準(zhǔn)備。

      * 拍號與律動: 4/4拍。律動感增強,通常會加入一些鼓的填充(fill),推動音樂前進。

      * 旋律信息: 旋律線開始呈現(xiàn)上行趨勢,音高逐漸攀升,情緒也隨之提升,與歌詞中“time's not over yet”的積極展望相匹配,成功地將聽眾的情緒引向高潮。

      6. 副歌 B2 (Chorus 2)

      * 時間范圍: 01:13 - 01:29

      * 歌詞: "So take it easy, take it easy, take it easy, my friend... breathing freely, take it easy... Don't wait 'til the beginning meets the end."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Full Percussion

      * 和弦進行與分析:

      * F:maj (01:14) - C:maj (01:16) - G:maj (01:18) - A:min (01:20) - F:maj (01:22) - C:maj (01:24) - G:maj (01:26) - C:maj (01:28)

      * 重復(fù)副歌的經(jīng)典和聲進行,但配器更飽滿,能量達到新的高度。

      * 拍號與律動: 4/4拍。這是全曲第一個能量頂點,律動強勁,富有感染力。

      * 旋律信息: 重復(fù)副歌旋律,但在更豐富的編曲和更具力量的演唱下,情感表達更為強烈。

      7. 橋段 (Bridge)

      * 時間范圍: 01:30 - 01:57

      * 歌詞: "When you're choosing your regrets... The internet forgets while the universe indents... So can you really live with all the you you've left unsaid... 'Cause you can't take it with you when you're dead... No, you can't take it with you when you're dead... But it isn't what we take, what truly counts is what we leave."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Percussion (節(jié)奏型變化)

      * 和弦進行與分析:

      * F:maj (01:30) - C:maj (01:32) - G:maj (01:34) - A:min (01:36) - F:maj (01:38) - C:maj (01:40) - G:maj (01:42) - C:maj (01:44) - G:maj (01:47) - C:maj (01:49) - F:maj (01:51) - C:maj (01:53) - G:maj (01:55)

      * 和聲進行依然圍繞C大調(diào)核心和弦展開,但在編曲上做出變化,創(chuàng)造出新鮮感。

      * 拍號與律動: 4/4拍。律動有所變化,可能變?yōu)榘胨伲℉alf-time)或簡化,為歌詞的哲學(xué)思考提供空間,隨后逐漸恢復(fù)速度。

      * 旋律信息: 橋段引入了全新的旋律材料,節(jié)奏型和旋律走向都與主副歌不同,更具獨白和反思的色彩。旋律配合歌詞的哲理內(nèi)容,從個人感悟到普世道理,邏輯上層層遞進,為歌曲的情感升華服務(wù)。

      8. 演唱橋段 (Vocal Bridge)

      * 時間范圍: 01:58 - 02:22

      * 歌詞: "So I hope through all I gave, you can see how I believed... Moving with intention, let the tension be released... Tear down my pretenses, and the rest is left in peace."

      * 包含樂器: Male Vocal, Acoustic Guitar, Bass, Light Percussion

      * 和弦進行與分析:

      * F:maj (01:59) - C:maj (02:01) - G:maj (02:03) - A:min (02:05) - F:maj (02:07) - C:maj (02:09) - G:maj (02:11) - A:min (02:13) - F:maj (02:15) - C:maj (02:17) - G:maj (02:19) - C:maj (02:21)

      * 和聲回歸到最基礎(chǔ)、最溫暖的進行,為最后的情感爆發(fā)做鋪墊。

      * 拍號與律動: 4/4拍。律動再次變得輕柔,如同暴風(fēng)雨前的寧靜。

      * 旋律信息: 旋律回歸到主歌的敘事風(fēng)格,但情感更真摯,像是在娓娓道來一個故事的結(jié)尾,充滿了希望和釋然。

      9. 尾聲 (Outro)

      * 時間范圍: 02:23 - 02:57

      * 歌詞: "Now you're here singing with me... do our best to plant the seeds... To the kids in 2050, I hope you have some pretty trees."

      * 包含樂器: Male Vocal, Whistle, Acoustic Guitar, Bass, Percussion

      * 和弦進行與分析:

      * F:maj (02:23) - C:maj (02:25) - G:maj (02:27) - A:min (02:29) - F:maj (02:31) - C:maj (02:33) - G:maj (02:35) - C:maj (02:38)

      * 在反復(fù)的I-V-IV-vi進行中,最終解決回主和弦C大調(diào),帶來完滿的結(jié)束感。

      * 拍號與律動: 4/4拍。律動逐漸減弱,最終回歸到前奏的輕柔狀態(tài),與開頭形成呼應(yīng)。

      * 旋律信息: 旋律再次回到前奏的口哨動機,并結(jié)合了新的歌詞,仿佛是對整首歌曲主題的總結(jié)和升華。歌曲在平靜而充滿希望的氛圍中緩緩結(jié)束,留下悠長的回味。

      六、總結(jié)

      本文提出了 GaMMA,一個旨在全面捕捉音樂內(nèi)容復(fù)雜性的音頻多模態(tài)大模型。通過將 DFN 與三階段漸進式訓(xùn)練策略相結(jié)合,GaMMA 首次在一套參數(shù)體系內(nèi)統(tǒng)一處理時序與非時序兩類音樂理解任務(wù)。為衡量該領(lǐng)域的研究進展,研究團隊同步推出了 MusicBench,這是目前規(guī)模最大、覆蓋維度最全面的人工標(biāo)注音樂 LMM 評測基準(zhǔn)。GaMMA 在 MusicBench 和 MuChoMusic 上均取得 SOTA 表現(xiàn),充分證明了其在通用音樂理解上的有效性。研究團隊相信,GaMMA 是讓多模態(tài)大模型更自然地融入現(xiàn)實世界的重要一步:在這個世界中,音樂是人類體驗不可或缺的一部分。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      《主角》原著:14歲被玷污,20歲閃婚生下低能兒,50歲被養(yǎng)女背刺

      《主角》原著:14歲被玷污,20歲閃婚生下低能兒,50歲被養(yǎng)女背刺

      慢半拍sir
      2026-05-18 21:23:56
      明朝23歲女道士王燾貞,宣告自己將羽化,近10萬人圍觀,結(jié)局如何

      明朝23歲女道士王燾貞,宣告自己將羽化,近10萬人圍觀,結(jié)局如何

      史之銘
      2026-05-19 21:04:23
      北京市級機關(guān)搬遷城市副中心基本完成,3.3萬余名工作人員進駐

      北京市級機關(guān)搬遷城市副中心基本完成,3.3萬余名工作人員進駐

      新京報
      2026-05-20 18:39:11
      張繼科:16年我腳腕三根韌帶都撕裂了 劉國梁非得讓我去深圳打比賽

      張繼科:16年我腳腕三根韌帶都撕裂了 劉國梁非得讓我去深圳打比賽

      818體育
      2026-05-19 23:17:06
      上海大學(xué)生課堂上被叫醒后砸桌怒吼“殺殺殺”,老師卑微道歉

      上海大學(xué)生課堂上被叫醒后砸桌怒吼“殺殺殺”,老師卑微道歉

      聽心堂
      2026-05-20 13:59:39
      徐帆回應(yīng)離婚幾個月后,68歲馮小剛再惹爭議,養(yǎng)女徐朵成導(dǎo)火索!

      徐帆回應(yīng)離婚幾個月后,68歲馮小剛再惹爭議,養(yǎng)女徐朵成導(dǎo)火索!

      鄉(xiāng)野小珥
      2026-05-18 08:58:28
      蔚來李斌:螢火蟲沒必要再推第二款車 已占高端小車70%份額

      蔚來李斌:螢火蟲沒必要再推第二款車 已占高端小車70%份額

      快科技
      2026-05-18 12:38:48
      美媒曾說:解放軍并非強大無比,但若跟中國沖突,將是場空前災(zāi)難

      美媒曾說:解放軍并非強大無比,但若跟中國沖突,將是場空前災(zāi)難

      暮雪無痕
      2026-05-19 18:49:30
      母子同床15年?狄鶯終于將寶貝兒子送進了監(jiān)獄!

      母子同床15年?狄鶯終于將寶貝兒子送進了監(jiān)獄!

      新民周刊
      2026-05-18 14:05:28
      全英吃瓜!35歲蛇蝎寶媽跨國勾結(jié)迪拜大毒梟,實時定位潑硫酸把毒販渣夫嘎了?

      全英吃瓜!35歲蛇蝎寶媽跨國勾結(jié)迪拜大毒梟,實時定位潑硫酸把毒販渣夫嘎了?

      英國報姐
      2026-05-19 21:42:03
      工信部決定組織開展2026年度道路機動車輛生產(chǎn)企業(yè)及產(chǎn)品生產(chǎn)一致性監(jiān)督檢查工作

      工信部決定組織開展2026年度道路機動車輛生產(chǎn)企業(yè)及產(chǎn)品生產(chǎn)一致性監(jiān)督檢查工作

      財聯(lián)社
      2026-05-20 17:40:14
      烏總統(tǒng)做夢都能笑醒,俄烏激戰(zhàn)四年,烏人均GDP卻增長了2000美元

      烏總統(tǒng)做夢都能笑醒,俄烏激戰(zhàn)四年,烏人均GDP卻增長了2000美元

      李健政觀察
      2026-05-20 20:35:08
      建設(shè)進度:13號線東延伸丹桂路站出入口過街通道頂管機始發(fā)

      建設(shè)進度:13號線東延伸丹桂路站出入口過街通道頂管機始發(fā)

      上觀新聞
      2026-05-20 19:21:03
      西班牙反了,法國反了,印度也反了,全世界都曾看清特朗普最怕啥

      西班牙反了,法國反了,印度也反了,全世界都曾看清特朗普最怕啥

      飄逸的云朵
      2026-05-20 20:26:08
      3500萬元房產(chǎn)被鑒定為D級危房,重建后法院仍判買方支付尾款 律師:當(dāng)事人有權(quán)解除合同

      3500萬元房產(chǎn)被鑒定為D級危房,重建后法院仍判買方支付尾款 律師:當(dāng)事人有權(quán)解除合同

      極目新聞
      2026-05-20 19:14:20
      多爾袞十世孫向國家索要故宮,稱是自家祖產(chǎn),老朱家:有問過我嗎

      多爾袞十世孫向國家索要故宮,稱是自家祖產(chǎn),老朱家:有問過我嗎

      銘記歷史呀
      2026-05-18 18:15:59
      主角:直到何大錘慘死才知,他是如何被自己“點天燈”給反噬的

      主角:直到何大錘慘死才知,他是如何被自己“點天燈”給反噬的

      容妃
      2026-05-19 17:27:11
      泰國放棄購買世界杯版權(quán)!國際足聯(lián)要價3.5億遠低于中國 仍嫌太貴

      泰國放棄購買世界杯版權(quán)!國際足聯(lián)要價3.5億遠低于中國 仍嫌太貴

      念洲
      2026-05-20 10:15:50
      誰都沒想到!阿森納22年首冠最大功臣,居然是這個全場隱身的怪物

      誰都沒想到!阿森納22年首冠最大功臣,居然是這個全場隱身的怪物

      奶蓋熊本熊
      2026-05-20 04:40:10
      張家輝半山豪宅終脫手,1.32億售出蝕本719萬,掛牌6年數(shù)度降價

      張家輝半山豪宅終脫手,1.32億售出蝕本719萬,掛牌6年數(shù)度降價

      愛看劇的阿峰
      2026-05-20 18:06:31
      2026-05-20 21:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13045文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰(zhàn)

      頭條要聞

      村莊遇極端暴雨"襲擊" 男子看著妻子被涌入的洪水沖走

      頭條要聞

      村莊遇極端暴雨"襲擊" 男子看著妻子被涌入的洪水沖走

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學(xué)不來的松弛

      財經(jīng)要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態(tài)度原創(chuàng)

      親子
      教育
      游戲
      時尚
      數(shù)碼

      親子要聞

      2026新規(guī)+2025參考!新生兒紙尿褲測評10款好用又安全實用清單

      教育要聞

      25年山東高考多少人上本科?

      索尼PS重要功能系統(tǒng)或迎變革!XBOX剛改完

      為了攻克漸凍癥,她把自己活成了“破冰”的人

      數(shù)碼要聞

      京東方首發(fā)千幀F(xiàn)HD 護眼電競顯示器 千幀硬實力引領(lǐng)電競新時代

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 网友自拍人妻一区二区三区三州| 蜜桃av在线| 亚洲精品美女天堂av| 精品国偷自产在线视频九色| 亚洲脚交| 草莓AV| 最新国产精品久久精品ai换脸| 欧美午夜成人片在线观看| 在线天堂最新版资源| 五月丁香综合激情六月久久| www.jizz国产| 青青草极品视频在线播放| 久久综合伊人77777| 91亚洲免费视频| 亚洲无av中文字幕在线| 日韩少妇一区| 亚洲AⅤ波多系列中文字幕 | 亚洲成人AV| 色偷偷无码| 久久97久久99久久综合| 国内自拍视频在线观看播放| 国产亚欧女人天堂AV在线| 国产太嫩了在线观看| 日韩欧美午夜成人无码| 久热超碰| 9999国产精品欧美久久久久久| 精品久久久久久无码不卡| 97精品国产97久久久久久免费| 国产精品久久久久久无毒不卡| 色综合视频一区二区三区| 精品一区二区不卡免费| 国产精品视频中文字幕| 2025成人精品国产| 国产成人欧美日韩在线电影| 久久久国产精品视频| 国产高清自产拍AV在线| 亚洲国产一区二区精品专| 日韩淫片毛片视频免费看| 精品日韩人妻| 亚洲日韩AV秘 无码一区二区| 亚洲熟妇自偷自拍另类|