<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      訓(xùn)練數(shù)據(jù)枯竭怎么辦?首篇「數(shù)據(jù)價(jià)值密度」綜述理清思路

      0
      分享至



      本文由來(lái)自上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的多位研究者共同完成,受到上海市“通用人工智能大模型”基礎(chǔ)研究專項(xiàng)支持。共同第一作者為孫亦劉、陸彥超與曹家熙,共同通訊作者為來(lái)自上海交通大學(xué)自動(dòng)化與感知學(xué)院的宮辰教授與劉偉副教授。團(tuán)隊(duì)長(zhǎng)期致力于機(jī)器學(xué)習(xí)及大模型方面的研究。

      當(dāng)訓(xùn)練數(shù)據(jù)枯竭、訓(xùn)練成本飆升,大語(yǔ)言模型(LLM)訓(xùn)練之路該何去何從?

      作為提升 LLM 性能的主流核心范式,持續(xù)擴(kuò)充訓(xùn)練數(shù)據(jù)量的傳統(tǒng)做法正面臨嚴(yán)峻挑戰(zhàn)(如圖 1 所示)。研究表明,目前互聯(lián)網(wǎng)上可獲取的高質(zhì)量數(shù)據(jù)年增長(zhǎng)率不足 10 %,難以滿足 LLM 訓(xùn)練數(shù)據(jù)大規(guī)模增加的需求。同時(shí),該范式引導(dǎo)的 LLM 訓(xùn)練動(dòng)輒需要數(shù)千萬(wàn) GPU 小時(shí)的算力開銷, 產(chǎn)生了巨額資源消耗與碳排放,讓堆數(shù)據(jù)策略難以為繼。



      圖 1:左:大模型數(shù)據(jù)擴(kuò)展面臨的三大挑戰(zhàn)。右:互聯(lián)網(wǎng)可用數(shù)據(jù)量與 LLM 訓(xùn)練數(shù)據(jù)量的增長(zhǎng)趨勢(shì)對(duì)比。

      因而,如何在有限的數(shù)據(jù)規(guī)模下獲取更多的訓(xùn)練收益,已經(jīng)成為 LLM 訓(xùn)練的關(guān)鍵問(wèn)題!

      目前,研究者在該領(lǐng)域已展開了大量的探索,例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1,但該領(lǐng)域仍缺乏統(tǒng)一的研究視角和系統(tǒng)的工作梳理,導(dǎo)致研究目標(biāo)界定模糊,研究方法呈現(xiàn)零散化、碎片化的格局,尚未形成完備、統(tǒng)一的理論與方法體系。

      在這一背景下,來(lái)自上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)發(fā)布了該領(lǐng)域的首篇系統(tǒng)性綜述。該綜述首次提出了 “數(shù)據(jù)價(jià)值密度”(Data Value Density,DVD)這一核心概念并給出數(shù)學(xué)定義。基于該定義,該綜述建立了系統(tǒng)的分類框架,梳理了該領(lǐng)域的現(xiàn)有工作,為學(xué)術(shù)界和工業(yè)界繪制了一份詳盡的指南。



      • 論文標(biāo)題:Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
      • 論文鏈接:https://ssrn.com/abstract=6618802

      核心概念與主要貢獻(xiàn)

      本篇 Survey 從底層邏輯出發(fā),首次提出了 “數(shù)據(jù)價(jià)值密度”(Data Value Density,DVD)這一核心概念,并給出了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)定義:



      其中,D 表示 LLM 訓(xùn)練所使用的數(shù)據(jù)集,C 表示評(píng)估數(shù)據(jù)價(jià)值所必須的上下文信息,例如當(dāng)前 LLM 能力分布、目標(biāo)任務(wù)特征等。

      V (D∣C) 衡量數(shù)據(jù)集 D 在訓(xùn)練上下文 C 下對(duì)模型性能提升的總貢獻(xiàn)價(jià)值,而 μ(D) 衡量數(shù)據(jù)集 D 的規(guī)模。該領(lǐng)域研究的目標(biāo),就是構(gòu)建一個(gè)新數(shù)據(jù)集,使其價(jià)值密度大于原數(shù)據(jù)集(Δf>0)。

      基于這一核心概念,作者系統(tǒng)性地梳理了現(xiàn)有文獻(xiàn),作出了四大核心貢獻(xiàn):

      • 貢獻(xiàn)一:首次提出 “DVD” 這一概念,為大模型訓(xùn)練全階段的數(shù)據(jù)優(yōu)化確立了明確的研究目標(biāo),即增強(qiáng)訓(xùn)練數(shù)據(jù)的價(jià)值密度;
      • 貢獻(xiàn)二:基于 DVD 的定義,將現(xiàn)有方法劃分為五大方向,厘清了技術(shù)發(fā)展的完整脈絡(luò);
      • 貢獻(xiàn)三:梳理了目前用于數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的代表性數(shù)據(jù)集,深度剖析了不同任務(wù)的數(shù)據(jù)內(nèi)在特性;
      • 貢獻(xiàn)四:指出了數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域所面臨的挑戰(zhàn),為學(xué)術(shù)界和工業(yè)界在本領(lǐng)域的探索指明了有潛力的方向。

      框架介紹

      基于 DVD 的數(shù)學(xué)定義中分子 V (D∣C) 與分母 μ(D) 的動(dòng)態(tài)變化關(guān)系,作者將數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域劃分為五大類別(如圖 2 所示):

      • V (D∣C) 提升,μ(D) 不變:在數(shù)據(jù)規(guī)模固定的情況下,提升數(shù)據(jù)總體價(jià)值,包含數(shù)據(jù)調(diào)度,數(shù)據(jù)混合,增強(qiáng)式生成等策略;
      • V (D∣C) 不變,μ(D) 下降:在數(shù)據(jù)總體價(jià)值不變的情況下,降低數(shù)據(jù)規(guī)模,包含重復(fù)數(shù)據(jù)去除,數(shù)據(jù)蒸餾等策略;
      • V (D∣C) 提升,μ(D) 下降:在數(shù)據(jù)總體價(jià)值提升的情況下,降低數(shù)據(jù)規(guī)模,包括負(fù)價(jià)值數(shù)據(jù)去除等策略;
      • V (D∣C) 略降,μ(D) 暴降:在數(shù)據(jù)總體價(jià)值輕微下降的情況下,數(shù)據(jù)規(guī)模大幅度下降,包括高價(jià)值數(shù)據(jù)篩選等策略;
      • V (D∣C) 暴增,μ(D) 略增:在數(shù)據(jù)規(guī)模輕微上升的情況下,數(shù)據(jù)總體價(jià)值大幅度上升,包括數(shù)據(jù)進(jìn)化等策略。



      圖 2:DVD 增強(qiáng)方法分類框架

      為了更好地理解各類 DVD 增強(qiáng)策略,作者用一張清晰的示意圖進(jìn)行形象化的展示,示意了不同類型的 DVD 增強(qiáng)策略實(shí)施前后數(shù)據(jù)集內(nèi)部發(fā)生的變化(如圖 3 所示)。



      圖 3:五類 DVD 增強(qiáng)策略的實(shí)現(xiàn)原理

      主流數(shù)據(jù)集

      除去方法論相關(guān)介紹,本篇 Survey 同時(shí)整理了 DVD 增強(qiáng)研究中高頻使用的數(shù)據(jù)集,并根據(jù)任務(wù)特性將其分為三大板塊(如表 1 所示):

      • 文本理解: 從高達(dá)上萬(wàn)億 Token 的無(wú)標(biāo)簽預(yù)訓(xùn)練語(yǔ)料,到少而精的有標(biāo)簽后訓(xùn)練數(shù)據(jù);
      • 復(fù)雜推理: 針對(duì)不同類型的推理任務(wù)(如邏輯推理與常識(shí)推理),收錄了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理數(shù)據(jù)集;
      • 垂直領(lǐng)域: 梳理了醫(yī)療、法律、金融等多個(gè)領(lǐng)域的相關(guān)數(shù)據(jù)集。



      表 1:DVD 增強(qiáng)領(lǐng)域的主流數(shù)據(jù)集

      同時(shí),文章還將 DVD 增強(qiáng)與當(dāng)前火熱的上下文學(xué)習(xí)(In-Context Learning)、能力密度(Capacity Density)、樣本效率(Sample Efficiency)和主動(dòng)學(xué)習(xí)(Active Learning)進(jìn)行了深度對(duì)比,打通了不同研究范式之間的底層邏輯。

      前路與挑戰(zhàn)

      盡管 DVD 增強(qiáng)技術(shù)已經(jīng)取得了一定的成果,本文指出了 DVD 增強(qiáng)當(dāng)前面臨的四大挑戰(zhàn)(如圖 4 所示):

      • “黑盒” 可解釋性差:現(xiàn)有方法高度依賴人類經(jīng)驗(yàn),數(shù)據(jù)對(duì)模型能力分布的影響、數(shù)據(jù)點(diǎn)之間的交互模式等仍缺乏嚴(yán)謹(jǐn)?shù)睦碚摽蚣苤危?/li>
      • 實(shí)施成本昂貴:雖然大量方法減少了模型訓(xùn)練所需的數(shù)據(jù)量,降低了訓(xùn)練成本,但為了達(dá)成這一目的所產(chǎn)生的額外成本開銷可能是巨大的,例如調(diào)用 LLM 進(jìn)行大規(guī)模采樣、訓(xùn)練打分模型等;
      • 人工與自動(dòng)化的兩難:現(xiàn)有 DVD 增強(qiáng)策略通常涉及大量的數(shù)據(jù)操作。若選擇專家標(biāo)注,其質(zhì)量可控但成本極高,若選擇模型自動(dòng)化處理,其效率極高但極易引入幻覺。因而 DVD 增強(qiáng)技術(shù)中的相關(guān)數(shù)據(jù)操作需要在人工和自動(dòng)化之間做好平衡,在保證數(shù)據(jù)質(zhì)量的前提下降低數(shù)據(jù)操作成本;
      • 垂直領(lǐng)域研究空白:由于專業(yè)性、安全隱私、獲取成本等因素,垂直領(lǐng)域的數(shù)據(jù)往往是稀缺的,其更需要 DVD 增強(qiáng)策略來(lái)緩解這一困境。然而,目前針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略較少。并且,由于垂直領(lǐng)域的數(shù)據(jù)具有獨(dú)特的特征,針對(duì)通用任務(wù)的方法在應(yīng)用于垂直領(lǐng)域時(shí),性能往往較差。因而,工業(yè)界急需針對(duì)垂直領(lǐng)域的 DVD 增強(qiáng)策略。



      圖 4:DVD 增強(qiáng)面臨的四大挑戰(zhàn)

      結(jié)語(yǔ)

      本篇 Survey 從首創(chuàng)的 DVD 視角出發(fā),系統(tǒng)地梳理了大模型訓(xùn)練數(shù)據(jù)價(jià)值密度增強(qiáng)領(lǐng)域的完整路線圖。這一領(lǐng)域的研究有助于解決當(dāng)下 LLM 訓(xùn)練數(shù)據(jù)枯竭與算力開銷大等問(wèn)題。

      期待這篇 Survey 能為社區(qū)提供一份實(shí)用的參考指南,幫助研究者快速把握數(shù)據(jù)價(jià)值密度增強(qiáng)的底層邏輯,推動(dòng)大模型訓(xùn)練模式從粗放式數(shù)據(jù)消耗向精準(zhǔn)化知識(shí)萃取的根本性跨越。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      基本盤不是貶義詞

      基本盤不是貶義詞

      關(guān)爾東
      2026-05-13 23:41:38
      A股:今天收在4177了,明天,周五股市走勢(shì)分析!

      A股:今天收在4177了,明天,周五股市走勢(shì)分析!

      明心
      2026-05-14 15:03:03
      中美會(huì)晤結(jié)束,特朗普松開中方的手,鄰國(guó)總統(tǒng):中美穩(wěn)定利好全球

      中美會(huì)晤結(jié)束,特朗普松開中方的手,鄰國(guó)總統(tǒng):中美穩(wěn)定利好全球

      鐵甲觀
      2026-05-14 17:10:40
      重磅達(dá)成協(xié)議!巴西后腰同意加盟曼聯(lián),周薪10萬(wàn)英鎊敲定

      重磅達(dá)成協(xié)議!巴西后腰同意加盟曼聯(lián),周薪10萬(wàn)英鎊敲定

      夜白侃球
      2026-05-14 09:01:43
      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      美國(guó)本次訪華人員包括國(guó)務(wù)卿魯比奧

      美國(guó)本次訪華人員包括國(guó)務(wù)卿魯比奧

      名人茍或
      2026-05-13 19:13:24
      他們給得太多了!37歲萊萬(wàn)拒與巴薩續(xù)約 轉(zhuǎn)投C羅死敵:年薪7億元

      他們給得太多了!37歲萊萬(wàn)拒與巴薩續(xù)約 轉(zhuǎn)投C羅死敵:年薪7億元

      風(fēng)過(guò)鄉(xiāng)
      2026-05-14 06:30:19
      俄羅斯發(fā)動(dòng)全面戰(zhàn)爭(zhēng)以來(lái)最大規(guī)模空襲,超1400架無(wú)人機(jī)襲擊烏克蘭

      俄羅斯發(fā)動(dòng)全面戰(zhàn)爭(zhēng)以來(lái)最大規(guī)模空襲,超1400架無(wú)人機(jī)襲擊烏克蘭

      山河路口
      2026-05-14 16:31:39
      91歲楊尚昆晚年感慨:黨內(nèi)山頭眾多,唯有毛主席能徹底凝聚全黨

      91歲楊尚昆晚年感慨:黨內(nèi)山頭眾多,唯有毛主席能徹底凝聚全黨

      老謝談史
      2026-05-13 19:50:56
      痛失好局!穆里尼奧接近皇馬,又要失去歐冠,然后離開?

      痛失好局!穆里尼奧接近皇馬,又要失去歐冠,然后離開?

      嗨皮看球
      2026-05-14 18:18:39
      勒芒時(shí)隔16年重返法甲,股東德約科維奇、庫(kù)爾圖瓦發(fā)來(lái)賀電

      勒芒時(shí)隔16年重返法甲,股東德約科維奇、庫(kù)爾圖瓦發(fā)來(lái)賀電

      懂球帝
      2026-05-14 18:06:20
      沃西:湖人已經(jīng)不是家族管理模式,必須要求詹姆斯盡快做決定

      沃西:湖人已經(jīng)不是家族管理模式,必須要求詹姆斯盡快做決定

      懂球帝
      2026-05-14 15:05:24
      后續(xù)來(lái)了!合唱團(tuán)女子穿禮服退款,賬號(hào)被扒,拒不認(rèn)錯(cuò)終“社死”

      后續(xù)來(lái)了!合唱團(tuán)女子穿禮服退款,賬號(hào)被扒,拒不認(rèn)錯(cuò)終“社死”

      用外語(yǔ)夸女孩
      2026-05-14 07:21:03
      兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

      兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

      三農(nóng)老歷
      2026-04-13 17:10:06
      時(shí)隔40年!伊拉克2-1擊退玻利維亞,搭上世界杯末班車

      時(shí)隔40年!伊拉克2-1擊退玻利維亞,搭上世界杯末班車

      仰臥撐FTUer
      2026-04-01 16:37:08
      庫(kù)里盼至少征戰(zhàn)20年!大概率與勇士簽1+1合同 格林愿降薪助隊(duì)引援

      庫(kù)里盼至少征戰(zhàn)20年!大概率與勇士簽1+1合同 格林愿降薪助隊(duì)引援

      羅說(shuō)NBA
      2026-05-14 06:48:29
      俄羅斯又開始許愿,要求烏克蘭撤出“俄羅斯領(lǐng)土”

      俄羅斯又開始許愿,要求烏克蘭撤出“俄羅斯領(lǐng)土”

      山河路口
      2026-05-13 20:35:10
      特朗普乘車抵達(dá)歡迎宴會(huì)現(xiàn)場(chǎng)

      特朗普乘車抵達(dá)歡迎宴會(huì)現(xiàn)場(chǎng)

      財(cái)聞
      2026-05-14 17:50:08
      天價(jià)費(fèi)用重返山西!迪亞洛季后賽場(chǎng)均11分5.2板未能率隊(duì)重返四強(qiáng)

      天價(jià)費(fèi)用重返山西!迪亞洛季后賽場(chǎng)均11分5.2板未能率隊(duì)重返四強(qiáng)

      狼叔評(píng)論
      2026-05-13 22:14:06
      漢語(yǔ)是犧牲了什么,才成為世界最緊湊、最高效的語(yǔ)言?

      漢語(yǔ)是犧牲了什么,才成為世界最緊湊、最高效的語(yǔ)言?

      瓜哥的動(dòng)物日記
      2026-05-13 00:58:37
      2026-05-14 18:55:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12996文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說(shuō)會(huì)談很順利 黃仁勛點(diǎn)贊 庫(kù)克比耶

      頭條要聞

      中美元首會(huì)談細(xì)節(jié):貝森特戴藍(lán)色領(lǐng)帶 魯比奧看天花板

      頭條要聞

      中美元首會(huì)談細(xì)節(jié):貝森特戴藍(lán)色領(lǐng)帶 魯比奧看天花板

      體育要聞

      爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

      財(cái)經(jīng)要聞

      李強(qiáng)會(huì)見美國(guó)工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      時(shí)尚
      數(shù)碼
      本地

      藝術(shù)要聞

      這才是草書源頭法帖!揭露古人不外傳的筆法,王羲之也要叫“祖師爺”

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      T恤+低腰闊腿褲、襯衫+低腰半裙,今年夏天最時(shí)髦的搭配,誰(shuí)穿誰(shuí)好看!

      數(shù)碼要聞

      TrendForce預(yù)估:主要移動(dòng)端內(nèi)存2026Q2合約價(jià)環(huán)比漲幅超70%

      本地新聞

      用蘇繡的方式,打開江西婺源

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无码123| 瑟瑟日韩无码| 夜夜躁很很躁日日躁麻豆| 亚洲中文字幕AV在天堂| 亚洲熟女av超清一区二区三区| 国产SM重味一区二区三区| 人人妻人人做人人爽夜欢视频| 精品国产AV| 国精产品自偷自偷综合| 国产久久天堂| 欧美最猛黑人XXXXX猛交| 国内视频偷拍一区,二区,三区| 国产精品中文字幕日韩| 成人午夜无码福利视频| 亚洲国产精品18久久久久久| 一区二区三区高清无马在线| 夜色撩人网永久地址| 亚洲不卡中文字幕| 最新偷拍一区二区三区| 日韩狼人精品在线观看| 毛片国产精品完整版| 人妻聚色窝窝人体WWW一区| 久久九九青青国产精品| 精品乱子伦一区二区三区| 成年男女免费视频网站 | 伊人久久大香线蕉avapp下载| 亚洲成人久久久| 国产精品午夜无码AV天美传媒| 亚洲中文字幕久久精品蜜桃| 亚洲熟妇无码爱v在线观看| 久久精品免费自拍视频| 在线日韩日本国产亚洲| 国产chinese在线视频| 国产欧美一区二区三区白浆喷水| 一级成人欧美一区在线观看| 日本一区二区三区不卡视频中文字幕| 国产乱码一区二区三区| 一区二区三区国产亚洲自拍| 国产在线精品中文字幕| 韩国福利一区二区三区| 国内成人综合|