<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      前沿分享丨何愷明首個語言模型:105M參數,不走GPT自回歸老路

      0
      分享至

      轉自 量子位

      何愷明,也下場做語言模型了。

      只不過,這次他帶隊做的不是大家熟悉的、像ChatGPT背后那套“預測下一個詞元”(next token prediction)的自回歸范式。

      而是另一條過去幾年在圖像領域大火、如今正被越來越多人搬進文本生成的新路線:擴散語言模型(Diffusion Language Model,DLM)。

      在最新的論文中,何愷明團隊放出全新連續擴散語言模型:ELF:Embedded Language Flows


      與不少還停留在token層面做擴散的語言模型不同,ELF把整個生成過程都留在了連續的embedding空間里,直到最后一步,才重新離散化,將表示變回token

      靠著這套設計,ELF只用了105M參數、45B訓練token、32步采樣,就正面跑贏了一批主流擴散語言模型。

      最直觀的一項指標是它在OpenWebText上,把生成困惑度(Generative Perplexity)直接壓到了24。

      這里簡單科普一下生成困惑度,它本質上是讓一個強大的語言模型,給生成結果“檢查作業”,看看這些文本到底像不像真實人類寫出來的語料——

      值越低,說明生成質量越高、模型出來的東西也就越沒AI味兒,越自然。

      在和主流擴散語言模型的對比中,ELF在訓練token少近10倍、采樣步數更少的情況下,反而拿到了更低的生成困惑度。


      可以說,在過去很長一段時間里,擴散語言模型的進展,幾乎都發生在離散DLM(Discrete DLM)這一側。

      而ELF第一次證明了一件事:連續的方法,不但能跑,而且效果不錯。

      ELF到底做了什么

      要理解ELF,先得理解擴散語言模型現在到底在做什么。

      擴散語言模型,主要有兩種技術路線。一是以MDLM、Duo為代表的離散派,直接在token空間做擴散,每一步處理的是離散隨機變量。

      二是包括Diffusion-LM、CDCD、DiffuSeq在內的連續派,把token映成連續embedding,在連續空間里去噪。


      此前的研究中,像MDLM、LLaDA、Dream 7B這些離散路線占據了上風。原因是很簡單,因為語言本身就是離散的。

      對于這一看似常識的理解,愷明團隊給出的判斷恰恰相反——

      問題可能不是“語言必須離散”,問題可能是:前人根本沒有讓連續路線,連續到底。

      Diffusion-LM這一類的方法雖然在embedding空間去噪,但每一步都要算一次token-level的交叉熵,把連續軌跡一路綁在詞表上。

      后來的LD4LG、Cosmos走latent diffusion路線,去噪過程是連續了,但要單獨訓一個decoder把latent解回token,相當于多一個模塊。

      基于此,ELF把所有denoising,全留在continuous embedding space;直到最后一步 t=1,才重新投回token。


      具體來說,ELF在訓練時,離散token先被編碼成連續embedding,再加噪成 z_t,模型要么負責把它還原成干凈embedding(MSE),要么直接預測token(CE)。


      推理時,模型從高斯噪聲 z_0 出發,一路在連續空間里去噪,直到最后一步,才切到decode模式,把embedding重新投回token。

      ELF第一次把“連續表示”和“離散輸出”這兩個過去總被認為必須反復對齊的問題,徹底拆開了:

      中間的去噪,完全交給連續空間;最終的語言生成,只留到最后一步離散化。

      沒有每一步都往詞表上硬對齊,也不需要額外訓練一個decoder,整個生成流程第一次真正做到了:

      連續就是連續,離散就是離散。

      而這,恰恰也是ELF后面能用更少采樣步數、更少訓練token,卻跑贏一眾擴散語言模型的關鍵。

      ELF不是“先擴散,再解碼”。

      在具體的實現上,ELF還解決了三個問題:

      token怎么變連續?連續里怎么去噪?最后又怎么變回token?

      把token變成連續embedding

      要把連續擴散用在語言上,第一步,得先把離散的token變成連續表示。

      論文中,ELF先把它切成token序列,再映射到連續embedding空間。這里具體怎么映射,其實有多種選擇。

      默認情況下,ELF用的是T5預訓練encoder,生成雙向的contextual embedding。論文后面也測試了jointly trained embedding和隨機embedding等不同方案。

      值得注意的是,這個encoder只在訓練階段使用,推理時并不會額外增加模塊。

      在連續embedding空間里做Flow Matching

      拿到連續表示之后,ELF就在embedding空間里做Flow Matching。

      簡單說,Flow Matching定義了一條從噪聲到真實數據的連續流動軌跡:

      • t=0時,是高斯噪聲;

      • t=1時,是干凈的embedding;

      • 中間所有狀態,都是兩者的線性插值,也就是論文里的rectified flow。

      在傳統Flow Matching,網絡通常直接預測“速度場” v。

      但ELF沒有這么做,而是沿用了愷明團隊半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提出的思路——

      直接預測干凈embedding x,也就是x-prediction


      訓練目標,就是最小化預測embedding和真實embedding之間的均方誤差(MSE)。

      至于為什么采用x-prediction,論文給了兩個原因:

      第一,它在高維表示上更穩定——比如768維甚至更高的token embedding;第二,它天然和最后一步“預測干凈token”的目標對齊。

      論文還特別提到:雖然理論上也可以先預測速度v,再換算成x,但這樣一來,后面denoising和decoding之間的權重共享就很難成立。

      實驗上,他們也發現:一旦共享權重,v-prediction效果明顯變差。

      從連續embedding,再回到離散token

      生成語言,最終輸出還是離散token。

      所以ELF只在最后一個時間步(t = 1),還得把連續embedding重新投回token空間。

      不過,這一步ELF沒有像很多latent diffusion方法那樣,額外訓練一個decoder。相反,它把最后一步直接視作:
      一次continuous-to-discrete decoding。

      換句話說:decoder和前面的denoiser,其實是同一個網絡。

      為了讓最后一步訓練不至于太簡單(因為理論上t→1時,輸入已經非常接近干凈embedding),ELF在最后一步額外加入了一次token-level corruption,構造出一個帶擾動的輸入。

      隨后,同一個網絡輸出clean embedding,再通過一個可學習的unembedding矩陣 W,投影成token logits。

      訓練目標,則是標準的token-level cross-entropy loss。整個網絡共享同一套參數,并額外接收一個二值的mode token:去噪模式/解碼模式。

      推理時,ELF從高斯噪聲開始一路在連續空間里去噪,直到最后一步 t = 1,才切換到decode模式,再通過argmax輸出最終token。

      值得一提的是,在ELF中,圖像生成里最常用的技術之一,CFG(classifier-free guidance)也被搬過來了

      ELF用self-conditioning作為條件信號,套上training-time CFG(一次forward模擬兩次推理,沒有inference開銷),把圖像那邊的方案直接搬了過來。

      實驗對比

      實驗部分,ELF基本回答了一個過去兩年一直懸著的問題:

      連續擴散語言模型,到底能不能打?答案是:不但能打,而且第一次在質量、速度、訓練成本三個維度同時贏。

      如開頭所說,在OpenWebText生成任務中,在不做蒸餾的情況下,ELF只用32步采樣,就把生成困惑度壓到了24。

      而此前主流的離散擴散模型,往往要跑到1024步,才能接近這個水平。


      更夸張的是,ELF實現這一結果時,訓練token只用了45B。

      而同級別對手,普遍是500B+。換句話說:采樣步數少了一個數量級,訓練數據也少了一個數量級,效果反而更好。

      而在很多擴散模型最容易掉隊的條件生成任務上,ELF也沒掉鏈子。

      無論是WMT14機器翻譯,還是XSum文本摘要,ELF都穩定超過現有擴散語言模型,甚至把不少自回歸baseline也壓了下去。


      論文最后給出的總結其實很克制:ELF在生成質量、采樣效率和訓練成本之間,實現了很強的trade-off。

      翻譯成人話就是:連續派,不是不能打。只是以前沒把連續這件事做到底。

      作者介紹

      最后,我們再來介紹一下這篇文章的作者。

      這篇論文的兩篇一作是共同貢獻,排名先后順序由硬幣決定。

      胡珂雅,她是這篇文章的兩位第一作者之一,MIT EECS一年級博士生,也是愷明在MIT帶的第一批博士生之一,目前由愷明Jacob Andreas聯合指導。


      圖源:胡珂雅個人主頁

      她本科畢業于上交的ACM班,目前的研究興趣主要是語言和視覺的交叉領域,致力于構建數據效率更高、泛化能力更強的智能體。

      值得一提的是,在愷明MIT的主頁中,胡珂雅排在Grad students第一位,可以說是組內的大師姐了。


      第二位第一作者Linlu Qiu,同樣是MIT的博士生,師從Yoon Kim


      圖源:Linlu Qiu個人主頁

      她本科畢業于香港大學,碩士畢業于Georgia Institute of Technology,此前還在Google做過AI Resident。

      有意思的是,這并不是她第一次和愷明合作。就在不久前,她還和愷明團隊一起拿下了CVPR 2026論文《ARC Is a Vision Problem!》,把ARC推理問題重新定義成了視覺問題。


      另一位作者Hanhong Zhao(趙瀚宏)為MIT本科生,他高中就讀于人大附中,曾是國際物理奧林匹克競賽IPhO金牌得主。


      圖源:math.mit.edu

      還有一位作者陸伊煬,背景有點“少年班味道”。


      圖源:陸伊煬個人主頁

      他是清華姚班大二本科生,目前在MIT計算機科學與人工智能實驗室(CSAIL)實習,導師是何愷明,主要研究方向為計算機視覺和深度生成模型。

      高中時期,他是物理競賽生,曾以江蘇選手中第一名、全國第九名的成績,在2022年獲得了第三十九屆全國中學生物理競賽(CPhO)金牌。

      此前,他以一作身份與愷明合作過論文《Bidirectional Normalizing Flow: From Data to Noise and Back》。


      另一位核心作者黎天鴻,則是愷明組的博后。


      圖源:黎天鴻個人主頁

      他本科就讀于清華姚班,博士畢業于MIT,半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作,就是他。

      此外,論文的其他作者Yoon KimJacob Andreas,MIT EECS兩位語言模型方向的教授,以及何愷明本人。

      參考鏈接
      [1]https://arxiv.org/pdf/2605.10938

      【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北京富商給癱瘓女兒找女婿,窮小子咬牙答應,洞房夜那晚他傻眼了

      北京富商給癱瘓女兒找女婿,窮小子咬牙答應,洞房夜那晚他傻眼了

      小月文史
      2025-01-24 11:38:45
      阿隆索:這是錯誤的決定,執教皇馬那7個月,耗盡了我所有的驕傲

      阿隆索:這是錯誤的決定,執教皇馬那7個月,耗盡了我所有的驕傲

      寶哥精彩賽事
      2026-05-15 01:17:59
      緊急叫停!吃艾司唑侖的中老年,務必留心,三大好處,三大禁忌

      緊急叫停!吃艾司唑侖的中老年,務必留心,三大好處,三大禁忌

      健康科普365
      2026-05-13 22:20:05
      特朗普突然透露:北京明確表態,不會向伊朗提供軍援

      特朗普突然透露:北京明確表態,不會向伊朗提供軍援

      桂系007
      2026-05-14 23:59:15
      魔獸世界全新Plus版本99%會在今年9月正式官宣!到底玩什么內容?

      魔獸世界全新Plus版本99%會在今年9月正式官宣!到底玩什么內容?

      一起玩魔獸硬核哥
      2026-05-13 22:02:35
      多地村鎮理發店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      多地村鎮理發店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      紅星新聞
      2026-05-14 18:01:16
      不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

      不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

      冷眼看世界728
      2026-05-12 20:46:26
      30分8板6助,哈登表現征服眾人,米切爾盛贊哈登,活塞主帥發火

      30分8板6助,哈登表現征服眾人,米切爾盛贊哈登,活塞主帥發火

      老梁體育漫談
      2026-05-14 12:14:41
      美伊戰爭打醒了所有人,原來中國真正的“護城河”,竟然是山西?

      美伊戰爭打醒了所有人,原來中國真正的“護城河”,竟然是山西?

      蜉蝣說
      2026-05-14 18:32:25
      特朗普深夜突然發瘋!3小時狂發幾十條帖,叫囂奧巴馬希拉里入獄

      特朗普深夜突然發瘋!3小時狂發幾十條帖,叫囂奧巴馬希拉里入獄

      歸史
      2026-05-15 00:13:02
      退機票被豆包“坑”600元,網友:起訴字節!

      退機票被豆包“坑”600元,網友:起訴字節!

      三言科技
      2026-05-13 18:17:14
      CBA半決賽賽程發布!胡金秋傷情公布,上海深圳占先,外籍裁判嚴抓小動作

      CBA半決賽賽程發布!胡金秋傷情公布,上海深圳占先,外籍裁判嚴抓小動作

      天光破云來
      2026-05-15 00:11:13
      NBA選秀體測數據出爐:狀元熱門42英寸彈跳引關注

      NBA選秀體測數據出爐:狀元熱門42英寸彈跳引關注

      體壇觀察猿
      2026-05-15 02:24:40
      一位高人透漏的算命經驗,看懂了你將福報無邊

      一位高人透漏的算命經驗,看懂了你將福報無邊

      神奇故事
      2026-05-13 22:47:56
      炸鍋!阿森納鎖定 9000 萬皇馬未來球王,穆里尼奧或成最大助攻

      炸鍋!阿森納鎖定 9000 萬皇馬未來球王,穆里尼奧或成最大助攻

      瀾歸序
      2026-05-14 03:10:36
      中國軍工保密豈是兒戲,土耳其偷師是中國的默許,實為大國博弈

      中國軍工保密豈是兒戲,土耳其偷師是中國的默許,實為大國博弈

      干史人
      2025-08-24 07:30:03
      謀殺率全球第一,婦女被隨意賣,這個"爛國之首"究竟有多可怕?

      謀殺率全球第一,婦女被隨意賣,這個"爛國之首"究竟有多可怕?

      領悟看世界
      2026-05-15 01:00:31
      雷軍找馬斯克自拍,到底丟誰的臉?

      雷軍找馬斯克自拍,到底丟誰的臉?

      熱辣茉莉說
      2026-05-14 23:03:10
      黑龍江省第十四屆人民代表大會常務委員會關于接受隋洪波辭去黑龍江省人民政府副省長職務的請求的決定 (2026年5月13日黑龍江省第十四屆人民代表大會常務委...

      黑龍江省第十四屆人民代表大會常務委員會關于接受隋洪波辭去黑龍江省人民政府副省長職務的請求的決定 (2026年5月13日黑龍江省第十四屆人民代表大會常務委...

      黑龍江新聞網
      2026-05-14 11:16:52
      越方披露對越作戰真相:我軍若遲撤五日,諒山兵力將被全殲

      越方披露對越作戰真相:我軍若遲撤五日,諒山兵力將被全殲

      嘮叨說歷史
      2026-03-13 11:43:20
      2026-05-15 02:52:49
      中國人工智能學會
      中國人工智能學會
      中國人工智能學會網易官方賬號
      4036文章數 1489關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      房產
      手機
      旅游
      本地
      時尚

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      手機要聞

      榮耀600系列國行版終來到,跟海外版完全兩個樣!

      旅游要聞

      日照五蓮:云海日出映青山

      本地新聞

      用蘇繡的方式,打開江西婺源

      白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天摸夜夜摸夜夜狠狠添| 欧美日韩国产高清视频在线观看 | 免费无码专区毛片高潮喷水| 亚洲色大成网站www看下面| 亚洲欧美日韩人成在线播放 | 99久久精品国产一区二区| 国产女精品视频网站免费| 亚洲高清无码人妻| 亚洲高清国产成人精品久久| 精品一区二区成人精品| 久久国产福利播放| 午夜不卡久久精品无码免费| 久久综合九色综合久桃花| 深夜国产成人福利在线观看| 精品国产高清中文字幕| 果冻传媒18禁免费视频 | 国产内射性高湖| 久久精品国产亚洲av影院| 亚洲性日韩精品一区二区三区| 中国极品少妇videossexhd| 麻豆国产精品VA在线观看| 国产亚洲中文| 久久se精品一区二区三区| 热久久这里是精品6免费观看| 搡老女人老妇女老熟妇69| 国产色网站| 高潮喷水抽搐无码免费| 欧美福利网| 临高县| 国产精品导航一区二区| 亚洲一区二区av高清| 丝袜shi在线播放| 9999国产精品欧美久久久久久| 国产成人亚洲综合图区| 国产一区二区三区四区色| 久久久久厕拍| 武宣县| 国产JJIZZ女人多水喷水| 99久久精品久久久久久清纯| 亚洲欧美高清在线精品一区二区| 大香蕉一区二区三区|