<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,何愷明團隊新作,「嵌入式語言流」ELF來了

      0
      分享至



      機器之心編輯部

      「語言是離散的,但語言模型不一定是。」

      去年,一個名為 LLaDA 的項目在 AI 圈引發了不小的討論。這個基于「掩碼擴散」原理的語言模型,宣稱在若干基準測試上能與同規模的自回歸大模型(即 GPT 為代表的逐字生成模型)一較高下。

      消息一出,擴散語言模型(Diffusion Language Model,DLM)這個此前略顯小眾的研究方向,突然進入了更多人的視野。

      我們知道,文字是離散的 token,而擴散模型天然擅長處理連續數據,這讓視覺生成領域的主流技術,天然地難以運用在語言大模型上。

      而在 LLaDA 說明擴散模型可行后,各路團隊相繼跟進。研究者們普遍承認,擴散模型在文本生成上確實大有潛力 —— 它天然支持并行解碼,理論上可以比逐字輸出的自回歸模型快得多,也更容易實現「填空」、「雙向修改」等自回歸模型難以完成的任務。

      在這一大方向上,研究者走出了兩條路:

      • 離散擴散語言模型(Discrete DLM):直接在 token 空間里定義擴散過程,比如用 MASK 遮蓋 token 再逐步還原(MDLM)、或者把 token 往均勻分布擴散再逐步修正(Duo)。這條路近年來一直是主流,效果更好。
      • 連續擴散語言模型(Continuous DLM):先把 token 映射到連續的嵌入向量,在連續空間里做去噪,最后再轉回 token。這條路理論上更優雅,但實際效果長期落后于離散派。

      何愷明團隊的這篇新論文則選擇了明顯更加困難的后者。

      他們提出的模型叫做ELF(Embedded Language Flows,嵌入式語言流),核心思路只有一句話:把擴散過程搬進連續的向量空間,只在最后一步才把結果翻譯成詞



      論文共一作者 Linlu Qiu 的推文

      實驗結果顯示,這個思路不僅可行,效果還出人意料地好:用不到其它方法十分之一的訓練數據,生成質量就已經全面領先。



      • 論文標題:ELF: Embedded Language Flows
      • 論文地址:https://arxiv.org/pdf/2605.10938v1
      • 代碼倉庫:https://github.com/lillian039/ELF

      何愷明的答案:只在最后一步變成詞

      這篇論文來自 MIT 的一支八人團隊,其中兩位是共同第一作者(胡珂雅和 Linlu Qiu),通訊作者則是計算機視覺領域的標志性人物之一 ——何愷明

      何愷明的名字,對于稍微了解深度學習歷史的讀者并不陌生。2015 年,他在微軟亞洲研究院提出了殘差網絡(ResNet),一舉解決了深層神經網絡難以訓練的瓶頸,這篇論文至今仍是 AI 領域被引用次數最多的論文之一,其提出的殘差連接結構已滲透進 Transformer、AlphaGo Zero、AlphaFold 等幾乎所有現代 AI 系統。2024 年,他從 Meta AI 加盟 MIT,開始系統研究生成模型。



      「我看到何愷明的論文,我就點進去。」



      ELF,是這支團隊迄今在語言生成方向上最獨具一格的創新。

      既然擴散模型最擅長處理連續空間,何不讓它在連續空間里走完整段旅程,只在終點才做一次「翻譯」?

      具體來說,ELF 的做法是這樣的:

      首先,把一句話的每個詞,通過一個預訓練好的編碼器(論文中使用的是 T5 編碼器),轉換成一組連續的高維向量。這個向量不只代表單個詞,而是捕捉了上下文語義的「語境嵌入」。

      然后,用「流匹配」(Flow Matching),一種近年在圖像生成中大行其道的連續擴散框架,在這些向量上做去噪:從一團高斯噪聲出發,沿著學到的速度場,一步步把噪聲推向干凈的嵌入向量。

      最后,也只有在最后這一步,ELF 才把去噪后的連續向量,通過一個「反嵌入層」映射回詞匯表,輸出具體的詞。



      與之前的連續擴散語言模型不同的是,ELF 在整個去噪過程中,從不中途把連續向量變回到詞的空間。不打斷流動的連續性,讓擴散動力學有最大的自由度。而正因為全程都在向量空間里,圖像擴散領域開發的各種技術可以幾乎原封不動地搬進來使用,比如「無分類器引導」(Classifier-Free Guidance,CFG)。

      一個網絡,兩種模式

      ELF 設計上另一個值得一提的巧思,是用一個網絡同時承擔「去噪」和「解碼」兩個功能,靠一個「mode token」來切換。

      訓練時,同一個網絡的 80% 時間用于學習去噪(MSE 損失),剩下 20% 時間學習如何把最終的嵌入向量映射回詞(交叉熵損失)。



      推理時,在最后一步之前,網絡一直處于去噪模式;到了最后時刻,它切換成解碼模式,將連續向量翻譯成詞輸出。這樣,不需要額外訓練一個獨立的解碼器,整個流程簡潔而統一。



      此外,ELF 還引入了「自條件」(Self-Conditioning)機制:網絡在每一步去噪時,可以把自己上一步的預測結果當作參考輸入,而不是從零開始猜測。這不僅提高了生成質量,還為 CFG 提供了現成的「條件信號」來源,幾乎不帶來額外的計算負擔。

      實驗結果:用十分之一的訓練量,碾壓對手

      論文的實驗結果很有說服力。

      研究者選取的基準測試,是擴散語言模型領域通行的標準設定:在 OpenWebText 語料庫上訓練,用生成困惑度(Generative Perplexity,值越低越好,代表生成文本越流暢自然)和詞匯熵(Entropy,值越高越好,代表生成多樣性越豐富)衡量質量。



      ELF 只用了 32 個采樣步數就達到了困惑度 24。 相比之下,目前主流的離散擴散語言模型(MDLM、Duo 等)即便經過專門的「蒸餾」訓練來加速推理,在同等步數下的表現也不及 ELF,而 ELF 完全沒有做蒸餾。

      訓練成本的差距更加懸殊。論文統計,MDLM、Duo、FLM 等主流方法各自使用了約 5000 億個 Token 的訓練數據,ELF 只用了約 450 億 ——大約是它們的十分之一



      在更具實際意義的條件生成任務上,ELF 同樣表現突出。在 WMT14 德英機器翻譯基準上,ELF 取得了 26.4 的 BLEU 分數,超過了同等規模的自回歸模型(25.2)以及 MDLM(18.4)、CDCD(24.9)等對手。在 XSum 新聞摘要任務上,ELF 在 ROUGE-1、ROUGE-2、ROUGE-L 三項指標上也均居首位。

      過去兩年,擴散語言模型的研究進展幾乎都集中在離散空間 —— 更精巧的掩碼策略、更高效的解碼方式、更大規模的訓練。連續擴散路線因為與語言「離散本質」之間存在天然張力,一直處于相對邊緣的位置。

      ELF 的出現,提供了一個不同的參照點:連續擴散不是語言建模的障礙,而可能是一個尚未充分開發的優勢所在。連續空間里的流動更平滑,更容易借用圖像生成領域積累的技術,也更容易做引導和控制。ELF 在規模測試中表現出的良好擴展性(從 1 億參數到 6.5 億參數,質量持續提升),也說明這條路上仍有相當大的空間。

      當然,ELF 目前的評估還主要停留在中等規模模型和學術基準測試上。它能否在更大規模、更廣泛的任務上與當前最強的自回歸大模型形成真實競爭,還有待后續驗證。但就當下的結果而言,它至少清晰地回答了一個懸而未決的問題:

      連續擴散語言模型,似乎終于找對了方法。

      更多詳情,請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      推力與渦扇-15站一排,土耳其“力量可汗”亮相,真是“王炸”

      推力與渦扇-15站一排,土耳其“力量可汗”亮相,真是“王炸”

      矚望云霄
      2026-05-12 18:55:06
      和劉濤分手后,他常年定居上海,如今身價過億,年過60卻依舊單身

      和劉濤分手后,他常年定居上海,如今身價過億,年過60卻依舊單身

      一盅情懷
      2026-04-28 12:22:02
      1500萬潮汕人移民東南亞,當年究竟有多慘烈?| 地球知識局

      1500萬潮汕人移民東南亞,當年究竟有多慘烈?| 地球知識局

      地球知識局
      2026-05-13 07:30:17
      客場0勝5負何妨?騎士預定天王山勝利,4-2翻盤三大要素已經聚齊

      客場0勝5負何妨?騎士預定天王山勝利,4-2翻盤三大要素已經聚齊

      老梁體育漫談
      2026-05-13 00:03:25
      爺爺最后一面不見,姥姥錄音罵賣國!張本智和,你贏了世界輸了家

      爺爺最后一面不見,姥姥錄音罵賣國!張本智和,你贏了世界輸了家

      曹老師評球
      2026-05-01 13:49:39
      建國后外逃級別最高的貪官!至今未落網,23年來逃跑方式仍是謎

      建國后外逃級別最高的貪官!至今未落網,23年來逃跑方式仍是謎

      鐵血江湖人
      2026-04-23 22:21:26
      江蘇事業單位副高七級養老金從8280元到11434元的核定邏輯解析

      江蘇事業單位副高七級養老金從8280元到11434元的核定邏輯解析

      墜入二次元的海洋
      2026-05-13 11:57:56
      普京:俄羅斯正在研發世界上獨一無二的先進武器系統。可信嗎?

      普京:俄羅斯正在研發世界上獨一無二的先進武器系統。可信嗎?

      止戈軍是我
      2026-05-12 23:01:45
      為了得到大哥的妻子旺達,伊卡爾迪究極付出了多大的代價?

      為了得到大哥的妻子旺達,伊卡爾迪究極付出了多大的代價?

      羅氏八卦
      2026-05-01 18:05:03
      特朗普登機前,美國兩黨議員聯手,通告白宮,不許和中方達成協議

      特朗普登機前,美國兩黨議員聯手,通告白宮,不許和中方達成協議

      牛鍋巴小釩
      2026-05-13 12:00:36
      弗洛倫蒂諾:球員打架不奇怪!26年每年都有,已找到泄密者

      弗洛倫蒂諾:球員打架不奇怪!26年每年都有,已找到泄密者

      奧拜爾
      2026-05-13 01:11:11
      熱的發脹,感謝陽光給自己帶來的充足

      熱的發脹,感謝陽光給自己帶來的充足

      飛娛日記
      2026-05-13 07:36:58
      國民黨禮讓彰化!蔡壁如爭取提名,黃國昌證實啟動評估

      國民黨禮讓彰化!蔡壁如爭取提名,黃國昌證實啟動評估

      愛看劇的阿峰
      2026-05-13 13:44:17
      5月13日人民幣對美元中間價下調5個基點

      5月13日人民幣對美元中間價下調5個基點

      證券時報
      2026-05-13 09:32:15
      菲律賓局勢一夜突變,杜特爾特家族絕地反擊,圍剿親華派并不容易

      菲律賓局勢一夜突變,杜特爾特家族絕地反擊,圍剿親華派并不容易

      啟迪你的思維
      2026-05-13 14:14:08
      別只盯著特朗普訪華時間!外交部埋的“彩蛋”,才是真正的大看點

      別只盯著特朗普訪華時間!外交部埋的“彩蛋”,才是真正的大看點

      浪子阿邴聊體育
      2026-05-12 13:00:52
      夢鴿李天一赴美不歸?看到85歲李雙江“現狀”,原來楊洪基沒說謊

      夢鴿李天一赴美不歸?看到85歲李雙江“現狀”,原來楊洪基沒說謊

      阿纂看事
      2024-11-05 11:54:58
      北京淘汰廣東后上海卻急了?復仇11冠王沒戲:半決賽還可能被爆冷

      北京淘汰廣東后上海卻急了?復仇11冠王沒戲:半決賽還可能被爆冷

      籃球快餐車
      2026-05-13 02:55:10
      身價暴跌!曼聯欲5000萬鎊簽下巴萊巴,將其視為卡塞米羅接班人

      身價暴跌!曼聯欲5000萬鎊簽下巴萊巴,將其視為卡塞米羅接班人

      星耀國際足壇
      2026-05-13 13:45:21
      張本兄妹同升世界第3!張本智和回應:我很欣慰 但世界第1才是目標

      張本兄妹同升世界第3!張本智和回應:我很欣慰 但世界第1才是目標

      林子說事
      2026-05-13 11:41:42
      2026-05-13 15:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12983文章數 142648關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      特朗普空中發文:很榮幸與杰出人士同去偉大的中國

      頭條要聞

      特朗普空中發文:很榮幸與杰出人士同去偉大的中國

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      創業板指突破4037.96點創歷史新高

      汽車要聞

      4月新能源滲透率首破60% BBA無車型銷量破萬

      態度原創

      本地
      手機
      游戲
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      索粉最期待的年度旗艦來了!索尼Xperia 1 VIII發布:售價1.2萬元起

      《寂靜嶺f》全球累計出貨量突破200萬套!美麗而令人戰栗的風潮席卷全球

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      沙特被指3月曾對伊朗發動多次“報復性”空襲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 老少配老妇老熟女中文普通话| 亚洲精品视频在线看| 欧美大bbbb流白水| 国产精品无码Av在线播放小说| 无码国产精品一区二区免费式影视| 欧美激情 亚洲 在线| 亚洲偷自拍国综合| 真实的国产乱xxxx| 在线观看午夜福利| 国产精品丝袜一区二区三区| 国内少妇偷人精品免费| 中国无码人妻丰满熟妇啪啪软件| 国产精品国产三级国AV麻豆| 国产精品99中文字幕| 一区二区三区午夜| 亚洲天堂网在线播放| 国产综合精品一区二区三区| 中文字幕在线国产精品| 日韩av区| 精品人伦一二三区| 国产AV夜夜欢一区二区三区| 夜鲁夜鲁很鲁在线视频 视频| 中文字幕?激情文学?成人动漫| 无码人妻一区二区三区AV| 亚洲av无码乱码在线观看牲色| 日本一区二区三区中文字幕| 人妻体内射精一区二区| 91精品国产福利在线导航| 成人看的污污超级黄网站免费 | 福利国产微拍广场一区视频在线| 伊人久久大香线蕉AV仙人| 日本加勒比东京热日韩| 国产浮力第一页草草影院| 亚洲熟女乱色综一区二区| 色99999| 亚洲人妻一区二区精品| 国内精品视频一区二区三区八戒| 免费大黄网站在线观看| a毛片免费在线观看| 农民人伦一区二区三区| 69A片|