<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Hermes團隊改寫預訓練:算力成本降六成,DeepSeek之后提效新路徑

      0
      分享至


      作者 | 四月

      模型能力還需往上走,但訓練成本卻不能再無止境堆砌了——這可能是當前 AI 行業最強烈的共識。

      從開發者到模型公司,大家關心的焦點已經不只是“誰家的模型更強”,而是一個更務實的問題:“同樣多的 GPU、同樣的訓練時間,能不能跑出更多有效實驗,吃進更多有效數據,拿到更好的 loss 和下游指標?

      憑借Hermes Agent (140K Star)火速出圈的Nous Research 團隊,剛剛提出了一種 Token 疊加訓練方法:Token Superposition Training (TST),有望把大模型的預訓練成本壓低一個量級。


      目前,該貼的瀏覽量已突破 41 萬。Hugging Face: http://huggingface.co/papers/2605.06546

      在論文《Efficient Pre-Training with Token Superposition》中,最值得關注的是一組百億參數 MoE 實驗(Qwen3-like 10B-A1B MoE),效果非常直觀:


      • baseline 訓練 1.05T tokens 消耗 12311 B200-hours;

      • 而 TST 訓練 2T tokens,僅消耗 4768 B200-hours,約為 baseline 的 38.7%;

      • 與此同時,final loss 從 2.252 降至 2.236,HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 評測同步提升。

      換言之,TST 只用了約四成 GPU 時間,就跑出了更低的 loss 和更好的下游指標。相當于在相同最終損失下將預訓練時間壓縮到原來的 40%,提速約 2.5 倍。

      如果說,超越龍蝦(OpenClaw)、登頂全球 OpenRouter 的 Hermes Agent,證明了 Nous Research 團隊既會訓模型,也能用 Agent 把能力調教到極致;那么最新提出的 TST,則是把視線從“模型怎么用”,進一步拉回了能力的源頭,直擊預訓練本身

      之所以將 Nous Research 與 DeepSeek 對標,不只是因為這支美國團隊同樣長期堅守開源陣營,更因二者的降本路線截然不同。

      DS 代表的是系統級重構,無論是 MoE、MLA,還是稀疏化與并行優化,皆靠系統級工程壓榨算力。效率提升從來不是免費的,工程總要在別處為復雜度買單。

      而 NR 則是重寫預訓練早期的學習路徑。它不碰架構,從模型學習 token 的方式本身下手,切口更輕巧,更容易落地。

      TST:讓模型先“粗讀”,再“精讀”

      要理解 TST,讓我們先回到預訓練最基礎的動作:next-token prediction(下一個詞元的預測)。

      標準訓練里,模型看到前面的 token,預測下一個 token。這個機制很簡單,也很強。過去幾年,幾乎所有主流 LLM 都是在這個范式上堆出來的。

      但 TST 提出了一個很樸素的問題:模型在預訓練一開始,真的有必要逐 token 精讀嗎?

      NR 的答案是:不一定。他們把預訓練拆成兩個階段。


      圖注:TST 與標準 next-token prediction、MTP、SuperBPE 的對比。TST 在訓練早期同時改變輸入粒度和輸出監督目標,但不改變最終模型架構

      第一階段叫superposition phase(“詞元疊加階段”)。在訓練前期,模型不再一個 token 一個 token 地讀文本,而是把連續多個 token 打成一個 bag。比如 bag size 為 8,就把連續 8 個 token 看作一組。

      輸入側,模型會把這一組 token 的 embedding (“向量表示”)求平均,變成一個壓縮后的superposed token(“疊加詞元”)。輸出側,模型也不再預測下一個單獨 token,而是預測下一組 token 里會出現哪些 token。

      第二階段叫recovery phase(“恢復階段”)。訓練跑到一定比例后,TST 被移除,模型重新回到標準 next-token prediction。也就是說,后半程還是按照普通 LLM 的方式訓練,把前期“粗粒度學習”得到的表示,拉回到可生成、可部署的自回歸模型形態。

      論文把 TST 稱為一個drop-in pretraining method(“即插即用式預訓練方法”),重點就在這里:它不需要修改并行策略、優化器、tokenizer、訓練數據或模型架構,真正改變的是訓練早期的輸入粒度和監督目標。

      這也是它和很多訓練提效方案不一樣的地方:TST 只改變訓練過程,不改變推理模型。

      目前很多方法一旦觸及訓練端優化,就會牽動推理。比如換 tokenizer,生態兼容要重來;改模型結構,部署鏈路要適配;改注意力或推理機制,線上服務也要跟著調整。

      但 TST 是把復雜度留在訓練階段,最終交付的仍然是一個普通 LLM。

      當然,只用 TST 訓練是不夠的。論文也明確指出,如果模型全程只用 TST,它會輸出多個未來 token 的混合概率,生成結果會變得混亂。因此,TST 必須在后期切回標準自回歸訓練。

      這也解釋了為什么 TST 更適合被理解為一種“階段化訓練策略”,而不是 next-token prediction 的替代品。

      更直白地說,TST 做的事情有點像讓模型在預訓練早期先“粗讀”:先學習局部語義、詞匯共現和粗粒度分布;等基礎表示建立起來之后,再回到逐 token 的標準自回歸訓練,把生成能力和 token 級精度補回來。

      也就是,訓練時壓縮 token,推理時還是普通 LLM。

      為什么能省 GPU?

      每一步都吃進更多文本

      TST 的提速不是玄學。它的核心是一種資源取舍,用更粗的 token 表示,換更高的數據吞吐。

      這里的數據吞吐,對應論文里的data throughput per FLOPs,可以理解為“單位計算量能處理多少原始文本”。換句話說,不是 GPU 忽然變快了,而是同樣算一次,模型能看見更多文本。

      標準訓練中,模型每個位置處理一個 token,序列長度為 L,Transformer 就要處理 L 個表示。

      但在 TST 的 superposition phase,連續 s 個 token 被合成一個 superposed token。模型內部處理的序列長度變短了,但每個位置對應的原始文本卻變多了。

      因為模型是在更粗粒度的表示上計算,所以在相同FLOPs(浮點計算量),它可以處理s 倍的數據 token。


      圖注:在 3B 模型實驗中,TST 在 equal-loss 設置下用更少訓練步數達到 baseline loss,說明其主要收益來自訓練早期更高的數據吞吐

      傳統預訓練像逐字精讀;而 TST 的早期訓練則像是先快速掃一遍段落,抓住局部主題、詞匯共現和語義分布。等模型建立起基礎表示后,再切回逐字精讀。

      這種“粗讀”并非沒有代價——它會丟失 bag 內的詞序信息,所以不能全程使用。但在模型剛接觸語言統計結構時,這種低分辨率輸入反而夠用且高效。

      論文將此定義為一種coarse-to-fine(由粗到細)的策略:先讓模型在簡單、高吞吐的分布中學習粗粒度統計結構,再恢復全分辨率語言建模。

      這與當前主流的效率路線截然不同:MoE是讓每個 token 少激活參數;稀疏注意力是讓每個 token 少看位置;MTP(Multi-Token Prediction,多 token 預測)是讓每個位置多預測幾個未來 token;而TST,是讓模型在訓練早期換一種 token 粒度學習。

      它不是讓模型變小,也不是直接讓推理變快,而是讓預訓練早期的每一步都更“值錢”。

      這對開發者至關重要。預訓練不是一錘子買賣,而是不斷試錯的過程。早期訓練越快進入有效區間,數據配方、超參設置這些實驗就能越早得到驗證。

      說白了,TST 省下的不只是一次訓練的 GPU 小時,更是整個實驗周期的試錯成本。

      最大收益來自百億參數模型

      論文沒有只做小模型實驗,而是在270M、600M、3B 稠密模型,以及 10B-A1B MoE 上進行了驗證。這里的 10B-A1B MoE,即總參數約 100 億、每 token 激活約 10 億參數的 MoE 模型。正如開篇提及的,這是收益最大的受試模型。


      圖注:TST 在不同規模模型上的核心實驗結果


      圖注:在 10B-A1B MoE 實驗中,TST 將 B200 GPU 訓練時間消耗降到 baseline 的四成左右,并取得更低 loss 和更好的 0-shot 指標

      也就是說,TST 消耗了更多數據 token,但用更少 GPU 時間達到了更好的結果。論文指出,在相同 loss 口徑下,TST 對應約 2.5 倍提速。

      這已經足夠打動開發者。因為模型訓練里最貴的往往不是某一次成功訓練,而是成功之前的所有試錯。一次實驗少用一半以上 GPU 時間,意味著同樣預算下可以多跑幾組數據配方、多試幾組超參、多驗證幾個模型尺度。

      論文還做了多組小規模超參數掃描實驗,也就是 sweep,觀察不同 bag size 和 superposition step ratio 的影響。最終作者認為,在合理范圍內,TST 對超參選擇相對穩?。篵ag size 在 4 到 8,superposition 訓練步數比例在 0.2 到 0.4 時,通常表現較好。


      圖注:不同 bag size 和訓練比例下,TST 在 loss 與下游評測上都呈現相對穩定收益

      另外,TST 并非單一機制在起作用。

      論文做了輸入側、輸出側和完整 TST 的消融實驗:輸入側和輸出側單獨使用時都能優于 baseline,但完整 TST 效果最佳。作者據此指出,TST 是兩個機制的疊加:輸入側改變了輸入粒度和單位信息的 FLOPs 成本;輸出側改變了預測目標與梯度信號。


      這套機制的啟發意義在于,輸入側作為在訓練早期,給到模型一個低分辨率視野,讓它以更低成本接觸更多文本;輸出側則像是把監督信號從“下一個 token 是什么”改成“接下來這一小段大概會出現哪些 token”。前者提高吞吐,后者提高監督密度。

      這也是為什么 TST 和 MTP 看起來有點像,但本質不完全一樣。

      MTP 更像是在同一個位置額外預測多個未來 token;TST 則是把輸入和輸出都改成更粗粒度的局部窗口。一個是增加監督題目,一個是改變學習分辨率。

      訓練降本開始轉向學習路徑優化

      TST 最大的看頭,不是它設計了多復雜的新架構,而是它點醒了一件事:訓練降本,別總盯著模型結構開刀。

      過去一提降本,大家本能就是加卡、改架構、卷并行、做蒸餾。這些都是系統級重體力活,家里沒有余糧的團隊根本接不住。但這次,TST 給了一個輕得多的切口:只調整預訓練早期的學習路徑。

      這意味著什么?

      同樣多的 GPU 預算能多試幾輪配方,1B 到 10B 級垂直模型的試錯成本能明顯下降。對那些只想訓個夠用行業模型的中小團隊來說,這比硬剛前沿最新模型務實得多。

      當然,TST 也不是免費午餐。

      它本質上是“拿數據吞吐換 GPU 時間”,如果你是算力受限的團隊,這招極香;但如果你連高質量數據都喂不飽,那 TST 不僅幫不上忙,甚至可能放大數據短板。

      但這不影響它的方向價值。

      TST 把一個被默認太久的問題重新拎了出來:模型學習語言的順序,本身也可能是一種效率杠桿。

      當模型越來越貴,真正有價值的創新不只是把模型做大,而是讓模型更會學習。更準確地說,是讓每一步訓練都更值錢。

      Paper: http://arxiv.org/abs/2605.06546

      HF: http://huggingface.co/papers/2605.06546

      Blog: http://nousresearch.com/token-superposition

      聲明:本文為 AI 前線原創,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,13 大重磅專題已上線,誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行??靵頀叽a鎖定 8 折專屬席位或提交演講議題

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      形勢到底有多嚴峻?竟有那么多待業在考公務員

      形勢到底有多嚴峻?竟有那么多待業在考公務員

      慧翔百科
      2026-05-19 11:25:41
      2026世界杯12組實力排名:法國陷死亡之組,意大利缺席

      2026世界杯12組實力排名:法國陷死亡之組,意大利缺席

      趙或是個熱血青年
      2026-05-20 07:14:44
      李時珍行醫一生,臨終前叮囑弟子:觀人壽命,先看其怎么吃飯

      李時珍行醫一生,臨終前叮囑弟子:觀人壽命,先看其怎么吃飯

      千秋文化
      2026-03-06 20:42:44
      規模排面一樣,普京跟走親戚一樣

      規模排面一樣,普京跟走親戚一樣

      三叔的裝備空間
      2026-05-19 23:38:47
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      意外?德比斯奪5冠后承認:我和張雪沒簽合同效力的是意大利車隊

      意外?德比斯奪5冠后承認:我和張雪沒簽合同效力的是意大利車隊

      霽寒飄雪
      2026-05-19 19:42:49
      中國持續3年的通縮,終于結束了!通脹就要來了

      中國持續3年的通縮,終于結束了!通脹就要來了

      壹號股權
      2026-05-19 13:39:55
      蔡卓妍被曝含淚控訴小10歲老公,結婚不到1個月,男方私生活被扒

      蔡卓妍被曝含淚控訴小10歲老公,結婚不到1個月,男方私生活被扒

      代軍哥哥談娛樂
      2026-05-19 09:14:12
      艾司唑侖立大功!老人吃艾司唑侖,不止助眠,還有5大獲益

      艾司唑侖立大功!老人吃艾司唑侖,不止助眠,還有5大獲益

      健康之光
      2026-05-19 16:58:40
      白天住院晚上回家的好日子結束了!全國統一執行

      白天住院晚上回家的好日子結束了!全國統一執行

      觀星賞月
      2026-05-19 06:11:54
      國家電影局介入!電影撤檔,主演賬號被封,汪涵周冬雨姚晨跑不掉

      國家電影局介入!電影撤檔,主演賬號被封,汪涵周冬雨姚晨跑不掉

      譚談社會
      2026-05-19 22:49:47
      意外?德比斯奪5冠后承認:我和張雪沒簽合同效力的是意大利車隊

      意外?德比斯奪5冠后承認:我和張雪沒簽合同效力的是意大利車隊

      洲洲影視娛評
      2026-05-20 00:11:58
      私生活被扒底朝天僅半月,官媒出手,竇靖童迎好消息,王菲沒說錯

      私生活被扒底朝天僅半月,官媒出手,竇靖童迎好消息,王菲沒說錯

      春日筆記
      2026-05-20 09:23:28
      紐約時報刷屏長文:硅谷正在準備迎接「永久底層階級」!AI時代的四個新階層,你的孩子將被困在哪一層?

      紐約時報刷屏長文:硅谷正在準備迎接「永久底層階級」!AI時代的四個新階層,你的孩子將被困在哪一層?

      新浪財經
      2026-05-19 09:11:27
      畏懼?格林質疑切特不敢防文班,雷霆拿什么限制外星人?

      畏懼?格林質疑切特不敢防文班,雷霆拿什么限制外星人?

      仰臥撐FTUer
      2026-05-20 10:05:02
      紀實:河南“惡魔首富”吳天喜,年近60卻死性不改,是噩夢般的存在

      紀實:河南“惡魔首富”吳天喜,年近60卻死性不改,是噩夢般的存在

      卡西莫多的故事
      2025-01-06 10:41:00
      U17國足2-0進決賽!球員評分:2人滿分4人9.7分,亞足聯看人真準

      U17國足2-0進決賽!球員評分:2人滿分4人9.7分,亞足聯看人真準

      何老師呀
      2026-05-20 05:34:47
      小學生吃早餐視頻火了,116萬網友點贊:這就是有父母兜底的幸福

      小學生吃早餐視頻火了,116萬網友點贊:這就是有父母兜底的幸福

      世界圈
      2026-05-20 08:57:17
      29歲嫁68歲老頭,連生五胎母憑子貴,如今65歲的她坐擁千億家產

      29歲嫁68歲老頭,連生五胎母憑子貴,如今65歲的她坐擁千億家產

      一盅情懷
      2026-05-19 16:42:38
      人民幣78歲了!你見沒見過的人民幣,都在這里!

      人民幣78歲了!你見沒見過的人民幣,都在這里!

      中國藝術家
      2026-05-12 05:24:45
      2026-05-20 10:39:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1509文章數 149關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      "父子娶堂姐妹"等倫理傳聞的發酵 讓毛巾大王坐不住了

      頭條要聞

      "父子娶堂姐妹"等倫理傳聞的發酵 讓毛巾大王坐不住了

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      舒淇大方承認:卸了妝就是50 歲的模樣

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      數碼
      健康
      房產
      藝術
      手機

      數碼要聞

      技嘉推出“半鏡面”26.5" QHD 240Hz QD-OLED顯示器GO27Q24A

      藥監局為何沒批抗衰老干細胞產品?

      房產要聞

      7516元/㎡,161套一次全甩!??谧≌畹蛢r出現了!

      藝術要聞

      90歲連戰題字:顏筋柳骨兼歐楷,三年練字越寫越躁迷茫怎么辦?

      手機要聞

      蘋果預告iOS 27輔助功能,語音控制支持自然語言操作

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 1769国内精品视频在线播放 | 亚洲国产综合自在线另类| 国产一区二区不卡精品视频| 精品产品福利| 在线日本国产成人免费的| 久久er99热精品一区二区| 国产乱码精品一区二三区| 欲香欲色天天天综合和网| 国产精品视频白浆免费视频| 欧洲丰满熟女a片| 国产欧美亚洲精品第1页| 人妻第一页| 欧美成人AA视频免费观看| 久久99热只有频精品8| 人妻资源站| 欧美日韩亚洲综合二区| 国产日韩一区二区天美麻豆| 欧美成本人视频免费播放| 久久精品丝袜高跟鞋| 久久国产精品偷任你爽任你| 日韩欧美一中文字暮专区| 国产a在视频线精品视频下载| 福利姬液液酱喷水| 国产成人高清精品亚洲| 日韩成人无码影院| 制服丝袜人妻有码无码中文字幕| 99精品国产高清一区二区麻豆 | 成年女人免费v片| 99久久99这里只有免费费精品| 国产爆乳无码一区二区麻豆| 无码中文字幕精品推荐| 无码少妇人妻| 亚洲美女被黑人巨大在线播放| 亚洲一区二区三区含羞草| 熟女黄色的视频网站| 不卡精品国产_亚洲人成在线 | 国产福利一区二区在线精品| 中文字幕成人网| 国内精品大秀视频日韩精品| 亚洲第成色999久久网站| 无码日韩一区二区|