<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型又出新架構,面壁這次把Transformer上下文能力拉滿了

      0
      分享至

      我有點好奇一個問題,

      讓現(xiàn)階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

      可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

      現(xiàn)在傳統(tǒng)的Transformer架構只有一種處理方式,全靠硬算。它像一個過于認真的前排學霸,為了記住最后一章的內容,把前面九十九萬字的內容跟每一個新生成的字都做一次對比計算。


      這樣會占大量的顯存,計算量也會平方級增長。

      這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

      昨天,面壁還發(fā)了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構。它給出了一個新觀點,

      該快的地方就得快,該準的地方必須準。


      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

      在他們的SALA架構里,

      一部分模塊專門負責快,

      另一部分模塊專門負責準。

      結果就是,基于SALA架構的模型,在端側顯卡上,第一次把百萬的長文本推理,穩(wěn)穩(wěn)跑通了。


      我們來看一個具體的例子,

      模型在處理百萬字小說時,內部發(fā)生了什么。

      每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復雜度是隨著文本長度平方級增長的,

      同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

      這就是為什么傳統(tǒng)架構在長上下文任務面前,會同時撞上計算墻和顯存墻。


      這幾十萬字的上下文,大部分可能只是背景描述,真正關鍵的信息也許就那么幾句。

      但模型為了找到這幾句關鍵信息,付出的代價是把所有內容都用最高精度過了一遍。

      來看看SALA的幾個關鍵的設計,

      首先是兩種模塊的分工。

      線性注意力,我們這里可以理解為負責準的模塊,面壁選用的是Lightning Attention,挑出那些最關鍵的局部信息進行精細計算。稀疏注意力,則是負責快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

      SALA就是把這兩者結合了起來。整個模型里,75%的層是負責準的線性注意力,剩下的25%,是負責快的稀疏注意力。這個比例經(jīng)過大量實驗找出的效率與精度之間的平衡點。


      在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

      怎么保證它們能好好合作,不是互相干擾呢?

      SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

      模型在檢索幾萬甚至幾十萬token之前的內容時,依然能保持高精度。


      最后是模型怎么來的。

      這里有一個核心問題,要訓練一個全新的混合架構模型,成本超級高。

      面壁沒有從零開始,反而是提出了一個叫HALO的訓練范式。簡單來說,就是拿一個已經(jīng)訓練好的全注意力模型,比如MiniCPM-4.0,通過架構轉換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進行持續(xù)訓練。


      這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設計一輛新車。它繼承了原模型已經(jīng)學到的所有知識和能力,只是讓它學會了用一種更高效的方式去工作。相比從頭訓練,這個方法的成本直接降低了大約75%。

      這個訓練過程也很有講究,分為架構轉換,穩(wěn)定訓練,短衰減,長衰減和微調五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學習兩種注意力機制協(xié)同。

      我們來看效果數(shù)據(jù)。

      這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數(shù)據(jù),對比的是同等規(guī)模的全注意力模型Qwen3-8B,我挑幾個關鍵數(shù)據(jù),

      在推理速度上,當上下文長度達到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

      這個提升完全來自架構本身的優(yōu)勢。


      在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩(wěn)穩(wěn)地跑到1M,也就是一百萬token的長度。


      但我是個挑剔的人,

      用了會丟信息的注意力,模型是不是沒腦子了?

      這也是這篇工作最有價值的部分。實驗數(shù)據(jù)顯示,MiniCPM-SALA在數(shù)學,代碼,知識問答這些常規(guī)能力上,和同規(guī)模的全注意力模型基本持平,沒有出現(xiàn)明顯的性能折損。


      傳統(tǒng)的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構,把這些任務交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯(lián)系。

      為了推動這個架構落地,面壁聯(lián)合了SGLang和NVIDIA,發(fā)起了一個稀疏算子加速大獎賽SOAR。


      SALA雖然在架構上做好了,

      但底層的計算算子,相比已經(jīng)被優(yōu)化到極致的FlashAttention,還有很大提升空間。

      這個比賽就是邀請全球的開發(fā)者,一起來把SALA這臺新引擎的性能,壓榨到極限。

      平時測評模型測多了,

      都是Coding,Coding,Coding,

      我很高興看到還不斷能有新的架構,

      新的算法出現(xiàn),

      就算是DeepSeek這一年,

      更新模型的同時也沒停過公開自己的算法,

      面壁過去這一年也是不停發(fā)端側模型的工作,

      我覺得就這速度都不需要五年十年,

      可能過個兩三年,

      在小天才手表上也能跑個大大大模型。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發(fā)|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普訪華第3天,五角大樓拉警報!錯過北京調停,代價遠超想象

      特朗普訪華第3天,五角大樓拉警報!錯過北京調停,代價遠超想象

      知法而形
      2026-05-15 15:22:02
      俯臥撐數(shù)量出賣真實體能:40-60歲男性對照表

      俯臥撐數(shù)量出賣真實體能:40-60歲男性對照表

      解說阿洎
      2026-05-15 00:49:28
      特朗普談臺灣問題又不一樣了,他在接受采訪時說

      特朗普談臺灣問題又不一樣了,他在接受采訪時說

      小馬姨
      2026-05-14 08:06:39
      這跟不穿有啥區(qū)別?趙露思演唱會內衣外穿:被眾嘲一套比一套辣眼

      這跟不穿有啥區(qū)別?趙露思演唱會內衣外穿:被眾嘲一套比一套辣眼

      胡一舸南游y
      2026-05-13 15:23:56
      黃仁勛半路登機,史上最貴機票出現(xiàn)了!

      黃仁勛半路登機,史上最貴機票出現(xiàn)了!

      花小貓的美食日常
      2026-05-14 15:38:50
      張雪宣布冠軍車820RR停止生產(chǎn)!網(wǎng)友:老張的車質量還是有差距的

      張雪宣布冠軍車820RR停止生產(chǎn)!網(wǎng)友:老張的車質量還是有差距的

      火山詩話
      2026-05-14 14:41:35
      特朗普訪華,印度坐不住了!擔憂中美組成“G2”,莫迪搬救兵?

      特朗普訪華,印度坐不住了!擔憂中美組成“G2”,莫迪搬救兵?

      漫川舟船
      2026-05-15 15:38:55
      “從短視頻刷出來的女主角”:零表演經(jīng)驗、還是大二學生的她,怎樣成了《給阿嬤的情書》里的“南枝”?

      “從短視頻刷出來的女主角”:零表演經(jīng)驗、還是大二學生的她,怎樣成了《給阿嬤的情書》里的“南枝”?

      新京報
      2026-05-14 12:25:56
      2026TOP中國大學排名重磅發(fā)布:北大清華浙大上交南大居前五,武大華科川大躋身前十

      2026TOP中國大學排名重磅發(fā)布:北大清華浙大上交南大居前五,武大華科川大躋身前十

      TOP大學來了
      2026-05-15 09:07:14
      兒子長相神似妻子領導,丈夫決定做親子鑒定,結果出來后愣住了

      兒子長相神似妻子領導,丈夫決定做親子鑒定,結果出來后愣住了

      紅豆講堂
      2024-08-29 11:07:25
      A股:不用再等下周一行情,市場趨勢有變化,接下來很可能這樣走

      A股:不用再等下周一行情,市場趨勢有變化,接下來很可能這樣走

      財經(jīng)大拿
      2026-05-15 11:55:57
      王毅五字定調臺灣地位,民進黨2300萬人不接受

      王毅五字定調臺灣地位,民進黨2300萬人不接受

      安夢入天下
      2026-05-15 14:05:38
      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      觀察鑒娛
      2026-05-14 11:13:31
      性生活老公突然變得很猛?小心,這可能是個陷阱

      性生活老公突然變得很猛?小心,這可能是個陷阱

      精彩分享快樂
      2026-05-15 12:20:05
      爆賣260億!王傳福再開一槍,比亞迪致命一擊

      爆賣260億!王傳福再開一槍,比亞迪致命一擊

      象視汽車
      2026-05-13 07:00:08
      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      鐵錘簡科
      2026-05-14 13:24:35
      美國對中國統(tǒng)一下達新結論:大陸只要按兵不動,越晚統(tǒng)一代價越小

      美國對中國統(tǒng)一下達新結論:大陸只要按兵不動,越晚統(tǒng)一代價越小

      華史談
      2026-05-13 08:49:26
      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      混沌錄
      2026-05-12 23:09:07
      從贏麻了到退市警告,聞泰科技表演了一場年度鬧劇

      從贏麻了到退市警告,聞泰科技表演了一場年度鬧劇

      原來仙女不講理
      2026-05-15 11:52:34
      上海好久沒有如此不計代價的項目

      上海好久沒有如此不計代價的項目

      真叫盧俊
      2026-05-14 10:23:51
      2026-05-15 16:16:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監(jiān)|致力打造最系統(tǒng)的Al學習體系,讓1萬人通過Al提高生產(chǎn)力
      263文章數(shù) 134關注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      女游客以1分錢拍下標價1980元的三亞海景房 酒店回應

      頭條要聞

      女游客以1分錢拍下標價1980元的三亞海景房 酒店回應

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發(fā)布

      態(tài)度原創(chuàng)

      教育
      家居
      房產(chǎn)
      手機
      軍事航空

      教育要聞

      新華讀報|拋繡球、游泳進中考,體育改革讓學生“玩有所得”

      家居要聞

      110㎡淡而有致的生活表達

      房產(chǎn)要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      手機要聞

      史上最低價!iPhone 17 Pro系列京東天貓大促,全系優(yōu)惠拉滿

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久久香蕉国产线看观看伊| 五月婷婷丁香| 国产成人精品国产成人亚洲| 先锋资源天堂| 亚洲 制服 丝袜 无码 在线| 国产成人无码一二三区视频 | 久久99精品久久久久久HB| 中文字幕亚洲天堂| 日本黄页网站免费观看| 天堂网www在线资源网| 欧美日本一区二区三区免费| 蜜臀aⅴ永久无码一区二区 | 人人看成人在线| 丰满少妇人妻无码| 久久亚洲AV成人无码国产电影| 国产在线无码视频一区二区三区 | 日本乱伦中文字幕| 999精品视频| 亚洲色欲色欱WWW在线| 亚洲日本精品国产第一区| 曰韩三级无码久久探| 伊人五月久久1区| 久久精品第一国产久精国产宅男66 | 99久久无码私人网站| 色综合色天天久久婷婷基地| 西昌市| 亚洲国产精品ⅴa在线播放| 一本色道久久综合亚洲色| 亚洲一区二区日韩综合久久| 久久人与动人物a级毛片| 国产精品欧美福利久久| 天天爽夜夜操| 人妻公开视频在线免费| av天堂午夜精品一区| 在线观看国产成人av天堂| 黑人av无码| 精品国产成人a在线观看| 99热这里只有精品综合久久| 日本一道dvd在线中文字幕| 欧美在线人视频在线观看| 一亚洲一区二区中文字幕|