<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Transformer與RNN合體,谷歌打下顯存門檻,解鎖超長上下文

      0
      分享至


      來源:機器之心

      編輯:澤南

      最近,谷歌跟內存干上了。

      上個月,谷歌的 曾經引發過一場行業地震,其宣稱能直接把大模型最吃顯存的 KV Cache 壓縮幾倍,讓市場開始擔憂未來對內存的需求,引發了一波內存股暴跌,后續還有。

      這個星期,又有一篇谷歌論文引發了 AI 圈的關注,作者表示他們提出的方法解決了大模型處理長文本時的「內存瓶頸」(又來了),但實施的是完全不同的技術路線。

      他們新開一條道路,通過對于大模型架構的機制創新,賦予了 RNN 「可生長的記憶容量」,找到了一種兼顧 Transformer 與 RNN 優勢的新方法


      該方法可以讓 AI 處理更長的文本,解鎖「超長上下文」能力,與此同時極大地降低了推理的資源門檻。

      人們紛紛表示歡迎:大模型生產環境要的就是這個。


      當前的大模型幾乎都是基于 Transformer 架構打造的,它占據統治地位,主要歸功于其可增長的記憶容量(注意力機制的計算和空間復雜度隨上下文長度呈二次方增長)。這使得 Transformer 極其擅長長上下文的信息召回(Recall)。

      然而,這種二次方復雜度也導致了嚴重的算力和顯存瓶頸,使得處理超長文本的成本極高。

      為解決這個問題,社區一直在復興 RNN、線性注意力模型(Linear Attention)以及狀態空間模型(SSM,如 Mamba 等)。這些循環架構的優勢在于記憶容量固定(復雜度為),推理速度快且顯存占用低。然而,它們的致命弱點在于:無論讀了多少文本,都必須把所有過去的信息壓縮到一個「固定大小」的隱藏狀態(Hidden State)中。

      這種「信息漏斗」導致它們在密集召回任務(Recall-intensive tasks,比如從極長的文檔中精準提取某個細節)中表現往往遠不如 Transformer。

      為打破僵局,來自 Google Research 的研究團隊提出了一種名為Memory Caching(MC)的技術,據說簡單而有效。


      • 論文:《Memory Caching: RNNs with Growing Memory》

      • 論文鏈接:https://arxiv.org/abs/2602.24281

      在這項研究的視角中,存在一個架構光譜:一端是 Transformer(無壓縮,Token 級緩存),另一端是傳統的 RNN(全壓縮,單一記憶)。而「記憶緩存(MC)」則解鎖了介于兩者之間的新形態:將成組 Token 壓縮并緩存到長期記憶狀態中,然后在需要時進行檢索。

      Transformer 會緩存每一個單獨的標記,而 RNN 則考慮一個固定大小的記憶,并將上下文中的一切壓縮到記憶的參數中。那么,如果我們把 RNN 的歷史記憶也緩存下來會怎樣?

      簡單來說,與其讓 RNN 只維護一個不斷被覆蓋和更新的「當前狀態」,不如定期對這些隱藏狀態進行「快照打卡」(Caching checkpoints)。這樣,在進行信息檢索時,模型不僅可以查看當前的「在線記憶」,還能直接調取「緩存記憶」中的歷史快照,瞬間找回過去的相關信息。


      在研究的過程中,作為概念驗證,研究人員提出了三種變體,基于過去的信息如何組合在一起。

      1、門控殘差記憶(Gated Residual Memory):使用查詢從過去檢索相關信息,然后執行類似注意力的池化來組合檢索到的信息。實際上,RNN 的記憶在增長,因此解碼成本也在增長:


      2、記憶湯(Memory Soup):另一種結合過去記憶的方式,是直接結合記憶的權重,而不是針對特定查詢的輸出。在這種情況下,我們需要對過去記憶的權重執行類似注意力的池化操作,然后對池化后的記憶執行一次檢索。同樣,這種變體相對于上下文長度具有不斷增長的有效記憶,因此解碼成本也在增長。


      3、稀疏選擇性緩存(Sparse Selective Caching,SSC):到目前為止,似乎沒有免費的午餐,我們需要在不斷增長的有效記憶和每 token 恒定的解碼成本之間做出選擇。

      于是作者提出了 SSC,這是一種類似于 MoBA 的專家混合模型,在序列維度上稀疏地選擇過去緩存記憶的一個子集,從而引出一個模型,其有效記憶在增長,但其每 token 解碼成本保持相對恒定:


      那么效果如何呢?

      該方法可以作為一種通用框架,插入到各種現有的循環架構中,如線性注意力模型,或作者之前提出的深度內存模型 Titans 等。

      實驗結果表明了其強大的有效性:


      模型在語言建模和常識推理任務上的表現。

      作者在 13 億參數的模型上進行了語言建模、召回密集型、長上下文以及 needle-in-a-haystack 等實驗,結果顯示 MC 相較于基礎模型提供了改進。其中包括:

      • 長上下文能力提升:在語言建模和長上下文理解任務中,加入了 MC 機制的循環模型性能得到了全面提升。

      • 縮小與 Transformer 的差距:在最具挑戰性的「上下文內召回(in-context recall)」任務中,加入了 MC 的模型擊敗了目前最先進(SOTA)的其他循環模型。

      • 依然存在上限:雖然 MC 極大地彌補了 RNN 的召回短板,并極大縮小了與 Transformer 之間的性能差距,但論文也指出,在純粹的密集召回任務上限上,Transformer 依然保持著最佳的準確率。

      總的來說,該研究利用一種極其優雅的算法直覺(緩存歷史狀態快照),解決了一個長期存在的理論難題,讓非 Transformer 架構在實用性上又向前邁進了一大步。

      盡管在極限的密集召回上,它依然尚未徹底超越 Transformer,但新路已經鋪就,隨著 RNN、SSM 等架構的持續進化,Transformer 一家獨大的現狀或許要有所改變了?

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      造神毀神,一場集體上癮的血色狂歡

      造神毀神,一場集體上癮的血色狂歡

      浪子說
      2026-05-18 09:21:56
      巴薩接觸意甲神鋒,勞塔羅成鋒線備選

      巴薩接觸意甲神鋒,勞塔羅成鋒線備選

      賽場名場面
      2026-05-19 02:38:19
      美股商業航天概念板塊大幅上漲,火箭實驗室股價躍升11%,創下歷史新高

      美股商業航天概念板塊大幅上漲,火箭實驗室股價躍升11%,創下歷史新高

      每日經濟新聞
      2026-05-18 21:40:11
      556架蜂擁而至,莫斯科扛了9小時,烏克蘭這一夜徹底動了真格?

      556架蜂擁而至,莫斯科扛了9小時,烏克蘭這一夜徹底動了真格?

      史行途
      2026-05-19 01:23:55
      國產偉哥銷量暴跌1300萬片,"聚寶盆"為何突然失靈

      國產偉哥銷量暴跌1300萬片,"聚寶盆"為何突然失靈

      知識碎碎念
      2026-05-15 16:27:47
      人不會平白無故患糖尿病!醫生強調:得糖尿病,多半有4個通病

      人不會平白無故患糖尿病!醫生強調:得糖尿病,多半有4個通病

      醫學原創故事會
      2026-05-18 22:54:16
      后續!新娘換裝拖46分鐘賓客散場,監控曝光,她竟無視多次提醒

      后續!新娘換裝拖46分鐘賓客散場,監控曝光,她竟無視多次提醒

      寶哥精彩賽事
      2026-05-18 07:00:43
      64歲吳鎮宇綜藝嘴對嘴吻郝蕾,一旁劉濤被驚呆,網友:真下得去口

      64歲吳鎮宇綜藝嘴對嘴吻郝蕾,一旁劉濤被驚呆,網友:真下得去口

      陳意小可愛
      2026-05-19 02:41:04
      熬過劫難!5月底迎來真正“龍抬頭”,事業大突破賺錢容易的3生肖

      熬過劫難!5月底迎來真正“龍抬頭”,事業大突破賺錢容易的3生肖

      毅談生肖
      2026-05-18 10:20:53
      向上社交的密碼早已公開:貴人根本不在意你的誠意與努力,他們暗中篩選,只看你這兩個核心屬性

      向上社交的密碼早已公開:貴人根本不在意你的誠意與努力,他們暗中篩選,只看你這兩個核心屬性

      心理觀察局
      2026-05-18 11:49:21
      盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

      盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

      達文西看世界
      2026-05-17 14:59:59
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      北京開了山寨版一蘭拉面店,從LOGO到整體設計都與正版“一蘭”極其相似,日本一蘭氣炸了……

      北京開了山寨版一蘭拉面店,從LOGO到整體設計都與正版“一蘭”極其相似,日本一蘭氣炸了……

      日本物語
      2026-05-17 21:01:55
      金價全線跳水!國內金價跌破千元關口

      金價全線跳水!國內金價跌破千元關口

      現代快報
      2026-05-18 19:13:02
      深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

      深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

      宇宙時空
      2026-05-18 17:30:14
      擊敗李霄鵬!曝51歲國安棄帥接掌三鎮 簽約1年半 第3次來中超執教

      擊敗李霄鵬!曝51歲國安棄帥接掌三鎮 簽約1年半 第3次來中超執教

      我愛英超
      2026-05-18 12:08:58
      范·迪塞爾22年前科幻巨制全球翻紅

      范·迪塞爾22年前科幻巨制全球翻紅

      娛圈觀察員
      2026-05-17 01:56:25
      第一次感受到維C的“殺傷力”,2塊錢一瓶,就能搞定8個麻煩事

      第一次感受到維C的“殺傷力”,2塊錢一瓶,就能搞定8個麻煩事

      室內設計師有料兒
      2026-05-09 10:26:26
      45歲才明白:微信上基本不發朋友圈的,十有八九是這兩種人

      45歲才明白:微信上基本不發朋友圈的,十有八九是這兩種人

      心理觀察局
      2026-05-08 09:43:07
      全紅嬋還會在“跳水池”里出現嗎?她用3個字回應惹人心酸

      全紅嬋還會在“跳水池”里出現嗎?她用3個字回應惹人心酸

      素素娛樂
      2026-04-30 08:08:26
      2026-05-19 05:11:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數 37464關注度
      往期回顧 全部

      科技要聞

      蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

      頭條要聞

      前CIA資助研究員:美國從飛碟里撈出4種外星人

      頭條要聞

      前CIA資助研究員:美國從飛碟里撈出4種外星人

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少?

      態度原創

      家居
      旅游
      親子
      公開課
      軍事航空

      家居要聞

      觀山隱秀 心靈沉淀

      旅游要聞

      紅色文旅升級 沉浸式表達獲年輕人點贊

      親子要聞

      不能做危險的事情 #大型挖掘機挖土玩具 #工程車玩具

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      莫斯科遭一年多來最大規模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲ΑV久久久噜噜噜噜噜| 国产99久久久久久免费看| 色悠久久久久综合网香蕉| 国内不卡一区二区三区| 熟女AV在线| 国产精品美女久久久久av爽| 国产乱码精品一区二三| 成年男人永久免费看片| 国产av不卡一区二区| 欧美老少配性行为| 国产精品欧美福利久久| 麻花传md0025| 久久精品国产亚洲AV嫖农村妇女| 国产99久久亚洲综合精品西瓜tv| 狠狠综合久久av一区二| 久久人人97超碰精品| 天天操B天天操| 亚洲另类丝袜综合网| 蜜臀98精品国产免费观看| 亚洲精品综合网在线8050影院| 色偷偷狠狠色综合网| 国产大片黄在线观看私人影院 | 欧美老熟妇喷水| 无码人妻一区二区三区AV| av不卡在线观看| 91老肥熟女九色老女人| 边摸边吃奶边做爽gif动态图| 成人av在线资源一区| 肥大bbwbbw高潮抽搐| 亚洲夜色噜噜av在线观看| 午夜无码熟妇丰满人妻| 亚洲av色图| 亚洲人成网站在线观看播放不卡| 国产一区二区三区在线观看免费 | 国产无套精品一区二区三区| 国产av电影天堂| 人妻少妇乱子伦精品无码专区毛片| 久久香蕉国产线看观看猫咪av| 日韩精品国产中文字幕| 丰满人妻一区二区三区| 午夜精品久久久久久久久久久久|