英偉達(dá)MIT出手！華人團(tuán)隊重磅開源，大模型推理內(nèi)存暴降10倍

2026-05-14 15:59:29　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】一張普通的24G家用顯卡，竟然能讓一個32B的超大模型一口氣讀完6份長文檔、自動寫出周報？英偉達(dá)、MIT、浙大華人研究者聯(lián)合出新招，讓內(nèi)存消耗直接暴降10倍，不降智也不爆顯存，徹底擊穿硬件天花板。

一張RTX 4090，24GB顯存，跑一個32B參數(shù)的大模型做agent任務(wù)。

不做任何KV壓縮，顯存直接爆掉，連模型都跑不起來。

換上TriAttention，模型穩(wěn)穩(wěn)跑起來，順利讀完6份文檔，自動生成了一份完整周報。

這不是社區(qū)大神的魔改，而是一篇來自MIT、英偉達(dá)、浙大的聯(lián)合論文。

https://arxiv.org/pdf/2604.04921

核心思路是在pre-RoPE空間里，用Q/K的三角集中度來估計每個KV token到底有多重要，然后只保留真正重要的那些。

打個比方來說，別的方法壓KV cache像是把所有行李都塞進(jìn)壓縮袋，不管里面是羽絨服還是磚頭一律壓扁。

TriAttention是先翻一遍行李箱，把磚頭扔掉，只給羽絨服打包。

TriAttention demo演示，展示單張RTX 4090上Qwen3-32B完成OpenClaw agent任務(wù)的完整過程

作者之一Yukang Chen在X上發(fā)布了這組對比，左邊不壓縮，顯存直接報錯；右邊開了TriAttention，agent一路讀完6份文檔，周報完整輸出。

2.5倍吞吐

10.7倍內(nèi)存縮減

效果怎么樣？數(shù)字說話。

在AIME25數(shù)學(xué)推理任務(wù)上，TriAttention在匹配Full Attention準(zhǔn)確率（40.8%）的前提下，吞吐量提升了2.5倍。

再看內(nèi)存：KV cache內(nèi)存縮減10.7倍。

在AIME25（Qwen3-8B）上的性能權(quán)衡。(A) 在相同準(zhǔn)確率（40.8%）下，TriAttention的吞吐量比Full Attention高2.5倍。(B) TriAttention在保持與Full Attention相同準(zhǔn)確率的同時，將KV緩存內(nèi)存減少了10.7倍。

注意，這里說的是KV cache memory，不是整機顯存，也不是模型參數(shù)占用的總內(nèi)存。

但就算只是KV cache這一項，對長序列推理場景來說，KV cache往往就是壓垮顯存的最后一根稻草。

砍掉這一項，就是能跑和不能跑的分界線。

主實驗是在Qwen3-8B上做的，覆蓋AIME24、AIME25、MATH500等任務(wù)。

在32K token的生成長度條件下，TriAttention幾乎沒有犧牲精度，但把推理效率拉到了一個新臺階。

單張4090跑通32B大模型

這篇論文附錄中提到了一個真實部署案例。

場景是OpenClaw，一個多輪agent工作流。任務(wù)是讀6份markdown文檔，生成一份周報。

模型是Qwen3-32B，用了AWQ INT4量化，跑在一張RTX 4090（24GB）上。

不壓縮KV cache直接跑這個任務(wù)？顯存當(dāng)場爆掉。

長系統(tǒng)提示加上多輪文檔讀取，KV cache膨脹到顯存根本兜不住。

TriAttention接管之后，agent順利讀完所有文檔，生成了完整報告。

模型用的是Qwen3-32B AWQ INT4量化版，不是原始FP16滿血版；跑的是OpenClaw agent工作流，不是通用長文本benchmark。

但它剛好證明了「一個完整的、有實際生產(chǎn)價值的agent任務(wù)，可以在消費級硬件上跑通」。

vLLM插件已就位

MLX實驗性起步

TriAttention不只停在論文里。

作者已經(jīng)在GitHub倉庫中提供了vLLM集成，README明確寫到TriAttention包含一個vLLM插件，并給出了OpenAI兼容API的server mode、Python API以及OpenClaw接入說明。

相比論文中的實驗結(jié)果，這屬于倉庫層面的工程化擴(kuò)展。

這意味著，你不需要改模型架構(gòu)，不需要重新訓(xùn)練，只需要掛上這個插件，就能在現(xiàn)有的vLLM推理管線上獲得KV壓縮收益。

在Apple Silicon方向上，官方倉庫里單獨放了一份docs/mlx.md，覆蓋M1到M4全系芯片，基于MLX框架和mlx-lm運行，附帶示例代碼和硬件benchmark。

TriAttention官方倉庫已提供MLX實驗性支持文檔，覆蓋M1-M4芯片https://github.com/WeianMao/triattention/blob/main/docs/mlx.md

不過，官方文檔標(biāo)題中也標(biāo)注了這還是實驗性支持，這說明他們已經(jīng)在早期試水MLX了，但離成熟的Mac本地部署還有距離。

KV壓縮賽道的兩條路線

KV cache壓縮賽道存在兩條路線。

一條是量化派。

Google Research在3月24日發(fā)布了TurboQuant，官方博客中的定位是「在零精度損失下實現(xiàn)極致壓縮」的方案，主打把KV cache和向量搜索的bit數(shù)壓到極低。

Google Research官方博客中LongBench基準(zhǔn)測試圖，TurboQuant在LongBench基準(zhǔn)測試中，相較于多種壓縮方法，在Llama-3.1-8B-Instruct模型上展現(xiàn)出穩(wěn)健的KV緩存壓縮性能

社區(qū)已經(jīng)有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。

另一條是選擇性保留派。

TriAttention就是這條路線的新代表，不壓bit，而是直接判斷哪些token的KV值得留、哪些可以扔。

兩條路線的終點其實一樣：讓大模型跑在消費級硬件上，顯存不炸，精度不掉。

但方法論完全不同。

量化是把每個行李都壓扁，選擇性保留是直接減少行李數(shù)量。

理論上，兩者甚至可以疊加使用。

目前還沒有嚴(yán)格的同模型、同硬件、同任務(wù)的head-to-head對比，所以「誰碾壓誰」還說不了。

但可以確定的是，這兩條路線正在加速向消費級部署推進(jìn)。

一年前，「本地跑大模型」還是極客圈的行為藝術(shù)，跑個7B都要折騰半天。

現(xiàn)在，32B模型在單張消費級卡上完成agent任務(wù)，Apple Silicon上的MLX生態(tài)一周一個新倉庫，vLLM插件讓KV壓縮變成「掛上就用」的一鍵方案。

KV cache壓縮這條賽道，正在從論文里的消融實驗，變成每個開發(fā)者都能觸碰到的工程現(xiàn)實。

作者簡介

Weian Mao

Weian Mao

Weian Mao現(xiàn)為MIT CSAIL博士后研究員，博士畢業(yè)于阿德萊德大學(xué)AIML，師從沈春華教授。其當(dāng)前研究聚焦大語言模型，尤其關(guān)注推理效率與長上下文推理中的KV cache壓縮；此前也從事過計算機視覺與蛋白質(zhì)設(shè)計等方向研究。

Xi Lin

Xi Lin

Xi Lin是浙江大學(xué)計算機科學(xué)與技術(shù)專業(yè)高年級本科生，研究興趣集中在高效AI的算法—系統(tǒng)協(xié)同設(shè)計，尤其關(guān)注面向硬件友好的稀疏與量化模塊設(shè)計，以及高效推理策略。其工作與高性能計算、機器學(xué)習(xí)系統(tǒng)等方向密切相關(guān)。

Wei Huang

Wei Huang

Wei Huang現(xiàn)為香港大學(xué)博士生，研究聚焦Efficient AI與大型視覺/語言模型。

目前，他在NVIDIA Research實習(xí)，與Yukang Chen等研究者合作，并在Song Han 指導(dǎo)下開展相關(guān)研究，參與了QeRL、LongLive等工作。

參考資料：

https://arxiv.org/abs/2604.04921

https://x.com/yukangchen_/status/2041366586423165152

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.