![]()
新智元報道
編輯:元宇
【新智元導(dǎo)讀】一張普通的24G家用顯卡,竟然能讓一個32B的超大模型一口氣讀完6份長文檔、自動寫出周報?英偉達(dá)、MIT、浙大華人研究者聯(lián)合出新招,讓內(nèi)存消耗直接暴降10倍,不降智也不爆顯存,徹底擊穿硬件天花板。
一張RTX 4090,24GB顯存,跑一個32B參數(shù)的大模型做agent任務(wù)。
不做任何KV壓縮,顯存直接爆掉,連模型都跑不起來。
換上TriAttention,模型穩(wěn)穩(wěn)跑起來,順利讀完6份文檔,自動生成了一份完整周報。
這不是社區(qū)大神的魔改,而是一篇來自MIT、英偉達(dá)、浙大的聯(lián)合論文。
![]()
https://arxiv.org/pdf/2604.04921
核心思路是在pre-RoPE空間里,用Q/K的三角集中度來估計每個KV token到底有多重要,然后只保留真正重要的那些。
打個比方來說,別的方法壓KV cache像是把所有行李都塞進(jìn)壓縮袋,不管里面是羽絨服還是磚頭一律壓扁。
TriAttention是先翻一遍行李箱,把磚頭扔掉,只給羽絨服打包。
TriAttention demo演示,展示單張RTX 4090上Qwen3-32B完成OpenClaw agent任務(wù)的完整過程
作者之一Yukang Chen在X上發(fā)布了這組對比,左邊不壓縮,顯存直接報錯;右邊開了TriAttention,agent一路讀完6份文檔,周報完整輸出。
![]()
2.5倍吞吐
10.7倍內(nèi)存縮減
效果怎么樣?數(shù)字說話。
在AIME25數(shù)學(xué)推理任務(wù)上,TriAttention在匹配Full Attention準(zhǔn)確率(40.8%)的前提下,吞吐量提升了2.5倍。
再看內(nèi)存:KV cache內(nèi)存縮減10.7倍。
![]()
在AIME25(Qwen3-8B)上的性能權(quán)衡。(A) 在相同準(zhǔn)確率(40.8%)下,TriAttention的吞吐量比Full Attention高2.5倍。(B) TriAttention在保持與Full Attention相同準(zhǔn)確率的同時,將KV緩存內(nèi)存減少了10.7倍。
注意,這里說的是KV cache memory,不是整機顯存,也不是模型參數(shù)占用的總內(nèi)存。
但就算只是KV cache這一項,對長序列推理場景來說,KV cache往往就是壓垮顯存的最后一根稻草。
砍掉這一項,就是能跑和不能跑的分界線。
主實驗是在Qwen3-8B上做的,覆蓋AIME24、AIME25、MATH500等任務(wù)。
在32K token的生成長度條件下,TriAttention幾乎沒有犧牲精度,但把推理效率拉到了一個新臺階。
單張4090跑通32B大模型
這篇論文附錄中提到了一個真實部署案例。
場景是OpenClaw,一個多輪agent工作流。任務(wù)是讀6份markdown文檔,生成一份周報。
模型是Qwen3-32B,用了AWQ INT4量化,跑在一張RTX 4090(24GB)上。
不壓縮KV cache直接跑這個任務(wù)?顯存當(dāng)場爆掉。
長系統(tǒng)提示加上多輪文檔讀取,KV cache膨脹到顯存根本兜不住。
TriAttention接管之后,agent順利讀完所有文檔,生成了完整報告。
模型用的是Qwen3-32B AWQ INT4量化版,不是原始FP16滿血版;跑的是OpenClaw agent工作流,不是通用長文本benchmark。
但它剛好證明了「一個完整的、有實際生產(chǎn)價值的agent任務(wù),可以在消費級硬件上跑通」。
vLLM插件已就位
MLX實驗性起步
TriAttention不只停在論文里。
作者已經(jīng)在GitHub倉庫中提供了vLLM集成,README明確寫到TriAttention包含一個vLLM插件,并給出了OpenAI兼容API的server mode、Python API以及OpenClaw接入說明。
相比論文中的實驗結(jié)果,這屬于倉庫層面的工程化擴(kuò)展。
這意味著,你不需要改模型架構(gòu),不需要重新訓(xùn)練,只需要掛上這個插件,就能在現(xiàn)有的vLLM推理管線上獲得KV壓縮收益。
在Apple Silicon方向上,官方倉庫里單獨放了一份docs/mlx.md,覆蓋M1到M4全系芯片,基于MLX框架和mlx-lm運行,附帶示例代碼和硬件benchmark。
![]()
TriAttention官方倉庫已提供MLX實驗性支持文檔,覆蓋M1-M4芯片https://github.com/WeianMao/triattention/blob/main/docs/mlx.md
不過,官方文檔標(biāo)題中也標(biāo)注了這還是實驗性支持,這說明他們已經(jīng)在早期試水MLX了,但離成熟的Mac本地部署還有距離。
KV壓縮賽道的兩條路線
KV cache壓縮賽道存在兩條路線。
一條是量化派。
Google Research在3月24日發(fā)布了TurboQuant,官方博客中的定位是「在零精度損失下實現(xiàn)極致壓縮」的方案,主打把KV cache和向量搜索的bit數(shù)壓到極低。
![]()
Google Research官方博客中LongBench基準(zhǔn)測試圖,TurboQuant在LongBench基準(zhǔn)測試中,相較于多種壓縮方法,在Llama-3.1-8B-Instruct模型上展現(xiàn)出穩(wěn)健的KV緩存壓縮性能
社區(qū)已經(jīng)有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。
另一條是選擇性保留派。
TriAttention就是這條路線的新代表,不壓bit,而是直接判斷哪些token的KV值得留、哪些可以扔。
兩條路線的終點其實一樣:讓大模型跑在消費級硬件上,顯存不炸,精度不掉。
但方法論完全不同。
量化是把每個行李都壓扁,選擇性保留是直接減少行李數(shù)量。
理論上,兩者甚至可以疊加使用。
目前還沒有嚴(yán)格的同模型、同硬件、同任務(wù)的head-to-head對比,所以「誰碾壓誰」還說不了。
但可以確定的是,這兩條路線正在加速向消費級部署推進(jìn)。
一年前,「本地跑大模型」還是極客圈的行為藝術(shù),跑個7B都要折騰半天。
現(xiàn)在,32B模型在單張消費級卡上完成agent任務(wù),Apple Silicon上的MLX生態(tài)一周一個新倉庫,vLLM插件讓KV壓縮變成「掛上就用」的一鍵方案。
KV cache壓縮這條賽道,正在從論文里的消融實驗,變成每個開發(fā)者都能觸碰到的工程現(xiàn)實。
作者簡介
Weian Mao
![]()
Weian Mao
Weian Mao現(xiàn)為MIT CSAIL博士后研究員,博士畢業(yè)于阿德萊德大學(xué)AIML,師從沈春華教授。其當(dāng)前研究聚焦大語言模型,尤其關(guān)注推理效率與長上下文推理中的KV cache壓縮;此前也從事過計算機視覺與蛋白質(zhì)設(shè)計等方向研究。
Xi Lin
![]()
Xi Lin
Xi Lin是浙江大學(xué)計算機科學(xué)與技術(shù)專業(yè)高年級本科生,研究興趣集中在高效AI的算法—系統(tǒng)協(xié)同設(shè)計,尤其關(guān)注面向硬件友好的稀疏與量化模塊設(shè)計,以及高效推理策略。其工作與高性能計算、機器學(xué)習(xí)系統(tǒng)等方向密切相關(guān)。
Wei Huang
![]()
Wei Huang
Wei Huang現(xiàn)為香港大學(xué)博士生,研究聚焦Efficient AI與大型視覺/語言模型。
目前,他在NVIDIA Research實習(xí),與Yukang Chen等研究者合作,并在Song Han 指導(dǎo)下開展相關(guān)研究,參與了QeRL、LongLive等工作。
參考資料:
https://arxiv.org/abs/2604.04921
https://x.com/yukangchen_/status/2041366586423165152
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.