歌官方發(fā)布全新AI壓縮算法TurboQuant,針對(duì)大語言模型、向量搜索引擎核心痛點(diǎn),攻克鍵值緩存內(nèi)存瓶頸難題,可實(shí)現(xiàn)約6倍內(nèi)存節(jié)省,大幅降低AI系統(tǒng)部署門檻與算力成本,引發(fā)全球AI行業(yè)高度關(guān)注。該算法專為大模型推理階段優(yōu)化,不損失模型性能的前提下,大幅壓縮緩存占用空間,讓中小算力設(shè)備也能流暢運(yùn)行高端大模型,推動(dòng)AI技術(shù)普惠化。
![]()
AI生成
隨著大模型上下文窗口不斷擴(kuò)大,鍵值緩存占用內(nèi)存激增,成為制約AI模型運(yùn)行速度、普及應(yīng)用的核心瓶頸。普通設(shè)備難以支撐大模型高效運(yùn)行,高端算力設(shè)備成本高昂,導(dǎo)致AI落地成本居高不下。谷歌TurboQuant算法通過精準(zhǔn)壓縮、高效解碼技術(shù),針對(duì)性解決緩存占用問題,經(jīng)過實(shí)測(cè),在保持模型響應(yīng)速度、回答精度不變的情況下,內(nèi)存占用降至原先的六分之一左右,既能提升推理速度,又能降低硬件投入,兼具實(shí)用性與經(jīng)濟(jì)性。
業(yè)內(nèi)分析,該算法商用落地后,將深刻改變AI行業(yè)格局。一方面,大幅降低企業(yè)、個(gè)人使用大模型的門檻,中小廠商無需采購高端算力設(shè)備,即可開展AI研發(fā)與場(chǎng)景應(yīng)用;另一方面,推動(dòng)AI模型向輕量化、終端化發(fā)展,手機(jī)、邊緣設(shè)備、工控設(shè)備均可搭載高端大模型,拓展AI應(yīng)用場(chǎng)景。目前谷歌已開放部分技術(shù)接口,后續(xù)將推進(jìn)商業(yè)化落地。國內(nèi)科技企業(yè)也在加速布局AI壓縮、輕量化技術(shù),行業(yè)競(jìng)爭(zhēng)加劇的同時(shí),也將推動(dòng)AI技術(shù)更快融入日常生活與產(chǎn)業(yè)生產(chǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.