如果你折騰過本地AI,一定聽過這條鐵律:顯存越大越好,獨立顯卡是終極夢想。這話不算錯——只要模型塞得進去,快顯存的顯卡確實能啃下不少任務。過去幾年,想本地跑更大的模型,買張更大顯存的卡就行。
這條路近年悄悄撞墻了。消費級顯存停滯在32GB,RTX 5090封頂于此; meanwhile,值得跑的開源模型已經膨脹到數千億參數。一張32GB的卡,如今連多數真正改變游戲規則的大模型都加載不了。但這類模型并非完全無解——本地AI的有趣進展已經轉向另一類機器:統一內存架構跑混合專家模型(MoE)。這套組合讓一臺相對慢速的機器,能穩穩運行5090完全碰不到的大模型。
![]()
統一內存機器并非全是優點,多數情況下帶寬平庸,長輸入的提示詞處理也更慢。但具體到"跑你能搞到的最大模型"這件事,它表現極好,消費級顯卡世界沒有能打的。
模型生成輸出分兩個階段。第一階段叫預填充(prefill),模型讀取你的提示詞,此時計算密集,因為提示詞可以并行處理——本質上是對輸入做大規模矩陣運算,而非逐token生成。但讀取回復的token屬于解碼階段,這是內存帶寬密集型任務。每個token都要從內存重新讀取模型權重,所以生成速度大致等于帶寬除以每個token要讀取的字節數。每個token讀取的權重越少,生成越快。
這個拆分對評估顯存需求極其關鍵:不只是"多少"的問題,還有"多快"。容量用來裝下模型,但快速生成需要帶寬。獨立顯卡帶寬快,但容量卡得很死;而超過32GB內存的統一內存機器,并不罕見。
統一內存用速度換空間。原理是:CPU和GPU共享一大塊連貫內存池,無需跨總線來回拷貝,而非在GPU上焊一小塊極速內存。目前三家主流方案,效果大致相近。蘋果Silicon走得最遠,M3 Ultra Mac Studio做到512GB容量、約800 GB/s帶寬。英偉達的GB10芯片——用在DGX Spark和聯想ThinkStation PGX里——提供
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.