AI推理的瓶頸正在從算力轉(zhuǎn)向帶寬。一家中國臺灣的芯片企業(yè)給出了新解法。
Skymizer近日發(fā)布HTX301加速器,專為大模型推理解碼階段設(shè)計(jì)。與負(fù)責(zé)預(yù)填充的GPU分工協(xié)作,這款芯片試圖解決一個(gè)被忽視的效率問題:當(dāng)GPU算力閑置等待數(shù)據(jù)時(shí),系統(tǒng)整體能效被白白消耗。
![]()
技術(shù)路線選擇了軟硬件協(xié)同。HTX301基于Skymizer自研的HyperThought平臺和LISA指令集架構(gòu),定位很清晰——不做通用計(jì)算,只啃帶寬密集型負(fù)載這塊硬骨頭。
部署形態(tài)有兩種。SoC集成適合定制場景,更吸睛的是PCIe AIC方案:單卡塞進(jìn)6顆HTX301芯片,配384GB內(nèi)存,功耗控制在240W。這個(gè)配置能本地運(yùn)行700B參數(shù)的大模型,對需要私有化部署的企業(yè)頗具吸引力。
數(shù)字背后的取舍值得玩味。384GB內(nèi)存對應(yīng)700B模型,意味著壓縮或量化在所難免;240W功耗相比動輒上千瓦的GPU集群,能效比是賣點(diǎn),但性能天花板同樣明顯。這不是要取代GPU,而是在推理流水線上切走特定環(huán)節(jié)。
大模型推理正在分層。預(yù)填充需要算力暴力,解碼階段更吃內(nèi)存帶寬——HTX301押注的正是這個(gè)結(jié)構(gòu)性機(jī)會。能否在英偉達(dá)生態(tài)的縫隙里找到位置,取決于實(shí)際延遲數(shù)據(jù)和軟件適配進(jìn)度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.