端側(cè)算力的真正爆發(fā)可能不在手機(jī)和電腦上,而在會(huì)動(dòng)的機(jī)器人身上。
5月18日,國(guó)盛證券通信行業(yè)研究團(tuán)隊(duì)(分析師宋嘉吉、黃瀚、邵帥)發(fā)布深度研究報(bào)告,梳理了端側(cè)算力在需求、模型、芯片三個(gè)維度的最新進(jìn)展,并作出判斷:端側(cè)算力正走入"奇點(diǎn)"時(shí)刻。
這份報(bào)告的起點(diǎn),是一次坦誠(chéng)的自我復(fù)盤。
兩年前,國(guó)盛證券曾發(fā)布端側(cè)算力深度報(bào)告,預(yù)判手機(jī)、PC等AI設(shè)備上的本地算力將迎來(lái)高速增長(zhǎng)。但現(xiàn)實(shí)是——這些設(shè)備上的AI功能,大多數(shù)仍依賴云端算力,端側(cè)算力并未如期放量。
端側(cè)算力(On-Device Computing / Edge Computing)是指直接在用戶終端設(shè)備(如智能手機(jī)、AI眼鏡、PC、智能家居、現(xiàn)在可能包括機(jī)器人等)上執(zhí)行的數(shù)據(jù)處理和計(jì)算能力,無(wú)需完全依賴遠(yuǎn)程云端服務(wù)器。
報(bào)告用兩句話總結(jié)了這段歷史:"不要低估云端模型的能力邊界",以及"需求不是憑空想象的"。
云端太強(qiáng),傳統(tǒng)端側(cè)需求被"壓住了"
過(guò)去三年,云端大模型的進(jìn)化速度遠(yuǎn)超預(yù)期。
報(bào)告指出,隨著"超節(jié)點(diǎn)"、"PD分離"等云端算力架構(gòu)部署,云端模型在能力快速提升的同時(shí),單位Token成本在加速降低。
以文生圖為例:三年前高通還在端側(cè)部署Stable Diffusion,端側(cè)只能生成512×512的底圖,邏輯性較差;而云端的GPT-4o、Nano Banana等模型已經(jīng)可以在10秒內(nèi)生成4K高分辨率圖像,且邏輯細(xì)節(jié)遠(yuǎn)勝端側(cè)。
![]()
原本支撐端側(cè)算力的三大理由——隱私性、低成本、低時(shí)延——也在云端的強(qiáng)勢(shì)進(jìn)化下逐一被動(dòng)搖。報(bào)告認(rèn)為,"隱私性"和"低成本"這兩個(gè)需求正在被證偽,真正站得住腳的,只剩下"低時(shí)延"這一個(gè)。
但這里說(shuō)的低時(shí)延,不是指人類等待AI回復(fù)的速度。騰訊混元T1模型的吐字速度已達(dá)60-80 token/秒,首字秒出,早已低于人類舒適反應(yīng)區(qū)間。
報(bào)告所說(shuō)的低時(shí)延,是設(shè)備對(duì)外部信號(hào)的內(nèi)生處理速度
人腦處理視覺(jué)-運(yùn)動(dòng)反應(yīng)約需180-200毫秒;而一個(gè)設(shè)備從接收信號(hào)、傳送云端解析、再傳回本地執(zhí)行,往往需要2-5秒以上——如果是圖片等多模態(tài)信號(hào),還會(huì)更長(zhǎng)。
![]()
這就是云端算力無(wú)法觸及的盲區(qū)。報(bào)告用了一個(gè)類比:把人體神經(jīng)換成無(wú)線信號(hào),把大腦換成云端算力,整個(gè)鏈路的穩(wěn)定性和延遲就會(huì)被無(wú)線拉長(zhǎng)。
需求在哪里?在會(huì)動(dòng)的機(jī)器人上
鎖定"低時(shí)延"這一核心命題后,真正的需求方向也隨之清晰:讓"類人終端"更像人。
分析師將當(dāng)前類人終端按智能程度分為四類:
第一類:攝像頭等感知硬件,需要處理更多路信號(hào)、更精細(xì)的識(shí)別模型
第二類:工具機(jī)器人(割草、泳池等),需要識(shí)別更多場(chǎng)景——比如割草機(jī)器人能識(shí)別寵物糞便、石頭、積雪、落葉,就能進(jìn)化為四季可用的"庭院機(jī)器人"
第三類:智能車,需要理解異形障礙物和極端復(fù)雜場(chǎng)景
第四類:人形機(jī)器人,需要實(shí)時(shí)理解物理世界并產(chǎn)生互動(dòng),輸入涵蓋視覺(jué)、聽(tīng)覺(jué)、觸覺(jué),輸出是復(fù)雜肢體動(dòng)作
![]()
分析師核心判斷是:這一輪端側(cè)需求,不是資本市場(chǎng)的一廂情愿,而是來(lái)自"客戶需求增長(zhǎng)疊加行業(yè)能力進(jìn)化的閉環(huán)結(jié)果"——割草機(jī)器人、送餐機(jī)器人、無(wú)人汽車的普及,讓用戶在接受基礎(chǔ)功能的同時(shí),也開(kāi)始提出更高要求。
![]()
模型三級(jí)跳:從“看圖識(shí)字”到“預(yù)判未來(lái)”
需求側(cè)的演進(jìn),離不開(kāi)模型側(cè)的支撐。報(bào)告梳理了端側(cè)視覺(jué)模型的進(jìn)化路徑,邏輯清晰。
第一代:YOLO模型
大模型時(shí)代之前,機(jī)器視覺(jué)依賴CNN算法下的YOLO模型。其原理是把圖像劃分為網(wǎng)格,讓每個(gè)格子負(fù)責(zé)預(yù)測(cè)其中的物體——報(bào)告打了個(gè)比方:就像"一個(gè)經(jīng)驗(yàn)豐富的保安站在高處快速掃視人群,只要某個(gè)格子里大概率出現(xiàn)了'車'或者'人'的特征,它就立刻畫一個(gè)框圈出來(lái)"。快,但有硬傷:難以處理異形物體和3D畫面,也無(wú)法理解物品之間的邏輯關(guān)聯(lián)。
![]()
第二代:Vision Transformer(ViT)
大模型思路引入視覺(jué)領(lǐng)域后,ViT打開(kāi)了新天花板。它把圖像切成小方塊,像做閱讀理解一樣,思考每個(gè)碎片與全圖其他碎片的關(guān)系。報(bào)告的描述很形象:"看到左上角的'貓耳朵',它會(huì)立刻通過(guò)邏輯聯(lián)想到右下角的'貓尾巴',即使它們隔得很遠(yuǎn)。"
![]()
ViT更消耗算力,這恰恰打通了端側(cè)算力升級(jí)的邏輯——更強(qiáng)的算力可以真正轉(zhuǎn)化為更強(qiáng)的能力,而不是"空有算力卻無(wú)法提升能力"。
第三代:VLM→VLA→世界模型
智能駕駛加速了這一演進(jìn)。
VLM(視覺(jué)-語(yǔ)言模型):能看懂圖像并翻譯成語(yǔ)義信息,相當(dāng)于"坐在副駕的解說(shuō)員",把路況變成機(jī)器能聽(tīng)懂的"情報(bào)"
VLA(視覺(jué)-語(yǔ)言-動(dòng)作模型):在VLM基礎(chǔ)上加入"動(dòng)作"維度,直接從視覺(jué)感知輸出控制指令——"方向盤左打10度"、"油門踩下20%",實(shí)現(xiàn)從眼睛直達(dá)手腳的端到端控制。英偉達(dá)已于近期發(fā)布開(kāi)源VLA模型Alpamayo
世界模型:更進(jìn)一步,引入預(yù)測(cè)機(jī)制,在執(zhí)行動(dòng)作前預(yù)演未來(lái)幾秒的多種情況,"通過(guò)生成未來(lái)的視頻畫面來(lái)評(píng)估風(fēng)險(xiǎn),從而在無(wú)數(shù)個(gè)'平行宇宙'中選出最安全的那一條路去走"
![]()
機(jī)器人前沿:GEM模型
相比智能駕駛,讓機(jī)器人理解并與物理世界互動(dòng)的難度更高一個(gè)量級(jí)。智能車的目標(biāo)是"避免與外界互動(dòng)",機(jī)器人則必須實(shí)時(shí)與外界產(chǎn)生物理和語(yǔ)言接觸。
報(bào)告認(rèn)為,GEM(Grounding Embedding Model)是解決這一難題的可能路徑之一。簡(jiǎn)單說(shuō),它能把機(jī)器人的感知數(shù)據(jù)(攝像頭畫面、激光雷達(dá)點(diǎn)云)和高層指令("把藍(lán)色的杯子遞給我")映射到同一個(gè)特征空間,讓機(jī)器人即使沒(méi)見(jiàn)過(guò)某個(gè)物體,也能通過(guò)語(yǔ)義理解完成動(dòng)作。谷歌的RT-2模型已在探索這一方向,將圖像、動(dòng)作、語(yǔ)言全部token化來(lái)實(shí)現(xiàn)對(duì)齊。
![]()
報(bào)告指出,GEM模型當(dāng)前的主要痛點(diǎn)在于不同模態(tài)信號(hào)的對(duì)齊,以及災(zāi)難性遺忘、模態(tài)鴻溝等問(wèn)題,"不僅需要模型工程上的持續(xù)優(yōu)化,在未來(lái)執(zhí)行層面,也需要專門的算力芯片架構(gòu)進(jìn)行配合"。
芯片之爭(zhēng):NPU遇到天花板,GPGPU向下滲透
模型需求確定了,芯片是最終落腳點(diǎn)。報(bào)告詳細(xì)分析了NPU與GPGPU兩條路線的優(yōu)劣。
NPU:從YOLO起家,遭遇架構(gòu)瓶頸
NPU的第一波放量來(lái)自YOLO模型——安防攝像頭、初級(jí)自主移動(dòng)機(jī)器人大量搭載NPU芯片。瑞芯微RK系列憑借性價(jià)比和低功耗成為主流選擇,其營(yíng)業(yè)收入從2016年的12.98億元增長(zhǎng)至2025年的44.02億元。
![]()
但進(jìn)入大模型時(shí)代,NPU遇到了架構(gòu)層面的硬約束:在掃地機(jī)器人等低功耗場(chǎng)景下,如果要運(yùn)行以ViT為基座的模型替代YOLO,算力需求將接近100TFLOPS。更關(guān)鍵的是,NPU缺少CUDA CORE,所有指令由CPU下發(fā),而端側(cè)功耗和成本限制下無(wú)法使用高性能CPU——"一旦在較弱的CPU下掛在了過(guò)多的NPU核,用于AI任務(wù)的指令就會(huì)占據(jù)CPU所有的通信總線,從而使得設(shè)備宕機(jī)"。
當(dāng)前有兩條破局路徑:
高通躍龍IQ10:換裝更好的CPU和更大面積的NPU核,并融合部分GPU任務(wù)調(diào)度結(jié)構(gòu)
瑞芯微RK182x:采用3D-DRAM+協(xié)處理器雙軌并行,通過(guò)堆疊封裝加大NPU與存儲(chǔ)間的帶寬,同時(shí)將AI推理從主芯片解放出來(lái),緩解總線擁堵
![]()
GPGPU:從云端繼承,生態(tài)優(yōu)勢(shì)放大
相比NPU,GPGPU的端側(cè)路徑更順滑。云端GPGPU本就是全功能芯片,走向端側(cè)只需按需縮減面積和核心數(shù)量,不存在NPU面臨的架構(gòu)改造難題。
英偉達(dá)智能駕駛業(yè)務(wù)收入從2021財(cái)年的5.36億美元增長(zhǎng)至2026財(cái)年的23.49億美元,Orin、Thor系列已推出覆蓋不同價(jià)位和算力段的產(chǎn)品線。
![]()
但GPGPU的核心優(yōu)勢(shì)不只是硬件,更在于生態(tài)。報(bào)告指出,大部分端側(cè)模型的預(yù)訓(xùn)練和微調(diào)都需要借助CUDA生態(tài)完成,"如果在端側(cè)使用GPGPU架構(gòu)的算力,那么無(wú)論是部署速度,部署效果都會(huì)遠(yuǎn)超需要轉(zhuǎn)譯的NPU環(huán)境"。同時(shí),英偉達(dá)在FP4等低精度推理方面已有成熟方案,可以直接下放端側(cè),而NPU則追趕艱難。
![]()
分析師的結(jié)論是:看好GPGPU架構(gòu)在端側(cè)滲透率持續(xù)提升。但英偉達(dá)高昂的售價(jià)注定其不會(huì)成為市場(chǎng)唯一選擇,這也為高通(通信+計(jì)算融合的SOC方案)和國(guó)內(nèi)芯片公司(以性價(jià)比切入下沉市場(chǎng))留出了空間。
投資布局:芯片、模組、存儲(chǔ)三條線
分析師將端側(cè)算力的投資機(jī)會(huì)分為三個(gè)環(huán)節(jié):
芯片:價(jià)值量提升最大的環(huán)節(jié)。關(guān)注NPU迭代與GPGPU向下滲透。報(bào)告特別指出,端側(cè)設(shè)備中算力成本占比將顯著提升,"這一邏輯與云端基建類似"。
模組:報(bào)告稱之為"旱澇保收的中間商"。端側(cè)算力客戶極度分散,模組公司承擔(dān)連接上游芯片和下游萬(wàn)千用戶的橋梁作用。無(wú)論哪種芯片路線最終勝出,模組廠商都能受益。在IoT時(shí)代已實(shí)現(xiàn)全球"東生西落"的中國(guó)模組公司,被認(rèn)為不會(huì)缺席這一輪增長(zhǎng)。
存儲(chǔ):3D-DRAM是報(bào)告重點(diǎn)提及的新方向。端側(cè)芯片的推理能力同樣受內(nèi)存大小和帶寬制約,3D-DRAM通過(guò)將DRAM與NPU堆疊封裝,在低成本、低功耗前提下提升帶寬。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.