網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

端側(cè)算力的“奇點(diǎn)”時(shí)刻—需求，模型，芯片的三維共振

2026-05-19 11:17:35　來(lái)源: 華爾街見(jiàn)聞官方

上海舉報(bào)

分享至

端側(cè)算力的真正爆發(fā)可能不在手機(jī)和電腦上，而在會(huì)動(dòng)的機(jī)器人身上。

5月18日，國(guó)盛證券通信行業(yè)研究團(tuán)隊(duì)（分析師宋嘉吉、黃瀚、邵帥）發(fā)布深度研究報(bào)告，梳理了端側(cè)算力在需求、模型、芯片三個(gè)維度的最新進(jìn)展，并作出判斷：端側(cè)算力正走入"奇點(diǎn)"時(shí)刻。

這份報(bào)告的起點(diǎn)，是一次坦誠(chéng)的自我復(fù)盤。

兩年前，國(guó)盛證券曾發(fā)布端側(cè)算力深度報(bào)告，預(yù)判手機(jī)、PC等AI設(shè)備上的本地算力將迎來(lái)高速增長(zhǎng)。但現(xiàn)實(shí)是——這些設(shè)備上的AI功能，大多數(shù)仍依賴云端算力，端側(cè)算力并未如期放量。

端側(cè)算力（On-Device Computing / Edge Computing）是指直接在用戶終端設(shè)備（如智能手機(jī)、AI眼鏡、PC、智能家居、現(xiàn)在可能包括機(jī)器人等）上執(zhí)行的數(shù)據(jù)處理和計(jì)算能力，無(wú)需完全依賴遠(yuǎn)程云端服務(wù)器。

報(bào)告用兩句話總結(jié)了這段歷史："不要低估云端模型的能力邊界"，以及"需求不是憑空想象的"。

云端太強(qiáng)，傳統(tǒng)端側(cè)需求被"壓住了"

過(guò)去三年，云端大模型的進(jìn)化速度遠(yuǎn)超預(yù)期。

報(bào)告指出，隨著"超節(jié)點(diǎn)"、"PD分離"等云端算力架構(gòu)部署，云端模型在能力快速提升的同時(shí)，單位Token成本在加速降低。

以文生圖為例：三年前高通還在端側(cè)部署Stable Diffusion，端側(cè)只能生成512×512的底圖，邏輯性較差；而云端的GPT-4o、Nano Banana等模型已經(jīng)可以在10秒內(nèi)生成4K高分辨率圖像，且邏輯細(xì)節(jié)遠(yuǎn)勝端側(cè)。

原本支撐端側(cè)算力的三大理由——隱私性、低成本、低時(shí)延——也在云端的強(qiáng)勢(shì)進(jìn)化下逐一被動(dòng)搖。報(bào)告認(rèn)為，"隱私性"和"低成本"這兩個(gè)需求正在被證偽，真正站得住腳的，只剩下"低時(shí)延"這一個(gè)。

但這里說(shuō)的低時(shí)延，不是指人類等待AI回復(fù)的速度。騰訊混元T1模型的吐字速度已達(dá)60-80 token/秒，首字秒出，早已低于人類舒適反應(yīng)區(qū)間。

報(bào)告所說(shuō)的低時(shí)延，是設(shè)備對(duì)外部信號(hào)的內(nèi)生處理速度

人腦處理視覺(jué)-運(yùn)動(dòng)反應(yīng)約需180-200毫秒；而一個(gè)設(shè)備從接收信號(hào)、傳送云端解析、再傳回本地執(zhí)行，往往需要2-5秒以上——如果是圖片等多模態(tài)信號(hào)，還會(huì)更長(zhǎng)。

這就是云端算力無(wú)法觸及的盲區(qū)。報(bào)告用了一個(gè)類比：把人體神經(jīng)換成無(wú)線信號(hào)，把大腦換成云端算力，整個(gè)鏈路的穩(wěn)定性和延遲就會(huì)被無(wú)線拉長(zhǎng)。

需求在哪里？在會(huì)動(dòng)的機(jī)器人上

鎖定"低時(shí)延"這一核心命題后，真正的需求方向也隨之清晰：讓"類人終端"更像人。

分析師將當(dāng)前類人終端按智能程度分為四類：

第一類：攝像頭等感知硬件，需要處理更多路信號(hào)、更精細(xì)的識(shí)別模型
第二類：工具機(jī)器人（割草、泳池等），需要識(shí)別更多場(chǎng)景——比如割草機(jī)器人能識(shí)別寵物糞便、石頭、積雪、落葉，就能進(jìn)化為四季可用的"庭院機(jī)器人"
第三類：智能車，需要理解異形障礙物和極端復(fù)雜場(chǎng)景
第四類：人形機(jī)器人，需要實(shí)時(shí)理解物理世界并產(chǎn)生互動(dòng)，輸入涵蓋視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)，輸出是復(fù)雜肢體動(dòng)作

分析師核心判斷是：這一輪端側(cè)需求，不是資本市場(chǎng)的一廂情愿，而是來(lái)自"客戶需求增長(zhǎng)疊加行業(yè)能力進(jìn)化的閉環(huán)結(jié)果"——割草機(jī)器人、送餐機(jī)器人、無(wú)人汽車的普及，讓用戶在接受基礎(chǔ)功能的同時(shí)，也開(kāi)始提出更高要求。

模型三級(jí)跳：從“看圖識(shí)字”到“預(yù)判未來(lái)”

需求側(cè)的演進(jìn)，離不開(kāi)模型側(cè)的支撐。報(bào)告梳理了端側(cè)視覺(jué)模型的進(jìn)化路徑，邏輯清晰。

第一代：YOLO模型

大模型時(shí)代之前，機(jī)器視覺(jué)依賴CNN算法下的YOLO模型。其原理是把圖像劃分為網(wǎng)格，讓每個(gè)格子負(fù)責(zé)預(yù)測(cè)其中的物體——報(bào)告打了個(gè)比方：就像"一個(gè)經(jīng)驗(yàn)豐富的保安站在高處快速掃視人群，只要某個(gè)格子里大概率出現(xiàn)了'車'或者'人'的特征，它就立刻畫一個(gè)框圈出來(lái)"。快，但有硬傷：難以處理異形物體和3D畫面，也無(wú)法理解物品之間的邏輯關(guān)聯(lián)。

第二代：Vision Transformer（ViT）

大模型思路引入視覺(jué)領(lǐng)域后，ViT打開(kāi)了新天花板。它把圖像切成小方塊，像做閱讀理解一樣，思考每個(gè)碎片與全圖其他碎片的關(guān)系。報(bào)告的描述很形象："看到左上角的'貓耳朵'，它會(huì)立刻通過(guò)邏輯聯(lián)想到右下角的'貓尾巴'，即使它們隔得很遠(yuǎn)。"

ViT更消耗算力，這恰恰打通了端側(cè)算力升級(jí)的邏輯——更強(qiáng)的算力可以真正轉(zhuǎn)化為更強(qiáng)的能力，而不是"空有算力卻無(wú)法提升能力"。

第三代：VLM→VLA→世界模型

智能駕駛加速了這一演進(jìn)。

VLM（視覺(jué)-語(yǔ)言模型）：能看懂圖像并翻譯成語(yǔ)義信息，相當(dāng)于"坐在副駕的解說(shuō)員"，把路況變成機(jī)器能聽(tīng)懂的"情報(bào)"
VLA（視覺(jué)-語(yǔ)言-動(dòng)作模型）：在VLM基礎(chǔ)上加入"動(dòng)作"維度，直接從視覺(jué)感知輸出控制指令——"方向盤左打10度"、"油門踩下20%"，實(shí)現(xiàn)從眼睛直達(dá)手腳的端到端控制。英偉達(dá)已于近期發(fā)布開(kāi)源VLA模型Alpamayo
世界模型：更進(jìn)一步，引入預(yù)測(cè)機(jī)制，在執(zhí)行動(dòng)作前預(yù)演未來(lái)幾秒的多種情況，"通過(guò)生成未來(lái)的視頻畫面來(lái)評(píng)估風(fēng)險(xiǎn)，從而在無(wú)數(shù)個(gè)'平行宇宙'中選出最安全的那一條路去走"

機(jī)器人前沿：GEM模型

相比智能駕駛，讓機(jī)器人理解并與物理世界互動(dòng)的難度更高一個(gè)量級(jí)。智能車的目標(biāo)是"避免與外界互動(dòng)"，機(jī)器人則必須實(shí)時(shí)與外界產(chǎn)生物理和語(yǔ)言接觸。

報(bào)告認(rèn)為，GEM（Grounding Embedding Model）是解決這一難題的可能路徑之一。簡(jiǎn)單說(shuō)，它能把機(jī)器人的感知數(shù)據(jù)（攝像頭畫面、激光雷達(dá)點(diǎn)云）和高層指令（"把藍(lán)色的杯子遞給我"）映射到同一個(gè)特征空間，讓機(jī)器人即使沒(méi)見(jiàn)過(guò)某個(gè)物體，也能通過(guò)語(yǔ)義理解完成動(dòng)作。谷歌的RT-2模型已在探索這一方向，將圖像、動(dòng)作、語(yǔ)言全部token化來(lái)實(shí)現(xiàn)對(duì)齊。

報(bào)告指出，GEM模型當(dāng)前的主要痛點(diǎn)在于不同模態(tài)信號(hào)的對(duì)齊，以及災(zāi)難性遺忘、模態(tài)鴻溝等問(wèn)題，"不僅需要模型工程上的持續(xù)優(yōu)化，在未來(lái)執(zhí)行層面，也需要專門的算力芯片架構(gòu)進(jìn)行配合"。

芯片之爭(zhēng)：NPU遇到天花板，GPGPU向下滲透

模型需求確定了，芯片是最終落腳點(diǎn)。報(bào)告詳細(xì)分析了NPU與GPGPU兩條路線的優(yōu)劣。

NPU：從YOLO起家，遭遇架構(gòu)瓶頸

NPU的第一波放量來(lái)自YOLO模型——安防攝像頭、初級(jí)自主移動(dòng)機(jī)器人大量搭載NPU芯片。瑞芯微RK系列憑借性價(jià)比和低功耗成為主流選擇，其營(yíng)業(yè)收入從2016年的12.98億元增長(zhǎng)至2025年的44.02億元。

但進(jìn)入大模型時(shí)代，NPU遇到了架構(gòu)層面的硬約束：在掃地機(jī)器人等低功耗場(chǎng)景下，如果要運(yùn)行以ViT為基座的模型替代YOLO，算力需求將接近100TFLOPS。更關(guān)鍵的是，NPU缺少CUDA CORE，所有指令由CPU下發(fā)，而端側(cè)功耗和成本限制下無(wú)法使用高性能CPU——"一旦在較弱的CPU下掛在了過(guò)多的NPU核，用于AI任務(wù)的指令就會(huì)占據(jù)CPU所有的通信總線，從而使得設(shè)備宕機(jī)"。

當(dāng)前有兩條破局路徑：

高通躍龍IQ10：換裝更好的CPU和更大面積的NPU核，并融合部分GPU任務(wù)調(diào)度結(jié)構(gòu)
瑞芯微RK182x：采用3D-DRAM+協(xié)處理器雙軌并行，通過(guò)堆疊封裝加大NPU與存儲(chǔ)間的帶寬，同時(shí)將AI推理從主芯片解放出來(lái)，緩解總線擁堵

GPGPU：從云端繼承，生態(tài)優(yōu)勢(shì)放大

相比NPU，GPGPU的端側(cè)路徑更順滑。云端GPGPU本就是全功能芯片，走向端側(cè)只需按需縮減面積和核心數(shù)量，不存在NPU面臨的架構(gòu)改造難題。

英偉達(dá)智能駕駛業(yè)務(wù)收入從2021財(cái)年的5.36億美元增長(zhǎng)至2026財(cái)年的23.49億美元，Orin、Thor系列已推出覆蓋不同價(jià)位和算力段的產(chǎn)品線。

但GPGPU的核心優(yōu)勢(shì)不只是硬件，更在于生態(tài)。報(bào)告指出，大部分端側(cè)模型的預(yù)訓(xùn)練和微調(diào)都需要借助CUDA生態(tài)完成，"如果在端側(cè)使用GPGPU架構(gòu)的算力，那么無(wú)論是部署速度，部署效果都會(huì)遠(yuǎn)超需要轉(zhuǎn)譯的NPU環(huán)境"。同時(shí)，英偉達(dá)在FP4等低精度推理方面已有成熟方案，可以直接下放端側(cè)，而NPU則追趕艱難。

分析師的結(jié)論是：看好GPGPU架構(gòu)在端側(cè)滲透率持續(xù)提升。但英偉達(dá)高昂的售價(jià)注定其不會(huì)成為市場(chǎng)唯一選擇，這也為高通（通信+計(jì)算融合的SOC方案）和國(guó)內(nèi)芯片公司（以性價(jià)比切入下沉市場(chǎng)）留出了空間。

投資布局：芯片、模組、存儲(chǔ)三條線

分析師將端側(cè)算力的投資機(jī)會(huì)分為三個(gè)環(huán)節(jié)：

芯片：價(jià)值量提升最大的環(huán)節(jié)。關(guān)注NPU迭代與GPGPU向下滲透。報(bào)告特別指出，端側(cè)設(shè)備中算力成本占比將顯著提升，"這一邏輯與云端基建類似"。

模組：報(bào)告稱之為"旱澇保收的中間商"。端側(cè)算力客戶極度分散，模組公司承擔(dān)連接上游芯片和下游萬(wàn)千用戶的橋梁作用。無(wú)論哪種芯片路線最終勝出，模組廠商都能受益。在IoT時(shí)代已實(shí)現(xiàn)全球"東生西落"的中國(guó)模組公司，被認(rèn)為不會(huì)缺席這一輪增長(zhǎng)。

存儲(chǔ)：3D-DRAM是報(bào)告重點(diǎn)提及的新方向。端側(cè)芯片的推理能力同樣受內(nèi)存大小和帶寬制約，3D-DRAM通過(guò)將DRAM與NPU堆疊封裝，在低成本、低功耗前提下提升帶寬。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.