![]()
五一假期后的第一個(gè)交易日,智譜和MiniMax都漲瘋了。
5月4日,智譜漲超10%,股價(jià)再次逼近千元關(guān)口,MiniMax大漲12.62%,報(bào)收803港元。
根據(jù)摩根士丹利的報(bào)告,股價(jià)暴漲的原因來(lái)自于中國(guó)AI獨(dú)有的“性?xún)r(jià)比敘事”。
摩根士丹利在報(bào)告《China‘s AI Path: More Bang For The Buck》中表示,在算力受到約束的前提下,中美頂尖模型的智能水平正在快速接近,差距已經(jīng)收窄到3到6個(gè)月。
同時(shí)報(bào)告指出,中國(guó)模型真正突出的地方,是能以美國(guó)同行15%到20%的推理成本,實(shí)現(xiàn)接近同等水平的智能。
這句話其實(shí)很好理解。大家不一定需要用最強(qiáng)的模型,但絕大多數(shù)人都想用便宜的模型。
市場(chǎng)買(mǎi)的不是一個(gè)簡(jiǎn)單的“國(guó)產(chǎn)替代”故事,而是中國(guó)AI正在把性?xún)r(jià)比轉(zhuǎn)化成真實(shí)調(diào)用量、真實(shí)收入和真實(shí)估值彈性。
但問(wèn)題也隨之而來(lái),這種性?xún)r(jià)比到底從哪里來(lái)?
如果只是低價(jià)獲客,那它很快會(huì)變成價(jià)格戰(zhàn)。
如果只是模型蒸餾,可現(xiàn)在Anthropic、OpenAI等企業(yè),均已關(guān)閉蒸餾的入口,那么評(píng)級(jí)不應(yīng)該下降嗎,怎么還調(diào)高了?
事實(shí)上,真正讓這個(gè)敘事變得更有說(shuō)服力的,是智譜在五一前發(fā)布的技術(shù)博客《Scaling Pain:超大規(guī)模Coding Agent推理實(shí)踐》。
這篇博客沒(méi)有講宏大的AGI愿景,而是把KV Cache、吞吐、調(diào)度、異常輸出這些底層工程攤開(kāi)給市場(chǎng)看。
最主要的是,它把中國(guó)AI性?xún)r(jià)比背后的秘密,給“捅破了”。
A
在這篇博客里,智譜大概講了怎么通過(guò)優(yōu)化緩存、調(diào)度和異常監(jiān)控,讓同樣的GPU能干更多活,出錯(cuò)更少。
智譜發(fā)現(xiàn),AI不好用不一定是模型不聰明,也可能是后臺(tái)運(yùn)行系統(tǒng)太亂。它修掉了緩存串?dāng)?shù)據(jù)的問(wèn)題,優(yōu)化了GPU調(diào)度和緩存復(fù)用,還加了一個(gè)能提前發(fā)現(xiàn)異常輸出的報(bào)警器。
結(jié)果就是,同樣的模型、同樣的GPU,可以服務(wù)更多用戶(hù),出錯(cuò)概率也更低。所以它的“性?xún)r(jià)比敘事”不是單純降價(jià),而是靠工程優(yōu)化,把每張GPU榨出了更多穩(wěn)定可用的算力。
經(jīng)過(guò)底層工程優(yōu)化,GLM-5系列在Coding Agent場(chǎng)景下的系統(tǒng)吞吐量最高提升132%,系統(tǒng)異常輸出率從大約萬(wàn)分之10,下降到了萬(wàn)分之3。
比如原來(lái)一張GPU,它原先一小時(shí)能服務(wù)100個(gè)任務(wù),現(xiàn)在經(jīng)過(guò)優(yōu)化后,最高可能服務(wù)232個(gè)任務(wù)。
每一項(xiàng)單獨(dú)看,都不足以決定勝負(fù)。但疊在一起,就是同等算力下多出來(lái)的一倍吞吐,和一個(gè)數(shù)量級(jí)以上的穩(wěn)定性提升。
模型沒(méi)有變。變的是模型被“用起來(lái)”的方式。
具體來(lái)講,自3月起,智譜在GLM-5的線上監(jiān)控和用戶(hù)反饋中觀察到三類(lèi)異常現(xiàn)象:亂碼、復(fù)讀、生僻字。這些現(xiàn)象在表面上與長(zhǎng)上下文場(chǎng)景下常見(jiàn)的“降智”相似。
但智譜團(tuán)隊(duì)沒(méi)有上線任何降低模型精度的優(yōu)化。那異常究竟源于模型本身,還是源于推理鏈路?
在反復(fù)分析推理日志后,他們找到了一個(gè)意想不到的切入點(diǎn):投機(jī)采樣指標(biāo)可以作為異常檢測(cè)的參考信號(hào)。
投機(jī)采樣原本只是一個(gè)性能優(yōu)化技術(shù)。先由草稿模型生成候選token,再由目標(biāo)模型校驗(yàn)并決定是否接受,從而在不改變最終輸出分布的前提下提升解碼效率。
就是讓小模型先快速生成一批答案,大模型再挑選正確的,這樣既快又準(zhǔn)。
智譜團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)異常發(fā)生時(shí),投機(jī)采樣的兩個(gè)指標(biāo)會(huì)呈現(xiàn)穩(wěn)定模式。于是他們把投機(jī)采樣從單純的性能優(yōu)化,擴(kuò)展為輸出質(zhì)量的實(shí)時(shí)監(jiān)控信號(hào)。
當(dāng)spec_accept_length持續(xù)低于1.4且生成長(zhǎng)度已超過(guò)128 token,或spec_accept_rate超過(guò)0.96時(shí),系統(tǒng)主動(dòng)中止當(dāng)前生成,把請(qǐng)求交給負(fù)載均衡器重試。
這兩個(gè)數(shù)字就像體檢指標(biāo),一旦異常就說(shuō)明模型“生病了”,需要重啟治療。
用戶(hù)雖然感知不到這個(gè)過(guò)程,但是后臺(tái)的確是完成了一次這樣的重啟。
異常的根因,是KV Cache復(fù)用沖突。
這就好比廚房,到了飯點(diǎn)的高峰期,很多人同時(shí)過(guò)來(lái)點(diǎn)單。
系統(tǒng)要臨時(shí)保存每個(gè)用戶(hù)的上下文,也就是KV Cache。這桌客人剛才點(diǎn)了什么、是要少放辣椒還是不吃香菜。一個(gè)兩個(gè)客人還好,一旦客人多了,服務(wù)員就容易記錯(cuò)。
![]()
高并發(fā)時(shí),某些緩存被回收、復(fù)用、讀取的順序亂了。結(jié)果模型拿錯(cuò)了上下文,就可能輸出亂碼、復(fù)讀、生僻字。
在推理引擎中,PD分離架構(gòu)下,請(qǐng)求生命周期與KV Cache回收與復(fù)用的時(shí)序之間存在不一致。并發(fā)壓力一大,沖突就被放大,表現(xiàn)在用戶(hù)端就是亂碼和復(fù)讀。
于是多個(gè)請(qǐng)求同時(shí)搶一塊內(nèi)存,結(jié)果數(shù)據(jù)亂了套,用戶(hù)看到的就是亂碼。
智譜團(tuán)隊(duì)定位了這個(gè)bug,也修復(fù)了它。
此外,他們還在主流開(kāi)源推理框架SGLang的源代碼層面發(fā)現(xiàn)并修復(fù)了HiCache模塊的加載時(shí)序缺失問(wèn)題,也就是read-before-ready。
修復(fù)方案通過(guò)Pull Request #22811提交給了SGLang社區(qū),并被采納。
SGLang是一個(gè)開(kāi)源項(xiàng)目,全稱(chēng)可以理解為一種面向大語(yǔ)言模型的推理/服務(wù)框架。它不是一個(gè)大模型,也不是一家AI公司,而是一套讓大模型高效運(yùn)行的基礎(chǔ)軟件。
智譜在使用SGLang這套開(kāi)源推理框架時(shí),發(fā)現(xiàn)了一個(gè)高并發(fā)緩存bug。
它沒(méi)有只在自己內(nèi)部修,智譜還把修復(fù)代碼提交給SGLang這個(gè)開(kāi)源項(xiàng)目。
項(xiàng)目維護(hù)者審核后接受并合并。于是,這個(gè)修復(fù)進(jìn)入了公共版本,其他使用SGLang的開(kāi)發(fā)者和公司之后也可以用到。
這什么意思呢?
如果千問(wèn)的某個(gè)部署鏈路用了SGLang+HiCache,那么阿里也會(huì)因?yàn)橹亲V發(fā)現(xiàn)并修復(fù)了這個(gè)問(wèn)題而受益。
還是剛才說(shuō)的那句話,模型是沒(méi)有變的,但通過(guò)工程優(yōu)化,讓它在用起來(lái)的時(shí)候更聰明了。
B
智譜這篇博客真正戳破的,是一個(gè)更深的層次。
Chatbot時(shí)代的便宜,很大程度上來(lái)自訓(xùn)練成本低,一部分訓(xùn)練集來(lái)自對(duì)頭部模型的蒸餾。
Agent時(shí)代,這招行不通了。
今年以來(lái),Anthropic和OpenAI陸續(xù)關(guān)閉了蒸餾入口,明確禁止用其模型輸出訓(xùn)練競(jìng)爭(zhēng)模型。靠蒸餾取巧的路,越來(lái)越窄。
但中國(guó)AI公司的性?xún)r(jià)比敘事并沒(méi)有弱下去,市場(chǎng)反而在為這個(gè)故事加碼。
原因在于,性?xún)r(jià)比的定義已經(jīng)變了。
Chatbot時(shí)代,平均上下文55K tokens,單次對(duì)話,低并發(fā)。
Agent時(shí)代,平均上下文70K+ tokens,長(zhǎng)時(shí)間任務(wù)(8小時(shí)級(jí)),高并發(fā)、高前綴復(fù)用。
Chatbot時(shí)代,AI性?xún)r(jià)比的計(jì)量單位很簡(jiǎn)單。同樣問(wèn)一個(gè)問(wèn)題,誰(shuí)的模型更便宜,誰(shuí)的回答更接近一線水平。
行業(yè)討論的是每百萬(wàn)token多少錢(qián)、模型參數(shù)多大、榜單成績(jī)高不高。
Agent時(shí)代,沒(méi)人問(wèn)這個(gè),這套算法失效了。
用戶(hù)買(mǎi)的不再是一句回答。他買(mǎi)的是一個(gè)完整任務(wù)的完成結(jié)果。
一個(gè)Coding Agent要讀代碼、理解上下文、規(guī)劃步驟、調(diào)用工具、修改文件、跑測(cè)試、失敗重試。它消耗的token不是一次問(wèn)答的增量,而是一個(gè)工作流的總賬。
OpenRouter作為全球最大的調(diào)用平臺(tái),它每周處理的token總量,從2026年1月第一周的6.4萬(wàn)億,漲到2月9日當(dāng)周的13萬(wàn)億,一個(gè)月翻了一倍。
OpenRouter官方的說(shuō)法是,100K到1M長(zhǎng)文本區(qū)間的增量調(diào)用需求,正是agent工作流的典型消耗場(chǎng)景。
大家使用AI的模式,已經(jīng)從“對(duì)話型”切換到了“流程型”。因此,AI性?xún)r(jià)比的單位,也從“token單價(jià)”變成了“任務(wù)單價(jià)”。
這就導(dǎo)致,有些模型它的token便宜,但是由于模型性能不行,進(jìn)行任務(wù)的過(guò)程中總是失敗,或者任務(wù)結(jié)果不達(dá)標(biāo),導(dǎo)致它的agent價(jià)格并不便宜。
比如說(shuō),一個(gè)8小時(shí)級(jí)別的Coding任務(wù),中途只要亂碼一次,整個(gè)工作流可能都要重來(lái)。節(jié)省下來(lái)的token單價(jià),補(bǔ)不回浪費(fèi)的時(shí)間。
中國(guó)AI的性?xún)r(jià)比敘事正在升級(jí)。
以前講的是“輸出相同水準(zhǔn)的答案,我更便宜”。現(xiàn)在講的是“同樣復(fù)雜的任務(wù),我能用更低成本跑完”。
開(kāi)源基礎(chǔ)設(shè)施也在成為中國(guó)AI的新護(hù)城河。
前文提到的SGLang就是如此。中國(guó)AI的工程能力,開(kāi)始向上游社區(qū)輻射。
這件事的價(jià)值不只在于智譜修了一個(gè)bug,而在于中國(guó)AI公司正在把真實(shí)業(yè)務(wù)里的高并發(fā)、長(zhǎng)上下文、agent調(diào)用問(wèn)題,反向沉淀成公共基礎(chǔ)設(shè)施的能力。
就像前文提到的,當(dāng)一個(gè)修復(fù)進(jìn)入SGLang這樣的開(kāi)源框架,它就不再只服務(wù)于智譜自己的模型。所有使用這套框架部署大模型的團(tuán)隊(duì),都有機(jī)會(huì)獲得更穩(wěn)定的緩存、更低的推理成本和更好的agent體驗(yàn)。
模型能力可以被追趕,價(jià)格可以被壓低,但基礎(chǔ)設(shè)施一旦進(jìn)入開(kāi)源生態(tài),就會(huì)變成標(biāo)準(zhǔn)、接口和開(kāi)發(fā)習(xí)慣。
誰(shuí)更早把自己的工程經(jīng)驗(yàn)寫(xiě)進(jìn)這些底層系統(tǒng),誰(shuí)就更容易在下一輪AI應(yīng)用爆發(fā)里占住位置。
C
回到資本市場(chǎng)。
AI大模型概念股全線走高,資本愿意給AI公司重新定價(jià)?市場(chǎng)買(mǎi)的到底是什么?
答案是,資本市場(chǎng)正在為“中國(guó)AI公司能用更低推理成本做出接近一線智能”的敘事買(mǎi)單。
還是以O(shè)penRouter的數(shù)據(jù)來(lái)說(shuō)。
中國(guó)頭部AI公司的token消耗份額,從2025年4月的5%快速攀升至2026年3月的32%。美國(guó)頭部模型份額,從58%大幅下滑至19%。
MiniMax、智譜、阿里的token使用量,在2026年2-3月較去年12月增長(zhǎng)4-6倍。
除了token調(diào)用以外,中國(guó)AI還在形成一套,完全不同于海外巨頭的增長(zhǎng)邏輯。
海外頭部模型在賣(mài)“能力溢價(jià)”。
模型能力越強(qiáng),單次調(diào)用越貴,用戶(hù)為最強(qiáng)智能付費(fèi)。Claude、GPT-5、Gemini都在往這個(gè)方向走。
中國(guó)AI在賣(mài)“工程”。
模型能力逼近一線模型,但是價(jià)格、延遲、調(diào)用門(mén)檻更低,更符合絕大多數(shù)高頻場(chǎng)景的需求。
摩根士丹利的報(bào)告里提到,中國(guó)模型的輸入價(jià)格約為0.3美元/百萬(wàn)token,部分海外同類(lèi)產(chǎn)品的價(jià)格在5美元左右。這中間是十幾倍的差距。
當(dāng)AI從嘗鮮工具變成生產(chǎn)力工具,性?xún)r(jià)比會(huì)直接決定調(diào)用頻次。
模型便宜一點(diǎn),企業(yè)就敢把更多客服、代碼、營(yíng)銷(xiāo)、數(shù)據(jù)分析任務(wù)交給它。任務(wù)跑得越多,token消耗越大,平臺(tái)越能攤薄基礎(chǔ)設(shè)施成本。
![]()
我認(rèn)為在這個(gè)環(huán)節(jié),它是有可能會(huì)形成一個(gè)飛輪的。
第一圈,是用更低的API價(jià)格和更接近一線的能力,去吸引開(kāi)發(fā)者和企業(yè)。
第二圈,更高的調(diào)用量會(huì)帶來(lái)更多真實(shí)場(chǎng)景,倒逼模型和推理系統(tǒng)繼續(xù)優(yōu)化。
第三圈,也就是智譜這篇技術(shù)博客里講到的,用工程優(yōu)化降低單位token和單位任務(wù)成本,讓廠商有能力繼續(xù)降價(jià)、漲量,或者在高價(jià)值場(chǎng)景里漲價(jià)。
第四圈,當(dāng)token消耗成為AI時(shí)代的新流量,誰(shuí)能以更低成本承載更多token,誰(shuí)就更接近下一階段的平臺(tái)型公司。
如果只是模型降價(jià),市場(chǎng)會(huì)擔(dān)心這是補(bǔ)貼和價(jià)格戰(zhàn),越來(lái)越燒錢(qián),總有人的錢(qián)包撐不住。
而且,價(jià)格戰(zhàn)撐不起高估值。
但如果降價(jià)背后是吞吐提升、緩存復(fù)用、異常率下降和調(diào)度效率提升,那么低價(jià)就不是犧牲利潤(rùn)換增長(zhǎng),而是工程能力釋放出來(lái)的成本空間。
價(jià)格戰(zhàn)和這種工程優(yōu)化的結(jié)果,雖然都是讓模型更便宜,而且在財(cái)報(bào)上看起來(lái)可能差不多。在估值模型里,差得很遠(yuǎn)。
前者是補(bǔ)貼,市場(chǎng)會(huì)折價(jià)。后者是工程壁壘,市場(chǎng)會(huì)溢價(jià)。
最后可以落到一個(gè)判斷。
過(guò)去AI公司的估值看模型能力上限,看誰(shuí)更接近AGI。當(dāng)時(shí)市場(chǎng)在為“最強(qiáng)智能”付費(fèi),最強(qiáng)智能的定義越來(lái)越模糊,單次調(diào)用越來(lái)越貴。
現(xiàn)在agent時(shí)代,估值還要看成本下限。看誰(shuí)能把智能穩(wěn)定、便宜、大規(guī)模地交付出去。
對(duì)于追求最尖端的“智能”,這可能不是中國(guó)AI擅長(zhǎng)的事情。
然而中國(guó)AI是最有可能把“智能”這兩個(gè)字,做成所有人和企業(yè)都用得起的基礎(chǔ)設(shè)施。
而市場(chǎng)只愿意為能說(shuō)清楚自己邏輯的公司付錢(qián)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.