網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中國(guó)AI性?xún)r(jià)比奇高的秘密，被一篇博客捅破了

2026-05-07 17:09:28　來(lái)源: 字母榜

北京舉報(bào)

分享至

五一假期后的第一個(gè)交易日，智譜和MiniMax都漲瘋了。

5月4日，智譜漲超10%，股價(jià)再次逼近千元關(guān)口，MiniMax大漲12.62%，報(bào)收803港元。

根據(jù)摩根士丹利的報(bào)告，股價(jià)暴漲的原因來(lái)自于中國(guó)AI獨(dú)有的“性?xún)r(jià)比敘事”。

摩根士丹利在報(bào)告《China‘s AI Path: More Bang For The Buck》中表示，在算力受到約束的前提下，中美頂尖模型的智能水平正在快速接近，差距已經(jīng)收窄到3到6個(gè)月。

同時(shí)報(bào)告指出，中國(guó)模型真正突出的地方，是能以美國(guó)同行15%到20%的推理成本，實(shí)現(xiàn)接近同等水平的智能。

這句話其實(shí)很好理解。大家不一定需要用最強(qiáng)的模型，但絕大多數(shù)人都想用便宜的模型。

市場(chǎng)買(mǎi)的不是一個(gè)簡(jiǎn)單的“國(guó)產(chǎn)替代”故事，而是中國(guó)AI正在把性?xún)r(jià)比轉(zhuǎn)化成真實(shí)調(diào)用量、真實(shí)收入和真實(shí)估值彈性。

但問(wèn)題也隨之而來(lái)，這種性?xún)r(jià)比到底從哪里來(lái)？

如果只是低價(jià)獲客，那它很快會(huì)變成價(jià)格戰(zhàn)。

如果只是模型蒸餾，可現(xiàn)在Anthropic、OpenAI等企業(yè)，均已關(guān)閉蒸餾的入口，那么評(píng)級(jí)不應(yīng)該下降嗎，怎么還調(diào)高了？

事實(shí)上，真正讓這個(gè)敘事變得更有說(shuō)服力的，是智譜在五一前發(fā)布的技術(shù)博客《Scaling Pain：超大規(guī)模Coding Agent推理實(shí)踐》。

這篇博客沒(méi)有講宏大的AGI愿景，而是把KV Cache、吞吐、調(diào)度、異常輸出這些底層工程攤開(kāi)給市場(chǎng)看。

最主要的是，它把中國(guó)AI性?xún)r(jià)比背后的秘密，給“捅破了”。

在這篇博客里，智譜大概講了怎么通過(guò)優(yōu)化緩存、調(diào)度和異常監(jiān)控，讓同樣的GPU能干更多活，出錯(cuò)更少。

智譜發(fā)現(xiàn)，AI不好用不一定是模型不聰明，也可能是后臺(tái)運(yùn)行系統(tǒng)太亂。它修掉了緩存串?dāng)?shù)據(jù)的問(wèn)題，優(yōu)化了GPU調(diào)度和緩存復(fù)用，還加了一個(gè)能提前發(fā)現(xiàn)異常輸出的報(bào)警器。

結(jié)果就是，同樣的模型、同樣的GPU，可以服務(wù)更多用戶(hù)，出錯(cuò)概率也更低。所以它的“性?xún)r(jià)比敘事”不是單純降價(jià)，而是靠工程優(yōu)化，把每張GPU榨出了更多穩(wěn)定可用的算力。

經(jīng)過(guò)底層工程優(yōu)化，GLM-5系列在Coding Agent場(chǎng)景下的系統(tǒng)吞吐量最高提升132%，系統(tǒng)異常輸出率從大約萬(wàn)分之10，下降到了萬(wàn)分之3。

比如原來(lái)一張GPU，它原先一小時(shí)能服務(wù)100個(gè)任務(wù)，現(xiàn)在經(jīng)過(guò)優(yōu)化后，最高可能服務(wù)232個(gè)任務(wù)。

每一項(xiàng)單獨(dú)看，都不足以決定勝負(fù)。但疊在一起，就是同等算力下多出來(lái)的一倍吞吐，和一個(gè)數(shù)量級(jí)以上的穩(wěn)定性提升。

模型沒(méi)有變。變的是模型被“用起來(lái)”的方式。

具體來(lái)講，自3月起，智譜在GLM-5的線上監(jiān)控和用戶(hù)反饋中觀察到三類(lèi)異常現(xiàn)象：亂碼、復(fù)讀、生僻字。這些現(xiàn)象在表面上與長(zhǎng)上下文場(chǎng)景下常見(jiàn)的“降智”相似。

但智譜團(tuán)隊(duì)沒(méi)有上線任何降低模型精度的優(yōu)化。那異常究竟源于模型本身，還是源于推理鏈路？

在反復(fù)分析推理日志后，他們找到了一個(gè)意想不到的切入點(diǎn)：投機(jī)采樣指標(biāo)可以作為異常檢測(cè)的參考信號(hào)。

投機(jī)采樣原本只是一個(gè)性能優(yōu)化技術(shù)。先由草稿模型生成候選token，再由目標(biāo)模型校驗(yàn)并決定是否接受，從而在不改變最終輸出分布的前提下提升解碼效率。

就是讓小模型先快速生成一批答案，大模型再挑選正確的，這樣既快又準(zhǔn)。

智譜團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)異常發(fā)生時(shí)，投機(jī)采樣的兩個(gè)指標(biāo)會(huì)呈現(xiàn)穩(wěn)定模式。于是他們把投機(jī)采樣從單純的性能優(yōu)化，擴(kuò)展為輸出質(zhì)量的實(shí)時(shí)監(jiān)控信號(hào)。

當(dāng)spec_accept_length持續(xù)低于1.4且生成長(zhǎng)度已超過(guò)128 token，或spec_accept_rate超過(guò)0.96時(shí)，系統(tǒng)主動(dòng)中止當(dāng)前生成，把請(qǐng)求交給負(fù)載均衡器重試。

這兩個(gè)數(shù)字就像體檢指標(biāo)，一旦異常就說(shuō)明模型“生病了”，需要重啟治療。

用戶(hù)雖然感知不到這個(gè)過(guò)程，但是后臺(tái)的確是完成了一次這樣的重啟。

異常的根因，是KV Cache復(fù)用沖突。

這就好比廚房，到了飯點(diǎn)的高峰期，很多人同時(shí)過(guò)來(lái)點(diǎn)單。

系統(tǒng)要臨時(shí)保存每個(gè)用戶(hù)的上下文，也就是KV Cache。這桌客人剛才點(diǎn)了什么、是要少放辣椒還是不吃香菜。一個(gè)兩個(gè)客人還好，一旦客人多了，服務(wù)員就容易記錯(cuò)。

高并發(fā)時(shí)，某些緩存被回收、復(fù)用、讀取的順序亂了。結(jié)果模型拿錯(cuò)了上下文，就可能輸出亂碼、復(fù)讀、生僻字。

在推理引擎中，PD分離架構(gòu)下，請(qǐng)求生命周期與KV Cache回收與復(fù)用的時(shí)序之間存在不一致。并發(fā)壓力一大，沖突就被放大，表現(xiàn)在用戶(hù)端就是亂碼和復(fù)讀。

于是多個(gè)請(qǐng)求同時(shí)搶一塊內(nèi)存，結(jié)果數(shù)據(jù)亂了套，用戶(hù)看到的就是亂碼。

智譜團(tuán)隊(duì)定位了這個(gè)bug，也修復(fù)了它。

此外，他們還在主流開(kāi)源推理框架SGLang的源代碼層面發(fā)現(xiàn)并修復(fù)了HiCache模塊的加載時(shí)序缺失問(wèn)題，也就是read-before-ready。

修復(fù)方案通過(guò)Pull Request #22811提交給了SGLang社區(qū)，并被采納。

SGLang是一個(gè)開(kāi)源項(xiàng)目，全稱(chēng)可以理解為一種面向大語(yǔ)言模型的推理/服務(wù)框架。它不是一個(gè)大模型，也不是一家AI公司，而是一套讓大模型高效運(yùn)行的基礎(chǔ)軟件。

智譜在使用SGLang這套開(kāi)源推理框架時(shí)，發(fā)現(xiàn)了一個(gè)高并發(fā)緩存bug。

它沒(méi)有只在自己內(nèi)部修，智譜還把修復(fù)代碼提交給SGLang這個(gè)開(kāi)源項(xiàng)目。

項(xiàng)目維護(hù)者審核后接受并合并。于是，這個(gè)修復(fù)進(jìn)入了公共版本，其他使用SGLang的開(kāi)發(fā)者和公司之后也可以用到。

這什么意思呢？

如果千問(wèn)的某個(gè)部署鏈路用了SGLang+HiCache，那么阿里也會(huì)因?yàn)橹亲V發(fā)現(xiàn)并修復(fù)了這個(gè)問(wèn)題而受益。

還是剛才說(shuō)的那句話，模型是沒(méi)有變的，但通過(guò)工程優(yōu)化，讓它在用起來(lái)的時(shí)候更聰明了。

智譜這篇博客真正戳破的，是一個(gè)更深的層次。

Chatbot時(shí)代的便宜，很大程度上來(lái)自訓(xùn)練成本低，一部分訓(xùn)練集來(lái)自對(duì)頭部模型的蒸餾。

Agent時(shí)代，這招行不通了。

今年以來(lái)，Anthropic和OpenAI陸續(xù)關(guān)閉了蒸餾入口，明確禁止用其模型輸出訓(xùn)練競(jìng)爭(zhēng)模型。靠蒸餾取巧的路，越來(lái)越窄。

但中國(guó)AI公司的性?xún)r(jià)比敘事并沒(méi)有弱下去，市場(chǎng)反而在為這個(gè)故事加碼。

原因在于，性?xún)r(jià)比的定義已經(jīng)變了。

Chatbot時(shí)代，平均上下文55K tokens，單次對(duì)話，低并發(fā)。

Agent時(shí)代，平均上下文70K+ tokens，長(zhǎng)時(shí)間任務(wù)（8小時(shí)級(jí)），高并發(fā)、高前綴復(fù)用。

Chatbot時(shí)代，AI性?xún)r(jià)比的計(jì)量單位很簡(jiǎn)單。同樣問(wèn)一個(gè)問(wèn)題，誰(shuí)的模型更便宜，誰(shuí)的回答更接近一線水平。

行業(yè)討論的是每百萬(wàn)token多少錢(qián)、模型參數(shù)多大、榜單成績(jī)高不高。

Agent時(shí)代，沒(méi)人問(wèn)這個(gè)，這套算法失效了。

用戶(hù)買(mǎi)的不再是一句回答。他買(mǎi)的是一個(gè)完整任務(wù)的完成結(jié)果。

一個(gè)Coding Agent要讀代碼、理解上下文、規(guī)劃步驟、調(diào)用工具、修改文件、跑測(cè)試、失敗重試。它消耗的token不是一次問(wèn)答的增量，而是一個(gè)工作流的總賬。

OpenRouter作為全球最大的調(diào)用平臺(tái)，它每周處理的token總量，從2026年1月第一周的6.4萬(wàn)億，漲到2月9日當(dāng)周的13萬(wàn)億，一個(gè)月翻了一倍。

OpenRouter官方的說(shuō)法是，100K到1M長(zhǎng)文本區(qū)間的增量調(diào)用需求，正是agent工作流的典型消耗場(chǎng)景。

大家使用AI的模式，已經(jīng)從“對(duì)話型”切換到了“流程型”。因此，AI性?xún)r(jià)比的單位，也從“token單價(jià)”變成了“任務(wù)單價(jià)”。

這就導(dǎo)致，有些模型它的token便宜，但是由于模型性能不行，進(jìn)行任務(wù)的過(guò)程中總是失敗，或者任務(wù)結(jié)果不達(dá)標(biāo)，導(dǎo)致它的agent價(jià)格并不便宜。

比如說(shuō)，一個(gè)8小時(shí)級(jí)別的Coding任務(wù)，中途只要亂碼一次，整個(gè)工作流可能都要重來(lái)。節(jié)省下來(lái)的token單價(jià)，補(bǔ)不回浪費(fèi)的時(shí)間。

中國(guó)AI的性?xún)r(jià)比敘事正在升級(jí)。

以前講的是“輸出相同水準(zhǔn)的答案，我更便宜”。現(xiàn)在講的是“同樣復(fù)雜的任務(wù)，我能用更低成本跑完”。

開(kāi)源基礎(chǔ)設(shè)施也在成為中國(guó)AI的新護(hù)城河。

前文提到的SGLang就是如此。中國(guó)AI的工程能力，開(kāi)始向上游社區(qū)輻射。

這件事的價(jià)值不只在于智譜修了一個(gè)bug，而在于中國(guó)AI公司正在把真實(shí)業(yè)務(wù)里的高并發(fā)、長(zhǎng)上下文、agent調(diào)用問(wèn)題，反向沉淀成公共基礎(chǔ)設(shè)施的能力。

就像前文提到的，當(dāng)一個(gè)修復(fù)進(jìn)入SGLang這樣的開(kāi)源框架，它就不再只服務(wù)于智譜自己的模型。所有使用這套框架部署大模型的團(tuán)隊(duì)，都有機(jī)會(huì)獲得更穩(wěn)定的緩存、更低的推理成本和更好的agent體驗(yàn)。

模型能力可以被追趕，價(jià)格可以被壓低，但基礎(chǔ)設(shè)施一旦進(jìn)入開(kāi)源生態(tài)，就會(huì)變成標(biāo)準(zhǔn)、接口和開(kāi)發(fā)習(xí)慣。

誰(shuí)更早把自己的工程經(jīng)驗(yàn)寫(xiě)進(jìn)這些底層系統(tǒng)，誰(shuí)就更容易在下一輪AI應(yīng)用爆發(fā)里占住位置。

回到資本市場(chǎng)。

AI大模型概念股全線走高，資本愿意給AI公司重新定價(jià)？市場(chǎng)買(mǎi)的到底是什么？

答案是，資本市場(chǎng)正在為“中國(guó)AI公司能用更低推理成本做出接近一線智能”的敘事買(mǎi)單。

還是以O(shè)penRouter的數(shù)據(jù)來(lái)說(shuō)。

中國(guó)頭部AI公司的token消耗份額，從2025年4月的5%快速攀升至2026年3月的32%。美國(guó)頭部模型份額，從58%大幅下滑至19%。

MiniMax、智譜、阿里的token使用量，在2026年2-3月較去年12月增長(zhǎng)4-6倍。

除了token調(diào)用以外，中國(guó)AI還在形成一套，完全不同于海外巨頭的增長(zhǎng)邏輯。

海外頭部模型在賣(mài)“能力溢價(jià)”。

模型能力越強(qiáng)，單次調(diào)用越貴，用戶(hù)為最強(qiáng)智能付費(fèi)。Claude、GPT-5、Gemini都在往這個(gè)方向走。

中國(guó)AI在賣(mài)“工程”。

模型能力逼近一線模型，但是價(jià)格、延遲、調(diào)用門(mén)檻更低，更符合絕大多數(shù)高頻場(chǎng)景的需求。

摩根士丹利的報(bào)告里提到，中國(guó)模型的輸入價(jià)格約為0.3美元/百萬(wàn)token，部分海外同類(lèi)產(chǎn)品的價(jià)格在5美元左右。這中間是十幾倍的差距。

當(dāng)AI從嘗鮮工具變成生產(chǎn)力工具，性?xún)r(jià)比會(huì)直接決定調(diào)用頻次。

模型便宜一點(diǎn)，企業(yè)就敢把更多客服、代碼、營(yíng)銷(xiāo)、數(shù)據(jù)分析任務(wù)交給它。任務(wù)跑得越多，token消耗越大，平臺(tái)越能攤薄基礎(chǔ)設(shè)施成本。

我認(rèn)為在這個(gè)環(huán)節(jié)，它是有可能會(huì)形成一個(gè)飛輪的。

第一圈，是用更低的API價(jià)格和更接近一線的能力，去吸引開(kāi)發(fā)者和企業(yè)。

第二圈，更高的調(diào)用量會(huì)帶來(lái)更多真實(shí)場(chǎng)景，倒逼模型和推理系統(tǒng)繼續(xù)優(yōu)化。

第三圈，也就是智譜這篇技術(shù)博客里講到的，用工程優(yōu)化降低單位token和單位任務(wù)成本，讓廠商有能力繼續(xù)降價(jià)、漲量，或者在高價(jià)值場(chǎng)景里漲價(jià)。

第四圈，當(dāng)token消耗成為AI時(shí)代的新流量，誰(shuí)能以更低成本承載更多token，誰(shuí)就更接近下一階段的平臺(tái)型公司。

如果只是模型降價(jià)，市場(chǎng)會(huì)擔(dān)心這是補(bǔ)貼和價(jià)格戰(zhàn)，越來(lái)越燒錢(qián)，總有人的錢(qián)包撐不住。

而且，價(jià)格戰(zhàn)撐不起高估值。

但如果降價(jià)背后是吞吐提升、緩存復(fù)用、異常率下降和調(diào)度效率提升，那么低價(jià)就不是犧牲利潤(rùn)換增長(zhǎng)，而是工程能力釋放出來(lái)的成本空間。

價(jià)格戰(zhàn)和這種工程優(yōu)化的結(jié)果，雖然都是讓模型更便宜，而且在財(cái)報(bào)上看起來(lái)可能差不多。在估值模型里，差得很遠(yuǎn)。

前者是補(bǔ)貼，市場(chǎng)會(huì)折價(jià)。后者是工程壁壘，市場(chǎng)會(huì)溢價(jià)。

最后可以落到一個(gè)判斷。

過(guò)去AI公司的估值看模型能力上限，看誰(shuí)更接近AGI。當(dāng)時(shí)市場(chǎng)在為“最強(qiáng)智能”付費(fèi)，最強(qiáng)智能的定義越來(lái)越模糊，單次調(diào)用越來(lái)越貴。

現(xiàn)在agent時(shí)代，估值還要看成本下限。看誰(shuí)能把智能穩(wěn)定、便宜、大規(guī)模地交付出去。

對(duì)于追求最尖端的“智能”，這可能不是中國(guó)AI擅長(zhǎng)的事情。

然而中國(guó)AI是最有可能把“智能”這兩個(gè)字，做成所有人和企業(yè)都用得起的基礎(chǔ)設(shè)施。

而市場(chǎng)只愿意為能說(shuō)清楚自己邏輯的公司付錢(qián)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.