網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

用不起Token的我，成了AI時(shí)代的下沉市場(chǎng)人群

2026-04-23 07:36:18　來(lái)源: 刺猬公社

北京舉報(bào)

分享至

當(dāng)AI的好用程度對(duì)應(yīng)成一個(gè)個(gè)可以計(jì)價(jià)的Token，真正拉開(kāi)差距的，其實(shí)是如何使用它的人。

文丨黃依婷

編丨王閃

文章來(lái)源｜鏡相工作室(ID:shangyejingxiang）

2026年，人類在工作上最“奢侈”的消費(fèi)是什么？答案并不是買一部性能頂配的電腦，或是置辦幾身體面的行頭，而是能夠不受限制、不計(jì)成本地使用這個(gè)世界上最先進(jìn)的AI工具。

這意味著你不用為了控制成本，絞盡腦汁優(yōu)化提示詞，生怕彈出一句“今日免費(fèi)額度已用完”；也不用再三對(duì)比，舍不得累到心愛(ài)的Claude（由美國(guó)AI公司Anthropic開(kāi)發(fā)的大語(yǔ)言模型），只能把不那么重要的工作交給更便宜、更輕量的模型處理。

AI當(dāng)然好用，但每用一次都對(duì)應(yīng)著成本，Token（詞元）消耗量貴到你有點(diǎn)用不起了。斤斤計(jì)較、小心翼翼，成了如今AI“牛馬”們最真實(shí)的狀態(tài)。

這讓人想到了二十年前，撥號(hào)上網(wǎng)的時(shí)代。那時(shí)帶寬緊缺且昂貴，開(kāi)發(fā)者為了節(jié)約網(wǎng)站的帶寬消耗，盡可能壓縮圖片、精簡(jiǎn)代碼，幾乎不敢上傳視頻。像土豆網(wǎng)這樣的視頻領(lǐng)域創(chuàng)業(yè)公司是極少數(shù)，視頻所帶來(lái)的帶寬消耗成為網(wǎng)站運(yùn)營(yíng)的成本大頭。

昨日重現(xiàn)。

在AI產(chǎn)業(yè)鏈條上，算力像水一樣自上而下流動(dòng)。從上游的GPU（圖形處理器）和數(shù)據(jù)中心出發(fā)，經(jīng)由云廠商、模型廠商，被封裝成API（應(yīng)用程序編程接口）接口，最終流向開(kāi)發(fā)者和普通用戶，變成一次次具體的調(diào)用、一個(gè)個(gè)可以計(jì)價(jià)的Token。它看似無(wú)形，卻在每一個(gè)環(huán)節(jié)都對(duì)應(yīng)著清晰的成本，GPU折舊、電力消耗、高帶寬存儲(chǔ)，最終都會(huì)匯總成賬單。

現(xiàn)在，這條水管正在變得擁堵。一頭是需求在爆發(fā)，多模態(tài)、Agent（智能體）等復(fù)雜推理場(chǎng)景讓Token消耗量千倍增長(zhǎng)，另一頭則是供給仍未解綁，GPU、HBM（高帶寬存儲(chǔ)器）、電力和數(shù)據(jù)中心建設(shè)都存在物理極限，GPU利用率仍處于較低位置。聰明是有代價(jià)的，雖然爆發(fā)式增長(zhǎng)導(dǎo)致Token單價(jià)更便宜了，但調(diào)用它需要花的錢卻越來(lái)越多。

漲價(jià)逐級(jí)傳導(dǎo)。上游GPU有價(jià)無(wú)市、算力緊缺，中游云廠商率先調(diào)整價(jià)格，亞馬遜云、谷歌云、百度云、阿里云等，在過(guò)去一個(gè)季度相繼上調(diào)部分AI相關(guān)服務(wù)費(fèi)用，模型廠商也結(jié)束補(bǔ)貼周期，騰訊、阿里等接連停止免費(fèi)公測(cè)，提高API調(diào)用價(jià)格，其中，騰訊混元大模型最高漲價(jià)463%。

模型和應(yīng)用側(cè)的漲價(jià)，讓算力不再是獨(dú)屬巨頭競(jìng)爭(zhēng)中的抽象概念，它以Token的形式，給每個(gè)普通人也上了一堂付費(fèi)課。就像當(dāng)年的流量，以MB（手機(jī)上網(wǎng)流量單位）為單位計(jì)價(jià)，號(hào)主一不留神就會(huì)欠費(fèi)停機(jī)。

黃仁勛日前提出的“Token經(jīng)濟(jì)學(xué)”概念，認(rèn)為推理已成為AI最核心的工作負(fù)載，Token則是新的大宗商品——標(biāo)準(zhǔn)化、可計(jì)量、可交易。由此Token從模型訓(xùn)練的技術(shù)副產(chǎn)品，演變?yōu)轵?qū)動(dòng)數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素。

在黃仁勛看來(lái)，“Token”作為商品是有質(zhì)量的優(yōu)劣之分的。從免費(fèi)層到頂級(jí)層，每百萬(wàn)Token價(jià)格從0美元到150美元不等。低時(shí)延、高交互的Token（如實(shí)時(shí)對(duì)話、智能駕駛）需要昂貴算力，定價(jià)高；高吞吐、離線處理的Token（如大規(guī)模離線推理、批量數(shù)據(jù)處理）對(duì)時(shí)延不敏感，可以用便宜算力生產(chǎn)，定價(jià)低。

Token已經(jīng)作為“商品”產(chǎn)生價(jià)值分層了，那使用它的人呢？或許未來(lái)，“下沉市場(chǎng)”人群的定義，也不再僅限于能否消費(fèi)得起實(shí)體商品了。

AI使用者，被焦慮裹挾

“我難道不是尊貴的會(huì)員嗎？”3月11日晚，蘇玉看著電腦屏幕上跳出的彈窗，有點(diǎn)生氣。彈窗提示她，本周Token使用量已達(dá)到限額的90%，限額消耗完后將暫停相關(guān)模型的使用，直到下周限額更新。

蘇玉是某高校在讀博士研究生，最近在準(zhǔn)備畢業(yè)大論文。過(guò)去三年，谷歌旗下的Gemini、OpenAI旗下的ChatGPT，一直是她的最佳拍檔，她也是這兩個(gè)“AI長(zhǎng)工“的忠實(shí)訂閱用戶。今年2月中旬，Anthropic旗下的Claude也加入了她的隊(duì)伍，并很快成為她最信任的一個(gè)。

“Claude太好用了，工具屬性太強(qiáng)了。”蘇玉說(shuō)。她讓幾款A(yù)I應(yīng)用同時(shí)為她梳理、設(shè)計(jì)研究思路模型，ChatGPT給出的答案邏輯不夠嚴(yán)密，Gemini太過(guò)浮夸諂媚，只有Claude，像一位客觀專業(yè)的高級(jí)顧問(wèn)，逐字閱讀過(guò)客戶需求后，才輸出了一份真正可使用、有啟發(fā)的方案。

免費(fèi)使用半個(gè)多月后，蘇玉花費(fèi)大約180元人民幣開(kāi)通了Claude的月度會(huì)員。和Gemini、ChatGPT相比，Claude特殊的地方在于它對(duì)會(huì)員也設(shè)置了每日和每周Token消耗的限額。這其實(shí)能理解，根據(jù)全球知名的大模型盲測(cè)榜單LMArena，截至3月20日，Claude的主力模型Claude-Opus-4-6-thinking排名全球第一。

但蘇玉從未感受到如此直接的Token限制。第一次觸發(fā)Claude限額機(jī)制時(shí)是周三，“扎根理論”了解到一半就不能再調(diào)用了，那一刻她頗有一種“學(xué)術(shù)停滯”的無(wú)力感。習(xí)慣了Claude的輔助，她很難再回到最初做科研的狀態(tài)。她嘗試“手搓”，翻閱最原始的理論書籍，但效率極低，有些經(jīng)過(guò)翻譯的資料她也不完全相信，“最后我還是要等Claude恢復(fù)使用后復(fù)核一遍。”四天時(shí)間，她等得很煎熬。

Claude限用讓蘇玉異常焦慮。在一個(gè)周二，蘇玉發(fā)來(lái)一張Claude后臺(tái)截圖，上面顯示她本周的限額已經(jīng)使用了45%。“這周才過(guò)去不到兩天！我已經(jīng)用得很節(jié)省了，一天只討論一個(gè)論文選題，它就到限額了！”蘇玉情緒有點(diǎn)崩潰，誰(shuí)說(shuō)AI不能替代人類？這個(gè)AI已經(jīng)快比她的導(dǎo)師還難搞了。

●蘇玉的Claude后臺(tái)。圖源：受訪者

她已經(jīng)養(yǎng)成了提一個(gè)問(wèn)題就去看一眼后臺(tái)的習(xí)慣，生怕沒(méi)米下鍋。想起以前竟然還和Claude老師嘮閑嗑，讓它幫自己做PPT，她心里直罵自己浪費(fèi)。

這種對(duì)“好用的模型”的謹(jǐn)慎使用，正逐漸變得普遍。一位AI影視行業(yè)創(chuàng)業(yè)者告訴我，他所在團(tuán)隊(duì)在使用字節(jié)跳動(dòng)的AI視頻模型“即夢(mèng)”時(shí)，會(huì)同步接入其他多家模型廠商的API，“效果好的模型確實(shí)更貴，我們只能在不同模型之間切換，去平衡成本。”

不久前，即夢(mèng)下調(diào)會(huì)員積分額度，他一方面覺(jué)得很正常，“C端本來(lái)就在補(bǔ)貼，現(xiàn)在只是收回一部分”。但另一方面又為自己的處境擔(dān)心，嘆息“這下更用不起了”，AI成本上漲，有時(shí)候會(huì)直接卡住小創(chuàng)業(yè)者的生命線。

終端用戶為Token焦慮，模型廠商也在為算力成本焦慮。

談及Token調(diào)用量暴增的原因，中國(guó)工程院院士王堅(jiān)此前借用電力的發(fā)展做了類比，早期人工智能應(yīng)用就像是“點(diǎn)電燈”，消耗電量有限。而以O(shè)penClaw（智能體）為代表的新一代應(yīng)用，則像是開(kāi)啟了“空調(diào)”，需要耗費(fèi)的電力也越來(lái)越多。

不過(guò)，王堅(jiān)強(qiáng)調(diào)，這種增長(zhǎng)不僅意味著應(yīng)用普及，更意味著單體Token成本的下降。“如果電價(jià)不降，老百姓是用不起空調(diào)的。”

但相比早期一問(wèn)一答的簡(jiǎn)單調(diào)用，如今越來(lái)越多任務(wù)通過(guò)Agent完成。模型需要自行拆解問(wèn)題、調(diào)用工具、寫代碼、調(diào)試、再修正，一次看似簡(jiǎn)單的請(qǐng)求，背后往往對(duì)應(yīng)的是多輪推理和多次API調(diào)用，Token消耗呈指數(shù)級(jí)放大，雖然單價(jià)降低了，但總體所需要的算力成本更高昂了。

“模型變更大了，推理成本也相應(yīng)提高了，我們也希望把它回歸到正常的商業(yè)價(jià)值上。長(zhǎng)期靠低價(jià)競(jìng)爭(zhēng)，對(duì)整個(gè)行業(yè)發(fā)展并不利，這也是我們的一個(gè)考量。”智譜CEO張鵬說(shuō)。最近兩個(gè)月，智譜三次上調(diào)GLM（智譜研發(fā)的大語(yǔ)言模型）系列模型價(jià)格，部分模型價(jià)格已逼近國(guó)際頭部模型定價(jià)水平。

張鵬的另一個(gè)擔(dān)心是，“未來(lái)12個(gè)月面臨的最大問(wèn)題可能就是算力。所有的技術(shù)，包括智能體框架，讓很多人的創(chuàng)造力與效率提升了10倍。但前提條件是，大家能夠用得起來(lái)，不能因?yàn)樗懔Σ粔颍瑢?dǎo)致一個(gè)問(wèn)題讓Agent思考半天也不給我答案。”

流動(dòng)的算力，累加的成本

按照Claude的計(jì)算方式，100 Tokens大約相當(dāng)于75個(gè)英文單詞或50個(gè)漢字，而Token輸出的價(jià)格是輸入價(jià)格的五倍——這是一個(gè)最簡(jiǎn)單的換算方式。換言之，AI的每一個(gè)回答都要經(jīng)過(guò)深思熟慮，后臺(tái)思考、查詢、生成，乃至模型幻覺(jué)帶來(lái)的錯(cuò)誤消耗的Token，都會(huì)被計(jì)算在內(nèi)，最終變成真金白銀的賬單。

智能紀(jì)元AGI創(chuàng)始人林志佳算過(guò)一筆賬。他養(yǎng)了四個(gè)“龍蝦”，有本地部署的，也有云端部署的。以云端部署為例，他按月購(gòu)買了Coding Plan（AI編碼訂閱服務(wù)），大約30-40元人民幣，在3月還剩9天的時(shí)候，他的Token消耗量還不到套餐額度的10%——作為媒體人，他對(duì)Token的需求其實(shí)并不大。

但按照Token來(lái)計(jì)費(fèi)又不太劃算。“如果我只是每天早上九點(diǎn)讓它給我發(fā)條新聞，消耗的Tokens價(jià)格大概0.9元人民幣，30天大概二十多塊錢，已經(jīng)跟買Coding Plan的錢差不多了。有時(shí)候還有損耗、還有模型更新，光更新就可能要消耗三四塊錢的Tokens。”

在不同計(jì)費(fèi)方式之間權(quán)衡，幾乎成了高頻使用者的日常，而購(gòu)買Token花費(fèi)的一分一厘，最終都指向同一件事——算力，以及背后對(duì)應(yīng)的GPU折舊成本和數(shù)據(jù)中心的耗電。

GPU成了一切的起點(diǎn)，高端芯片的供給決定了整個(gè)系統(tǒng)的上限。“除了給部分客戶預(yù)留的備用機(jī)，其他基本都賣完了，一卡不剩。”優(yōu)刻得架構(gòu)技術(shù)中心副總經(jīng)理劉華說(shuō)。

GPU之下，還要搭建起數(shù)據(jù)中心、網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)——高速互聯(lián)、低延遲傳輸，這些都不是“即插即用”的標(biāo)準(zhǔn)件。劉華提到，僅網(wǎng)絡(luò)和存儲(chǔ)部分，成本就可能占到整體算力成本的20%左右。

再下一層，是模型廠商和API服務(wù)商。他們把大模型部署在這些基礎(chǔ)設(shè)施之上，封裝成標(biāo)準(zhǔn)化接口，供開(kāi)發(fā)者調(diào)用。近兩年，這幾層角色開(kāi)始出現(xiàn)重疊，云廠商既賣算力也提供模型API，逐漸成為連接GPU、模型和開(kāi)發(fā)者的中樞。

●算力是如何流動(dòng)的示意圖。圖源：AI生成

算力就這樣一層一層向下滲透，最新的變化是在產(chǎn)業(yè)的需求端。“以前AI大部分是To B在付費(fèi)，現(xiàn)在To C端付費(fèi)也越來(lái)越普及了。”林志佳說(shuō)。模型被封裝成API，入口被簡(jiǎn)化，使用門檻降低，個(gè)人開(kāi)發(fā)者甚至普通用戶，都可以直接調(diào)用底層算力。“現(xiàn)在基本上刷一刷社交平臺(tái)，大家就知道怎么用了。”

算力甚至出現(xiàn)零售化趨勢(shì)。2024年前后，一些云廠商開(kāi)始推出GPU“日卡”、輕量級(jí)云主機(jī)，甚至“一鍵部署”的體驗(yàn)產(chǎn)品。比如優(yōu)刻得面向“養(yǎng)蝦戶”推出的6.9元體驗(yàn)套餐，本質(zhì)上更像一張門票，把復(fù)雜的環(huán)境配置和算力調(diào)度打包好，讓用戶用極低成本試一次。“很多人其實(shí)是來(lái)‘排雷’或者嘗鮮的，”劉華說(shuō)，“大家都有點(diǎn)焦慮，怕落后。”

但門檻降低，并不意味著成本下降。在劉華看來(lái)，“用互聯(lián)網(wǎng)發(fā)展階段類比，現(xiàn)在的算力成本毫無(wú)疑問(wèn)還是在一個(gè)發(fā)展初期、很貴的階段。”正因?yàn)槿绱耍_(kāi)發(fā)者才會(huì)精打細(xì)算，平臺(tái)也不敢輕易放開(kāi)調(diào)用規(guī)模。

即便是頭部廠商也在做取舍。OpenAI此前關(guān)停視頻生成項(xiàng)目Sora，被不少業(yè)內(nèi)人士解讀為算力與投入產(chǎn)出之間的權(quán)衡，在資源有限的情況下，優(yōu)先集中到更核心的模型能力和業(yè)務(wù)上。阿里巴巴、騰訊、字節(jié)跳動(dòng)等互聯(lián)網(wǎng)大廠，近期對(duì)AI業(yè)務(wù)做的一系列調(diào)整，核心也是一種算力資源聚焦。

大家都正在意識(shí)到一件事：未來(lái)拼的不是算力規(guī)模，而是算力利用率。算力緊缺帶來(lái)的連鎖效應(yīng)，是AI時(shí)代一場(chǎng)漫長(zhǎng)的梅雨，每一個(gè)身處時(shí)代的人都會(huì)免不了潮濕。

算力流動(dòng)到末端發(fā)生了什么

蘇玉正在嘗試分配和調(diào)度算力資源。

她把不同模型分了層級(jí)：ChatGPT用來(lái)寫公文、整理簡(jiǎn)報(bào)，Gemini負(fù)責(zé)畫圖、處理語(yǔ)言細(xì)節(jié)，Claude則專門用在最核心的環(huán)節(jié)，比如研究框架、思路設(shè)計(jì)、長(zhǎng)文本分析。這樣能保證她的效率和錢包都效果最大化。

比如，她最近在處理一批訪談材料，會(huì)先讓Claude給出分析框架，再把這個(gè)框架“丟”給Gemini去做初始編碼。“我更相信Claude給的指導(dǎo)性的東西，但細(xì)節(jié)性的工作可以交給便宜一點(diǎn)的模型。”如果Claude不限額，她甚至?xí)Ｓ肎emini。

當(dāng)然，這并不是在給Claude打廣告，只是蘇玉認(rèn)為自己的需求更適用這一款應(yīng)用。好用的模型變得稀缺，而稀缺的資源只會(huì)被用在最關(guān)鍵的地方。

為了進(jìn)一步節(jié)省，很多用戶都和蘇玉一樣，開(kāi)始在細(xì)節(jié)上摳成本。

社交平臺(tái)上，一度流行起用文言文與AI對(duì)話，因?yàn)楦痰淖謹(jǐn)?shù)意味著更少的Token。也有人認(rèn)為，跟風(fēng)對(duì)AI說(shuō)“你好”“謝謝”，是否也是一種不必要的資源浪費(fèi)？畢竟，AI并不需要情緒價(jià)值。

其實(shí)很多浪費(fèi)并不在用戶可控范圍內(nèi)，有時(shí)是模型接入和運(yùn)行方式的問(wèn)題。

不久前，MiMo大模型團(tuán)隊(duì)負(fù)責(zé)人羅福莉提到，“我沒(méi)辦法嚴(yán)格計(jì)算第三方harness（駕馭）接入造成的損失，但我近距離看過(guò)OpenClaw的上下文管理，很糟糕。在單次用戶查詢里，它會(huì)觸發(fā)多輪低價(jià)值工具調(diào)用，每輪作為獨(dú)立API請(qǐng)求發(fā)出，每個(gè)請(qǐng)求攜帶的上下文窗口往往超過(guò) 100K Tokens。實(shí)際請(qǐng)求次數(shù)是Claude Code原生框架的數(shù)倍。折算成API定價(jià)，真實(shí)成本大概是訂閱價(jià)格的數(shù)十倍。”

回到使用問(wèn)題上，用戶主動(dòng)節(jié)省Token，平臺(tái)也不敢完全放開(kāi)用戶規(guī)模，這種基于節(jié)省成本的“束手束腳”，比如OpenAI正在面臨一種矛盾——其在2025年上半年創(chuàng)造了43億美元的收入，同期，該公司凈虧損高達(dá)135億美元，這意味著OpenAI每賺一美元，就會(huì)損失三美元。虧損的大頭正是對(duì)算力的投入。

在當(dāng)下，算力已經(jīng)不再只是有沒(méi)有的問(wèn)題，而是能不能持續(xù)用、能用到什么程度。當(dāng)AI足夠好用，人會(huì)圍繞它重新組織工作方式；當(dāng)Token變得昂貴而有限，這種新的組織方式本身也會(huì)被迫收縮。

如果未來(lái)算力無(wú)法真正像電力一樣普及，那么AI必然會(huì)引起分化，人與人之間的認(rèn)知差距會(huì)進(jìn)一步拉大。比如蘇玉，她并不打算把自己的AI使用方法完全分享給身邊人，如何和Claude老師交互、喂什么樣的語(yǔ)料，這是她的小秘密，短期內(nèi)也是她的競(jìng)爭(zhēng)力。

如果同事請(qǐng)她推薦好用的模型，她會(huì)強(qiáng)烈推薦Gemini和ChatGPT，“當(dāng)然，DeepSeek也是個(gè)好選擇”。蘇玉調(diào)皮地眨了眨眼。

在“一人公司（OPC）”“超級(jí)個(gè)體”逐漸流行的當(dāng)下，這樣的“小心機(jī)”并不罕見(jiàn)。當(dāng)AI的好用程度對(duì)應(yīng)成一個(gè)個(gè)可以計(jì)價(jià)的Token，真正拉開(kāi)差距的，其實(shí)是如何使用它的人。

（文中蘇玉為化名）

參考資料

智能涌現(xiàn)：《楊植麟/張鵬/夏立雪/羅福莉/黃超，談龍蝦，談“token經(jīng)濟(jì)學(xué)”》

每日經(jīng)濟(jì)新聞：《AI催生巨量token消耗、內(nèi)存硬件緊缺算力租賃熱潮下，運(yùn)營(yíng)商加碼布局液冷服務(wù)器》《智譜張鵬：當(dāng)模型足夠強(qiáng)，API本身就是最好的商業(yè)模式》

界面新聞：《智譜股價(jià)刷歷史新高，新一代模型再度提價(jià)10%》

深潮TechFlow：《token出海，將中國(guó)電力賣給全世界》

硅星人Pro：《羅福莉：各位醒醒吧，該結(jié)束token虛假狂歡了》

媒介合作聯(lián)系微信號(hào)|ciweimeijiejun

如需和我們交流可后臺(tái)回復(fù)“進(jìn)群”加社群

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.