![]()
圖片來源:unsplash
今年以來,AI使用體驗的差異日益顯著。
都用最新的DeepSeek V4大模型輔助工作,為什么網上的大神像是請了個專家顧問,我卻像是找了個不那么“靈光”、事事都需要反復交代的小白實習生?
同樣是部署Agent,為什么有的人分分鐘搞定,我卻“卡”在bug里,不是模型參數不適配,就是協議與格式不兼容?
狠狠心“剁手”買上服務商的套餐,圖個方便、穩定,但為啥人家說99.9%可用,到我這問個問題要等好幾分鐘才回復?
出于“韭菜”的“自我修養”,不少人開始從自身找問題:是不是提示詞不夠好?是不是功能開發不到位?是不是該苦學上下文管理?……
雖然上述問題都很重要,但在這背后,更多的可能是一些行業“潛規則”在作祟。
“笨”模型背后的“貓膩”
“之前一個新模型發布時,我們給幾十家進行部署的服務商做了評測,發現一些服務商的模型明顯就很笨。調查之后才明白,有廠家為了節省成本,將原來FP8精度的模型,降級用INT4精度進行部署,效果自然打了折扣。而且,在這些服務商的報價單中,此類減配模型的關鍵指標往往都跟原廠模型長得一樣,而至關重要的精度信息則不寫入其中,缺少評測能力的購買者根本不知道自己買的不是原版。”
近日,清程極智聯合創始人師天麾博士在中科創星硬科技媒體行清程極智專場活動中,介紹了他所了解到的一些行業“亂象”。
上述現象也一定程度上解釋了為何同款大模型出現懸殊的使用體驗,以及在某些渠道、場景中明顯“降智”的情況。
問題指向的是隨著“Token經濟”爆發而愈發壯大的Token服務商。通常來講,其運營模式是在采購算力并部署好大模型后,將模型能力以按Token計費的形式對外售賣。
目前,國內Token服務商林立,除了自研模型的原廠外,轉售三方模型的云廠商、通過API代理賺取差價的代理商,都從事著相關業務。傳統電信運營商和專注模型部署調優的創業公司也都在積極入局。
但隨著行業規模不斷擴大,競爭愈發激烈,“坑”也越來越多,其中嚴重者無異于對購買者的“詐騙”。
師天麾稱,在Token還不像如今這么緊缺的時候,Token服務商會在價格上展開競爭。同樣的模型,報價有高有低,有的企業為節約成本,選了單價更低的服務商。但不少低價服務商在KV Cache命中率等方面存在明顯短板,耗費大量Token卻根本拿不到理想的結果,最終其總成本甚至比高單價版還高出好幾倍。
除了模型質量和價格,響應速度上也有“貓膩”。
在一些Token服務商提供的服務中,高達20%的請求會出現延遲異常,原本三五秒該返回的內容,硬是拖到幾十甚至幾百秒。師天麾以“慢響應”總結相關現象,而原本承諾“99.9%可用”的廠商,依然會將明顯異常的延遲界定為“可用”,影響用戶體驗。
在清華大學計算機系教授翟季冬給出的一組數據中,部分服務商的慢響應比例接近20%,這意味著其提供的1/5的服務都有問題。大多數服務商的慢響應問題比例也都高于1%,對于很多需要快速、穩定響應的場景而言,仍難令人滿意。
![]()
圖片來自翟季冬《Token服務評測與自動路由》
更為嚴峻的是,據師天麾的觀察,慢響應的問題并沒有隨著行業發展而得到解決,當前的情況反而比去年末今年初還嚴重。
而這,也成了當前Token產業迅猛發展,但供給側卻魚龍混雜、指標混亂、服務質量參差不齊的一個縮影。
Token大時代的隱憂
Token迎來了屬于自己的大時代,也帶來遠勝以往的沖擊。
師天麾對作者分析稱,包括慢響應等問題之所以愈發嚴重,本質上還是供需不平衡。
其中很重要的標志性事件,就是以“龍蝦OpenClaw”為代表的Agent大火。其帶來的最大區別,是個人的Token使用量大幅增長。
“去年普通人用AI,主要還是跟豆包、元寶聊個天,這不怎么燒Token。但‘龍蝦’出現后,又是多輪對話,又是長上下文,Token就燒得非常快。”他解釋稱。
用AI的人變多了,而AI Agent需要的Token也越來越多,這讓需求側迅速膨脹。二季度以來,此前連準確翻譯都難有共識的專業詞匯Token加速“破圈”,“Token短缺焦慮”“Token太貴”等頻頻引發熱議。
中信證券此前研報指出,今年4月OpenRouter平臺周度累計Token消耗量同比提升了7倍有余。而根據國家數據局統計,截至今年3月,中國日均Token調用量已突破140萬億,兩年增長1400倍,相較2025年底也高出至少40%。而今年3月,正是“龍蝦熱”在國內最為紅火的時候。
與此同時,供給側算力增長有限,遠遠跟不上需求增速,這不僅導致了模型和相關服務開始漲價,也讓前文所述“亂象”扎堆冒頭,部分服務商的Token服務質量不升反降,使用者則越來越容易“踩坑”。
4月中旬,OpenRouter統計的中國AI大模型周調用量曾連續下滑,并被美國反超,其中調用成本高、服務質量不穩定被視為重要影響因素。
雖然4月末DeepSeek V4發布并持續優惠、降價后,國產大模型調用量再次上升,但供需問題仍未得到實質性解決,Token服務質量亦未見明顯提升。AI產業顧自向前狂奔,而隱憂,仍然存在。
如何避坑?
行業正在想辦法。
在提升Token服務質量方面,目前的努力方向主要集中在“可視化”“透明化”上。
其中,第三方可構建智能路由實行統一調度;企業端可在現有API網關之上構建一層企業級AI網關;開發團隊也可自建評測與開源工具。行業中不乏相關案例,而核心都是讓Token的價格、效果更加透明可見。
師天麾所在的清程極智近期推出的AI Ping平臺屬于第一類。根據該公司給出的產品介紹,AI Ping是一站式大模型服務評測與API智能路由平臺,主要功能是信息匯總、客觀評測和智能路由。目前接入了30余家主流Token服務商和600余個大模型服務,監測的核心指標包括實時輸出延遲、吞吐、可靠性、價格等。
在測評之外,智能路由則負責Token的調度。該公司介紹稱,AI Ping能夠以統一API接口為用戶自動匹配最優服務商,完成一鍵調用。公司稱,相關功能目前能實現成本降低超37%,吞吐提升超90%,延遲降低超20%。
實際上,這讓相關平臺也能扮演Token服務商的角色。
師天麾對作者介紹稱,AI Ping既能服務于開發者,在To B端的營收也很可觀。長期來看,公司希望更加靠近中小企業和普通開發者,因為大廠往往有強大的評測和采購團隊,可以逐一測試幾十家服務商,但對其他群體來說則幾乎不可能做到,而這也成為了公司產品最能發揮作用的領域。
據悉,清程極智成立于2023年12月,是AI Infra領域初創公司,核心團隊來自清華大學計算機系高性能計算所,目前已完成天使輪、PreA、PreA+三輪融資,除中科創星、聯想創投等機構外,同為“清華系”的AI明星上市公司智譜亦參與投資。
在Token產業維度,該公司還強調,長期來看,解決供需問題還需聚焦國產算力、國產模型的發展、協同,解決諸如國產推理環節長期依賴海外引擎,難以充分釋放國產硬件性能等問題。這也與該公司另一項主要業務相關。該公司的赤兔推理引擎,即主打“完全自主研發的國產推理引擎”。公司聯合創始人唐適之稱,海外推理引擎用在國產算力上,如同“把西式烤面包的技術直接用來蒸饅頭”,其中必然存在不適配問題,影響最終效果。而國產推理引擎能在居中的AI Infra層解決問題,提升國產算力在模型部署中的效率和精度,從根上解決“模型變笨”等問題。
Token的“狂飆”仍在繼續,高盛此前預測,隨著Agent落地企業場景,預計2030年全球Token消耗量較2026年將增長24倍。
在這一背景下,提升服務質量,解決供需錯配也變得愈發重要。而對于眼前并不盡如人意的現狀來說,企業、開發者乃至普通用戶也需更多考慮如何“防騙”“避坑”。
綜合行業、機構觀點來看,無論是否使用智能路由、企業網關等工具,用戶都需注意識別公開標價背后的“真實成本陷阱”;避免盲目下單“無限量”套餐,陷入逆向選擇的被動地位;而“死磕”單一模型,不分級、分層、分場景使用,也容易既浪費錢又影響效果。
此外,對于企業來說,大額打包采購,但缺乏統一口徑和流程設計,讓各部門隨意調用的“粗放式”Token用法,也會導致諸多問題。長期來看,能更早建立起高效的Token經營體系,對于將AI轉化為真實的商業價值來說十分關鍵。
(作者|胡珈萌,編輯|楊林)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.