![]()
大模型的“免費午餐”,終究還是到了要算賬的時刻。
4月8日凌晨,DeepSeek在客戶端與網頁版悄然上線了“快速模式(Fast)”與“專家模式(Expert)”兩個入口,同時小范圍灰度測試“視覺模式”。在許多圍觀者看來,這或許是為即將發布的新一代V4模型做預熱。
如果將視線拉寬,看看幾天前剛剛在年化收入上反超OpenAI的Anthropic,也出人意料地宣布封殺第三方自動化工具,你就會發現事情遠沒有“發新模型”那么簡單。
當“Token消耗量”曾被各大廠視為KPI瘋狂內卷時,巨頭們卻在此時默契地踩下剎車。這絕不僅是產品層面的微調,而是整個AI行業正在經歷一場極其殘酷的底層邏輯大洗牌。
被“算力饑渴”逼出的物理極限
拋開外界對新模型的狂熱猜測,DeepSeek此次分層設計的核心邏輯非常現實:用算力分流來“保命”。
![]()
明確的功能分工背后,是一套“按需調用”的調度機制——將日常對話交給低成本路徑處理,僅在處理復雜推理時啟用高算力的專家模式。這種對算力的精打細算,是被逼出來的。
免費模式曾經是大模型跑馬圈地的最強引擎,如今卻成了引爆系統危機的加速器。在需求端指數級膨脹的今天,供給端卻受限于芯片出口管制與高昂的硬件成本,根本無法同步擴容。
據統計,2026年開年以來,DeepSeek已遭遇至少7次大規模服務中斷,其中3月29日至30日的全局崩潰更是長達12個小時。在這種常態化的容量窘境下,分層設計不僅是為了減少無效Token消耗、緩解峰值壓力,更是為后續不可避免的限流與付費體系鋪設臺階。
不久前OpenAI下線Sora以聚焦核心服務,同樣印證了這個殘酷的現實:需求增速,已經遠遠擊穿了基礎設施的物理極限。
從粗放燒錢到工程自律
這種由Token膨脹帶來的算力焦慮,早已在全球頭部AI企業中蔓延,并促使他們對低效的資源消耗痛下殺手。
4月5日,Anthropic正式宣布其Claude訂閱服務將不再覆蓋包括“龍蝦”在內的第三方集成工具。這項決定的背后,是一筆不堪重負的經濟賬:原本基于個人正常使用強度設計的200美元訂閱制,在各類自動化代理工具的狂轟濫炸下徹底失效,重度用戶甚至能單月消耗掉價值5000美元的算力資源。
![]()
前DeepSeek核心成員、小米AI負責人羅福莉敏銳地指出了這一現象的本質,當前全球算力的供給速度,已經被Agent創造的Token需求增速遠遠甩在身后。截至今年3月,中國AI大模型日均Token調用量突破140萬億大關,較2024年初暴漲超千倍。這已經不是簡單的供需缺口,而是一個足以拖垮整個生態的成本“天坑”。
令人側目的是,盡管Anthropic在4月7日宣布其年化收入(ARR)僅用三個多月就實現了233%的爆發式增長,達到300億美元并正式反超OpenAI,但這家風頭正勁的公司依然在錙銖必較地算賬。
封殺第三方工具,正是為了讓效率低下的成本真實可見,從而倒逼整個開發者生態走向“工程自律”:去認真改進上下文管理、最大化緩存命中率,而不是一味依賴底層算力的無序堆砌。
AI回歸“重資產”商業本質
當算力供需矛盾疊加宏觀層面的制約,整個AI賽道正在經歷一場深刻的范式切換。房間里的大象已經無法被忽視:除了昂貴的算力芯片,電力危機也在持續施壓。
當前AI算力耗電占全社會用電量增速的高達46%,遠超整體6.1%的社會用電增長水平,電力彈性的不足已經成為大模型發展不可逾越的硬約束。在這種背景下,漲價與成本轉嫁成為心照不宣的行業共識。
此前阿里云與騰訊云已啟動最高達34%的算力漲價,實質上抹平了價格戰時期的優惠;而在4月8日,智譜在發布旗艦開源模型GLM-5.1之際,也再度提價10%。如果說過去兩年行業的關鍵詞是“規模”與“速度”,那么如今的絕對核心已經變成了“成本”。
行業開始出現明顯轉向:當AI開始賺錢,第一步不是賺得更多,而是少虧一點。無論是像OpenAI那樣激進迭代、用融資換空間,還是如Anthropic一般克制深耕、死磕工程優化,所有玩家都必須回答商業化造血的現實問題。
對于終端用戶而言,這也意味著慷慨的免費時代正在落幕。為了控制成本,企業會逐步收緊免費額度,模型回復也會變得更克制、更精簡,因為每一個被省下的Token,都是被重新分配的真金白銀。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.