本報訊最近,AI大模型用戶發現了一個有趣的現象:用中文與AI對話,成本似乎比英文更高。這種現象被戲稱為"中文稅"。究竟是怎么回事?
![]()
一"稅"驚人:中文真的更貴
據最新數據顯示,在Claude和GPT等主流大模型中,中文的token消耗量普遍高于英文。某些場景下,中文版本的token數量比英文版多出64%,這意味著用戶需要支付更多的費用才能完成同樣的任務。
![]()
但有意思的是,國產大模型的情況恰好相反。在Qwen和DeepSeek等模型中,中文反而比英文更省錢,token消耗量僅為英文的65%左右。
價格差異從何而來
這背后的原因在于大模型的"Tokenizer"(分詞器)技術。簡單來說,AI模型無法直接理解文字,需要通過分詞器將文字切割成標準化的小塊(token)來處理。每個token都是一筆費用。
![]()
英文分詞相對直觀,一個單詞通常算一個token。但中文面臨不同的處理邏輯:一些國際主流模型采用BPE算法,根據訓練語料頻率合并字符,而早期訓練數據以英文為主,導致中文字符被過度拆解;相比之下,國產模型從一開始就將常用漢字和詞組納入整詞編碼,效率更高。
古文更省?別高興太早
還有一個有趣的現象:文言文比現代漢語更省token。但記者發現,這其實是把"編碼成本"的節約轉嫁給了"推理成本"——字少了,但AI需要消耗更多算力來理解。
![]()
歷史巧合:部首的秘密
更深層的研究發現,早期模型將漢字拆成多個token時,模型反而能通過UTF-8編碼的字節序列學到漢字部首信息,提升語義理解能力。而當新一代模型將漢字編碼為整字token后,雖然成本降低了,卻也失去了這條意外的語義通道。
![]()
歷史回響:林語堂與中文打字機
這個現象在歷史上早有先例。1947年,著名作家林語堂發明"明快打字機",試圖將漢字高效嵌入西方打字機體系。他將漢字按部首拆解,用組合鍵定位字根,每分鐘可打40至50字。這種設計雖然商業上失敗了,卻為現代中文輸入法奠定了基礎。
![]()
正如歷史學家所言:"中文始終面對一個問題——如何接入一套為西方語言設計的基礎設施。"從打字機到大模型,中文與技術的融合之路,始終充滿了意想不到的巧合與代價。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.