![]()
沒有高質量數據集,詞元產出的就是“劣質燃料”,無法支撐可靠的智能決策。
文|王雅迪
ID | BMR2004
在詞元(Token)經濟時代,高質量數據集已成為決定AI模型經濟價值與商業競爭力的核心戰略資源。它直接決定了模型生成詞元的精準度、可靠性及信息密度,優質數據能以更少的推理詞元實現更高效的決策與創造,顯著降低無效計算和錯誤輸出的成本;反之,低質量數據則會產生大量“垃圾詞元”,不僅浪費算力,更可能引發合規與安全風險。
作為專為政府、公共服務機構、大型集團企業提供數字經濟基礎設施的服務商,中國電子云依托其自主可控的云底座與數據要素化技術體系,構建高質量數據集的匯聚、清洗、標注、脫敏與合規審查一體化平臺,幫助政企客戶將分散的原始數據轉化為可流通、可計量的詞元資產。
中國電子云高級副總裁黃鋒在接受《商學院》雜志采訪時表示,沒有高質量數據集,詞元的產出就是“不夠優質的燃料”,無法支撐可靠的智能決策。在整體鏈條中,中國電子云承擔著“燃料精煉廠”的角色,通過高質量數據集的建設為AI提供優質燃料。
01
單位詞元含金量本質由數據質量決定
高質量數據集通過提升信息密度、降低模型幻覺、增強專業可靠性,讓相同詞元消耗承載更高決策價值與業務效用,直接提升單位詞元的有效產出。
詞元是AI模型生成與推理的基本單元,其含金量并非指詞元本身的長度或數量,而是指每個詞元在實際應用中所承載的有效信息量、決策精度和商業價值。高質量數據決定了模型在學習階段能夠提取到多少“有效知識密度”,而這一密度最終會映射到每個生成詞元的信息熵、置信度與決策價值上。
上海人工智能實驗室曾在書生·浦語3.0的研發中,提出了“思維密度”(IQPT,Intelligence Quality per Token)這一核心概念,將數據質量帶來的詞元效率提升進行了量化定義。
該研究團隊認為,數據質量的提升帶來的增益會顯著高于數據規模的提升,而數據的“思維密度”是數據質量的核心,即數據的思考過程中蘊含的邏輯性、復雜性、啟發性等。該團隊僅使用4T詞元的預訓練數據,即實現了主流開源模型18T數據的訓練效果,訓練成本節約75%以上。
黃鋒表示,在詞元經濟體系中,單位詞元含金量本質上由數據質量決定。高質量數據集通過提升信息密度、降低模型幻覺、增強專業可靠性,讓相同詞元消耗承載更高決策價值與業務效用,直接提升單位詞元的有效產出。反之,低質量數據會造成大量無效、冗余詞元,拉低整體價值。
如今,AI模型詞元定價已從2024年的價格戰階段全面轉入漲價周期,核心特征是輸出詞元貴于輸入詞元,輸出生成需逐字順序處理,計算成本遠高于可并行處理的輸入解析,因此輸出詞元價格通常是輸入的3—5倍。這一機制使單位詞元含金量不僅是性能指標,更成為直接影響企業運營成本的經濟杠桿。
因此,黃鋒認為,不同質量數據產出的詞元在定價與商業回報上應當分層區分。高質量數據成本更高、稀缺性更強,對應的詞元適配專業場景,具備高溢價;低質量數據產出的詞元僅適用于基礎場景,定價偏低。這種差異是AI商業化合理定價與可持續回報的核心邏輯。例如在醫療診斷場景中,經專業高質量數據訓練的模型,診斷準確率遠超基礎模型,其詞元價值遠高于通用模型,商業回報有較大差距。
隨著詞元成為分層定價的基礎商品,高質量數據集的價值將更緊密地與詞元產出效率、信息含金量掛鉤,形成“質量—效率—價值”的市場化定價關聯。
近日,根據全球知名大模型API調用平臺OpenRouter最新數據,3月30日—4月5日,中國AI大模型周調用量達12.96萬億詞元,環比暴漲31.48%,連續5周超越美國。同期美國調用量僅3.03萬億詞元,不及中國的四分之一。
這組數據說明,中國存在龐大的市場需求,為詞元工廠發展提供了廣闊的空間。同時,國產大模型在性價比方面表現突出,相較于國外一些知名模型,國產模型在滿足大多數應用場景需求的同時,能夠以更低的成本提供服務。
02
以技術與服務賦能行業高質量數據價值釋放
掌握了高質量數據集就等于掌握了AI時代的價值定價權。
“中國電子云主要專注提供多模態數據治理工具鏈與高質量數據集治理服務,助力客戶數據高質化,我們不直接出售高質量數據集,更多是以技術與服務賦能數據要素價值釋放。”黃鋒指出。
隨著AI應用加速向醫療、金融、司法等高價值領域滲透,數據集的完整性、時效性與專業性已不再是輔助性輸入,而是整個詞元價值鏈條的源頭質量閥,掌握了高質量數據集就等于掌握了AI時代的價值定價權。
黃鋒表示,原始數據如同“石油”,雖然蘊含價值,但由于數據質量、模態對齊等問題,無法直接驅動算法迭代,而高質量數據集與原始數據的核心區別在于,高質量數據集通過文本解析、關鍵信息提取、數據標準化、歸一化、去重等全流程加工,將原始數據轉化為AI ready的高價值、高密度、標準化數據集,可直接用于模型訓練,顯著提升模型效果與性能,正是“精煉石油”起到的效果。
中國電子云正像一個“燃料精煉廠”,通過高質量數據集建設為客戶構建完善AI能力的基礎環節。中國電子云2025年發布的“新星”全鏈路AI解決方案,正是從“高質量數據治理—模型開發—應用矩陣構建—全鏈路數據循環賦能”的閉環解決方案,核心邏輯是以高質量數據集為牽引和驅動,提升模型訓練的效果,讓基礎模型更懂行業知識,成為行業專家,從而構建對行業客戶更可用的AI應用矩陣。
此外,面對巨大的“燃料”需求,中國電子云構建了覆蓋高質量數據生產的全周期自動化工具鏈。中國電子云的全模態數據智能平臺覆蓋數據接入、清洗、解析、增強、標注、評估、版本管理及數據血緣全流程,支持結構化、半結構化與非結構化數據的統一納管。通過內置的智能標注與質量校驗算子,實現從原始數據到AI ready數據集的高效轉化,大幅降低人工干預成本。
同時,中國電子云通過統一湖倉架構集中納管同一業務域的不同模態數據,通過可信數據空間,安全、可靠地納管核心業務數據,并通過可信算法能力體系整合不同模態的數據,為模型訓練提供與客觀世界更貼合的特征空間庫,為Data for AI、數據可靠流通、高質量數據集構建等關鍵應用場景提供全棧能力。
03
打通數據融合的堵點
“有數據卻難用好、想共享卻難打通”的局面,一定程度上制約了詞元在關鍵場景的價值釋放。
在詞元經濟時代,只有被清晰界定的高質量數據,才能保證模型生成的每個詞元都承載高信息密度與低噪聲干擾,從而減少無效推理和錯誤傳播,提升詞元的邊際產出效率與商業可信度。
中國電子云將AI ready高質量數據集定義為:經過文本解析、關鍵信息提取、標準化、歸一化、去重等治理流程,可直接用于模型訓練并有效提升模型效果和性能的數據資產。
需要注意的是,在垂直行業尤其是公共數據領域,數據共享與融合面臨標準不統一、權屬界定模糊、安全合規門檻高、跨域互信機制缺失等多重挑戰,導致原本分散在各系統、各部門的高價值數據難以有效匯聚和協同利用,這種“有數據卻難用好、想共享卻難打通”的局面,一定程度上制約了詞元在關鍵場景的價值釋放。
此外,不同行業在評估維度上存在根本性差異,比如醫療領域強調數據隱私保護與高準確性,確保患者信息脫敏,同時要求標注精準、可追溯;能源領域側重設備時序數據的完整性、實時性與異常標注,關注傳感器數據的時間對齊、缺失值處理及故障類型標注,以支持預測性維護與能效優化;航空領域則要求飛行數據的高精度標注、故障模擬場景覆蓋及適航合規,對數據準確性、安全性和可解釋性有最高標準。
各個領域在數據敏感性、實時性要求及容錯標準上各有側重,中國電子云基于全模態數據智能平臺,針對這些差異化需求,提供完備的高質量數據治理工具鏈及高質量數據集治理服務。
以北京安貞醫院為例,其與中國電子云聯合研發的中西醫結合高血壓診療大模型,正是基于北京安貞醫院的權威臨床經驗與科研能力,以及多中心、多模態的大量回顧性醫學數據,利用中國電子云自主研發的云計算與人工智能產品與技術,對多源、異構的醫療數據進行系統化、標準化、后結構化處理,構建起高血壓高質量數據集和多中心亞組隊列,并訓練、測試、調優形成涵蓋個體化診療(診前、診中、診后)、全病程健康管理(主動管理、被動管理)的專病智能體。
該項目服務我國三級醫療服務體系,促進高血壓治療從“千人一方”走向“千人千策”,推動中國高血壓防控工作關口前移,最終實現“防大于治”。研發團隊透露,未來將繼續優化模型性能,深化知識庫在臨床場景中的應用,持續完善高血壓專病防治的技術支持體系。
黃鋒表示,當前推動關鍵行業數據共享與融合,最大的堵點在于數據安全、數據隱私的保障,以及信任機制的建立。在技術層面,中國電子云研發的模型融合方案已具備跨企業、數據不出域的聯合訓練能力,通過同步模型梯度而非交換原始數據,在數據嚴格隔離前提下實現價值流轉,解決了數據安全、隱私保護的問題。
04
放大公共數據資源價值
如何讓公共數據資源在合規安全的前提下充分發揮其蘊含的高價值,是中國電子云持續發力的方向。
《全國公共數據運營發展報告(2024—2025)》(以下簡稱《報告》)顯示,國家公共數據資源登記平臺于2025年3月1日正式上線,截至2025年6月30日,已有12個省級平臺與之互聯互通,全國已公示登記信息2808項,公共數據資源存儲總量超過932TB。登記資源已覆蓋60個行業類型,標志著我國在掌握公共數據資源底賬、規范授權運營方面邁出重要一步。
《報告》披露,公共數據授權運營平臺建設進入加速期。截至2025年6月30日,全國已公開運營或在建的平臺或專區達51個,其中68.63%集中在2024—2025年上線。
如何讓公共數據資源在合規安全的前提下充分發揮其蘊含的高價值,是中國電子云持續發力的方向。黃鋒認為,通過結合AI技術可以將公共數據資源價值放大,例如中國電子云基于各級部門發布的法律法規、管理辦法等政策性文件作為法規訓練集,正在訓練合規大模型,該大模型將用于其合同智能體。在公共數據授權運營過程中,如何提高數據源側的數據質量和穩定性,是實現公共數據資源變現的重要前提。
例如,中國電子云為中國東航構建了支撐AI應用落地的高質量數據集,全面覆蓋國產大飛機全領域管理需求,通過了某專業權威機構人工智能數據集質量最高等級(4級)評估,成為航空行業首家獲此殊榮的中央企業。
不過他同時指出,當前制度層面仍缺乏清晰的界定,涵蓋共享數據的產權問題、收益分配規則及合規免責機制等機制的缺失,是制約數據共享的關鍵因素;同時,在商業模式層面,企業間對數據貢獻價值難以量化,缺乏讓各方“愿共享、敢共享”的激勵與保障體系。
以金融行業為例,銀行、保險、證券等機構雖擁有海量客戶交易與信用數據,但出于對商業機密泄露和用戶隱私違規的擔憂,彼此間很難直接共享原始數據。即便聯合風控模型能顯著提升反欺詐能力,各方仍可能因缺乏可驗證的“互不窺探”技術承諾而止步不前。
醫療科研領域同樣如此,藥企希望整合多家醫院的患者診療數據以訓練新藥研發模型,但醫院既要遵守《個人信息保護法》對醫療敏感數據的嚴格約束,又無法確認合作方是否會在模型使用中泄露患者身份,導致大量寶貴的多中心臨床數據長期處于“不敢共享、不能共享”的狀態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.