![]()
復旦大學、哈佛大學和石溪大學的研究團隊,用AI和統計方法扒了22種語言幾百年的詞匯數據,發現了一個能跨語言通用的數學規律——這事兒還登上了《英國皇家學會學報B輯》,給語言演化研究打開了新大門。
研究用的核心工具叫“詞嵌入”,簡單說就是把每個詞變成300維空間里的一個坐標點。意思相近的詞,比如“開心”和“快樂”,就在空間里挨得近;意思差得遠的,比如“貓”和“火箭”,就離得十萬八千里。
這樣一來,語言就從看不見摸不著的東西,變成了能被數學精確測量的對象。
![]()
更有意思的還在后面。研究發現,新詞從來不是孤零零出現的,它們總是成群結隊地冒出來,在語義空間里形成新的聚集區。
真正讓研究團隊興奮的,是他們搞出來的那個數學模型。以前大家都知道齊普夫定律——極少數詞用得極頻繁,大多數詞很少用,但這只是單維度的統計。
這次研究把“累積優勢”(就是馬太效應,越流行的詞越被人用)和“馮·米塞斯-費舍爾分布”結合起來,居然能在300維空間和時間維度上,完美重現前面發現的所有規律!
更意外的是,生態學里的泰勒定律(描述生物種群密度的均值和方差關系),居然在詞匯的語義分布里也成立!這是泰勒定律第一次在語言學里被驗證,也說明語言演化和其他復雜系統(比如生態、城市)之間,可能藏著深層的共性。
這項研究的意義可不止語言學。想想看,音樂風格的變化、科學概念的傳播,會不會也遵循這套數學邏輯?
你平時有沒有注意到,最近哪些詞是扎堆出現的?比如前幾年的“內卷”“躺平”,或者現在的“AI生成”“大模型”?
這些新詞是不是也像研究里說的那樣,組團占領了我們的語義空間?評論區聊聊你的發現,看看大家能不能找到更多語言演化的小線索!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.