網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

PNAS：大語(yǔ)言模型生成社會(huì)數(shù)據(jù)的統(tǒng)計(jì)真實(shí)性評(píng)估

2026-05-09 14:36:24　來(lái)源: 集智俱樂(lè)部

北京舉報(bào)

分享至

導(dǎo)語(yǔ)

大語(yǔ)言模型能否替代真實(shí)的社會(huì)調(diào)查數(shù)據(jù)？一項(xiàng)2026年5月8日發(fā)表于 PNAS 的研究給出了系統(tǒng)地檢驗(yàn)。研究團(tuán)隊(duì)回歸社會(huì)科學(xué)調(diào)查研究的基本原則，提出對(duì)大語(yǔ)言模型生成數(shù)據(jù)的評(píng)估，應(yīng)借鑒代表性調(diào)查的邏輯：正如代表性樣本能夠得到接近總體統(tǒng)計(jì)矩的結(jié)果，LLM 生成數(shù)據(jù)的有效性也應(yīng)聚焦于其能否再現(xiàn)真實(shí)世界總體層面的統(tǒng)計(jì)規(guī)律。基于此，研究團(tuán)隊(duì)構(gòu)建了 SSDataBench 基準(zhǔn)測(cè)試，用 7 個(gè)真實(shí)社會(huì)調(diào)查數(shù)據(jù)集、15 個(gè)主流大語(yǔ)言模型，從五個(gè)維度系統(tǒng)評(píng)估了 LLM 生成社會(huì)科學(xué)數(shù)據(jù)的“統(tǒng)計(jì)真實(shí)性”（即合成數(shù)據(jù)能否復(fù)現(xiàn)真實(shí)人口的統(tǒng)計(jì)模式）。結(jié)果發(fā)現(xiàn)，即使是當(dāng)前最強(qiáng)的模型，平均通過(guò)率也僅為 30%。且通用大語(yǔ)言模型（general-purpose LLMs）整體性地暴露出三種系統(tǒng)性缺陷——壓縮異質(zhì)性、膨脹關(guān)聯(lián)性、坍縮生命軌跡。研究同時(shí)指出，領(lǐng)域微調(diào)可大幅提升總體層面統(tǒng)計(jì)真實(shí)性。

關(guān)鍵詞：統(tǒng)計(jì)真實(shí)性（Statistical Realism），大語(yǔ)言模型（LLM），社會(huì)調(diào)查數(shù)據(jù)（Survey Data），數(shù)字孿生（Digital Twin），基準(zhǔn)測(cè)試（Benchmark），人口模擬（Population Simulation）

任筱芃丨作者

趙思怡丨審校

論文題目：Evaluating the Statistical Realism of LLM-Generated Social Science Data 論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2538145123 發(fā)表時(shí)間：2026年5月8日論文來(lái)源：PNAS

不可能完美的抽樣

社會(huì)統(tǒng)計(jì)學(xué)家 Jerzy Neyman 將總體定義為“滿足特定定義但個(gè)體屬性各異的實(shí)體類(lèi)別” (Neyman, 1937)。如果個(gè)體的屬性各不相同，那么“異質(zhì)性”——即人與人之間的系統(tǒng)性差異——就不是數(shù)據(jù)的噪聲。好的數(shù)據(jù)采集方法的目標(biāo)不是消滅變異，而是如實(shí)地再現(xiàn)它。變異是人類(lèi)社會(huì)無(wú)法剝離的統(tǒng)計(jì)特征。收入不均、教育分化、健康差異、壽命分層如果被當(dāng)作數(shù)據(jù)的“噪聲”來(lái)消除，那么所得的數(shù)據(jù)對(duì)社會(huì)科學(xué)家而言將毫無(wú)意義，因?yàn)樯鐣?huì)科學(xué)要研究的恰恰就是這些差異本身。

近一個(gè)世紀(jì)后，大語(yǔ)言模型的發(fā)展似乎提供了一個(gè)非常方便的方法來(lái)補(bǔ)充甚至取代問(wèn)卷調(diào)查。給 GPT 系列模型一個(gè)人的性別、種族、年齡，它就能輸出這個(gè)人的收入、婚姻狀況、健康水平。聽(tīng)起來(lái)很方便。2023年的一項(xiàng)先驅(qū)性研究表明，GPT-3 生成的樣本在美國(guó)民意調(diào)查領(lǐng)域展現(xiàn)出了“顯著的保真度” (Argyle et al., 2023)。如果 LLM 真能生成足夠真實(shí)的人口數(shù)據(jù)，那么困擾社會(huì)科學(xué)幾十年的數(shù)據(jù)缺失、樣本流失、隱私約束、反事實(shí)不可觀測(cè)等問(wèn)題都將被代償。這一愿景非常誘人。但在真正投入使用之前，我們需要對(duì)大模型生成的社會(huì)學(xué)數(shù)據(jù)進(jìn)行全面評(píng)估。

過(guò)去對(duì) LLM 生成數(shù)據(jù)的評(píng)估幾乎全部聚焦于“個(gè)體層面的預(yù)測(cè)準(zhǔn)確率”，即模型能否猜對(duì)某個(gè)人的調(diào)查回答。社會(huì)科學(xué)家更關(guān)心的是這批合成數(shù)據(jù)能否復(fù)現(xiàn)真實(shí)人口的分布形態(tài)、變量關(guān)聯(lián)、結(jié)構(gòu)關(guān)系。就像抽樣調(diào)查的價(jià)值不在于每個(gè)受訪者是否“真實(shí)”，而在于樣本能否近似總體的統(tǒng)計(jì)矩 (Groves et al., 2011)——均值是否對(duì)、方差是否對(duì)、相關(guān)系數(shù)矩陣是否對(duì)、分布的偏度和峰度是否對(duì)。統(tǒng)計(jì)矩才是關(guān)鍵。

這項(xiàng)提交至 PNAS 的研究系統(tǒng)地將社會(huì)科學(xué)抽樣調(diào)查的底層邏輯應(yīng)用于 LLM 生成數(shù)據(jù)的評(píng)估。結(jié)果比預(yù)想的更令人不安。

研究背景與問(wèn)題

社會(huì)科學(xué)的數(shù)據(jù)困境

社會(huì)科學(xué)研究長(zhǎng)期受困于數(shù)據(jù)的五個(gè)根本性限制。關(guān)鍵變量（如財(cái)富、主觀幸福感、認(rèn)知能力）難以采集且常伴生測(cè)量誤差；縱向追蹤數(shù)據(jù)的時(shí)間跨度不足；幾乎所有調(diào)查數(shù)據(jù)都面臨拒訪和樣本流失導(dǎo)致的缺失值；隱私限制和機(jī)構(gòu)壁壘壓縮實(shí)證研究的空間；社會(huì)科學(xué)家永遠(yuǎn)無(wú)法直接觀測(cè)反事實(shí)結(jié)果(Holland, 1986)。

這是老問(wèn)題，因此 AI 生成數(shù)據(jù)被視為潛在的解決方案。近年的兩條主要研究脈絡(luò)分別是預(yù)測(cè)個(gè)體生命軌跡（如生育、教育、健康），以及開(kāi)發(fā)基于 LLM 的社會(huì)智能體來(lái)理解交互行為（如調(diào)查響應(yīng)、輿論極化）。但越來(lái)越多的證據(jù)表明，AI 生成數(shù)據(jù)無(wú)法代表真實(shí)人口，甚至可能產(chǎn)生有偏結(jié)論。早期研究發(fā)現(xiàn)語(yǔ)言模型往往未能完全反映代表性民意 (Santurkar et al., 2023)；更新的研究進(jìn)一步表明，現(xiàn)代 LLM 展現(xiàn)出強(qiáng)烈的、主題依賴的“機(jī)器偏見(jiàn)”和變異性降低 (Boelaert et al., 2025)。偏差無(wú)處不在。

現(xiàn)有評(píng)估實(shí)踐幾乎全部圍繞個(gè)體層面的預(yù)測(cè)準(zhǔn)確性展開(kāi)。但社會(huì)科學(xué)本質(zhì)上是人口科學(xué) (Goldthorpe, 2016)。即使擁有豐富的背景信息，研究者也很少能對(duì)個(gè)體結(jié)果做出精確預(yù)測(cè) (Lundberg et al., 2024)。個(gè)體層面的強(qiáng)預(yù)測(cè)性能不應(yīng)被視為有效性的核心標(biāo)準(zhǔn)。

SSDataBench

研究團(tuán)隊(duì)提出了 SSDataBench（SocialScienceDataBench），一個(gè)系統(tǒng)性的基準(zhǔn)測(cè)試框架。其核心創(chuàng)新在于將評(píng)估標(biāo)準(zhǔn)從“個(gè)體準(zhǔn)確率”轉(zhuǎn)向“人口層面的統(tǒng)計(jì)真實(shí)性”——即 LLM 生成的合成數(shù)據(jù)能否復(fù)現(xiàn)真實(shí)世界的統(tǒng)計(jì)模式。

五個(gè)評(píng)估維度

框架設(shè)計(jì)了五類(lèi)統(tǒng)計(jì)模式評(píng)估，覆蓋社會(huì)科學(xué)研究的核心需求。

第一類(lèi)，單變量分布（Type 1）。檢驗(yàn) LLM 能否復(fù)現(xiàn)各目標(biāo)變量的分布形態(tài)。例如，受教育水平的分布是否與真實(shí)人口一致。使用 Kolmogorov-Smirnov 檢驗(yàn)（數(shù)值型）和 Pearson 卡方檢驗(yàn)（類(lèi)別型）進(jìn)行評(píng)估。

第二類(lèi)，雙變量關(guān)聯(lián)（Type 2）。檢驗(yàn)變量對(duì)之間的關(guān)聯(lián)強(qiáng)度是否與真實(shí)數(shù)據(jù)一致。使用 Fisher z 檢驗(yàn)（數(shù)值×數(shù)值）、Delta-method z 檢驗(yàn)（類(lèi)別×類(lèi)別、類(lèi)別×數(shù)值）。

第三類(lèi)，多變量結(jié)果預(yù)測(cè)（Type 3）。以性別、種族、最高學(xué)歷（橫截面數(shù)據(jù)集還包括年齡）為協(xié)變量，以數(shù)值型目標(biāo)變量為結(jié)果，檢驗(yàn)回歸模型的 R2 是否一致。

第四類(lèi)，生命事件序列分布（Type 4）。檢驗(yàn)人生軌跡的排列順序分布是否與真實(shí)人口一致。例如“先結(jié)婚→后工作→再生育”這條路徑在真實(shí)數(shù)據(jù)中占比多少，在合成數(shù)據(jù)中是否被保留。

第五類(lèi)，生命事件序列與協(xié)變量的關(guān)聯(lián)（Type 5）。檢驗(yàn)人生軌跡與社會(huì)經(jīng)濟(jì)變量之間的關(guān)聯(lián)結(jié)構(gòu)是否被復(fù)現(xiàn)。

七大數(shù)據(jù)集

研究使用了 4 個(gè)縱向追蹤數(shù)據(jù)集和 3 個(gè)橫截面數(shù)據(jù)集，涵蓋六大社會(huì)領(lǐng)域：

模擬方法

對(duì)每個(gè)數(shù)據(jù)集，隨機(jī)抽取 1000 個(gè)真實(shí)個(gè)體，用其背景變量（性別、種族等）作為輸入條件，讓 15 個(gè) LLM 分別為每個(gè)個(gè)體生成一個(gè)“數(shù)字孿生”。合成數(shù)據(jù)集隨后與真實(shí)數(shù)據(jù)通過(guò)五類(lèi)統(tǒng)計(jì)檢驗(yàn)進(jìn)行對(duì)比。規(guī)模相當(dāng)可觀。

圖1：SSDataBench 基準(zhǔn)測(cè)試框架概覽。(a) 從數(shù)據(jù)準(zhǔn)備到模擬生成再到統(tǒng)計(jì)評(píng)估的完整流程。(b) 五類(lèi)統(tǒng)計(jì)模式的評(píng)估方法，每類(lèi)都通過(guò)假設(shè)檢驗(yàn)判斷 LLM 生成數(shù)據(jù)是否與真實(shí)數(shù)據(jù)存在顯著差異。

四種系統(tǒng)性缺陷

15 個(gè) LLM 在 7 個(gè)數(shù)據(jù)集、五類(lèi)統(tǒng)計(jì)模式上的平均通過(guò)率普遍很低。表現(xiàn)最好的 GPT-4 和 Llama-3.1 平均通過(guò)率也僅 0.30，表現(xiàn)最差的 Claude-4.5-Haiku 僅為 0.19。值得注意的是，五類(lèi)評(píng)估中存在清晰的梯度：分布類(lèi)測(cè)試（Type 1 單變量分布、Type 4 生命事件序列分布）通過(guò)率最低，而關(guān)聯(lián)類(lèi)測(cè)試（Type 2 雙變量關(guān)聯(lián)、Type 3 多變量預(yù)測(cè)、Type 5 軌跡-協(xié)變量關(guān)聯(lián)）通過(guò)率顯著更高。這意味著 LLM 捕捉變量間關(guān)聯(lián)結(jié)構(gòu)的能力強(qiáng)于復(fù)現(xiàn)完整分布的能力，即它們能大致理解“學(xué)歷與收入相關(guān)”，卻無(wú)法準(zhǔn)確再現(xiàn)“收入在人口中的具體分布形態(tài)”。在 NLSY 和 CFPS 等縱向數(shù)據(jù)集上，Type 4（生命事件序列分布）的通過(guò)率尤其慘淡，多數(shù)模型得分為 0。

圖2：15 個(gè) LLM 在 7 個(gè)數(shù)據(jù)集上的五類(lèi)統(tǒng)計(jì)模式通過(guò)率熱力圖。顏色越深表示通過(guò)率越高。Type 4（生命事件序列分布）大面積呈現(xiàn)白色（通過(guò)率為0），是最薄弱的環(huán)節(jié)。

缺陷一：壓縮異質(zhì)性

LLM 生成的數(shù)據(jù)在分布上趨向于集中，喪失了真實(shí)人口的多樣性。

以 Gemini-2.5-Flash 在 NLSY 上的案例為例，真實(shí)數(shù)據(jù)中“初婚年齡”呈現(xiàn)寬泛分布，但合成數(shù)據(jù)中的分布明顯向典型值坍縮。

自我評(píng)估記憶力的分布也呈現(xiàn)類(lèi)似模式——真實(shí)人口中存在從“極差”到“極好”的完整光譜，而 LLM 傾向于將大多數(shù)人的數(shù)據(jù)“生成”在中間值帶。

也就是說(shuō)中間態(tài)被過(guò)度代表了，兩端泯滅了。量化這一現(xiàn)象的工具是信息熵。類(lèi)別型變量的熵值對(duì)比顯示，合成數(shù)據(jù)的熵值系統(tǒng)性低于真實(shí)數(shù)據(jù)，意味著 LLM 在生成過(guò)程中丟失了變異信息。換言之，多樣性被吞噬了。

圖3：Gemini-2.5-Flash 在 NLSY 上的分布坍縮案例。

缺陷二：膨脹關(guān)聯(lián)性

LLM 不僅壓縮了分布，還膨脹了變量之間的關(guān)聯(lián)。

Cramér's V 統(tǒng)計(jì)量（衡量?jī)蓚€(gè)類(lèi)別變量之間關(guān)聯(lián)強(qiáng)度，范圍 0-1）在合成數(shù)據(jù)中系統(tǒng)性偏高。在真實(shí) NLSY 數(shù)據(jù)中，最高學(xué)歷與性別、職業(yè)、自評(píng)健康之間的關(guān)聯(lián)相對(duì)溫和，但在合成數(shù)據(jù)中，這些關(guān)聯(lián)被大幅放大。生成數(shù)據(jù)中許多變量對(duì)的 Cramér's V 超過(guò) 0.6，部分甚至接近 0.8 或 1，在真實(shí)項(xiàng)目應(yīng)用中就有可能高估現(xiàn)有知識(shí)、能力和判斷的準(zhǔn)確性，低估風(fēng)險(xiǎn)和不確定性。部分情況下，LLM 放大了真實(shí)世界中已存在的微弱關(guān)聯(lián)（如學(xué)歷與職業(yè)的關(guān)系）；另一些情況下，LLM 則憑空創(chuàng)造了真實(shí)數(shù)據(jù)中不存在的強(qiáng)關(guān)聯(lián)。無(wú)論哪種情況，其結(jié)果都是將復(fù)雜的社會(huì)現(xiàn)象簡(jiǎn)化為確定性的因果敘事——而使用者可能完全不知道生成數(shù)據(jù)中隱含了多少這種模式化的偏見(jiàn)。

從全局視角看，合成數(shù)據(jù)的 Cramér's V 分布整體右移——中位數(shù)高于真實(shí)數(shù)據(jù)，且出現(xiàn)大量高值聚集（>0.6），這在真實(shí)數(shù)據(jù)中幾乎不存在。這一現(xiàn)象在統(tǒng)計(jì)真實(shí)性較低的模型中尤為突出。更危險(xiǎn)的是這種刻板關(guān)聯(lián)的投射是隱性的，即使用者可能完全不知道生成數(shù)據(jù)中包含了多少先驗(yàn)偏見(jiàn)。

圖4：統(tǒng)計(jì)量在所有模型和數(shù)據(jù)集上的分布對(duì)比（箱線圖）。(b) Cramér's V——合成數(shù)據(jù)關(guān)聯(lián)偏強(qiáng)且高值聚集。

缺陷三：夸大可預(yù)測(cè)性

多變量回歸分析揭示了更深層的問(wèn)題。

當(dāng)以 Race、Gender、Highest Education 為自變量預(yù)測(cè)各類(lèi)結(jié)果變量時(shí)，合成數(shù)據(jù)的 R2 值遠(yuǎn)高于真實(shí)數(shù)據(jù)。以“30-40歲平均收入（對(duì)數(shù)）”為例：合成數(shù)據(jù)的回歸模型 R2 接近 0.6，意味著種族、性別和學(xué)歷“解釋”了 60% 以上的收入差異。但真實(shí)數(shù)據(jù)中，同樣的模型 R2 不到 0.1。

總之，LLM 們反而最終是在告訴我們僅憑種族、性別和學(xué)歷就能高度預(yù)測(cè)一個(gè)人的收入。這不是研究者得出的結(jié)論，而是模型輸出所投射的世界圖景，同時(shí)也是社會(huì)科學(xué)幾十年來(lái)試圖打破的刻板敘事。這種“過(guò)度可預(yù)測(cè)性”在統(tǒng)計(jì)真實(shí)性低的模型中尤為嚴(yán)重。許多合成數(shù)據(jù)的 R2 值超過(guò) 0.8，而真實(shí)數(shù)據(jù)中 R2 值普遍低于 0.2。

圖5：Gemini-2.5-Flash 在 NLSY 上的回歸模型 R2 對(duì)比——合成數(shù)據(jù)中預(yù)測(cè)力被嚴(yán)重夸大，尤其是收入預(yù)測(cè)。

缺陷四：類(lèi)型的坍縮

五類(lèi)評(píng)估中，Type 4（生命事件序列分布）的通過(guò)率最低。

LLM 生成的人生軌跡呈現(xiàn)嚴(yán)重的“坍縮”現(xiàn)象——多數(shù)虛擬個(gè)體的生命路徑被壓縮為極少數(shù)典型模式。人生被模板化了。以 NLSY 數(shù)據(jù)為例，真實(shí)人口中“初婚(M)→開(kāi)始工作(W)→初次生育(C)”三事件的排序存在六種可能組合，且分布相對(duì)分散。但生成數(shù)據(jù)中，絕大多數(shù)虛擬個(gè)體被推向了最“規(guī)范”的路徑——“先工作、再結(jié)婚、后生育” (W→M→C)，其他排列被嚴(yán)重低估。六條路只剩一條。

信息熵的對(duì)比展示了合成數(shù)據(jù)的軌跡熵值顯著低于真實(shí)數(shù)據(jù)。LLM 在訓(xùn)練過(guò)程中習(xí)得了“典型人生”的敘事模板——讀書(shū)、工作、結(jié)婚、生子。當(dāng)被要求生成虛擬人口時(shí)，它傾向于把所有人都推向這條“標(biāo)準(zhǔn)路徑”，就好像全世界的 80 億人都在遵循同一種人生劇本一樣。模板化。單一化。扁平化。

但真實(shí)人生不是模板，而且從我們對(duì)故事性的直覺(jué)來(lái)看，即使有這樣的模板我們也不喜歡。有人先有孩子再結(jié)婚，有人中途輟學(xué)后創(chuàng)業(yè)成功，有人一輩子未婚并將有限的生命投入無(wú)限地開(kāi)拓中。這些非典型但真實(shí)的人生軌跡，在 LLM 的輸出中幾乎消失了。真實(shí) NLSY 數(shù)據(jù)中存在相當(dāng)比例的非標(biāo)準(zhǔn)路徑，但在合成數(shù)據(jù)中這些排列被嚴(yán)重低估，多樣性急劇下降。

生命軌跡與協(xié)變量之間的關(guān)聯(lián)結(jié)構(gòu)同樣失真。下圖展示了 NLSY 中“初婚、開(kāi)始工作、初次生育”三事件序列與性別、最高學(xué)歷、移民狀態(tài)等變量之間的 Cramér's V。雖然 Type 5（軌跡-協(xié)變量關(guān)聯(lián)）不像 Type 2 那樣出現(xiàn)系統(tǒng)性膨脹，但偏差依然明顯。合成數(shù)據(jù)中大量關(guān)聯(lián)超過(guò) 0.5，而真實(shí)數(shù)據(jù)中幾乎沒(méi)有如此強(qiáng)的依賴。模型未能捕捉到性別、學(xué)歷、移民身份等變量對(duì)人生軌跡排序的關(guān)鍵影響。

圖6：Gemini-2.5-Flash 在 NLSY 上的生命事件序列分析。(e) 初婚(M)、開(kāi)始工作(W)、初次生育(C) 三事件的排序分布——合成數(shù)據(jù)嚴(yán)重偏向 W→M→C 路徑。(f) 完成教育(E)、開(kāi)始工作(W)、初次生育(C) 序列與協(xié)變量的 Cramér's V——偏差雖非系統(tǒng)性膨脹，但仍顯著偏離真實(shí)數(shù)據(jù)。

Scale不是答案

面對(duì)這些缺陷，一個(gè)順延的猜測(cè)是更大的模型、更新的版本，表現(xiàn)應(yīng)該更好。過(guò)去幾年，通過(guò)擴(kuò)大參數(shù)規(guī)模、延長(zhǎng)上下文窗口、增加訓(xùn)練數(shù)據(jù)，LLM 在幾乎所有標(biāo)準(zhǔn)能力基準(zhǔn)測(cè)試上都實(shí)現(xiàn)了持續(xù)躍升。無(wú)論是編程、數(shù)學(xué)推理、多語(yǔ)言翻譯、專(zhuān)業(yè)考試，模型家族內(nèi)的更新更大的版本幾乎總是碾壓舊版本。因此有理由期待統(tǒng)計(jì)真實(shí)性也會(huì)隨模型能力的提升而水漲船高。但數(shù)據(jù)否定了這個(gè)直覺(jué)。

模型容量與統(tǒng)計(jì)真實(shí)性之間并未呈現(xiàn)出預(yù)期的正向關(guān)聯(lián)。從 GPT-3.5-Turbo（平均通過(guò)率 0.28）到 GPT-5（0.20），性能不升反降。同一模型家族內(nèi)，新一代并不比上一代更好。Claude-3-Haiku (0.23)、Claude-3.5-Haiku (0.21)、Claude-4.5-Haiku (0.19) 三代遞減。這一模式表明，統(tǒng)計(jì)真實(shí)性的缺失可能不是暫時(shí)的能力不足，而是一個(gè)結(jié)構(gòu)性挑戰(zhàn)。

圖7：五類(lèi)統(tǒng)計(jì)量在所有模型和數(shù)據(jù)集上的分布對(duì)比（箱線圖）。每對(duì)箱線圖分別對(duì)應(yīng)真實(shí)數(shù)據(jù)（左）和合成數(shù)據(jù)（右）。(a) 類(lèi)別變量信息熵——合成數(shù)據(jù)系統(tǒng)性偏低。(b) Cramér's V——合成數(shù)據(jù)關(guān)聯(lián)偏強(qiáng)且高值聚集。(c) R2——合成數(shù)據(jù)預(yù)測(cè)力系統(tǒng)性偏高。(d) 生命事件序列信息熵——合成數(shù)據(jù)軌跡多樣性顯著不足。(e) 軌跡-協(xié)變量 Cramér's V——合成數(shù)據(jù)仍存在偏差。

原因有二。在模型層面，LLM 的訓(xùn)練目標(biāo)優(yōu)化的是逐例預(yù)測(cè)準(zhǔn)確性（case-wise prediction accuracy），而非跨多例的分布保真度（distributional fidelity）。準(zhǔn)確性導(dǎo)向的目標(biāo)甚至?xí)糯箢?lèi)型化傾向——模型傾向于為每個(gè)輸入給出“最可能”的答案，而真實(shí)人口需要的恰恰是變異。在數(shù)據(jù)層面，大量豐富的社會(huì)科學(xué)數(shù)據(jù)以表格等量化格式存儲(chǔ)和流通，而非自然語(yǔ)言。現(xiàn)有 LLM 難以從文本語(yǔ)料中內(nèi)化這些結(jié)構(gòu)化信息。

這意味著，改善統(tǒng)計(jì)真實(shí)性不能依賴單純擴(kuò)大模型規(guī)模，而需要針對(duì)性的方法。

通往更好統(tǒng)計(jì)真實(shí)性的路徑三條改善路徑

更豐富的輸入有可能改善生成的結(jié)果。輔助實(shí)驗(yàn)表明，當(dāng)從輸入條件中移除性別和種族等背景變量時(shí)，統(tǒng)計(jì)真實(shí)性普遍惡化。在 Add Health 和 U.S. Census 兩個(gè)數(shù)據(jù)集上測(cè)試的研究使用了 GPT-4o、Gemini-2.5-Flash、Llama-3.1 三個(gè)模型，發(fā)現(xiàn)移除 Gender 和 Race 后所有模型的統(tǒng)計(jì)真實(shí)性均出現(xiàn)下降 (Xie et al., 2025)。這意味著，提供更豐富的輸入信息是改善合成數(shù)據(jù)質(zhì)量的有效策略。在數(shù)據(jù)采集環(huán)節(jié)投入更多成本，直接反映在模擬結(jié)果的統(tǒng)計(jì)保真度上。研究者應(yīng)當(dāng)盡可能詳盡地提供人口學(xué)和社會(huì)經(jīng)濟(jì)背景信息，而非僅用最少的變量組合。

情境條件有可能約束輸出。正如 American Voices Project 所倡導(dǎo)的，質(zhì)性數(shù)據(jù)能夠捕捉量化調(diào)查難以測(cè)量的生活經(jīng)驗(yàn)和社會(huì)情境 (Edin et al., 2024)。將訪談文本作為 LLM 的輸入，可能提供比結(jié)構(gòu)化變量更深的“錨定”。從人口統(tǒng)計(jì)數(shù)字轉(zhuǎn)向有溫度的生活敘事，從變量到故事，從表格到口述歷史，這些更貼近人的數(shù)據(jù)可能是未來(lái)模型上下文能力提升后值得嘗試的。LLM 在處理非結(jié)構(gòu)化文本方面天然具有優(yōu)勢(shì) (Verhagen et al., 2025)。如果一個(gè)數(shù)字孿生不僅知道“這位受訪者是 35 歲的非裔美國(guó)女性、高中學(xué)歷”，還能讀到她關(guān)于成長(zhǎng)經(jīng)歷的口述歷史文本，模型就有可能生成更貼近真實(shí)變異的模擬結(jié)果。這恰好是 LLM 區(qū)別于傳統(tǒng)統(tǒng)計(jì)模型的核心能力。

微調(diào)是目前在工程實(shí)踐中最有可能被用上的。這是三條路徑中目前驗(yàn)證最充分的一條。研究團(tuán)隊(duì)用 CPS-ASEC (1970) 的 1000 個(gè)樣本對(duì) Llama-3.1 (8B) 進(jìn)行微調(diào)，然后在三個(gè)完全不同的數(shù)據(jù)集上評(píng)估泛化能力。

圖8：Llama-3.1 (8B) 在 CPS-ASEC (1970) 上微調(diào)前后的通過(guò)率對(duì)比。微調(diào)在三個(gè)未見(jiàn)數(shù)據(jù)集上均帶來(lái)顯著提升，其中同數(shù)據(jù)集跨情境遷移的提升最大。

微調(diào)數(shù)據(jù)來(lái)自與評(píng)估不同的社會(huì)情境（1970 vs. 1980），且在一個(gè)數(shù)據(jù)集上完全是跨數(shù)據(jù)集遷移。這表明領(lǐng)域特定的訓(xùn)練數(shù)據(jù)能實(shí)質(zhì)性增強(qiáng)統(tǒng)計(jì)真實(shí)性，且具有一定的泛化能力。

特別值得注意的是，CPS-ASEC (1970) 的 1000 個(gè)微調(diào)樣本在跨十年（1970→1980）的情境遷移中使通過(guò)率翻了一倍以上，在完全不同的 GSS 數(shù)據(jù)集上也帶來(lái)了 24% 的提升——這暗示統(tǒng)計(jì)真實(shí)性并非完全依賴特定數(shù)據(jù)的記憶，而是可以通過(guò)學(xué)習(xí)更一般的人口分布規(guī)律來(lái)改善。

局限性

研究團(tuán)隊(duì)坦誠(chéng)了三個(gè)主要局限。

第一，通過(guò)率涉及若干主觀決策。Bootstrap 樣本量的選擇、匯總統(tǒng)計(jì)量的定義、具體統(tǒng)計(jì)檢驗(yàn)的選取及其參數(shù)化、以及 0.05 的常規(guī)顯著性閾值，都涉及不可避免的判斷。通過(guò)率應(yīng)被理解為比較性而非絕對(duì)性指標(biāo)。不同模型之間的相對(duì)性能排序是可靠的，因?yàn)樗心Ｐ投荚谕惶捉y(tǒng)計(jì)量、檢驗(yàn)和閾值下評(píng)估。案例研究中的描述性結(jié)果也為二元通過(guò)/失敗的判定提供了補(bǔ)充。

第二，評(píng)估主要在稀疏條件下進(jìn)行。模型僅被提供有限的人口背景變量，目標(biāo)變量完全不可觀測(cè)。在這一設(shè)定下，傳統(tǒng)的插補(bǔ)方法并不直接適用，因?yàn)樗鼈兺ǔ＜僭O(shè)目標(biāo)變量至少部分可觀測(cè)。在部分可觀測(cè)場(chǎng)景下將 LLM 與 SOTA 插補(bǔ)方法進(jìn)行基準(zhǔn)對(duì)比，是一個(gè)重要的未來(lái)方向。

第三，雖然使用了大規(guī)模調(diào)查作為最佳可用的實(shí)證基線，但調(diào)查數(shù)據(jù)本身并非完美的“真值”。覆蓋偏差、拒答偏差、流失偏差、訪員偏差、社會(huì)期望偏差、回憶誤差和測(cè)量誤差等問(wèn)題在調(diào)查研究中普遍存在。任何以調(diào)查數(shù)據(jù)為“真值”的評(píng)估框架，都不可避免地受到這些偏差的污染。研究者在解讀評(píng)估結(jié)果時(shí)，應(yīng)當(dāng)總是將這一層不確定性納入考量。

因果推斷的潛在價(jià)值

以上缺陷們、縮放無(wú)效的困境、改善路徑的初步探索所反映的是當(dāng)前的 LLM 生成數(shù)據(jù)距離統(tǒng)計(jì)保真還有顯著差距，但差距的方向是可辨識(shí)的、可干預(yù)的。正是這一條件性，使得討論下游應(yīng)用的前景成為有可能的、有約束的技術(shù)愿景。

如果經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練，AI 生成數(shù)據(jù)在社會(huì)科學(xué)中具有獨(dú)特的前景——尤其是在因果推斷領(lǐng)域。設(shè)想一個(gè)場(chǎng)景：研究者想知道“大學(xué)教育對(duì)收入的因果效應(yīng)”，但現(xiàn)實(shí)中無(wú)法隨機(jī)分配大學(xué)入學(xué)機(jī)會(huì)。如果 LLM 能夠生成統(tǒng)計(jì)真實(shí)的合成人口，研究者就能在虛擬世界中為同一個(gè)人同時(shí)生成上大學(xué)和不上大學(xué)兩種反事實(shí)結(jié)果，直接估計(jì)因果效應(yīng)。

Holland 四十年前指出，因果推斷的根本問(wèn)題在于反事實(shí)結(jié)果不可觀測(cè) (Holland, 1986)。如果 LLM 能夠生成統(tǒng)計(jì)真實(shí)的合成人口，研究者就能在虛擬世界中進(jìn)行隨機(jī)化實(shí)驗(yàn)、操縱關(guān)鍵變量、觀測(cè)反事實(shí)結(jié)果。可能性巨大。

這將從根本上改變社會(huì)科學(xué)的實(shí)證研究范式。隨機(jī)對(duì)照實(shí)驗(yàn)——社會(huì)科學(xué)因果推斷的“金標(biāo)準(zhǔn)”——將從昂貴、耗時(shí)、倫理敏感的實(shí)地操作，轉(zhuǎn)變?yōu)榭梢栽谟?jì)算集群上批量運(yùn)行的模擬過(guò)程。但前提是合成數(shù)據(jù)至少要先通過(guò)統(tǒng)計(jì)保真度的檢驗(yàn)。SSDataBench 為這一目標(biāo)提供了可操作的評(píng)估框架和受約束的改進(jìn)路線。

路雖遠(yuǎn)，行則將至。

這項(xiàng)研究的核心啟示可以濃縮為統(tǒng)計(jì)保真度是 LLM 生成數(shù)據(jù)的“生命線”。沒(méi)有它，一切下游應(yīng)用——因果推斷、政策模擬、人口預(yù)測(cè)——都建立在泡影之上。SSDataBench 的五維框架（分布形態(tài)、雙變量關(guān)聯(lián)、多變量預(yù)測(cè)、軌跡分布、軌跡-協(xié)變量關(guān)聯(lián)）為后續(xù)研究設(shè)定了可用的標(biāo)尺，而跨數(shù)據(jù)集的系統(tǒng)評(píng)估則提供了目前最全面的基準(zhǔn)數(shù)據(jù)。

參考文獻(xiàn)

Argyle, Lisa P., et al. “Out of One, Many: Using Language Models to Simulate Human Samples.” Political Analysis, vol. 31, no. 3, Feb. 2023, pp. 337–51, doi:10.1017/pan.2023.2.
Bisbee, James, et al. “Synthetic Replacements for Human Survey Data? The Perils of Large Language Models.” Political Analysis, vol. 32, no. 4, May 2024, pp. 401–16, doi:10.1017/pan.2024.5.
Edin, Kathryn J., et al. “Listening to the Voices of America.” RSF: The Russell Sage Foundation Journal of the Social Sciences, vol. 10, no. 5, Aug. 2024, pp. 1–31, doi:10.7758/rsf.2024.10.5.01.
Goldthorpe, John H. Sociology as a Population Science. Cambridge University Press, 2016.
Groves, Robert M., et al. Survey Methodology. John Wiley & Sons, 2011.
Holland, Paul W. “Statistics and Causal Inference.” Journal of the American Statistical Association, vol. 81, no. 396, Dec. 1986, pp. 945–60, doi:10.1080/01621459.1986.10478354.
Neyman, Jerzy. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.” A Selection of Early Statistical Papers of J. Neyman, University of California Press, 2023, pp. 250–90, https://doi.org/10.2307/jj.8501421.24
Santurkar, Shibani, et al. “Whose Opinions do Language Models Reflect?” arXiv.org, 30 Mar. 2023, https://arxiv.org/abs/2303.17548
Verhagen, Mark D., et al. “The Book of Life Approach: Enabling Richness and Scale for Life Course Research.” arXiv.org, 2 July 2025, https://arxiv.org/abs/2507.03027
Xie, Yu. “Population Heterogeneity and Causal Inference.” Proceedings of the National Academy of Sciences of the United States of America, vol. 110, no. 16, 2013, pp. 6262–68, doi:10.2307/42590407.
Xie, Yu, and Yueqi Xie. “Variance Reduction in Output from Generative AI.” arXiv.org, 2 Mar. 2025, https://arxiv.org/abs/2503.01033
Boelaert, Julien, et al. “Machine Bias. How do Generative Language Models Answer Opinion Polls? .” Sociological Methods &Amp; Research, vol. 54, no. 3, Apr. 2025, pp. 1156–96, doi:10.1177/00491241251330582.
Lundberg, Ian, et al. “The Origins of Unpredictability in Life Outcome Prediction Tasks.” Proceedings of the National Academy of Sciences, vol. 121, no. 24, June 2024, doi:10.1073/pnas.2322973121.

參考文獻(xiàn)可上下滑動(dòng)查看

「大模型時(shí)代下的Agent建模與仿真」讀書(shū)會(huì)

集智俱樂(lè)部聯(lián)合山東工商學(xué)院副教授高德華、天津大學(xué)教授薛霄、北京師范大學(xué)教授張江、國(guó)防科技大學(xué)博士研究生曾利共同發(fā)起。讀書(shū)會(huì)自2025年7月8日開(kāi)始，每周二晚上7:30-9:30進(jìn)行，現(xiàn)讀書(shū)會(huì)已結(jié)束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學(xué)、共創(chuàng)、共建、共享「大模型時(shí)代下的Agent建模與仿真」社區(qū)，共同暢想大模型時(shí)代人工社會(huì)的未來(lái)圖景！

核心問(wèn)題

Agent建模與仿真是什么，核心技術(shù)發(fā)生了怎樣的演變？

大模型時(shí)代，Agent建模與仿真會(huì)給復(fù)雜系統(tǒng)理論帶來(lái)哪些突破？

大模型如何賦能Agent實(shí)現(xiàn)自主思考與動(dòng)態(tài)適應(yīng)？

大模型驅(qū)動(dòng)的Agent交互會(huì)涌現(xiàn)出什么新型的社會(huì)現(xiàn)象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領(lǐng)域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發(fā)展脈絡(luò)與方法論；

掌握一套理解、分析、控制、預(yù)測(cè)復(fù)雜系統(tǒng)的計(jì)算實(shí)驗(yàn)框架；

掌握基于多主體強(qiáng)化學(xué)習(xí)的復(fù)雜系統(tǒng)優(yōu)化方法；

領(lǐng)略領(lǐng)域前沿學(xué)者的研究體系與科研路徑。

詳情請(qǐng)見(jiàn)：

#解讀

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.