<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      PNAS:大語(yǔ)言模型生成社會(huì)數(shù)據(jù)的統(tǒng)計(jì)真實(shí)性評(píng)估

      0
      分享至


      導(dǎo)語(yǔ)

      大語(yǔ)言模型能否替代真實(shí)的社會(huì)調(diào)查數(shù)據(jù)?一項(xiàng)2026年5月8日發(fā)表于 PNAS 的研究給出了系統(tǒng)地檢驗(yàn)。研究團(tuán)隊(duì)回歸社會(huì)科學(xué)調(diào)查研究的基本原則,提出對(duì)大語(yǔ)言模型生成數(shù)據(jù)的評(píng)估,應(yīng)借鑒代表性調(diào)查的邏輯:正如代表性樣本能夠得到接近總體統(tǒng)計(jì)矩的結(jié)果,LLM 生成數(shù)據(jù)的有效性也應(yīng)聚焦于其能否再現(xiàn)真實(shí)世界總體層面的統(tǒng)計(jì)規(guī)律。基于此,研究團(tuán)隊(duì)構(gòu)建了 SSDataBench 基準(zhǔn)測(cè)試,用 7 個(gè)真實(shí)社會(huì)調(diào)查數(shù)據(jù)集、15 個(gè)主流大語(yǔ)言模型,從五個(gè)維度系統(tǒng)評(píng)估了 LLM 生成社會(huì)科學(xué)數(shù)據(jù)的“統(tǒng)計(jì)真實(shí)性”(即合成數(shù)據(jù)能否復(fù)現(xiàn)真實(shí)人口的統(tǒng)計(jì)模式)。結(jié)果發(fā)現(xiàn),即使是當(dāng)前最強(qiáng)的模型,平均通過(guò)率也僅為 30%。且通用大語(yǔ)言模型(general-purpose LLMs)整體性地暴露出三種系統(tǒng)性缺陷——壓縮異質(zhì)性、膨脹關(guān)聯(lián)性、坍縮生命軌跡。研究同時(shí)指出,領(lǐng)域微調(diào)可大幅提升總體層面統(tǒng)計(jì)真實(shí)性。

      關(guān)鍵詞:統(tǒng)計(jì)真實(shí)性(Statistical Realism),大語(yǔ)言模型(LLM),社會(huì)調(diào)查數(shù)據(jù)(Survey Data),數(shù)字孿生(Digital Twin),基準(zhǔn)測(cè)試(Benchmark),人口模擬(Population Simulation)

      任筱芃丨作者

      趙思怡丨審校


      論文題目:Evaluating the Statistical Realism of LLM-Generated Social Science Data 論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2538145123 發(fā)表時(shí)間:2026年5月8日 論文來(lái)源:PNAS

      不可能完美的抽樣

      社會(huì)統(tǒng)計(jì)學(xué)家 Jerzy Neyman 將總體定義為“滿足特定定義但個(gè)體屬性各異的實(shí)體類(lèi)別” (Neyman, 1937)。如果個(gè)體的屬性各不相同,那么“異質(zhì)性”——即人與人之間的系統(tǒng)性差異——就不是數(shù)據(jù)的噪聲。好的數(shù)據(jù)采集方法的目標(biāo)不是消滅變異,而是如實(shí)地再現(xiàn)它。變異是人類(lèi)社會(huì)無(wú)法剝離的統(tǒng)計(jì)特征。收入不均、教育分化、健康差異、壽命分層如果被當(dāng)作數(shù)據(jù)的“噪聲”來(lái)消除,那么所得的數(shù)據(jù)對(duì)社會(huì)科學(xué)家而言將毫無(wú)意義,因?yàn)樯鐣?huì)科學(xué)要研究的恰恰就是這些差異本身。

      近一個(gè)世紀(jì)后,大語(yǔ)言模型的發(fā)展似乎提供了一個(gè)非常方便的方法來(lái)補(bǔ)充甚至取代問(wèn)卷調(diào)查。給 GPT 系列模型一個(gè)人的性別、種族、年齡,它就能輸出這個(gè)人的收入、婚姻狀況、健康水平。聽(tīng)起來(lái)很方便。2023年的一項(xiàng)先驅(qū)性研究表明,GPT-3 生成的樣本在美國(guó)民意調(diào)查領(lǐng)域展現(xiàn)出了“顯著的保真度” (Argyle et al., 2023)。如果 LLM 真能生成足夠真實(shí)的人口數(shù)據(jù),那么困擾社會(huì)科學(xué)幾十年的數(shù)據(jù)缺失、樣本流失、隱私約束、反事實(shí)不可觀測(cè)等問(wèn)題都將被代償。這一愿景非常誘人。但在真正投入使用之前,我們需要對(duì)大模型生成的社會(huì)學(xué)數(shù)據(jù)進(jìn)行全面評(píng)估。

      過(guò)去對(duì) LLM 生成數(shù)據(jù)的評(píng)估幾乎全部聚焦于“個(gè)體層面的預(yù)測(cè)準(zhǔn)確率”,即模型能否猜對(duì)某個(gè)人的調(diào)查回答。社會(huì)科學(xué)家更關(guān)心的是這批合成數(shù)據(jù)能否復(fù)現(xiàn)真實(shí)人口的分布形態(tài)、變量關(guān)聯(lián)、結(jié)構(gòu)關(guān)系。就像抽樣調(diào)查的價(jià)值不在于每個(gè)受訪者是否“真實(shí)”,而在于樣本能否近似總體的統(tǒng)計(jì)矩 (Groves et al., 2011)——均值是否對(duì)、方差是否對(duì)、相關(guān)系數(shù)矩陣是否對(duì)、分布的偏度和峰度是否對(duì)。統(tǒng)計(jì)矩才是關(guān)鍵。

      這項(xiàng)提交至 PNAS 的研究系統(tǒng)地將社會(huì)科學(xué)抽樣調(diào)查的底層邏輯應(yīng)用于 LLM 生成數(shù)據(jù)的評(píng)估。結(jié)果比預(yù)想的更令人不安。

      研究背景與問(wèn)題

      社會(huì)科學(xué)的數(shù)據(jù)困境

      社會(huì)科學(xué)研究長(zhǎng)期受困于數(shù)據(jù)的五個(gè)根本性限制。關(guān)鍵變量(如財(cái)富、主觀幸福感、認(rèn)知能力)難以采集且常伴生測(cè)量誤差;縱向追蹤數(shù)據(jù)的時(shí)間跨度不足;幾乎所有調(diào)查數(shù)據(jù)都面臨拒訪和樣本流失導(dǎo)致的缺失值;隱私限制和機(jī)構(gòu)壁壘壓縮實(shí)證研究的空間;社會(huì)科學(xué)家永遠(yuǎn)無(wú)法直接觀測(cè)反事實(shí)結(jié)果(Holland, 1986)。

      這是老問(wèn)題,因此 AI 生成數(shù)據(jù)被視為潛在的解決方案。近年的兩條主要研究脈絡(luò)分別是預(yù)測(cè)個(gè)體生命軌跡(如生育、教育、健康),以及開(kāi)發(fā)基于 LLM 的社會(huì)智能體來(lái)理解交互行為(如調(diào)查響應(yīng)、輿論極化)。但越來(lái)越多的證據(jù)表明,AI 生成數(shù)據(jù)無(wú)法代表真實(shí)人口,甚至可能產(chǎn)生有偏結(jié)論。早期研究發(fā)現(xiàn)語(yǔ)言模型往往未能完全反映代表性民意 (Santurkar et al., 2023);更新的研究進(jìn)一步表明,現(xiàn)代 LLM 展現(xiàn)出強(qiáng)烈的、主題依賴的“機(jī)器偏見(jiàn)”和變異性降低 (Boelaert et al., 2025)。偏差無(wú)處不在。

      現(xiàn)有評(píng)估實(shí)踐幾乎全部圍繞個(gè)體層面的預(yù)測(cè)準(zhǔn)確性展開(kāi)。但社會(huì)科學(xué)本質(zhì)上是人口科學(xué) (Goldthorpe, 2016)。即使擁有豐富的背景信息,研究者也很少能對(duì)個(gè)體結(jié)果做出精確預(yù)測(cè) (Lundberg et al., 2024)。個(gè)體層面的強(qiáng)預(yù)測(cè)性能不應(yīng)被視為有效性的核心標(biāo)準(zhǔn)。

      SSDataBench

      研究團(tuán)隊(duì)提出了 SSDataBench(SocialScienceDataBench),一個(gè)系統(tǒng)性的基準(zhǔn)測(cè)試框架。其核心創(chuàng)新在于將評(píng)估標(biāo)準(zhǔn)從“個(gè)體準(zhǔn)確率”轉(zhuǎn)向“人口層面的統(tǒng)計(jì)真實(shí)性”——即 LLM 生成的合成數(shù)據(jù)能否復(fù)現(xiàn)真實(shí)世界的統(tǒng)計(jì)模式。

      五個(gè)評(píng)估維度

      框架設(shè)計(jì)了五類(lèi)統(tǒng)計(jì)模式評(píng)估,覆蓋社會(huì)科學(xué)研究的核心需求。

      第一類(lèi),單變量分布(Type 1)。檢驗(yàn) LLM 能否復(fù)現(xiàn)各目標(biāo)變量的分布形態(tài)。例如,受教育水平的分布是否與真實(shí)人口一致。使用 Kolmogorov-Smirnov 檢驗(yàn)(數(shù)值型)和 Pearson 卡方檢驗(yàn)(類(lèi)別型)進(jìn)行評(píng)估。

      第二類(lèi),雙變量關(guān)聯(lián)(Type 2)。檢驗(yàn)變量對(duì)之間的關(guān)聯(lián)強(qiáng)度是否與真實(shí)數(shù)據(jù)一致。使用 Fisher z 檢驗(yàn)(數(shù)值×數(shù)值)、Delta-method z 檢驗(yàn)(類(lèi)別×類(lèi)別、類(lèi)別×數(shù)值)。

      第三類(lèi),多變量結(jié)果預(yù)測(cè)(Type 3)。以性別、種族、最高學(xué)歷(橫截面數(shù)據(jù)集還包括年齡)為協(xié)變量,以數(shù)值型目標(biāo)變量為結(jié)果,檢驗(yàn)回歸模型的 R2 是否一致。

      第四類(lèi),生命事件序列分布(Type 4)。檢驗(yàn)人生軌跡的排列順序分布是否與真實(shí)人口一致。例如“先結(jié)婚→后工作→再生育”這條路徑在真實(shí)數(shù)據(jù)中占比多少,在合成數(shù)據(jù)中是否被保留。

      第五類(lèi),生命事件序列與協(xié)變量的關(guān)聯(lián)(Type 5)。檢驗(yàn)人生軌跡與社會(huì)經(jīng)濟(jì)變量之間的關(guān)聯(lián)結(jié)構(gòu)是否被復(fù)現(xiàn)。

      七大數(shù)據(jù)集

      研究使用了 4 個(gè)縱向追蹤數(shù)據(jù)集和 3 個(gè)橫截面數(shù)據(jù)集,涵蓋六大社會(huì)領(lǐng)域:


      模擬方法

      對(duì)每個(gè)數(shù)據(jù)集,隨機(jī)抽取 1000 個(gè)真實(shí)個(gè)體,用其背景變量(性別、種族等)作為輸入條件,讓 15 個(gè) LLM 分別為每個(gè)個(gè)體生成一個(gè)“數(shù)字孿生”。合成數(shù)據(jù)集隨后與真實(shí)數(shù)據(jù)通過(guò)五類(lèi)統(tǒng)計(jì)檢驗(yàn)進(jìn)行對(duì)比。規(guī)模相當(dāng)可觀。


      圖1:SSDataBench 基準(zhǔn)測(cè)試框架概覽。(a) 從數(shù)據(jù)準(zhǔn)備到模擬生成再到統(tǒng)計(jì)評(píng)估的完整流程。(b) 五類(lèi)統(tǒng)計(jì)模式的評(píng)估方法,每類(lèi)都通過(guò)假設(shè)檢驗(yàn)判斷 LLM 生成數(shù)據(jù)是否與真實(shí)數(shù)據(jù)存在顯著差異。

      四種系統(tǒng)性缺陷

      15 個(gè) LLM 在 7 個(gè)數(shù)據(jù)集、五類(lèi)統(tǒng)計(jì)模式上的平均通過(guò)率普遍很低。表現(xiàn)最好的 GPT-4 和 Llama-3.1 平均通過(guò)率也僅 0.30,表現(xiàn)最差的 Claude-4.5-Haiku 僅為 0.19。值得注意的是,五類(lèi)評(píng)估中存在清晰的梯度:分布類(lèi)測(cè)試(Type 1 單變量分布、Type 4 生命事件序列分布)通過(guò)率最低,而關(guān)聯(lián)類(lèi)測(cè)試(Type 2 雙變量關(guān)聯(lián)、Type 3 多變量預(yù)測(cè)、Type 5 軌跡-協(xié)變量關(guān)聯(lián))通過(guò)率顯著更高。這意味著 LLM 捕捉變量間關(guān)聯(lián)結(jié)構(gòu)的能力強(qiáng)于復(fù)現(xiàn)完整分布的能力,即它們能大致理解“學(xué)歷與收入相關(guān)”,卻無(wú)法準(zhǔn)確再現(xiàn)“收入在人口中的具體分布形態(tài)”。在 NLSY 和 CFPS 等縱向數(shù)據(jù)集上,Type 4(生命事件序列分布)的通過(guò)率尤其慘淡,多數(shù)模型得分為 0。


      圖2:15 個(gè) LLM 在 7 個(gè)數(shù)據(jù)集上的五類(lèi)統(tǒng)計(jì)模式通過(guò)率熱力圖。顏色越深表示通過(guò)率越高。Type 4(生命事件序列分布)大面積呈現(xiàn)白色(通過(guò)率為0),是最薄弱的環(huán)節(jié)。

      缺陷一:壓縮異質(zhì)性

      LLM 生成的數(shù)據(jù)在分布上趨向于集中,喪失了真實(shí)人口的多樣性。

      以 Gemini-2.5-Flash 在 NLSY 上的案例為例,真實(shí)數(shù)據(jù)中“初婚年齡”呈現(xiàn)寬泛分布,但合成數(shù)據(jù)中的分布明顯向典型值坍縮。

      自我評(píng)估記憶力的分布也呈現(xiàn)類(lèi)似模式——真實(shí)人口中存在從“極差”到“極好”的完整光譜,而 LLM 傾向于將大多數(shù)人的數(shù)據(jù)“生成”在中間值帶。

      也就是說(shuō)中間態(tài)被過(guò)度代表了,兩端泯滅了。量化這一現(xiàn)象的工具是信息熵。類(lèi)別型變量的熵值對(duì)比顯示,合成數(shù)據(jù)的熵值系統(tǒng)性低于真實(shí)數(shù)據(jù),意味著 LLM 在生成過(guò)程中丟失了變異信息。換言之,多樣性被吞噬了。


      圖3:Gemini-2.5-Flash 在 NLSY 上的分布坍縮案例。

      缺陷二:膨脹關(guān)聯(lián)性

      LLM 不僅壓縮了分布,還膨脹了變量之間的關(guān)聯(lián)。

      Cramér's V 統(tǒng)計(jì)量(衡量?jī)蓚€(gè)類(lèi)別變量之間關(guān)聯(lián)強(qiáng)度,范圍 0-1)在合成數(shù)據(jù)中系統(tǒng)性偏高。在真實(shí) NLSY 數(shù)據(jù)中,最高學(xué)歷與性別、職業(yè)、自評(píng)健康之間的關(guān)聯(lián)相對(duì)溫和,但在合成數(shù)據(jù)中,這些關(guān)聯(lián)被大幅放大。生成數(shù)據(jù)中許多變量對(duì)的 Cramér's V 超過(guò) 0.6,部分甚至接近 0.8 或 1,在真實(shí)項(xiàng)目應(yīng)用中就有可能高估現(xiàn)有知識(shí)、能力和判斷的準(zhǔn)確性,低估風(fēng)險(xiǎn)和不確定性。部分情況下,LLM 放大了真實(shí)世界中已存在的微弱關(guān)聯(lián)(如學(xué)歷與職業(yè)的關(guān)系);另一些情況下,LLM 則憑空創(chuàng)造了真實(shí)數(shù)據(jù)中不存在的強(qiáng)關(guān)聯(lián)。無(wú)論哪種情況,其結(jié)果都是將復(fù)雜的社會(huì)現(xiàn)象簡(jiǎn)化為確定性的因果敘事——而使用者可能完全不知道生成數(shù)據(jù)中隱含了多少這種模式化的偏見(jiàn)。

      從全局視角看,合成數(shù)據(jù)的 Cramér's V 分布整體右移——中位數(shù)高于真實(shí)數(shù)據(jù),且出現(xiàn)大量高值聚集(>0.6),這在真實(shí)數(shù)據(jù)中幾乎不存在。這一現(xiàn)象在統(tǒng)計(jì)真實(shí)性較低的模型中尤為突出。更危險(xiǎn)的是這種刻板關(guān)聯(lián)的投射是隱性的,即使用者可能完全不知道生成數(shù)據(jù)中包含了多少先驗(yàn)偏見(jiàn)。


      圖4:統(tǒng)計(jì)量在所有模型和數(shù)據(jù)集上的分布對(duì)比(箱線圖)。(b) Cramér's V——合成數(shù)據(jù)關(guān)聯(lián)偏強(qiáng)且高值聚集。

      缺陷三:夸大可預(yù)測(cè)性

      多變量回歸分析揭示了更深層的問(wèn)題。

      當(dāng)以 Race、Gender、Highest Education 為自變量預(yù)測(cè)各類(lèi)結(jié)果變量時(shí),合成數(shù)據(jù)的 R2 值遠(yuǎn)高于真實(shí)數(shù)據(jù)。以“30-40歲平均收入(對(duì)數(shù))”為例:合成數(shù)據(jù)的回歸模型 R2 接近 0.6,意味著種族、性別和學(xué)歷“解釋”了 60% 以上的收入差異。但真實(shí)數(shù)據(jù)中,同樣的模型 R2 不到 0.1。

      總之,LLM 們反而最終是在告訴我們僅憑種族、性別和學(xué)歷就能高度預(yù)測(cè)一個(gè)人的收入。這不是研究者得出的結(jié)論,而是模型輸出所投射的世界圖景,同時(shí)也是社會(huì)科學(xué)幾十年來(lái)試圖打破的刻板敘事。這種“過(guò)度可預(yù)測(cè)性”在統(tǒng)計(jì)真實(shí)性低的模型中尤為嚴(yán)重。許多合成數(shù)據(jù)的 R2 值超過(guò) 0.8,而真實(shí)數(shù)據(jù)中 R2 值普遍低于 0.2。


      圖5:Gemini-2.5-Flash 在 NLSY 上的回歸模型 R2 對(duì)比——合成數(shù)據(jù)中預(yù)測(cè)力被嚴(yán)重夸大,尤其是收入預(yù)測(cè)。

      缺陷四:類(lèi)型的坍縮

      五類(lèi)評(píng)估中,Type 4(生命事件序列分布)的通過(guò)率最低。

      LLM 生成的人生軌跡呈現(xiàn)嚴(yán)重的“坍縮”現(xiàn)象——多數(shù)虛擬個(gè)體的生命路徑被壓縮為極少數(shù)典型模式。人生被模板化了。以 NLSY 數(shù)據(jù)為例,真實(shí)人口中“初婚(M)→開(kāi)始工作(W)→初次生育(C)”三事件的排序存在六種可能組合,且分布相對(duì)分散。但生成數(shù)據(jù)中,絕大多數(shù)虛擬個(gè)體被推向了最“規(guī)范”的路徑——“先工作、再結(jié)婚、后生育” (W→M→C),其他排列被嚴(yán)重低估。六條路只剩一條。

      信息熵的對(duì)比展示了合成數(shù)據(jù)的軌跡熵值顯著低于真實(shí)數(shù)據(jù)。LLM 在訓(xùn)練過(guò)程中習(xí)得了“典型人生”的敘事模板——讀書(shū)、工作、結(jié)婚、生子。當(dāng)被要求生成虛擬人口時(shí),它傾向于把所有人都推向這條“標(biāo)準(zhǔn)路徑”,就好像全世界的 80 億人都在遵循同一種人生劇本一樣。模板化。單一化。扁平化。

      但真實(shí)人生不是模板,而且從我們對(duì)故事性的直覺(jué)來(lái)看,即使有這樣的模板我們也不喜歡。有人先有孩子再結(jié)婚,有人中途輟學(xué)后創(chuàng)業(yè)成功,有人一輩子未婚并將有限的生命投入無(wú)限地開(kāi)拓中。這些非典型但真實(shí)的人生軌跡,在 LLM 的輸出中幾乎消失了。真實(shí) NLSY 數(shù)據(jù)中存在相當(dāng)比例的非標(biāo)準(zhǔn)路徑,但在合成數(shù)據(jù)中這些排列被嚴(yán)重低估,多樣性急劇下降。

      生命軌跡與協(xié)變量之間的關(guān)聯(lián)結(jié)構(gòu)同樣失真。下圖展示了 NLSY 中“初婚、開(kāi)始工作、初次生育”三事件序列與性別、最高學(xué)歷、移民狀態(tài)等變量之間的 Cramér's V。雖然 Type 5(軌跡-協(xié)變量關(guān)聯(lián))不像 Type 2 那樣出現(xiàn)系統(tǒng)性膨脹,但偏差依然明顯。合成數(shù)據(jù)中大量關(guān)聯(lián)超過(guò) 0.5,而真實(shí)數(shù)據(jù)中幾乎沒(méi)有如此強(qiáng)的依賴。模型未能捕捉到性別、學(xué)歷、移民身份等變量對(duì)人生軌跡排序的關(guān)鍵影響。


      圖6:Gemini-2.5-Flash 在 NLSY 上的生命事件序列分析。(e) 初婚(M)、開(kāi)始工作(W)、初次生育(C) 三事件的排序分布——合成數(shù)據(jù)嚴(yán)重偏向 W→M→C 路徑。(f) 完成教育(E)、開(kāi)始工作(W)、初次生育(C) 序列與協(xié)變量的 Cramér's V——偏差雖非系統(tǒng)性膨脹,但仍顯著偏離真實(shí)數(shù)據(jù)。

      Scale不是答案

      面對(duì)這些缺陷,一個(gè)順延的猜測(cè)是更大的模型、更新的版本,表現(xiàn)應(yīng)該更好。過(guò)去幾年,通過(guò)擴(kuò)大參數(shù)規(guī)模、延長(zhǎng)上下文窗口、增加訓(xùn)練數(shù)據(jù),LLM 在幾乎所有標(biāo)準(zhǔn)能力基準(zhǔn)測(cè)試上都實(shí)現(xiàn)了持續(xù)躍升。無(wú)論是編程、數(shù)學(xué)推理、多語(yǔ)言翻譯、專(zhuān)業(yè)考試,模型家族內(nèi)的更新更大的版本幾乎總是碾壓舊版本。因此有理由期待統(tǒng)計(jì)真實(shí)性也會(huì)隨模型能力的提升而水漲船高。但數(shù)據(jù)否定了這個(gè)直覺(jué)。

      模型容量與統(tǒng)計(jì)真實(shí)性之間并未呈現(xiàn)出預(yù)期的正向關(guān)聯(lián)。從 GPT-3.5-Turbo(平均通過(guò)率 0.28)到 GPT-5(0.20),性能不升反降。同一模型家族內(nèi),新一代并不比上一代更好。Claude-3-Haiku (0.23)、Claude-3.5-Haiku (0.21)、Claude-4.5-Haiku (0.19) 三代遞減。這一模式表明,統(tǒng)計(jì)真實(shí)性的缺失可能不是暫時(shí)的能力不足,而是一個(gè)結(jié)構(gòu)性挑戰(zhàn)。


      圖7:五類(lèi)統(tǒng)計(jì)量在所有模型和數(shù)據(jù)集上的分布對(duì)比(箱線圖)。每對(duì)箱線圖分別對(duì)應(yīng)真實(shí)數(shù)據(jù)(左)和合成數(shù)據(jù)(右)。(a) 類(lèi)別變量信息熵——合成數(shù)據(jù)系統(tǒng)性偏低。(b) Cramér's V——合成數(shù)據(jù)關(guān)聯(lián)偏強(qiáng)且高值聚集。(c) R2——合成數(shù)據(jù)預(yù)測(cè)力系統(tǒng)性偏高。(d) 生命事件序列信息熵——合成數(shù)據(jù)軌跡多樣性顯著不足。(e) 軌跡-協(xié)變量 Cramér's V——合成數(shù)據(jù)仍存在偏差。

      原因有二。在模型層面,LLM 的訓(xùn)練目標(biāo)優(yōu)化的是逐例預(yù)測(cè)準(zhǔn)確性(case-wise prediction accuracy),而非跨多例的分布保真度(distributional fidelity)。準(zhǔn)確性導(dǎo)向的目標(biāo)甚至?xí)糯箢?lèi)型化傾向——模型傾向于為每個(gè)輸入給出“最可能”的答案,而真實(shí)人口需要的恰恰是變異。在數(shù)據(jù)層面,大量豐富的社會(huì)科學(xué)數(shù)據(jù)以表格等量化格式存儲(chǔ)和流通,而非自然語(yǔ)言。現(xiàn)有 LLM 難以從文本語(yǔ)料中內(nèi)化這些結(jié)構(gòu)化信息。

      這意味著,改善統(tǒng)計(jì)真實(shí)性不能依賴單純擴(kuò)大模型規(guī)模,而需要針對(duì)性的方法。

      通往更好統(tǒng)計(jì)真實(shí)性的路徑三條改善路徑

      更豐富的輸入有可能改善生成的結(jié)果。輔助實(shí)驗(yàn)表明,當(dāng)從輸入條件中移除性別和種族等背景變量時(shí),統(tǒng)計(jì)真實(shí)性普遍惡化。在 Add Health 和 U.S. Census 兩個(gè)數(shù)據(jù)集上測(cè)試的研究使用了 GPT-4o、Gemini-2.5-Flash、Llama-3.1 三個(gè)模型,發(fā)現(xiàn)移除 Gender 和 Race 后所有模型的統(tǒng)計(jì)真實(shí)性均出現(xiàn)下降 (Xie et al., 2025)。這意味著,提供更豐富的輸入信息是改善合成數(shù)據(jù)質(zhì)量的有效策略。在數(shù)據(jù)采集環(huán)節(jié)投入更多成本,直接反映在模擬結(jié)果的統(tǒng)計(jì)保真度上。研究者應(yīng)當(dāng)盡可能詳盡地提供人口學(xué)和社會(huì)經(jīng)濟(jì)背景信息,而非僅用最少的變量組合。

      情境條件有可能約束輸出。正如 American Voices Project 所倡導(dǎo)的,質(zhì)性數(shù)據(jù)能夠捕捉量化調(diào)查難以測(cè)量的生活經(jīng)驗(yàn)和社會(huì)情境 (Edin et al., 2024)。將訪談文本作為 LLM 的輸入,可能提供比結(jié)構(gòu)化變量更深的“錨定”。從人口統(tǒng)計(jì)數(shù)字轉(zhuǎn)向有溫度的生活敘事,從變量到故事,從表格到口述歷史,這些更貼近人的數(shù)據(jù)可能是未來(lái)模型上下文能力提升后值得嘗試的。LLM 在處理非結(jié)構(gòu)化文本方面天然具有優(yōu)勢(shì) (Verhagen et al., 2025)。如果一個(gè)數(shù)字孿生不僅知道“這位受訪者是 35 歲的非裔美國(guó)女性、高中學(xué)歷”,還能讀到她關(guān)于成長(zhǎng)經(jīng)歷的口述歷史文本,模型就有可能生成更貼近真實(shí)變異的模擬結(jié)果。這恰好是 LLM 區(qū)別于傳統(tǒng)統(tǒng)計(jì)模型的核心能力。

      微調(diào)是目前在工程實(shí)踐中最有可能被用上的。這是三條路徑中目前驗(yàn)證最充分的一條。研究團(tuán)隊(duì)用 CPS-ASEC (1970) 的 1000 個(gè)樣本對(duì) Llama-3.1 (8B) 進(jìn)行微調(diào),然后在三個(gè)完全不同的數(shù)據(jù)集上評(píng)估泛化能力。


      圖8:Llama-3.1 (8B) 在 CPS-ASEC (1970) 上微調(diào)前后的通過(guò)率對(duì)比。微調(diào)在三個(gè)未見(jiàn)數(shù)據(jù)集上均帶來(lái)顯著提升,其中同數(shù)據(jù)集跨情境遷移的提升最大。

      微調(diào)數(shù)據(jù)來(lái)自與評(píng)估不同的社會(huì)情境(1970 vs. 1980),且在一個(gè)數(shù)據(jù)集上完全是跨數(shù)據(jù)集遷移。這表明領(lǐng)域特定的訓(xùn)練數(shù)據(jù)能實(shí)質(zhì)性增強(qiáng)統(tǒng)計(jì)真實(shí)性,且具有一定的泛化能力。

      特別值得注意的是,CPS-ASEC (1970) 的 1000 個(gè)微調(diào)樣本在跨十年(1970→1980)的情境遷移中使通過(guò)率翻了一倍以上,在完全不同的 GSS 數(shù)據(jù)集上也帶來(lái)了 24% 的提升——這暗示統(tǒng)計(jì)真實(shí)性并非完全依賴特定數(shù)據(jù)的記憶,而是可以通過(guò)學(xué)習(xí)更一般的人口分布規(guī)律來(lái)改善。

      局限性

      研究團(tuán)隊(duì)坦誠(chéng)了三個(gè)主要局限。

      第一,通過(guò)率涉及若干主觀決策。Bootstrap 樣本量的選擇、匯總統(tǒng)計(jì)量的定義、具體統(tǒng)計(jì)檢驗(yàn)的選取及其參數(shù)化、以及 0.05 的常規(guī)顯著性閾值,都涉及不可避免的判斷。通過(guò)率應(yīng)被理解為比較性而非絕對(duì)性指標(biāo)。不同模型之間的相對(duì)性能排序是可靠的,因?yàn)樗心P投荚谕惶捉y(tǒng)計(jì)量、檢驗(yàn)和閾值下評(píng)估。案例研究中的描述性結(jié)果也為二元通過(guò)/失敗的判定提供了補(bǔ)充。

      第二,評(píng)估主要在稀疏條件下進(jìn)行。模型僅被提供有限的人口背景變量,目標(biāo)變量完全不可觀測(cè)。在這一設(shè)定下,傳統(tǒng)的插補(bǔ)方法并不直接適用,因?yàn)樗鼈兺ǔ<僭O(shè)目標(biāo)變量至少部分可觀測(cè)。在部分可觀測(cè)場(chǎng)景下將 LLM 與 SOTA 插補(bǔ)方法進(jìn)行基準(zhǔn)對(duì)比,是一個(gè)重要的未來(lái)方向。

      第三,雖然使用了大規(guī)模調(diào)查作為最佳可用的實(shí)證基線,但調(diào)查數(shù)據(jù)本身并非完美的“真值”。覆蓋偏差、拒答偏差、流失偏差、訪員偏差、社會(huì)期望偏差、回憶誤差和測(cè)量誤差等問(wèn)題在調(diào)查研究中普遍存在。任何以調(diào)查數(shù)據(jù)為“真值”的評(píng)估框架,都不可避免地受到這些偏差的污染。研究者在解讀評(píng)估結(jié)果時(shí),應(yīng)當(dāng)總是將這一層不確定性納入考量。

      因果推斷的潛在價(jià)值

      以上缺陷們、縮放無(wú)效的困境、改善路徑的初步探索所反映的是當(dāng)前的 LLM 生成數(shù)據(jù)距離統(tǒng)計(jì)保真還有顯著差距,但差距的方向是可辨識(shí)的、可干預(yù)的。正是這一條件性,使得討論下游應(yīng)用的前景成為有可能的、有約束的技術(shù)愿景。

      如果經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練,AI 生成數(shù)據(jù)在社會(huì)科學(xué)中具有獨(dú)特的前景——尤其是在因果推斷領(lǐng)域。設(shè)想一個(gè)場(chǎng)景:研究者想知道“大學(xué)教育對(duì)收入的因果效應(yīng)”,但現(xiàn)實(shí)中無(wú)法隨機(jī)分配大學(xué)入學(xué)機(jī)會(huì)。如果 LLM 能夠生成統(tǒng)計(jì)真實(shí)的合成人口,研究者就能在虛擬世界中為同一個(gè)人同時(shí)生成上大學(xué)和不上大學(xué)兩種反事實(shí)結(jié)果,直接估計(jì)因果效應(yīng)。

      Holland 四十年前指出,因果推斷的根本問(wèn)題在于反事實(shí)結(jié)果不可觀測(cè) (Holland, 1986)。如果 LLM 能夠生成統(tǒng)計(jì)真實(shí)的合成人口,研究者就能在虛擬世界中進(jìn)行隨機(jī)化實(shí)驗(yàn)、操縱關(guān)鍵變量、觀測(cè)反事實(shí)結(jié)果。可能性巨大。

      這將從根本上改變社會(huì)科學(xué)的實(shí)證研究范式。隨機(jī)對(duì)照實(shí)驗(yàn)——社會(huì)科學(xué)因果推斷的“金標(biāo)準(zhǔn)”——將從昂貴、耗時(shí)、倫理敏感的實(shí)地操作,轉(zhuǎn)變?yōu)榭梢栽谟?jì)算集群上批量運(yùn)行的模擬過(guò)程。但前提是合成數(shù)據(jù)至少要先通過(guò)統(tǒng)計(jì)保真度的檢驗(yàn)。SSDataBench 為這一目標(biāo)提供了可操作的評(píng)估框架和受約束的改進(jìn)路線。

      路雖遠(yuǎn),行則將至。

      這項(xiàng)研究的核心啟示可以濃縮為統(tǒng)計(jì)保真度是 LLM 生成數(shù)據(jù)的“生命線”。沒(méi)有它,一切下游應(yīng)用——因果推斷、政策模擬、人口預(yù)測(cè)——都建立在泡影之上。SSDataBench 的五維框架(分布形態(tài)、雙變量關(guān)聯(lián)、多變量預(yù)測(cè)、軌跡分布、軌跡-協(xié)變量關(guān)聯(lián))為后續(xù)研究設(shè)定了可用的標(biāo)尺,而跨數(shù)據(jù)集的系統(tǒng)評(píng)估則提供了目前最全面的基準(zhǔn)數(shù)據(jù)。

      參考文獻(xiàn)

      1. Argyle, Lisa P., et al. “Out of One, Many: Using Language Models to Simulate Human Samples.” Political Analysis, vol. 31, no. 3, Feb. 2023, pp. 337–51, doi:10.1017/pan.2023.2.

      2. Bisbee, James, et al. “Synthetic Replacements for Human Survey Data? The Perils of Large Language Models.” Political Analysis, vol. 32, no. 4, May 2024, pp. 401–16, doi:10.1017/pan.2024.5.

      3. Edin, Kathryn J., et al. “Listening to the Voices of America.” RSF: The Russell Sage Foundation Journal of the Social Sciences, vol. 10, no. 5, Aug. 2024, pp. 1–31, doi:10.7758/rsf.2024.10.5.01.

      4. Goldthorpe, John H. Sociology as a Population Science. Cambridge University Press, 2016.

      5. Groves, Robert M., et al. Survey Methodology. John Wiley & Sons, 2011.

      6. Holland, Paul W. “Statistics and Causal Inference.” Journal of the American Statistical Association, vol. 81, no. 396, Dec. 1986, pp. 945–60, doi:10.1080/01621459.1986.10478354.

      7. Neyman, Jerzy. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.” A Selection of Early Statistical Papers of J. Neyman, University of California Press, 2023, pp. 250–90, https://doi.org/10.2307/jj.8501421.24

      8. Santurkar, Shibani, et al. “Whose Opinions do Language Models Reflect?” arXiv.org, 30 Mar. 2023, https://arxiv.org/abs/2303.17548

      9. Verhagen, Mark D., et al. “The Book of Life Approach: Enabling Richness and Scale for Life Course Research.” arXiv.org, 2 July 2025, https://arxiv.org/abs/2507.03027

      10. Xie, Yu. “Population Heterogeneity and Causal Inference.” Proceedings of the National Academy of Sciences of the United States of America, vol. 110, no. 16, 2013, pp. 6262–68, doi:10.2307/42590407.

      11. Xie, Yu, and Yueqi Xie. “Variance Reduction in Output from Generative AI.” arXiv.org, 2 Mar. 2025, https://arxiv.org/abs/2503.01033

      12. Boelaert, Julien, et al. “Machine Bias. How do Generative Language Models Answer Opinion Polls? .” Sociological Methods &Amp; Research, vol. 54, no. 3, Apr. 2025, pp. 1156–96, doi:10.1177/00491241251330582.

      13. Lundberg, Ian, et al. “The Origins of Unpredictability in Life Outcome Prediction Tasks.” Proceedings of the National Academy of Sciences, vol. 121, no. 24, June 2024, doi:10.1073/pnas.2322973121.

      參考文獻(xiàn)可上下滑動(dòng)查看

      「大模型時(shí)代下的Agent建模與仿真」讀書(shū)會(huì)

      集智俱樂(lè)部聯(lián)合山東工商學(xué)院副教授高德華、天津大學(xué)教授薛霄、北京師范大學(xué)教授張江、國(guó)防科技大學(xué)博士研究生曾利共同發(fā)起。讀書(shū)會(huì)自2025年7月8日開(kāi)始,每周二晚上7:30-9:30進(jìn)行,現(xiàn)讀書(shū)會(huì)已結(jié)束,支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅,一起共學(xué)、共創(chuàng)、共建、共享「大模型時(shí)代下的Agent建模與仿真」社區(qū),共同暢想大模型時(shí)代人工社會(huì)的未來(lái)圖景!

      核心問(wèn)題

      Agent建模與仿真是什么,核心技術(shù)發(fā)生了怎樣的演變?

      大模型時(shí)代,Agent建模與仿真會(huì)給復(fù)雜系統(tǒng)理論帶來(lái)哪些突破?

      大模型如何賦能Agent實(shí)現(xiàn)自主思考與動(dòng)態(tài)適應(yīng)?

      大模型驅(qū)動(dòng)的Agent交互會(huì)涌現(xiàn)出什么新型的社會(huì)現(xiàn)象?

      Agent建模與仿真如何改變金融、心理、管理、軍事等領(lǐng)域的研究范式?

      你將收獲

      梳理Agent建模與仿真的歷史發(fā)展脈絡(luò)與方法論;

      掌握一套理解、分析、控制、預(yù)測(cè)復(fù)雜系統(tǒng)的計(jì)算實(shí)驗(yàn)框架;

      掌握基于多主體強(qiáng)化學(xué)習(xí)的復(fù)雜系統(tǒng)優(yōu)化方法;

      領(lǐng)略領(lǐng)域前沿學(xué)者的研究體系與科研路徑。

      詳情請(qǐng)見(jiàn):

      1.

      2.

      3.

      4.

      5.

      6.

      7.

      #解讀

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國(guó)乒女團(tuán)3-0進(jìn)決賽,賽后握手妖精妖氣十足,王曼昱采訪欲言又止

      國(guó)乒女團(tuán)3-0進(jìn)決賽,賽后握手妖精妖氣十足,王曼昱采訪欲言又止

      真理是我親戚
      2026-05-09 21:43:06
      地下捐精有多亂:女子被約到賓館,捐精者:直接發(fā)生關(guān)系只收800

      地下捐精有多亂:女子被約到賓館,捐精者:直接發(fā)生關(guān)系只收800

      芭比衣櫥
      2026-04-23 08:24:21
      漢坦病毒陽(yáng)性乘客登上郵輪的前一天,中國(guó)乘客陳勇下船離開(kāi):已向防疫部門(mén)報(bào)備并在家自我隔離

      漢坦病毒陽(yáng)性乘客登上郵輪的前一天,中國(guó)乘客陳勇下船離開(kāi):已向防疫部門(mén)報(bào)備并在家自我隔離

      極目新聞
      2026-05-08 19:09:52
      “美方可能不清楚以動(dòng)用核武的紅線”,美議員要求政府披露“以色列核武詳情”!伊朗外長(zhǎng):以色列有90枚核彈頭,其他中東國(guó)家沒(méi)有一個(gè)擁核

      “美方可能不清楚以動(dòng)用核武的紅線”,美議員要求政府披露“以色列核武詳情”!伊朗外長(zhǎng):以色列有90枚核彈頭,其他中東國(guó)家沒(méi)有一個(gè)擁核

      每日經(jīng)濟(jì)新聞
      2026-05-08 17:42:19
      二手車(chē)市場(chǎng)幾乎沒(méi)有新能源車(chē),“賣(mài)得太快”還是“不敢收”?

      二手車(chē)市場(chǎng)幾乎沒(méi)有新能源車(chē),“賣(mài)得太快”還是“不敢收”?

      華夏時(shí)報(bào)
      2026-05-08 09:50:03
      劉衛(wèi),到福建履新

      劉衛(wèi),到福建履新

      金臺(tái)資訊
      2026-05-09 15:18:29
      王思聰洛杉磯近照曝光!一身LV卻白發(fā)駝背,原來(lái)錢(qián)真買(mǎi)不回心氣兒

      王思聰洛杉磯近照曝光!一身LV卻白發(fā)駝背,原來(lái)錢(qián)真買(mǎi)不回心氣兒

      老吳教育課堂
      2026-05-07 18:00:58
      桑德蘭0-0曼聯(lián),賽后評(píng)分:不是B費(fèi)第一,曼聯(lián)31號(hào)排第一

      桑德蘭0-0曼聯(lián),賽后評(píng)分:不是B費(fèi)第一,曼聯(lián)31號(hào)排第一

      凌空倒鉤
      2026-05-10 00:09:02
      人類(lèi)尸臭為啥如此難聞?外國(guó)石棺咋阻止尸臭泄漏?教堂味道難聞嗎

      人類(lèi)尸臭為啥如此難聞?外國(guó)石棺咋阻止尸臭泄漏?教堂味道難聞嗎

      向航說(shuō)
      2026-05-02 00:55:03
      難以置信!連云港一工廠以遭遇群體性阻撓、無(wú)法經(jīng)營(yíng)為由停產(chǎn)整頓

      難以置信!連云港一工廠以遭遇群體性阻撓、無(wú)法經(jīng)營(yíng)為由停產(chǎn)整頓

      火山詩(shī)話
      2026-05-09 16:19:21
      杭州一對(duì)二婚夫妻剛剛離完婚,桌子底下的一塊污漬就成了導(dǎo)火索

      杭州一對(duì)二婚夫妻剛剛離完婚,桌子底下的一塊污漬就成了導(dǎo)火索

      呼呼歷史論
      2026-05-09 14:34:24
      薩里:輸球更多是我們自己造成的,國(guó)米并沒(méi)有什么驚人之舉

      薩里:輸球更多是我們自己造成的,國(guó)米并沒(méi)有什么驚人之舉

      懂球帝
      2026-05-10 03:53:50
      國(guó)內(nèi)媒體:FIFA曾就兩屆世界杯轉(zhuǎn)播權(quán)向大陸打包報(bào)價(jià)約8億美元

      國(guó)內(nèi)媒體:FIFA曾就兩屆世界杯轉(zhuǎn)播權(quán)向大陸打包報(bào)價(jià)約8億美元

      懂球帝
      2026-05-09 09:50:08
      河北彩花開(kāi)啟人生第三章
“透明感”天花板回歸!

      河北彩花開(kāi)啟人生第三章 “透明感”天花板回歸!

      管鮑老四級(jí)
      2026-03-08 12:04:18
      92年上海一女子花40萬(wàn)買(mǎi)入浦東一塊地皮,18年后,市值把她驚呆了

      92年上海一女子花40萬(wàn)買(mǎi)入浦東一塊地皮,18年后,市值把她驚呆了

      紅豆講堂
      2025-05-12 10:27:03
      中國(guó)油輪被伊朗襲擊真相!伊朗官方無(wú)權(quán)管控?革命衛(wèi)隊(duì)私自采行動(dòng)

      中國(guó)油輪被伊朗襲擊真相!伊朗官方無(wú)權(quán)管控?革命衛(wèi)隊(duì)私自采行動(dòng)

      命運(yùn)天注定
      2026-05-10 02:27:11
      別碰!別吃!別養(yǎng)!一只就攜帶100條蟲(chóng),看到趕緊遠(yuǎn)離

      別碰!別吃!別養(yǎng)!一只就攜帶100條蟲(chóng),看到趕緊遠(yuǎn)離

      齊魯壹點(diǎn)
      2026-05-08 06:35:47
      人老了確實(shí)沒(méi)太大意思,我媽今年72歲,獨(dú)自在家每天就做這兩件事

      人老了確實(shí)沒(méi)太大意思,我媽今年72歲,獨(dú)自在家每天就做這兩件事

      心理觀察局
      2026-05-04 11:19:11
      美媒終于看清,中國(guó)人既不期待特朗普訪華,也不把美國(guó)放在眼里

      美媒終于看清,中國(guó)人既不期待特朗普訪華,也不把美國(guó)放在眼里

      夢(mèng)想的現(xiàn)實(shí)
      2026-05-10 02:19:45
      一滴也違法!內(nèi)蒙古7人鉆進(jìn)大興安嶺,在樹(shù)上打孔收集汁液被抓

      一滴也違法!內(nèi)蒙古7人鉆進(jìn)大興安嶺,在樹(shù)上打孔收集汁液被抓

      萬(wàn)象硬核本尊
      2026-05-09 20:05:57
      2026-05-10 05:52:49
      集智俱樂(lè)部 incentive-icons
      集智俱樂(lè)部
      科普人工智能相關(guān)知識(shí)技能
      5809文章數(shù) 4674關(guān)注度
      往期回顧 全部

      科技要聞

      美國(guó)政府強(qiáng)力下場(chǎng) 蘋(píng)果英特爾達(dá)成代工協(xié)議

      頭條要聞

      演員文章面館大火后又開(kāi)酒吧 多位明星到場(chǎng)母親也現(xiàn)身

      頭條要聞

      演員文章面館大火后又開(kāi)酒吧 多位明星到場(chǎng)母親也現(xiàn)身

      體育要聞

      成立128年后,這支升班馬首奪頂級(jí)聯(lián)賽冠軍

      娛樂(lè)要聞

      50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

      財(cái)經(jīng)要聞

      多地號(hào)召,公職人員帶頭繳納物業(yè)費(fèi)

      汽車(chē)要聞

      軸距加長(zhǎng)/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      本地
      家居
      公開(kāi)課

      藝術(shù)要聞

      陽(yáng)光,此刻醉美

      干細(xì)胞能讓人“返老還童”嗎

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      家居要聞

      菁英人居 全能豪宅

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕人妻少妇引诱隔壁| 中国精品自拍| 亚洲精品视频久久偷拍| 中文字幕第55页一区| 国模雨珍浓密毛大尺度150p| 超碰?白浆?国产| 亚洲免费在线| 国产高潮刺激叫喊视频| 欧洲黄色视频| 污网站在线观看视频| 波多野结衣午夜影院| 国产精品日日摸天天碰| 无码专区人妻系列日韩精品少妇 | 男人天堂2024手机在线| 国产精品女同一区二区久久| 日韩一本不卡一区二区三区| 爆爽久久久一区二区又大又黄又嫩| 成人性交大片| 亚洲熟妇无码另类久久久| 日韩精品一区二区三区久| 美腿丝袜中文字幕| 久久久精品中文字幕乱码18| 国产精品中文字幕久久| 国产台湾黄色av一区二区| 香蕉影院在线观看| 国产精品VA无码一区二区| 亚洲最大国产精品黄色| 欧美人与zoxxxx另类| 国产无套专区精品一区| 亚洲厕所偷拍| 久久综合无码中文字幕无码ts| 女人张开腿让男人桶爽| A片黄色| 安塞县| 岛国无码AV| 在线国产你懂的| 日韩人妻无码精品久久| 国产精品任我爽爆在线播放| 三級毛片三級毛片| 亚洲中文字幕av在线| 国产亚洲亚洲国产一二区|