網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一個統(tǒng)一框架：讓非結(jié)構(gòu)化數(shù)據(jù)推理又穩(wěn)又快

2025-11-20 15:57:29　來源: CreateAMind

上海舉報(bào)

分享至

A Unifying Framework for Robust and Efficient Inference with Unstructured Data

https://arxiv.org/pdf/2505.00282

本文《用于非結(jié)構(gòu)化數(shù)據(jù)的穩(wěn)健且高效推斷的統(tǒng)一框架》的核心重點(diǎn)可以概括為以下幾點(diǎn)：

核心問題與動機(jī)：
- 許多實(shí)證研究（尤其在經(jīng)濟(jì)學(xué)中）需要利用文本、圖像等 非結(jié)構(gòu)化數(shù)據(jù) 來估計(jì)一個 缺失的結(jié)構(gòu)化變量 （例如，經(jīng)濟(jì)政策不確定性指數(shù)、地緣政治風(fēng)險指數(shù)）。
- 現(xiàn)有方法（如基線 MAR-S 框架）通常假設(shè)可以直接觀測到該結(jié)構(gòu)化變量的真實(shí)值，但這在實(shí)踐中往往不成立。真實(shí)值通常僅存在于細(xì)粒度層面（如單篇文章），而研究者關(guān)心的是更高層面的聚合值（如月度均值），這些聚合值本身無法被直接觀測。
提出解決方案：MAR-S 框架的擴(kuò)展應(yīng)用：
- 作者提出并系統(tǒng)闡述了如何將 MAR-S (Missing at Random - Structural) 框架應(yīng)用于更廣泛、更現(xiàn)實(shí)的場景。
- 核心思想是：首先使用標(biāo)注數(shù)據(jù)訓(xùn)練一個“填補(bǔ)函數(shù)”（imputation function）來預(yù)測缺失的結(jié)構(gòu)化數(shù)據(jù)；然后，通過 MAR-S 的去偏機(jī)制，對這個填補(bǔ)結(jié)果進(jìn)行校正，得到無偏的估計(jì)量。
- 該框架特別適用于處理 非線性變換 （如取對數(shù)）和 高度聚合的數(shù)據(jù) ，并通過簡單的 delta 方法或標(biāo)準(zhǔn)回歸技術(shù)來解決由此產(chǎn)生的測量誤差問題。
關(guān)鍵貢獻(xiàn)與創(chuàng)新點(diǎn)：
- 理論嚴(yán)謹(jǐn)性
  ：提供了嚴(yán)格的統(tǒng)計(jì)推斷方法，能夠生成 漸近有效的置信區(qū)間 ，并明確考慮了因填補(bǔ)和聚合帶來的系統(tǒng)性測量誤差。
- 實(shí)用性與普適性
  ：方法概念上直觀，易于實(shí)施，可自然擴(kuò)展到聚類數(shù)據(jù)和面板數(shù)據(jù)，并能適應(yīng)多種實(shí)際場景（如結(jié)果變量也需填補(bǔ)、測量誤差非正態(tài)等）。
- 性能提升
  ：證明了使用更精確的填補(bǔ)模型（如深度神經(jīng)網(wǎng)絡(luò)分類器）相比傳統(tǒng)方法（如關(guān)鍵詞分類器）能產(chǎn)生更窄的置信區(qū)間，體現(xiàn)了“更準(zhǔn)確填補(bǔ)帶來更高效率”的回報(bào)。
- 揭示偏差
  ：通過實(shí)證案例（EPU 和 GPR 指數(shù)）清晰地展示了，忽略測量誤差會導(dǎo)致嚴(yán)重的衰減偏差和置信區(qū)間被低估，從而得出錯誤的統(tǒng)計(jì)推斷。
實(shí)證驗(yàn)證：
- 通過三個實(shí)證案例（兩個經(jīng)典文獻(xiàn)的再分析 + 一個作者自建數(shù)據(jù)集的示例）驗(yàn)證了該框架的有效性。
- 在 EPU 和 GPR 指數(shù)的應(yīng)用中，展示了如何用深度學(xué)習(xí)模型替代傳統(tǒng)關(guān)鍵詞方法，并量化了其在估計(jì)精度和置信區(qū)間寬度上的優(yōu)勢。
- 在回歸分析中，對比了使用經(jīng) MAR-S 校正的變量與未經(jīng)校正變量的結(jié)果，突顯了校正的重要性。

總而言之，本文提供了一個強(qiáng)大、靈活且實(shí)用的統(tǒng)一框架，旨在解決從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化信息時所面臨的普遍性挑戰(zhàn)——即如何在存在缺失、聚合和非線性變換的情況下，進(jìn)行穩(wěn)健且高效的統(tǒng)計(jì)推斷。它不僅完善了現(xiàn)有理論，也為實(shí)證研究者提供了一套可操作的工具。

摘要

本文提出了一種通用框架，用于對源自非結(jié)構(gòu)化數(shù)據(jù)（包括文本、圖像、音頻和視頻）的參數(shù)進(jìn)行高效推斷。經(jīng)濟(jì)學(xué)家長期以來使用非結(jié)構(gòu)化數(shù)據(jù)的做法是：首先從中提取低維的結(jié)構(gòu)化特征（例如文本的主題或情感），因?yàn)樵紨?shù)據(jù)維度太高、難以解釋，無法直接納入實(shí)證分析。深度神經(jīng)網(wǎng)絡(luò)的興起極大降低了大規(guī)模提取結(jié)構(gòu)化數(shù)據(jù)的成本，從而加速了這一實(shí)踐；但神經(jīng)網(wǎng)絡(luò)并不保證在一般意義上產(chǎn)生無偏預(yù)測。這可能導(dǎo)致偏差傳播到下游估計(jì)量中——當(dāng)這些估計(jì)量納入了由神經(jīng)網(wǎng)絡(luò)推算（imputed）出的結(jié)構(gòu)化數(shù)據(jù)時；此外，市面上存在多種具有不同偏差的現(xiàn)成神經(jīng)網(wǎng)絡(luò)，這進(jìn)一步引發(fā)了“p值操縱”（p-hacking）的擔(dān)憂。

為應(yīng)對上述挑戰(zhàn)，我們將使用非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行推斷的問題，重新刻畫為結(jié)構(gòu)化數(shù)據(jù)缺失問題：即，結(jié)構(gòu)化變量由高維非結(jié)構(gòu)化輸入推斷（填補(bǔ)）而來。這一視角使我們得以應(yīng)用半?yún)?shù)推斷中的經(jīng)典結(jié)果，從而得到有效、穩(wěn)健且具統(tǒng)計(jì)效度的估計(jì)量。我們以 MAR-S（Missing At Random Structured Data，結(jié)構(gòu)化數(shù)據(jù)隨機(jī)缺失）框架對該方法進(jìn)行形式化。MAR-S 統(tǒng)一并拓展了現(xiàn)有利用機(jī)器學(xué)習(xí)預(yù)測進(jìn)行去偏推斷的方法，并將其與因果推斷等人們熟悉的問題聯(lián)系起來。在該框架下，我們?yōu)槊枋鲂耘c因果性估計(jì)目標(biāo)均構(gòu)建了穩(wěn)健且高效的估計(jì)量，并解決了現(xiàn)有文獻(xiàn)尚未涵蓋的現(xiàn)實(shí)挑戰(zhàn)——例如，當(dāng)缺失的結(jié)構(gòu)化數(shù)據(jù)被聚合或變換后如何進(jìn)行推斷。這些方法及其配套的實(shí)現(xiàn)軟件包，為經(jīng)濟(jì)學(xué)家提供了便捷工具，使其能在廣泛的應(yīng)用中，利用非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建無偏估計(jì)量——我們在重分析若干具有影響力的研究案例中對此加以驗(yàn)證。

1 引言

經(jīng)濟(jì)學(xué)家在實(shí)證研究中頻繁使用非結(jié)構(gòu)化數(shù)據(jù)，其中包括圖像（像素?cái)?shù)據(jù)）、文本（來自高維詞表的詞元序列）、音頻（波形或頻譜圖）以及視頻（圖像序列）。然而，由于非結(jié)構(gòu)化數(shù)據(jù)維度極高、計(jì)算負(fù)擔(dān)重且原始形式難以解釋，研究者極少將其直接用于計(jì)量經(jīng)濟(jì)學(xué)分析。取而代之的是，研究者從中提取有意義的低維特征，并將其用于統(tǒng)計(jì)分析。依據(jù)既有文獻(xiàn)，我們將這些低維表征稱為結(jié)構(gòu)化數(shù)據(jù)。

從非結(jié)構(gòu)化數(shù)據(jù)中提取的低維特征數(shù)據(jù)集，已成為諸多經(jīng)濟(jì)學(xué)領(lǐng)域?qū)嵶C研究的基石。例如，常用數(shù)據(jù)集通過新聞報(bào)道及其他文本資料，提取關(guān)于治理、制度、政治穩(wěn)定性、政策不確定性、沖突與暴力等方面的結(jié)構(gòu)化信息1；研究者從政府會議記錄、企業(yè)申報(bào)文件、財(cái)報(bào)電話會議、專利文本與網(wǎng)絡(luò)文本中推斷情感、主題及其他多種結(jié)構(gòu)化變量2；夜間燈光衛(wèi)星圖像被用于度量經(jīng)濟(jì)活動、發(fā)展水平與城市化進(jìn)程3；遙感數(shù)據(jù)推斷結(jié)果常被用于補(bǔ)充地面觀測的氣溫、降水、污染、農(nóng)業(yè)產(chǎn)出、土地利用、非法活動、森林砍伐等現(xiàn)象的測量4。

傳統(tǒng)上，從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化信息成本高昂，需依賴完全人工標(biāo)注，或依賴復(fù)雜的人工設(shè)計(jì)規(guī)則，因而常需大規(guī)模專項(xiàng)投入。近年來，計(jì)算能力提升與深度學(xué)習(xí)進(jìn)步顯著降低了從文本、圖像、音頻與視頻中提取低維結(jié)構(gòu)化數(shù)據(jù)的成本。大量機(jī)器學(xué)習(xí)文獻(xiàn)已表明，深度神經(jīng)網(wǎng)絡(luò)是當(dāng)前對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行大規(guī)模特征提取的最先進(jìn)技術(shù)（Goodfellow 等，2016）。

然而，神經(jīng)網(wǎng)絡(luò)在有限樣本中一般無法保證無偏預(yù)測。網(wǎng)絡(luò)架構(gòu)的選擇、訓(xùn)練數(shù)據(jù)的分布，以及各類實(shí)現(xiàn)細(xì)節(jié)（如訓(xùn)練中的正則化）均可能引入系統(tǒng)性偏差。此外，即使在最簡單的神經(jīng)網(wǎng)絡(luò)中，各層的非線性變換，加之神經(jīng)網(wǎng)絡(luò)常被用于二分類或多分類任務(wù)，均會違反經(jīng)典測量誤差模型的基本假設(shè)。

此類“第一步”預(yù)測器（first-step predictor，即用于預(yù)測后續(xù)分析中所用測度的模型）所產(chǎn)生的偏差，會進(jìn)一步傳播至依賴它們的估計(jì)量中，影響點(diǎn)估計(jì)與不確定性量化。盡管在大數(shù)據(jù)集中抽樣變異可能很小，但一個性能不佳的第一步預(yù)測器一旦以統(tǒng)計(jì)上合理的方式被納入不確定性核算，仍可能引入顯著誤差。對第一步預(yù)測器偏差的擔(dān)憂，又因現(xiàn)成神經(jīng)網(wǎng)絡(luò)的廣泛可用而加劇：這些模型實(shí)現(xiàn)成本相對低廉，卻可能存在偏差；不同模型可能引入不同偏差，從而引發(fā)“選擇性使用不同第一步推斷以獲得合意結(jié)果”的p-hacking疑慮。誠然，研究者常需自主構(gòu)建來自非結(jié)構(gòu)化數(shù)據(jù)的測度，這一事實(shí)雖為此類操縱提供了空間，卻也為應(yīng)對測量誤差的努力提供了便利。

為確保無偏估計(jì)，并判斷是否值得投入高昂成本以改進(jìn)第一步預(yù)測（例如訓(xùn)練更大模型，或收集更多、更高質(zhì)量的訓(xùn)練數(shù)據(jù)），研究者亟需一種框架：在利用神經(jīng)網(wǎng)絡(luò)預(yù)測時，顯式考慮第一步推斷誤差。為此，本文提出 MAR-S（Missing At Random Structured Data）框架——一種對通過低維特征納入非結(jié)構(gòu)化數(shù)據(jù)的估計(jì)目標(biāo)進(jìn)行有效、穩(wěn)健且具統(tǒng)計(jì)效度推斷的通用方法。

MAR-S 將非結(jié)構(gòu)化數(shù)據(jù)下的推斷問題重新表述為缺失數(shù)據(jù)問題，因?yàn)樵挤墙Y(jié)構(gòu)化數(shù)據(jù)集通常缺乏經(jīng)濟(jì)分析所關(guān)注的低維匯總變量。該框架植根于缺失數(shù)據(jù)理論的基本工作，特別是 Rubin（1976）提出的“隨機(jī)缺失”（Missing At Random, MAR）機(jī)制（參見 Little & Rubin, 2019；Robins 等, 1994, 1995；Robins & Rotnitzky, 1995；Bang & Robins, 2005）。MAR-S 借鑒了缺失數(shù)據(jù)下半?yún)?shù)推斷的經(jīng)典成果，該方法具有理論基礎(chǔ)堅(jiān)實(shí)、適用范圍廣、假設(shè)條件弱等優(yōu)點(diǎn)，為去偏估計(jì)提供了成熟路徑。

其核心思想是：利用一個包含真實(shí)值（ground truth）的驗(yàn)證樣本（validation sample）來估計(jì)推斷數(shù)據(jù)中的偏差，并據(jù)此校正估計(jì)結(jié)果——這一做法在計(jì)量經(jīng)濟(jì)學(xué)的測量誤差文獻(xiàn)中早已被認(rèn)可（Schennach, 2016）。

MAR-S 要求研究者獲取驗(yàn)證數(shù)據(jù)——這一過程成本高昂，通常需依賴高技能、高動機(jī)的人類專家對文本或圖像進(jìn)行標(biāo)注，或在遙感背景下收集地面觀測站數(shù)據(jù)。獲取驗(yàn)證數(shù)據(jù)本身即要求研究者對其所要提取的內(nèi)容給出精確且可操作的定義。換言之，盡管深度神經(jīng)網(wǎng)絡(luò)常被視為“黑箱”，MAR-S 卻要求其輸出能通過標(biāo)注過程獲得可解釋性。

在 MAR-S 框架下——顧名思義——驗(yàn)證樣本必須滿足 Rubin（1976）提出的“隨機(jī)缺失”（MAR）假設(shè)：即，在控制可觀測變量后，已標(biāo)注與未標(biāo)注樣本的真實(shí)結(jié)構(gòu)化變量值應(yīng)具有可比性。這與因果推斷中的“可觀測變量選擇性”（selection on observables）假設(shè)相平行——后者是另一類缺失數(shù)據(jù)問題：處理組缺失對照結(jié)果，對照組缺失處理結(jié)果。在非結(jié)構(gòu)化數(shù)據(jù)背景下，觀測被“選擇”進(jìn)入驗(yàn)證樣本（而非被施加“處理”）。

利用真實(shí)值樣本進(jìn)行去偏，已成為近期若干有影響力的、關(guān)于黑箱AI模型預(yù)測下有效統(tǒng)計(jì)推斷框架的核心（例如：Angelopoulos 等, 2023；Egami 等, 2023；Ludwig 等, 2024）。MAR-S 對該文獻(xiàn)的貢獻(xiàn)有三方面：1）構(gòu)建一個統(tǒng)一的理論框架，將上述新近工作與一系列更早、更熟悉的計(jì)量問題相聯(lián)系；2）借由該框架，對如何構(gòu)造無偏且高效的估計(jì)量提供新見解；3）通過推導(dǎo)適用于超出既有文獻(xiàn)范圍的常見實(shí)證情境的估計(jì)量，使去偏方法得以廣泛應(yīng)用于各類場景。

首先，MAR-S 提供了一個統(tǒng)一的理論框架，將跨學(xué)科獨(dú)立發(fā)展、交流有限的黑箱AI推斷新近工作，與計(jì)量經(jīng)濟(jì)學(xué)中關(guān)于測量誤差與驗(yàn)證數(shù)據(jù)的長期文獻(xiàn)（例如 Schennach, 2016；Chen 等, 2005, 2008）、廣泛使用的包含機(jī)器學(xué)習(xí)“第一步”的推斷方法（例如 Chernozhukov 等, 2018, 2022b,c），以及缺失數(shù)據(jù)與因果推斷的經(jīng)典文獻(xiàn)（例如 Rubin, 1978；Imbens & Rubin, 2015；Robins 等, 1994 等）有機(jī)整合。MAR-S 通過將非結(jié)構(gòu)化數(shù)據(jù)推斷與因果推斷等熟悉問題同構(gòu)為更一般的缺失數(shù)據(jù)問題，深化了我們對非結(jié)構(gòu)化數(shù)據(jù)推斷的理解。例如，半?yún)?shù)推斷中的諸多洞見由此變得相關(guān)且可用。

我們與當(dāng)前大多數(shù)黑箱AI推斷工作的一個關(guān)鍵區(qū)別在于：強(qiáng)調(diào)半?yún)?shù)方法，從而對估計(jì)量效率獲得新認(rèn)識。例如，為達(dá)到漸近效率，缺失結(jié)構(gòu)化數(shù)據(jù)的填補(bǔ)不僅應(yīng)依賴非結(jié)構(gòu)化數(shù)據(jù)（如文本或圖像），還應(yīng)依賴有助于目標(biāo)參數(shù)估計(jì)的情境特定結(jié)構(gòu)化變量（如回歸模型中的其他協(xié)變量）。部分新近黑箱AI推斷文獻(xiàn)認(rèn)為半?yún)?shù)方法過于復(fù)雜、難以廣泛應(yīng)用（Angelopoulos 等, 2024）；但在經(jīng)濟(jì)學(xué)中，情況可能恰恰相反：半?yún)?shù)方法有著悠久而廣泛的應(yīng)用傳統(tǒng)（例如 Chen 等, 2008；MaCurdy 等, 2011；Ackerberg 等, 2014），并有助于將非結(jié)構(gòu)化數(shù)據(jù)推斷與更熟悉的問題建立聯(lián)系。

2 文獻(xiàn)綜述
本研究依托計(jì)量經(jīng)濟(jì)學(xué)、統(tǒng)計(jì)學(xué)與生物統(tǒng)計(jì)學(xué)中大量既有文獻(xiàn)，既提供了一個統(tǒng)一的理論框架，也貢獻(xiàn)了實(shí)用工具，以應(yīng)對實(shí)證經(jīng)濟(jì)學(xué)中由非結(jié)構(gòu)化數(shù)據(jù)引發(fā)的常見推斷挑戰(zhàn)。其貢獻(xiàn)可從以下三方面定位：
第一，本研究拓展了近期關(guān)于黑箱人工智能（AI）預(yù)測推斷的文獻(xiàn)，將其覆蓋范圍延伸至經(jīng)濟(jì)學(xué)中常見的、但超出既有方法適用范圍的實(shí)證情境，并同時提供了關(guān)于估計(jì)效率的新見解；
第二，本研究構(gòu)建了一個通用理論框架，將上述新興文獻(xiàn)與半?yún)?shù)推斷的經(jīng)典文獻(xiàn)相統(tǒng)一，并將經(jīng)典的測量誤差模型拓展至高維非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域；
第三，本研究揭示了非結(jié)構(gòu)化數(shù)據(jù)推斷與經(jīng)濟(jì)學(xué)家熟悉的經(jīng)典計(jì)量問題（如因果推斷）之間的根本聯(lián)系，展示了計(jì)量經(jīng)濟(jì)學(xué)中的基礎(chǔ)工具如何可被運(yùn)用于人工智能時代的新挑戰(zhàn)。

本研究旨在應(yīng)對若干常見實(shí)證經(jīng)濟(jì)學(xué)情境——這些情境超出了近期關(guān)于漸近有效推斷的研究范圍，后者聚焦于靈活的黑箱函數(shù)逼近器（如大語言模型，LLMs）。該方向的代表性貢獻(xiàn)包括：“預(yù)測賦能推斷”（prediction-powered inference, PPI）（Angelopoulos 等，2023, 2024；Zrnic & Candès，2024b,a；Ji 等，2025；Kluger 等，2025）、“基于設(shè)計(jì)的監(jiān)督學(xué)習(xí)”（design-based supervised learning）（Egami 等，2023, 2024），以及 Ludwig 等（2024）的實(shí)證計(jì)量框架。此類文獻(xiàn)通常假設(shè)：真實(shí)值（ground truth）在所關(guān)注參數(shù)的同一層級上可得。相比之下，在實(shí)證經(jīng)濟(jì)學(xué)中，我們往往僅在細(xì)粒度層級（如單條文本或單張圖像）擁有真實(shí)值，而所關(guān)注參數(shù)卻反映的是記錄層級預(yù)測的（可能為非線性的）聚合結(jié)果，或某個總體層級量（例如1999年美國的經(jīng)濟(jì)政策不確定性）。在更粗粒度層級收集真實(shí)值通常不可行。MAR-S 直接應(yīng)對了這一挑戰(zhàn)。此外，MAR-S 還考慮了經(jīng)濟(jì)學(xué)中廣泛使用的實(shí)證情境下高效且穩(wěn)健的推斷問題，并就這些情境中實(shí)現(xiàn)效率所需的數(shù)據(jù)條件提供了新見解。為便于應(yīng)用，MAR-S 配套提供了實(shí)現(xiàn)軟件包。5

MAR-S 同時提供了一個通用理論框架，將新興黑箱AI文獻(xiàn)中（其中多數(shù)源自經(jīng)濟(jì)學(xué)以外學(xué)科）的多項(xiàng)分散貢獻(xiàn)，與半?yún)?shù)統(tǒng)計(jì)學(xué)及計(jì)量經(jīng)濟(jì)學(xué)中重要且長期積累的成果統(tǒng)一起來。在黑箱AI文獻(xiàn)中，最突出的脈絡(luò)之一便是系列關(guān)于“預(yù)測賦能推斷”（PPI）的論文。初期PPI論文（Angelopoulos 等，2023, 2024）引入了一個簡明的基準(zhǔn)框架；為清晰起見，該框架刻意排除了實(shí)證應(yīng)用中的若干常見特征——例如：它假設(shè)預(yù)測值是預(yù)訓(xùn)練黑箱模型的固定輸出（不考慮模型訓(xùn)練與交叉擬合問題），標(biāo)注數(shù)據(jù)是簡單隨機(jī)樣本（不處理非均勻或未知的標(biāo)注流程），且未采用半?yún)?shù)方法，亦未涉及半?yún)?shù)效率問題；Angelopoulos 等（2024）僅簡要提及與半?yún)?shù)理論的聯(lián)系。上述局限性隨后在后續(xù)研究中被逐一改進(jìn)：Zrnic & Candès（2024b）納入了模型訓(xùn)練與交叉擬合；Zrnic & Candès（2024a）允許非均勻標(biāo)注，但仍假設(shè)預(yù)測值固定；Ji 等（2025）采用了包含訓(xùn)練與交叉擬合的半?yún)?shù)方法，但假設(shè)標(biāo)注概率已知且均勻；6 Kluger 等（2025）雖未考慮半?yún)?shù)效率，但允許非均勻（但已知）的標(biāo)注概率。此外，除 Kluger 等（2025）外，上述方法僅適用于那些為“良好”（例如凸、光滑）總體損失函數(shù)極小值點(diǎn)的估計(jì)目標(biāo)；Kluger 等（2025）的明確動機(jī)之一，正是要突破這一范式限制。

相比之下，MAR-S 采取了一種更普適的方法，在一個單一框架內(nèi)兼容了上述全部復(fù)雜性。附錄第8.1節(jié)進(jìn)一步比較了 MAR-S 與現(xiàn)有理論文獻(xiàn)的異同。MAR-S 同時也將其他更具應(yīng)用導(dǎo)向的近期貢獻(xiàn)納入統(tǒng)一框架，例如 List 等（2024）與 Ludwig 等（2024）。誠然，提供盡可能簡化的框架具有優(yōu)勢——尤其當(dāng)目標(biāo)讀者橫跨多學(xué)科時（如 Angelopoulos 等，2023）；而 MAR-S 則憑借援引計(jì)量經(jīng)濟(jì)學(xué)文獻(xiàn)中通用且廣為人知的方法，在保持對應(yīng)用經(jīng)濟(jì)學(xué)家可讀性的同時，提供了更具一般性的統(tǒng)一框架。

MAR-S 最直接地建立于計(jì)量經(jīng)濟(jì)學(xué)中關(guān)于利用輔助驗(yàn)證數(shù)據(jù)校正測量誤差的文獻(xiàn)之上，并將 Chen 等（2008）的半?yún)?shù)框架拓展至高維非結(jié)構(gòu)化數(shù)據(jù)。借此，MAR-S 架起了經(jīng)典計(jì)量理論與當(dāng)代機(jī)器學(xué)習(xí)應(yīng)用之間的橋梁。關(guān)于計(jì)量經(jīng)濟(jì)學(xué)中測量誤差文獻(xiàn)的綜述，參見 Chen 等（2011）、Schennach（2016, 2022）。該文獻(xiàn)的一項(xiàng)關(guān)鍵洞見是：包含真實(shí)值的驗(yàn)證樣本，為校正非經(jīng)典測量誤差（尤其在非線性模型中）提供了一種通用的、與模型無關(guān)的方法（Chen 等，2005, 2008）。Ludwig 等（2024）在其針對大語言模型預(yù)測的實(shí)證計(jì)量框架中，亦將測量誤差置于核心地位。

更根本地，MAR-S 扎根于眾多經(jīng)濟(jì)學(xué)家所熟知的基礎(chǔ)方法，強(qiáng)調(diào)即便面對新技術(shù)（如大語言模型），長期積累的統(tǒng)計(jì)學(xué)框架依然具有根本重要性?！癕AR-S”這一名稱本身即反映了其對（生物）統(tǒng)計(jì)學(xué)中缺失數(shù)據(jù)經(jīng)典文獻(xiàn)的繼承（例如 Rubin，1976；Little & Rubin，2019；Robins 等，1994, 1995；Robins & Rotnitzky，1995；Bang & Robins，2005）。具體而言，我們采納 Rubin（1976）所提出的經(jīng)典“隨機(jī)缺失”（Missing At Random, MAR）機(jī)制，作為本框架的核心組織原則。

Rubin 的“隨機(jī)缺失”機(jī)制與Rubin 因果模型（Neyman，1923；Rubin，1974, 1978；Imbens & Rubin，2015）緊密相關(guān)：因果推斷可被視為缺失數(shù)據(jù)問題的一個特例——其中對照組的處理結(jié)果缺失，處理組的對照結(jié)果缺失（Little & Rubin，2019；Ding & Li，2018；Hirano 等，2003）。因此，缺失數(shù)據(jù)框架被廣泛應(yīng)用于因果推斷（Imbens & Rubin，2015）與計(jì)量經(jīng)濟(jì)學(xué)（Chen 等，2008；Athey 等，2019）。MAR-S 框架正建立于這一聯(lián)系之上，其符號體系與結(jié)構(gòu)設(shè)計(jì)均映射因果推斷中的關(guān)鍵要素。我們展示了因果推斷中的洞見如何有助于闡明非結(jié)構(gòu)化數(shù)據(jù)推斷中的核心挑戰(zhàn)，從而使 MAR-S 框架對已熟悉因果推斷的經(jīng)濟(jì)學(xué)家而言易于理解。

正如 Tsiatis（2006）所討論，半?yún)?shù)與非參數(shù)框架特別適用于缺失數(shù)據(jù)問題。相應(yīng)地，MAR-S 依托于廣泛的半?yún)?shù)與非參數(shù)推斷文獻(xiàn)（例如 Pfanzagl，1982；Bickel 等，1998；Newey，1994；van der Vaart，1998；Ackerberg 等，2014；Kennedy，2016, 2018；Chernozhukov 等，2022a）。這些框架之所以具有吸引力，是因?yàn)槠鋵?shù)據(jù)生成過程僅作相對較弱的假設(shè)，從而盡可能讓數(shù)據(jù)本身主導(dǎo)估計(jì)過程；其理論基礎(chǔ)亦植根于成熟的極小極大型效率（minimax-style efficiency）理論，為比較不同估計(jì)量的性能提供了原則性基準(zhǔn)（Newey，1994；van der Vaart，1998）。

半?yún)?shù)高效估計(jì)量的一個突出范例是增廣逆概率加權(quán)（augmented inverse propensity weighted, AIPW）估計(jì)量，廣泛用于處理效應(yīng)估計(jì)（Robins 等，1994；Robins & Rotnitzky，1995；Scharfstein 等，1999）。AIPW 估計(jì)量屬于更廣泛的“雙重穩(wěn)健”（doubly robust）估計(jì)量類別：此類估計(jì)量通過放松對干擾參數(shù)（nuisance parameters）估計(jì)的收斂速率要求，為模型誤設(shè)提供保護(hù)。干擾參數(shù)估計(jì)量本身并不直接用于估計(jì)主要關(guān)注參數(shù)（例如因果效應(yīng)或泛函），但對構(gòu)造最終估計(jì)量至關(guān)重要（例如通過填補(bǔ)結(jié)構(gòu)化數(shù)據(jù)）。此類穩(wěn)健性正是本文所構(gòu)建估計(jì)量的核心特征——它們遵循 AIPW 估計(jì)量的結(jié)構(gòu)。這使我們得以避免對深度神經(jīng)網(wǎng)絡(luò)的第一階段估計(jì)施加強(qiáng)正則性條件或收斂速率要求。

MAR-S 同樣與近期關(guān)于高維干擾參數(shù)下泛函的半?yún)?shù)去偏推斷的重要文獻(xiàn)密切相關(guān)。該文獻(xiàn)聚焦于：當(dāng)目標(biāo)為低維參數(shù)、而干擾參數(shù)由機(jī)器學(xué)習(xí)模型以非參數(shù)方式“第一步”估計(jì)時，如何實(shí)現(xiàn)有效推斷——尤其在因果推斷或經(jīng)濟(jì)模型結(jié)構(gòu)參數(shù)估計(jì)背景下（例如 Chernozhukov 等，2018, 2022b,c；Ichimura & Newey，2022）。本文承繼這一傳統(tǒng)，針對缺失數(shù)據(jù)泛函，開發(fā)了高效且穩(wěn)健的估計(jì)量，其假設(shè)條件專門適配非結(jié)構(gòu)化數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)所帶來的挑戰(zhàn)。

3 隨機(jī)缺失的結(jié)構(gòu)化數(shù)據(jù)

本節(jié)介紹 MAR-S 框架，該框架建立在 Rubin（1976）提出的經(jīng)典缺失數(shù)據(jù)機(jī)制之上。我們首先在非結(jié)構(gòu)化數(shù)據(jù)背景下，確立關(guān)于數(shù)據(jù)缺失性的術(shù)語體系與模型；隨后概述 MAR-S 的關(guān)鍵假設(shè)，并描述穩(wěn)健性與效率的基本原則；最后簡述 MAR-S 算法。

3.1 對缺失結(jié)構(gòu)化數(shù)據(jù)的建模

為實(shí)現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的穩(wěn)健且高效推斷，我們將問題重新表述為對缺失結(jié)構(gòu)化數(shù)據(jù)的推斷。結(jié)構(gòu)化數(shù)據(jù)記為 M∈M，是可直接用于估計(jì)方程的低維數(shù)據(jù)。它們與非結(jié)構(gòu)化數(shù)據(jù)（記為 U∈U）形成對比——后者維度高，不適合直接用于估計(jì)（例如：像素的原始 RGB 值、音頻波形或稀疏詞向量）。

在 MAR-S 框架下，結(jié)構(gòu)化數(shù)據(jù)通過一個稱為“標(biāo)注”（annotation）的過程被觀測到。標(biāo)注者（人類專家或其他昂貴的測量技術(shù)）依據(jù)對缺失結(jié)構(gòu)化數(shù)據(jù)的明確定義，記錄與給定 U 相對應(yīng)的 M 。標(biāo)注過程由“標(biāo)注得分函數(shù)”（annotation score function）描述：

由于標(biāo)注成本過高，難以規(guī)?；?，研究者會學(xué)習(xí)一個填補(bǔ)函數(shù) μ^以對缺失的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行填補(bǔ)。這使得研究者能夠利用完整的非結(jié)構(gòu)化數(shù)據(jù)集，實(shí)現(xiàn)更精確的估計(jì)。深度神經(jīng)網(wǎng)絡(luò)通常被用作填補(bǔ)函數(shù)，因?yàn)樗鼈兪钱?dāng)前將非結(jié)構(gòu)化數(shù)據(jù)映射為低維輸出的最先進(jìn)方法。然而，其預(yù)測精度可能因任務(wù)復(fù)雜度、模型架構(gòu)以及輸入數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的分布差異而顯著波動。

MAR-S 框架——以及其所依托的 Rubin（1976）框架——與 Rubin 因果模型（Neyman, 1923；Rubin, 1974, 1978；Imbens & Rubin, 2015）緊密關(guān)聯(lián)，因?yàn)橐蚬茢啾举|(zhì)上即是一個缺失數(shù)據(jù)問題。因此，我們引入潛在結(jié)果（potential outcomes）記號。該記號為討論缺失結(jié)構(gòu)化數(shù)據(jù)（以及其他常見形式的數(shù)據(jù)缺失，例如因果推斷中出現(xiàn)的缺失）提供了一個統(tǒng)一的表達(dá)體系。

假設(shè)結(jié)構(gòu)化數(shù)據(jù) M∈M存在某種數(shù)據(jù)缺失，其缺失模式由一個標(biāo)注指示變量 A∈{0,1}所刻畫。在此基礎(chǔ)上，潛在結(jié)果一致性（consistency of potential outcomes）假設(shè)使我們得以寫出如下表達(dá)式：

3.2 假設(shè)

本節(jié)概述 MAR-S 框架所依賴的基本假設(shè)。

在 MAR-S 中，用于預(yù)測缺失結(jié)構(gòu)化數(shù)據(jù)的第一步填補(bǔ)函數(shù)，在較弱的假設(shè)下運(yùn)作，因?yàn)閷?biāo)注信息的了解可用于使估計(jì)量對填補(bǔ)誤差更具穩(wěn)健性。

假設(shè) 1（潛在結(jié)果一致性）。對于真實(shí)值潛在結(jié)果 M?∈M，結(jié)構(gòu)化數(shù)據(jù) M∈M×{0}，以及標(biāo)注指示變量 A∈{0,1}，我們有

在因果推斷中，潛在結(jié)果的一致性要求處理變量定義明確，且每個觀測值的結(jié)果僅依賴于其自身的處理狀態(tài)（非干擾性）。在單側(cè)數(shù)據(jù)缺失的情境下，該概念依賴于類似的原理：標(biāo)注狀態(tài)必須定義明確——每個觀測值要么被標(biāo)注，要么未被標(biāo)注——且任何給定觀測值的真實(shí)值標(biāo)簽應(yīng)僅依賴于其自身的標(biāo)注狀態(tài)，而不依賴于其他觀測值的標(biāo)注狀態(tài)。這一點(diǎn)通過在整個標(biāo)注過程中使用一個保持不變的標(biāo)注標(biāo)準(zhǔn)（rubric）來確保。

第二個假設(shè)是 MAR-S 框架的基石。它指出：在給定研究者可獲取的可觀測變量條件下，Rubin 的“隨機(jī)缺失”（MAR）假設(shè)適用于真實(shí)值潛在結(jié)果（Rubin, 1976；Little and Rubin, 2019）。

假設(shè) 2（結(jié)構(gòu)化數(shù)據(jù)隨機(jī)缺失）。對于真實(shí)值潛在結(jié)果 M?∈M、標(biāo)注指示變量 A∈{0,1}、可觀測協(xié)變量 X∈X以及非結(jié)構(gòu)化數(shù)據(jù) U∈U：

這類似于因果推斷中的“可觀測變量選擇”假設(shè)（Hirano 等，2003）；沿用該術(shù)語體系，假設(shè) 2 也可被標(biāo)記為“基于可觀測變量的標(biāo)注”（annotation on observables）。在控制可觀測變量 X后，已標(biāo)注與未標(biāo)注的結(jié)構(gòu)化數(shù)據(jù)（及其關(guān)聯(lián)的非結(jié)構(gòu)化數(shù)據(jù)）在其真實(shí)值上具有可比性。不存在未被控制的混雜因素決定某一非結(jié)構(gòu)化數(shù)據(jù)實(shí)例是否被標(biāo)注。

在深度學(xué)習(xí)時代，研究者常自行構(gòu)建其結(jié)構(gòu)化數(shù)據(jù)集，并可在這種情況下設(shè)計(jì)標(biāo)注流程以滿足假設(shè) 2。

第三個假設(shè)是：標(biāo)注機(jī)制是已知的，且可以被限定，從而確保沒有任何非結(jié)構(gòu)化數(shù)據(jù)實(shí)例被保證標(biāo)注或不被標(biāo)注。

“標(biāo)注得分函數(shù)”（annotation score function）這一命名慣例，模仿了傾向得分函數(shù)（propensity score function）的術(shù)語體系——后者在因果推斷中扮演類似角色。

假設(shè)標(biāo)注得分函數(shù)有界，等價于觀測性因果推斷中常用的“嚴(yán)格重疊”（strict overlap）假設(shè)。在此類設(shè)定下，隨著確保無混雜性的變量維度升高，嚴(yán)格重疊的合理性將下降（D’Amour 等，2021）。而在大多數(shù)涉及非結(jié)構(gòu)化數(shù)據(jù)的經(jīng)濟(jì)學(xué)應(yīng)用中，X是低維的，與高維的 U形成鮮明對比。值得注意的是，機(jī)器學(xué)習(xí)文獻(xiàn)有時將 X設(shè)定為 U的低維表征；這一視角我們將在討論實(shí)際標(biāo)注問題時（第5.1節(jié)）再次涉及。

在社會科學(xué)中，現(xiàn)有的標(biāo)注實(shí)踐常常違反這一假設(shè)。研究者在處理文本數(shù)據(jù)時，頻繁采用基于關(guān)鍵詞的篩選：僅對包含特定關(guān)鍵詞的文本賦予非零標(biāo)注概率。當(dāng)數(shù)據(jù)存在類別不平衡時——例如，所關(guān)注類別的文本相對于整個語料庫而言較為稀少——這一做法尤為普遍。由于語言模型的預(yù)測誤差可能依賴于文本中出現(xiàn)的詞項(xiàng)，標(biāo)注樣本中觀測到的偏差未必能代表全部未標(biāo)注數(shù)據(jù)中的偏差。當(dāng)估計(jì)目標(biāo)參數(shù)時使用的是完整文本而非僅篩選后子集時，這一問題尤為嚴(yán)重。類似問題亦出現(xiàn)在如下情形：標(biāo)注數(shù)據(jù)僅針對某一特定時段收集，而所關(guān)注量卻是利用填補(bǔ)后的結(jié)構(gòu)化數(shù)據(jù)在更長時段上估計(jì)所得。例如，遙感文獻(xiàn)表明：為某一特定時段訓(xùn)練的作物類型識別模型，在時段外年份的表現(xiàn)可能更差——原因包括耕作方式或氣候的分布偏移（Wang 等，2020）。

應(yīng)對該問題的一種方式是：重新定義目標(biāo)總體，使其僅包含標(biāo)注樣本所抽取自的那些非結(jié)構(gòu)化數(shù)據(jù)實(shí)例。盡管該方法在某些情形下是恰當(dāng)?shù)?，但它改變了所得估?jì)目標(biāo)與估計(jì)量的解釋含義。第5.1節(jié)將討論其他替代策略：在確保對所有非結(jié)構(gòu)化數(shù)據(jù)實(shí)例賦予正抽樣概率的前提下，選擇最具信息量的標(biāo)注樣本。

當(dāng)研究者并非自行標(biāo)注其數(shù)據(jù)時，標(biāo)注函數(shù)可能需要被估計(jì)。在此情形下，“標(biāo)注函數(shù)已知”這一假設(shè)可被放松，前提是研究者愿意對填補(bǔ)函數(shù)與（估計(jì)所得的）標(biāo)注函數(shù)施加一定的收斂速率要求。我們將在討論最后一個 MAR-S 假設(shè)時，詳細(xì)闡明這些要求——現(xiàn)在我們轉(zhuǎn)向該假設(shè)。

最后一個核心假設(shè)，涉及本文所考慮泛函中用于填補(bǔ)缺失結(jié)構(gòu)化數(shù)據(jù)的理想函數(shù)，其一般形式為：

直觀上，該條件表明：隨著我們用于訓(xùn)練估計(jì)量的數(shù)據(jù)量趨于無窮大，該估計(jì)量的期望平方誤差需趨近于零；換句話說，該估計(jì)量是正確設(shè)定的。假設(shè)4有時被稱為“普遍一致性”（universal consistency）（Wager, 2024），在深度神經(jīng)網(wǎng)絡(luò)背景下，這一假設(shè)非常溫和。近期理論工作已表明，某些通過梯度下降法訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)——正如將在MAR-S中部署的那些——具有普遍一致性（Drews & Kohler, 2024）。

3.3 利用非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效且穩(wěn)健的推理

直覺上，影響函數(shù)（influence function）刻畫了數(shù)據(jù)分布的微小變動如何影響某一泛函（例如均值，或其他數(shù)據(jù)泛函）的取值，或某一估計(jì)量的概率極限。估計(jì)量通過其概率極限與影響函數(shù)相聯(lián)系（Newey, 1994；Ichimura & Newey, 2022）；泛函本身也與影響函數(shù)相關(guān)聯(lián)，后者有時被稱為“影響曲線”（influence curves）（Kennedy, 2023；Hines 等, 2022）。

在完全非參數(shù)統(tǒng)計(jì)模型中——即對分布 P未施加任何限制——任何正則、漸近線性（RAL）估計(jì)量必然是高效的，因?yàn)樗?RAL 估計(jì)量僅對應(yīng)唯一一個有效的影響函數(shù)，即高效影響函數(shù)（EIF）（Chen & Santos, 2018；Kennedy, 2023；Schuler & van der Laan, 2024）。然而，在半?yún)?shù)模型中，一個 RAL 估計(jì)量可能存在多個影響函數(shù)，但僅有一個能達(dá)到半?yún)?shù)效率下界，即對應(yīng)于 EIF。由于在 MAR-S 框架中，標(biāo)注得分函數(shù) π是已知的，故其統(tǒng)計(jì)模型為半?yún)?shù)模型，記為 Pπ。因此，并非所有 RAL 估計(jì)量都自動高效：可能存在多個影響函數(shù)，而高效影響函數(shù)是其中方差最小者。

當(dāng)我們放松假設(shè)3、需對標(biāo)注函數(shù)進(jìn)行估計(jì)時，推斷所依據(jù)的統(tǒng)計(jì)模型變?yōu)橥耆菂?shù)的：P∈P，而非 P∈Pπ。然而，對于某一類泛函，我們將證明：無論在 Pπ還是 P下，其 EIF 均保持不變；因此，本文應(yīng)用部分所推導(dǎo)的所有 EIF，在將假設(shè)3放松為“標(biāo)注得分函數(shù)未知但可估計(jì)”時依然成立（見引理1）。相應(yīng)地，高效估計(jì)量的構(gòu)造方式亦保持不變。

在 MAR-S 中，假設(shè)3與假設(shè)4共同刻畫了穩(wěn)健性。第一步估計(jì)量 μ^（例如用于填補(bǔ)結(jié)構(gòu)化數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)）僅需滿足較弱條件，原因在于：對于標(biāo)注函數(shù) π，我們可獲取其最準(zhǔn)確的第一步估計(jì)量——即 π本身。直覺上，已知標(biāo)注得分函數(shù)極大增強(qiáng)了 MAR-S 中半?yún)?shù)估計(jì)的穩(wěn)健性——這恰如在半?yún)?shù)因果推斷中，已知傾向得分函數(shù)將顯著增強(qiáng)估計(jì)穩(wěn)健性一般。

在 MAR-S 框架內(nèi)構(gòu)造穩(wěn)健且高效估計(jì)量的基本直覺，與缺失數(shù)據(jù)（包括因果推斷）半?yún)?shù)推斷文獻(xiàn)中的思路大體相似：利用足夠精確的第一步填補(bǔ)函數(shù)對缺失數(shù)據(jù)進(jìn)行填補(bǔ)，并借助通過標(biāo)注收集的真實(shí)值對其進(jìn)行去偏。然而，非結(jié)構(gòu)化數(shù)據(jù)情境下存在若干區(qū)別性因素：

為應(yīng)對這一問題，可對標(biāo)注得分函數(shù) π進(jìn)行優(yōu)化，通過引入重要性抽樣（importance sampling）的要素以降低估計(jì)方差（Sigman, 2010；Zrnic & Candès, 2024a），詳見第5.1節(jié)。這也與觀測性因果推斷中的“弱重疊”（weak overlap）概念（D’Amour 等, 2021；Ma 等, 2023）及半監(jiān)督推斷中的“衰減重疊”（decaying overlap）（Zhang 等, 2023）相聯(lián)系。在 MAR-S 框架中，我們并未假設(shè) P(A=1)→0的漸近情形。未來研究可拓展 MAR-S 框架，以納入這一替代性漸近視角。

3.4 MAR-S 算法

我們現(xiàn)在概述如何在一般設(shè)定下實(shí)施 MAR-S 框架。從高層次來看，MAR-S 遵循一種標(biāo)準(zhǔn)程序，用于實(shí)現(xiàn)高效且穩(wěn)健的半?yún)?shù)推斷（Pfanzagl, 1982）——該程序在生物統(tǒng)計(jì)學(xué)與計(jì)量經(jīng)濟(jì)學(xué)中已獲得廣泛采用，尤其在因果推斷領(lǐng)域（例如：Bang & Robins (2005)；van der Laan & Rubin (2006)；Chernozhukov 等 (2018)）。我們建立在 Hines 等 (2022) 與 Kennedy (2023) 所提出的框架之上，用于推導(dǎo)高效且穩(wěn)健的半?yún)?shù)估計(jì)量。MAR-S 采用這一經(jīng)典程序處理缺失結(jié)構(gòu)化數(shù)據(jù)，具體步驟如下：

識別（Identification）：研究者從一個目標(biāo)泛函 θ:P→R出發(fā)，例如某一分布的均值、線性回歸模型中的系數(shù)，或平均因果效應(yīng)。MAR-S 框架要求：若非結(jié)構(gòu)化數(shù)據(jù)未缺失，該參數(shù)應(yīng)為點(diǎn)識別（point identified）。潛在結(jié)果一致性與結(jié)構(gòu)化數(shù)據(jù)隨機(jī)缺失（假設(shè)1與假設(shè)2）將使研究者能夠在結(jié)構(gòu)化數(shù)據(jù)缺失的情形下，恢復(fù)其目標(biāo)泛函的點(diǎn)識別。
推導(dǎo)高效影響函數(shù)（Deriving the efficient influence function）：若該點(diǎn)識別的目標(biāo)泛函是路徑可微的8，則它具有唯一的高效影響函數(shù)（EIF）。存在多種方法與算法可用于計(jì)算某一泛函的 EIF。本文所討論示例中，我們采用 Kennedy (2023) 中概述的一種特別直接的方法，以構(gòu)建 EIF 候選。
構(gòu)造穩(wěn)健且高效的估計(jì)量（Constructing the robust and efficient estimator）：在獲得 EIF 后，研究者可遵循至少三種不同程序之一，以形成穩(wěn)健且高效的估計(jì)量：① 在基于 EIF 的“插件估計(jì)量”（plug-in estimator）上添加一個“一步校正”（one-step correction）；② 基于 EIF 解一個“估計(jì)方程”（estimating equation）（該方法最貼近 Chernozhukov 等 (2018, 2022a) 的框架）；或③ 追求“靶向最大似然估計(jì)”（targeted maximum likelihood estimation, TMLE）程序（van der Laan & Rubin, 2006）。在本文中，我們使用一步校正法，盡管上述任何方法均可互換使用，僅在有限樣本性質(zhì)或推導(dǎo)難易程度等方面略有差異。
用于估計(jì)的樣本分割（Sample splitting for estimation）：研究者通過數(shù)據(jù)分割（或交叉擬合，cross-fitting）程序?qū)嵤┕烙?jì)。盡管在對第一步估計(jì)量類別施加某些假設(shè)時（例如 Chen 等 (2024a)），樣本分割并非必需，但它是一種“無假設(shè)”（agnostic）的方式，用以確保在大樣本極限下實(shí)現(xiàn)漸近有效估計(jì)。在樣本分割及本框架其他假設(shè)成立的前提下，漸近方差的一致估計(jì)量可簡單地通過插件方法形成——即，估計(jì)所得 EIF 的經(jīng)驗(yàn)方差（Schuler & van der Laan, 2024）。

更多直覺可通過下節(jié)所發(fā)展的各種示例提供。

4 MAR-S 的應(yīng)用

我們在五個對經(jīng)濟(jì)學(xué)家具有特別興趣的實(shí)證情境中，展示 MAR-S 框架的應(yīng)用：描述性矩（descriptive moments）、線性回歸、線性工具變量（IV）模型、雙重差分（DiD）設(shè)計(jì)，以及在局部隨機(jī)化假設(shè)下的斷點(diǎn)回歸（RDD）設(shè)計(jì)。我們還展示 MAR-S 如何統(tǒng)一近期關(guān)于黑箱人工智能模型推斷的研究——這些研究獨(dú)立發(fā)展于不同學(xué)科，彼此間互動有限——并將此工作與半?yún)?shù)推斷的經(jīng)典成果及廣泛使用的、包含機(jī)器學(xué)習(xí)第一步的推斷方法相連接（Chernozhukov 等, 2018, 2022a,b,c）。

回顧前文，我們將缺失的結(jié)構(gòu)化數(shù)據(jù)記為 M，非結(jié)構(gòu)化數(shù)據(jù)記為 U。我們通過將單一變量指定為 M（例如，一個結(jié)果變量或處理變量）來構(gòu)建每個示例，盡管 MAR-S 同樣可應(yīng)用于從非結(jié)構(gòu)化數(shù)據(jù)中填補(bǔ)替代變量或多變量的情形。如前所述，MAR-S 僅限于路徑可微泛函——因?yàn)閷τ诜锹窂娇晌⒎汉?一致估計(jì)量的存在性無法保證，效率概念亦將無明確定義。我們將 MAR-S 對非路徑可微泛函的拓展留待未來研究。

我們現(xiàn)在定義一類核心的關(guān)注泛函：

定義 1。我們將“MAR-S 均值泛函”（MAR-S mean functional）定義為任何可寫作如下形式的泛函：

許多缺失結(jié)構(gòu)化數(shù)據(jù)的泛函——包括本文考慮的所有缺失結(jié)構(gòu)化數(shù)據(jù)的泛函——都可以寫成MAR-S均值泛函。對于此類泛函，我們有以下識別結(jié)果。

在MAR-S框架下，當(dāng)標(biāo)注評分函數(shù)π已知時，統(tǒng)計(jì)模型是半?yún)?shù)的。推導(dǎo)半?yún)?shù)統(tǒng)計(jì)模型下路徑可微泛函的有效影響函數(shù)通常比在完全非參數(shù)統(tǒng)計(jì)模型下更具挑戰(zhàn)性，因?yàn)楹笳咧挥幸粋€影響函數(shù)，即有效影響函數(shù)。引理1通過證明非參數(shù)統(tǒng)計(jì)模型下MAR-S均值泛函θ的EIF同樣適用于半?yún)?shù)統(tǒng)計(jì)模型下的θ，從而簡化了我們的任務(wù)。直觀上，擾動由MAR-S均值泛函的標(biāo)注評分給出的分布不會改變泛函的值：如果我們以不同（但有效）的方式標(biāo)注數(shù)據(jù)，被估計(jì)參數(shù)的（總體內(nèi)）值將保持不變。這與Chen等人（2008）中的若干相關(guān)結(jié)論一致，例如，使用"樣本內(nèi)驗(yàn)證"輔助數(shù)據(jù)集識別的參數(shù)的漸近方差下界不受"傾向評分"（在MAR-S框架中為1-π(x)）認(rèn)知的影響。

基于引理1，我們可以直接計(jì)算通用MAR-S均值泛函的有效影響函數(shù)，這將在下一個命題中介紹。

假設(shè)2與MAR-S均值泛函的定義共同保證：標(biāo)注得分函數(shù)僅是低維變量 X的函數(shù)，而非高維變量 X~的函數(shù)，從而防范了在估計(jì)過程中可能產(chǎn)生的“弱重疊”（weak overlap）問題。

4.1 描述性矩

我們首先將 MAR-S 應(yīng)用于描述性矩。除了其本身對眾多經(jīng)濟(jì)分析的重要性外，這些泛函亦為分析更復(fù)雜的估計(jì)目標(biāo)奠定了基礎(chǔ)。

MAR-S 還與雙/去偏機(jī)器學(xué)習(xí)（DML）框架密切相關(guān)（Chernozhukov 等, 2018）。例如，在因果推斷背景下，于“可觀測變量選擇”假設(shè)下估計(jì)潛在均值時，DML 框架提出了一種通過 Neyman 正交得分導(dǎo)出的估計(jì)量，該估計(jì)量與 AIPW 估計(jì)量（Robins 等, 1994）本質(zhì)上相同。

這種等價關(guān)系并非偶然。第3節(jié)表明：缺失結(jié)構(gòu)化數(shù)據(jù)的期望值可被解釋為平均潛在結(jié)果，且在“基于可觀測變量的標(biāo)注”假設(shè)下可實(shí)現(xiàn)點(diǎn)識別。此外，推導(dǎo) Neyman 正交得分可被視為一種“估計(jì)方程”方法，用于構(gòu)造半?yún)?shù)高效估計(jì)量（Kennedy, 2023；Schuler & van der Laan, 2024），這與 MAR-S 中使用的基于一步影響函數(shù)校正的方法形成對比（Chernozhukov 等, 2022a），后者推廣了原始 DML 結(jié)果，并進(jìn)一步明確指出：Neyman 正交矩可被視為基于影響函數(shù)的對矩條件的校正。

由于 MAR-S 基于與 DML 相同的基礎(chǔ)半?yún)?shù)分析，很可能存在多種方式可將 DML 框架中的洞見應(yīng)用于 MAR-S。考慮 DML 文獻(xiàn)中最近的一個分支，其聚焦于“自動”或數(shù)據(jù)驅(qū)動的方式實(shí)現(xiàn)去偏校正（Chernozhukov 等, 2022a,b,c）。盡管在 MAR-S 下考慮的許多泛函最終可導(dǎo)出具有簡單通用解析表達(dá)式的 Riesz 表示子，但也存在其他缺失結(jié)構(gòu)化數(shù)據(jù)情境，可能誘導(dǎo)更復(fù)雜的泛函，此時自動去偏技術(shù)可能證明相當(dāng)有用。

4.2 線性回歸
我們現(xiàn)在將 MAR-S 應(yīng)用于線性回歸。為便于說明，我們考慮因變量由非結(jié)構(gòu)化數(shù)據(jù)填補(bǔ)的情形；盡管 MAR-S 框架同樣可直接處理一個或多個自變量（以及因變量）的填補(bǔ)。

4.3 線性工具變量

MAR-S 框架可直接拓展至線性工具變量（IV）。我們沿用 Blandhol 等（2022）的術(shù)語與設(shè)定。

4.4 雙重差分法

在本應(yīng)用中，我們聚焦于 Callaway 和 Sant’Anna（2021）所提出的非參數(shù)雙重差分（DiD）估計(jì)量。

4.5 局部隨機(jī)化假設(shè)下的斷點(diǎn)回歸設(shè)計(jì)
最后，我們在 MAR-S 框架下考慮斷點(diǎn)回歸設(shè)計(jì)（RDD）。我們聚焦于 局部隨機(jī)化框架 下的清晰斷點(diǎn)回歸（sharp RDD），而非連續(xù)性框架（Cattaneo & Titiunik, 2022）。

5 擴(kuò)展

我們現(xiàn)在考慮對MAR-S的擴(kuò)展，以應(yīng)對經(jīng)濟(jì)應(yīng)用中經(jīng)常出現(xiàn)的場景。

5.1 批量主動推理

與觀察性因果推斷設(shè)置中傾向得分函數(shù)未知不同，在非結(jié)構(gòu)化數(shù)據(jù)設(shè)置中，研究人員通常可以選擇注釋得分函數(shù) π。當(dāng)處理非常大的非結(jié)構(gòu)化數(shù)據(jù)集時，有時會遇到缺失的結(jié)構(gòu)化數(shù)據(jù)構(gòu)成“罕見事件”的情況。例如，如果數(shù)據(jù)集是某個主要平臺上所有社交媒體帖子的集合，那么幾乎任何給定主題的內(nèi)容占比都會很小，因?yàn)閮?nèi)容種類繁多。在罕見事件估計(jì)中，通常的擔(dān)憂是“變異系數(shù)”（事件指示器的方差與事件概率的比率）很大，使得置信區(qū)間不具信息性。正如罕見事件估計(jì)的文獻(xiàn)所建議的那樣，我們可能對包含某種重要性抽樣元素的注釋感興趣，以進(jìn)一步減少我們估計(jì)的方差（Sigman, 2010）。這種方法是在“批量主動推斷”（Zrnic 和 Candès, 2024a）的工作中發(fā)展的，我們現(xiàn)在將其與MAR-S框架聯(lián)系起來。

在描述性矩估計(jì)的設(shè)置中，回顧一下估計(jì)器的漸近方差由以下給出

這個標(biāo)注函數(shù)是不可行的，因?yàn)樗蕾囉谖覀儤?biāo)注前無法觀測到的 M*，但它提供了一個有用的直覺：標(biāo)注得分函數(shù)應(yīng)更重視那些在均方誤差（MSE）意義上更難填補(bǔ)的數(shù)據(jù)點(diǎn)。然而，正如 Zrnic 和 Candès (2024a) 所提倡的，我們可以考慮實(shí)現(xiàn)一個可行的標(biāo)注得分函數(shù)來捕捉這一直覺，例如

其中，err(x) 是某個代理函數(shù)，用于捕捉一個固定填補(bǔ)函數(shù)的不確定性。例如，深度神經(jīng)編碼器輸出的 softmax 分?jǐn)?shù)的分布特征，或來自大語言模型（LLM）的口頭化置信度分?jǐn)?shù)，均可作為此類代理函數(shù)（Yang 等，2024）。盡管所引用的工作提供了有價值的指導(dǎo)，但在高度類別不平衡數(shù)據(jù)集的背景下選擇標(biāo)注得分函數(shù)，仍然是一個有待持續(xù)研究的重要領(lǐng)域。

5.2 聚合與轉(zhuǎn)換后的缺失數(shù)據(jù)

基線 MAR-S 框架——以及其他用于消除黑箱 AI 估計(jì)偏差的方法——在概念上是直接明了的。然而，它們未能解決常見的實(shí)證應(yīng)用場景。特別是，現(xiàn)有文獻(xiàn)假設(shè)用于估計(jì)方程中的填補(bǔ)變量存在真實(shí)值數(shù)據(jù)。在實(shí)踐中，這通常行不通，因?yàn)樗P(guān)注的缺失變量是細(xì)粒度缺失結(jié)構(gòu)化數(shù)據(jù)的一個（可能是非線性的）函數(shù)，而真實(shí)值數(shù)據(jù)僅在該細(xì)粒度層面可得，例如，所關(guān)注的缺失變量是成千上萬甚至數(shù)百萬個從單個文本或圖像中提取的缺失結(jié)構(gòu)化數(shù)據(jù)實(shí)例的平均值。這種情形在實(shí)證經(jīng)濟(jì)學(xué)中普遍存在，其中非結(jié)構(gòu)化數(shù)據(jù)通常在單個文本或圖像層面被觀測到，而分析中的其他變量則通常按地理、時間、企業(yè)或其他維度進(jìn)行聚合。在其他情況下，所關(guān)注的缺失變量本身最好被表示為細(xì)粒度缺失結(jié)構(gòu)化數(shù)據(jù)的一個函數(shù)，例如一個總體層面的均值，對于該均值，在任何有限樣本中都無法觀測到其真實(shí)值。

不幸的是，這種方法忽略了許多實(shí)證場景，因?yàn)椴逖a(bǔ)的結(jié)構(gòu)化數(shù)據(jù)通常被聚合，然后進(jìn)行非線性轉(zhuǎn)換（例如，通過對數(shù)）。雖然有時合理地近似轉(zhuǎn)換為線性是合理的——例如，使用泰勒展開（見附錄第8.3節(jié)）——這種方法很快就會變得繁瑣。它也沒有解決感興趣的變量被概念化為總體水平均值的場景。

然而，在一個非常常見的情形下，即研究者希望對一個作為細(xì)粒度缺失結(jié)構(gòu)化數(shù)據(jù)的函數(shù)（或聚合）的回歸變量進(jìn)行回歸分析時，我們開發(fā)了一種更廣泛適用的方法來使用 MAR-S，該方法通過簡單應(yīng)用 delta 方法即可輕松處理非線性變換。

這種簡化的流程利用 MAR-S 來創(chuàng)建所關(guān)注回歸變量的無偏第一步估計(jì)量。例如，MAR-S 可用于在相關(guān)聚合層面（例如，從報(bào)紙文章層面填補(bǔ)結(jié)果中估算的年度經(jīng)濟(jì)政策不確定性均值）估算缺失數(shù)據(jù)的無偏均值。盡管這些預(yù)測仍包含噪聲，但有效的去偏確保了剩余的噪聲是經(jīng)典型的。在回歸中使用這些去偏后的測度所產(chǎn)生的衰減偏差，可以通過標(biāo)準(zhǔn)且直接的方法予以解決，這些方法能輕松適應(yīng)常見的實(shí)證場景。從概念上講，這種方法類似于在線性模型中使用隨機(jī)抽樣調(diào)查數(shù)據(jù)估算出的回歸變量來估計(jì)系數(shù)（參見，例如，Deaton (1985)；Fuller (1987)）。然而，當(dāng)數(shù)據(jù)由神經(jīng)網(wǎng)絡(luò)而非隨機(jī)調(diào)查生成時，我們需要第一步的偏差校正，因?yàn)樵谖慈テ那闆r下，不能假設(shè)由此產(chǎn)生的測量誤差是經(jīng)典型的。

因此，我們能夠生成具有所需覆蓋率的漸近有效置信區(qū)間。

該方法在概念上直觀明了，并使 MAR-S 能夠應(yīng)用于現(xiàn)有框架之外的常見實(shí)證場景。通過引用適當(dāng)?shù)木垲愔行臉O限定理，該方法可自然地?cái)U(kuò)展到聚類數(shù)據(jù)；它也能輕松適應(yīng)面板數(shù)據(jù)——這正是 Deaton (1985) 最初考慮的情境。此外，還有若干其他擴(kuò)展也很直接，例如：適應(yīng)因變量也通過 MAR-S 第一步進(jìn)行估計(jì)的情形；放寬測量誤差服從正態(tài)分布的假設(shè)；或處理 Σ 需要被估計(jì)而非假定為已知的情況（Fuller, 1987）。1?

6 實(shí)證案例

本節(jié)通過三個實(shí)證案例來說明 MAR-S 方法。前兩個案例將 MAR-S 應(yīng)用于經(jīng)濟(jì)學(xué)文獻(xiàn)中使用非結(jié)構(gòu)化數(shù)據(jù)的兩篇重要論文——Baker 等人（2016）和 Caldara 與 Iacoviello（2022）；最后一個案例則通過一個均值估計(jì)示例，利用作者先前收集的已標(biāo)注數(shù)據(jù)（Dell 等，2023），探討了 MAR-S 的設(shè)計(jì)選擇。

為被納入研究，一篇論文必須滿足以下條件：發(fā)表在高質(zhì)量期刊上、提供填補(bǔ)缺失數(shù)據(jù)所用的公開驗(yàn)證集，并且我們能夠獲取所有用于復(fù)現(xiàn)所需的原始數(shù)據(jù)。這些標(biāo)準(zhǔn)大幅縮小了候選研究的范圍，因?yàn)榇蠖鄶?shù)以文本或圖像數(shù)據(jù)為核心的研究要么缺乏驗(yàn)證樣本，要么未完全公開復(fù)現(xiàn)所需的數(shù)據(jù)。因此，我們納入了那些使用關(guān)鍵詞分類器（而非神經(jīng)網(wǎng)絡(luò)分類器）進(jìn)行填補(bǔ)的研究，因?yàn)橹钡浇暌郧?，關(guān)鍵詞方法一直是主流。我們還利用原始作者提供的標(biāo)注數(shù)據(jù)，訓(xùn)練基于 Transformer 大語言模型（LLM）的分類器，作為對原始關(guān)鍵詞分類器的補(bǔ)充。

6.1 經(jīng)濟(jì)政策不確定性指數(shù)（Baker 等，2016）

Baker 等人（2016）提出了一種定量指數(shù)，用于衡量經(jīng)濟(jì)政策不確定性（EPU）。該 EPU 指數(shù)計(jì)算在主要報(bào)紙上于每個時間點(diǎn)發(fā)表的、討論經(jīng)濟(jì)政策不確定性的文章所占比例，其測量方式采用了一個簡單的、基于關(guān)鍵詞的二元分類器1?。這些比例經(jīng)過縮放和標(biāo)準(zhǔn)化后，最終形成指數(shù)值。

直觀上，EPU 指數(shù)中的每一項(xiàng)都可以被視為對“在特定時間點(diǎn)，給定一組報(bào)紙的文章反映經(jīng)濟(jì)政策不確定性（按 Baker 等人（2016）的定義）的概率”的估計(jì)。這是一個推斷問題，其中利用非結(jié)構(gòu)化數(shù)據(jù)（報(bào)紙文本）來估計(jì)缺失結(jié)構(gòu)化數(shù)據(jù)的一個函數(shù)（即在特定時間點(diǎn)，經(jīng)濟(jì)政策不確定性二元指示符的期望值）。

由于標(biāo)注得分函數(shù)是已知的，因此為兩種版本的 MARS-EPU 指數(shù)報(bào)告的置信區(qū)間在漸近意義上是有效的。然而，填補(bǔ)函數(shù)越優(yōu)——即越接近真實(shí)值 μ——對于給定樣本量 n，其置信區(qū)間就會越窄。因此，基于深度神經(jīng)網(wǎng)絡(luò)分類器的 MARS-EPU 指數(shù)比基于 Baker 等人（2016）關(guān)鍵詞分類器的 MARS-EPU 指數(shù)具有更短的置信區(qū)間。

在 Baker 等人（2016）的研究中，EPU 指數(shù)的大部分社會科學(xué)價值體現(xiàn)在將其作為回歸變量用于后續(xù)的回歸分析中。下面我們簡要回顧該論文中一個代表性的回歸分析。

具體而言，我們重新分析 Baker 等人（2016）論文表 IV 第 (5) 列所報(bào)告的以下基準(zhǔn)回歸：

在圖 2 中，我們使用 MARS-EPU 指數(shù)，并結(jié)合適當(dāng)?shù)臏y量誤差校正最小二乘估計(jì)量（ME-LS）來估計(jì) β，并根據(jù) Baker 等人（2016）的做法，繪制以企業(yè)層面聚類的標(biāo)準(zhǔn)誤為基礎(chǔ)的置信區(qū)間。我們還計(jì)算了基于普通最小二乘法（OLS）估計(jì)量的 β 的點(diǎn)估計(jì)值和置信區(qū)間，分別對應(yīng)兩種情形：一是將 MARS-EPU 指數(shù)作為第一步估計(jì)量使用，二是將未經(jīng)調(diào)整的 EPU 指數(shù)作為第一步估計(jì)量使用。

鑒于此方法忽略了去偏 EPU 指數(shù)中存在的經(jīng)典測量誤差，我們預(yù)期會出現(xiàn)一定程度的衰減偏差。

的確，當(dāng)比較通過測量誤差校正最小二乘法（ME-LS）估計(jì)的回歸系數(shù)與使用 MAR-S 生成變量的普通最小二乘法（OLS）估計(jì)值時，忽略經(jīng)典測量誤差所導(dǎo)致的衰減偏差是顯而易見的。在此情境下，使用 MARS-EPU 指數(shù)的 ME-LS 估計(jì)值在數(shù)值大小上與使用未經(jīng)調(diào)整 EPU 指數(shù)的標(biāo)準(zhǔn) OLS 回歸所得結(jié)果非常接近。未經(jīng)調(diào)整的 EPU 指數(shù)中的測量誤差包含兩部分：隨機(jī)噪聲（即使在去偏后仍存在的部分，會導(dǎo)致衰減偏差）和系統(tǒng)性成分（通過去偏被消除的部分）。在本案例中，這兩部分似乎相互抵消了，盡管這并非普遍情況。

通過深度神經(jīng)網(wǎng)絡(luò)填補(bǔ)構(gòu)建的、估計(jì)更精確的 MARS-EPU 指數(shù)，相較于噪聲更大的關(guān)鍵詞方法構(gòu)建的 MARS-EPU 指數(shù)，為所關(guān)注的系數(shù)提供了更窄的置信區(qū)間，這體現(xiàn)了更準(zhǔn)確填補(bǔ)所帶來的回報(bào)。重要的是，與考慮了填補(bǔ)過程中測量誤差的估計(jì)相比，未校正估計(jì)的標(biāo)準(zhǔn)誤被低估了。

6.2 地緣政治風(fēng)險指數(shù)（Caldara 和 Iacoviello，2022）

作為 Baker 等人（2016）研究的學(xué)術(shù)繼承者，Caldara 和 Iacoviello（2022）構(gòu)建了一個用于衡量地緣政治風(fēng)險（GPR）的定量指數(shù)。與 EPU 指數(shù)類似，GPR 指數(shù)在每個時間點(diǎn)的數(shù)值是根據(jù)一個詳細(xì)的關(guān)鍵詞文本查詢，計(jì)算出主要報(bào)紙中討論日益加劇的地緣政治風(fēng)險的文章所占比例（經(jīng)標(biāo)準(zhǔn)化處理）而得出的。

從根本上講，GPR 指數(shù)估計(jì)的是在特定時間點(diǎn)、針對一組給定報(bào)紙，某篇報(bào)紙文章討論地緣政治風(fēng)險上升的概率。這涉及利用報(bào)紙文本去估計(jì)缺失結(jié)構(gòu)化數(shù)據(jù)的一個函數(shù)（即討論地緣政治風(fēng)險的文章的二元指示符的期望值）。

我們沿用上一節(jié)所述的相同形式化設(shè)定，并生成應(yīng)用與未應(yīng)用 MAR-S 框架的 GPR 指數(shù)（時間范圍 T = {1900, 1901, ..., 2015}）。我們再次基于兩種不同的填補(bǔ)函數(shù)構(gòu)建多個指數(shù)：原始的 GPR 關(guān)鍵詞查詢，以及基于 Sentence-BERT 最小“通用”模型 DistilRoBERTa 的深度神經(jīng)網(wǎng)絡(luò)分類器（Reimers 和 Gurevych，2019）23。與 EPU 指數(shù)一樣，我們嚴(yán)格遵循 Caldara 和 Iacoviello（2022）對地緣政治風(fēng)險的定義，僅使用為其人工審計(jì)樣本創(chuàng)建的真實(shí)標(biāo)注數(shù)據(jù)。該人工審計(jì)樣本中的標(biāo)注數(shù)據(jù)是從 Caldara 和 Iacoviello（2022）指定的大量 ProQuest 文章庫中獨(dú)立同分布隨機(jī)抽樣獲得的，我們將整個文章庫作為無標(biāo)簽數(shù)據(jù)用于填補(bǔ)指數(shù)2?。我們采用與 MARS-EPU 指數(shù)相同的資料分割程序。在估計(jì)樣本中，輕量級深度神經(jīng)網(wǎng)絡(luò)分類器的準(zhǔn)確率為 80.6%，而關(guān)鍵詞查詢的準(zhǔn)確率為 66.2%（以人工審計(jì)標(biāo)注為真實(shí)值）。

圖 3 繪制了基于關(guān)鍵詞和神經(jīng)網(wǎng)絡(luò)的 MARS-GPR 指數(shù)以及未經(jīng)調(diào)整的 GPR 指數(shù)，并附帶置信區(qū)間?；谠缄P(guān)鍵詞查詢的未經(jīng)校正的 GPR 指數(shù)相對于真實(shí)值樣本系統(tǒng)性且顯著地低估了地緣政治風(fēng)險，因?yàn)閷徲?jì)樣本中的許多文章雖然討論了地緣政治風(fēng)險的上升，但并未包含必需的關(guān)鍵詞。盡管如此，校正與未校正指數(shù)的變化主要由第一次和第二次世界大戰(zhàn)驅(qū)動，9·11 事件之后以及冷戰(zhàn)初期也出現(xiàn)了地緣政治風(fēng)險升高的情況。

非 MAR-S 指數(shù)的置信區(qū)間（錯誤地）比 MAR-S 指數(shù)的置信區(qū)間窄得多。此外，更精確的深度神經(jīng)網(wǎng)絡(luò)分類器生成的 MAR-S 置信區(qū)間略窄于精度較低的關(guān)鍵詞分類器所生成的置信區(qū)間。

接下來，我們回顧 Caldara 和 Iacoviello（2022）論文中一個使用 GPR 指數(shù)作為回歸變量的代表性回歸分析。具體而言，Caldara 和 Iacoviello（2022）設(shè)定了一個簡單的基準(zhǔn)回歸模型，用于估計(jì) GPR 對經(jīng)濟(jì)災(zāi)難概率的影響：

圖4顯示了（標(biāo)準(zhǔn)化的）MARS和非MARS第一步指數(shù)推導(dǎo)出的估計(jì)值之間存在一些差異——盡管這些差異在統(tǒng)計(jì)上并不顯著。世界大戰(zhàn)的沖擊是如此巨大，以至于即使在地緣政治風(fēng)險測量中存在實(shí)質(zhì)性的系統(tǒng)性偏差（圖3），也會在（標(biāo)準(zhǔn)化的）地緣政治風(fēng)險和經(jīng)濟(jì)災(zāi)難之間留下一個正的估計(jì)關(guān)系。顯然，許多經(jīng)濟(jì)學(xué)家研究的關(guān)系依賴于不太顯著的變化。正如預(yù)期的那樣，基于MARS第一步插補(bǔ)的OLS系數(shù)過于精確——相對于ME-LS估計(jì)，點(diǎn)估計(jì)略有減弱。在這種設(shè)置中，使用深度神經(jīng)插補(bǔ)并沒有帶來下游精度的提高。鑒于地緣政治風(fēng)險數(shù)據(jù)是單一年度系列，精度對GPRt第一步中的時間變化程度高度敏感。由于（標(biāo)準(zhǔn)化的）系列中變化的微小差異導(dǎo)致的精度的適度差異似乎抵消了神經(jīng)分類器的適度精度優(yōu)勢所帶來的精度增益。

6.3 MAR-S 設(shè)計(jì)選擇

為了探索MAR-S框架內(nèi)的設(shè)計(jì)選擇——使用熟悉的均值估計(jì)設(shè)置——我們開發(fā)了第三個示例，專注于估計(jì)美國地方報(bào)紙中關(guān)于政治文章的比例。由于經(jīng)濟(jì)學(xué)文獻(xiàn)中注釋文本審計(jì)樣本通常較小，我們標(biāo)記數(shù)據(jù)以生成足夠大的注釋集，以研究其大小如何影響MAR-S下的推斷。文章是從Dell等人（2023）描述的大規(guī)模歷史美國報(bào)紙數(shù)據(jù)集中隨機(jī)選擇進(jìn)行注釋的。我們選擇政治話題，因?yàn)樗巧贁?shù)幾個足夠常見的話題之一，可以通過隨機(jī)抽樣產(chǎn)生相對平衡的注釋樣本。

在經(jīng)濟(jì)學(xué)中使用深度學(xué)習(xí)來插補(bǔ)缺失數(shù)據(jù)的文獻(xiàn)中，一個常見的問題是：精度有多高才算足夠高？答案取決于研究人員對依賴插補(bǔ)數(shù)據(jù)的下游估計(jì)器所需的精度水平。如果估計(jì)器未能達(dá)到所需的精度，通?？梢酝ㄟ^增加訓(xùn)練集的大小、設(shè)計(jì)對模型更信息豐富的訓(xùn)練樣本（例如，通過包括更難的樣本或更高質(zhì)量的注釋）、調(diào)整更大的模型或應(yīng)用這些策略的某種組合來提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性。

7 結(jié)論

非結(jié)構(gòu)化數(shù)據(jù)在豐富社會科學(xué)研究方面具有相當(dāng)大的潛力。然而，盡管神經(jīng)網(wǎng)絡(luò)功能強(qiáng)大，但它們并不能普遍產(chǎn)生無偏預(yù)測。通過收集更多或更高質(zhì)量的訓(xùn)練數(shù)據(jù)以及增加模型大小，通?？梢蕴岣咂錅?zhǔn)確性，但這些努力成本高昂。為了評估預(yù)測何時足夠準(zhǔn)確——并使用它們得出可信的結(jié)論——研究人員必須認(rèn)真對待預(yù)測誤差。

MAR-S框架通過將非結(jié)構(gòu)化數(shù)據(jù)的分析框架為缺失結(jié)構(gòu)化數(shù)據(jù)問題來解決這些挑戰(zhàn)。這種方法能夠恢復(fù)具有有效不確定性量化的√n-一致估計(jì)量，并為構(gòu)建既高效又穩(wěn)健的估計(jì)量提供了基礎(chǔ)。通過優(yōu)先考慮效率，MAR-S表明，最優(yōu)插補(bǔ)函數(shù)可以采取非明顯的形式，因?yàn)樗鼈儾粌H必須捕捉非結(jié)構(gòu)化和缺失結(jié)構(gòu)化數(shù)據(jù)的變化，還必須捕捉特定情境的協(xié)變量的變化。

我們進(jìn)一步將此框架擴(kuò)展到感興趣的參數(shù)是缺失結(jié)構(gòu)化數(shù)據(jù)的（潛在非線性）函數(shù)或泛函，并且僅在細(xì)粒度級別觀察到真實(shí)值的場景。這種在現(xiàn)有文獻(xiàn)中被忽視的場景在實(shí)證經(jīng)濟(jì)學(xué)中很常見，因?yàn)椴逖a(bǔ)的結(jié)構(gòu)化數(shù)據(jù)（及相應(yīng)的真實(shí)注釋）通常位于單個文本或圖像的級別，而其他感興趣的變量僅在更粗的聚合級別可用。

至關(guān)重要的是，通過缺失數(shù)據(jù)的視角來看待非結(jié)構(gòu)化數(shù)據(jù)的推斷要求研究人員定義他們希望預(yù)測的低維摘要，并確保黑盒模型（如神經(jīng)網(wǎng)絡(luò)）的輸出在與估計(jì)量的關(guān)系上是可解釋的。盡管無監(jiān)督數(shù)據(jù)分析在MAR-S的范圍之外，但明確測量目標(biāo)通常能帶來科學(xué)效益。

MAR-S提供了一個簡單而通用的框架，用于量化第一步模型中的預(yù)測誤差如何影響下游估計(jì)。在弱假設(shè)下，它允許使用插補(bǔ)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效、穩(wěn)健和高效的推斷，即使插補(bǔ)是由復(fù)雜、易出錯的模型執(zhí)行的。隨著非結(jié)構(gòu)化數(shù)據(jù)在實(shí)證工作中變得越來越重要，MAR-S提供了一條實(shí)用路徑，朝著可信和可解釋的推斷發(fā)展，適用于廣泛的常見實(shí)證場景。

原文鏈接：https://arxiv.org/pdf/2505.00282

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.