理论教育 断点回归设计优化技巧

断点回归设计优化技巧

时间:2023-06-11 理论教育 版权反馈
【摘要】:断点回归设计最早是由Thistlethwait and Campbell在研究奖学金对学生未来成绩影响的时候提出的。根据处理的分配规则可分为两类:精确断点回归与模糊断点回归。识别条件下面讨论断点回归设计的基本识别条件。假设2.9假设极限存在,并且P+≠P-。如果显著,说明这些协变量不符合连续性假设,RDD估计量可能存在问题。伪断点检验在分配变量的其他位置,比如临界点左右两侧中间点的位置作为伪临界点,利用同样的方法估计RDD估计量。

断点回归设计优化技巧

断点回归设计(Regression Discontinuity Design,RDD)最早是由Thistlethwait and Campbell(1960)在研究奖学金对学生未来成绩影响的时候提出的。当成绩达到特定的门槛时,学生将获得奖学金,低于该门槛时将得不到奖学金,成绩在门槛附近两边的学生具有很好的可比性,因而可以利用该门槛形成的断点作为一种自然实验来识别奖学金对学生未来成绩的因果影响。由于断点回归的适用场景有限,直到Hahn et al.(2001)对RDD策略的识别条件、估计和推断方法进行了理论推导以后,RDD方法开始大量应用于经济学政治学社会学领域

(1)断点回归的基本思想

断点回归设计的基本思想是一个原因变量或处理变量D依赖于一个分配变量X(running variable,forcing variable,assignment variable)。分配变量X本身可以对结果Y有影响,也可以没有影响。如果有影响,假设结果变量Y与分配变量X之间的关系是连续的。其他可能影响结果的因素在临界点处也是连续的。那么,结果变量Y在临界点处的跳跃可以归因于处理变量D的影响。根据处理的分配规则可分为两类:精确断点回归与模糊断点回归。

(2)精确断点回归

精确断点回归(Sharp RDD,SRDD)是指处理变量D的分配完全由分配变量X是否超过某一临界值决定,用公式表示:D=1(X≥c),其中,1(·)为示性函数,条件成立取1,条件不成立取0;c是临界值,分配变量X大于等于临界值c,则个体接受处理(D=1);X小于临界值,则个体没有被处理(D=0)。即对于SRDD有:

(3)模糊断点回归

模糊断点回归(Fuzzy RDD,FRDD)是指在临界值c附近,接受处理的概率有一个跳跃,即

或者说,在FRDD中,处理变量D=D(T,ε),其中T=1(X≥c),ε是影响处理的其他未观测因素,并且

即在断点左右个体接受处理的可能性不同。如果个体不能精确地控制X,在临界点附近近似于完全随机试验,即T近似于随机分配的,从而使得T成为D天然的工具变量。

(4)识别条件

下面讨论断点回归设计的基本识别条件。

假设2.9(断点假设)

假设极限

存在,并且P+≠P-。其中,Di=D(Ti,ε),Ti=1(Xi≥x0)为示性函数,如果是精确断点,则Di=Ti;p(x)≡E[Di|Xi =x]=Pr[Di=1|Xi =x]为倾向指数,表示参考变量为x的个体进入干预组的概率,如果是精确断点,则P+=1,P-=0,即断点右侧的个体都进入干预组,左侧个体进入控制组。

假设2.10(连续性假设)

E(Y0i|Xi=x),E(Y1i|Xi=x)是x的连续函数。

连续性假设要求影响结果Y变化的其他因素(观测和未观测变量)关于X平滑的变化,尤其是在临界点不能有跳跃。如前所述,在SRDD情况下,共同支撑假设不成立。而连续性假设使我们能够用临界点左边一个小区域内的平均结果作为临界点右边一个小区域内的平均结果的反事实估计。

假设2.11(局部随机化假设)

假设在临界点附近近似于完全随机试验,即

其中,δ(c)=(c-δ,c+δ)为c的δ领域,δ>0为任意小的正数。如果个体不能精确地控制或者操纵分配变量X使之超过临界值,这一假设自动满足。在这一假设下,Ti=T(X≥c)是随机分配的。

定理2.1:SRDD因果效应参数的识别

如果断点假设,连续性假设,局部随机化假设成立,则有:

其中,μ(x)=E(Yi|Xi=x),μ+=,如果是SRDD,在临界点处平均结果的跳跃可以解释为处理的影响。

假设2.12(独立性假设)(www.daowen.com)

假设潜在结果Y0i,Y1i,D0i(x),D1i(x)在断点附近独立于分配变量X,即

假设2.13(单调性假设)

假设T对所有个体的影响方向是相同的,通常假设正向单调性成立,即存在δ>0使得对于任意x∈δ(c),有D1i(x)≥D0i(x)。单调性假设排除了叛逆者(defiers)。

定理2.2:FRDD的因果效应参数的识别

如果断点假设,连续性假设,独立性假设和单调性假设成立,则有:

在独立性假设成立的条件下,T是D的工具变量,断点假设保证了第一阶段存在,FRDD识别出的是临界点处服从者的平均因果效应,以上定理是LATE在RDD情形下的应用。

综上,RDD的基本识别条件是:

①处理分配概率在临界点会有跳跃;

②结果变量在临界点也会有跳跃;

③而其他影响结果的变量在临界点没有跳跃。

从而,可以将结果变量的跳跃归因为处理变量的影响。

(5)RDD的估计方法

RDD的估计方法主要有边界非参数回归(nonparametric regression at the boundary)、局部线性回归(Local Linear Regress,LLR)和局部多项式回归(Local Polynomial Regression,LPR)。由于非参数回归在边界上收敛速度比较慢,在临界点处的估计并不理想。Hahn et al.(2001)、Imbens&Lemieux(2008)、Lee&Lemieux(2010)等建议采用非参数局部线性回归方法。

(6)稳健性检验

协变量连续性检验也称为伪结果检验(pseudo outcome):以协变量W作为伪结果,利用与前面相同的方法,检验相应的RDD估计量是否显著。如果显著,说明这些协变量不符合连续性假设,RDD估计量可能存在问题。

分配变量分布连续性检验

如果分配变量分布连续,意味着在断点处个体没有精确操纵分配变量的能力,局部随机化假设成立,从而保证临界点附近左右样本能够代表临界点处的总体。可以采用McCrary(2008)提出的密度检验统计量进行检验。

伪断点检验

在分配变量的其他位置,比如临界点左右两侧中间点的位置作为伪临界点,利用同样的方法估计RDD估计量。

带宽选择的敏感性检验

选择不同的带宽对RDD估计量进行重新估计,检验估计结果是否有较大的差异,如果差异较大,尤其是影响方向有变化,则说明RDD可能有问题。

近年来,利用机器学习方法来实现控制大量协变量,或者通过寻找权重以直接平衡处理组和控制组之间的协变量(协变量的函数)等方法来识别因果效应的方法得到迅速发展。McCaffrey et al.(2004)和Wyss et al.(2014)等采用LASSO和随机森林等机器学习方法来估计倾向得分。Belloni et al.(2013)提出了基于LASSO的双选择方法(Double-Selection Method)。高华川和白仲林(2019)提出了一种估计政策因果效应的反事实机器学习算法—时变LASSO面板数据政策评估方法,通过模拟研究发现时变LASSO方法能够更加准确地估计反事实结果,这一方法更适用于样本时期数较长、政策干预时间点相对较晚的情形。

潜在结果框架下的静态因果效应评估方法均以未接受政策处理的个体构造对照对象,在一定的假设条件下,运用平稳数据统计方法估计结果变量的反事实结果。计量经济学的主要挑战在于,基于观测数据识别变量间的因果效应。非实验环境下的因果效应识别主要依赖于条件独立性假设,这一条件在评估平均处理效应中起着核心作用。然而,基于截面数据和短(微观)面板数据的因果推断方法也存在一定的局限,比如控制组个体的异质性难以控制、无法有效识别动态因果效应以及政策或干预的长短期效应等。这也就产生了对基于时间序列和长(宏观)面板数据的动态因果效应方法的需求,当前动态因果效应的评估方法的研究文献可分为根据单方程时间序列模型、高维时间序列模型的动态因果效应评价方法,以及根据结构计量经济学模型的统计推断方法三个研究方向。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈