回归断点设计的思路实际上是和我们的经验常识是非常一致的。举一个生活中的例子,如果我们想知道上大学对一个人收入的影响,那么最好就是找一些刚刚到分数线的上了大学的人,与那些就差分数线一点的人进行对比。换句话说,如果上大学代表实验组的话,那么控制组的人最好就是那些“差点”就能上线的人,他们构成了一个基准的对比状态。这样的话,刚刚勉强能够上大学的人的状况和这个基准状态(差点就能上大学的人的收入)去比较一下,我们就能知道上大学对一个人的收入的影响。
回归断点设计的思路和这个例子的思路是很像的。很多时候,我们的确能够以分数线作为设计回归断点的依据。给定一个分数线的话,有一些人可能超过分数线1分、2分就进了大学了,有些人没上分数线,他也就差了1分、2分。生活经验告诉我们,超了分数线1分、2分,或者低了分数线1分、2分,两相对比,高考成绩可能就差了2分、3分或者4分而已。别的情况都差不多的话,这些人实际上是很像的。他们像在什么地方呢?像在上大学的概率上。虽然一些人真的上了大学,另一些人真的没上大学,但由于他们非常接近分数线。如果上大学完全由分数线决定的,那么这些人上大学的概率应该是非常接近的。这个时候,如果想知道上大学的因果效果的话,只需要比较这两类人,一类是刚刚过了分数线的那帮人,一类是在分数线下面的那帮人。这时候他们过了四年以后的收入情况,确实能够反映出上大学的效果,这是回归断点设计非常巧妙的地方。它把目光集中在一些在临界线“上下”的一些特殊群体身上,这个是非常好的设计思路。
通过这个例子,我们基本上可以了解回归断点设计的原理了。我们有一个关心的自变量D和结果变量Y。而D的取值取决于另外一个变量X,当X在某个临界值以下时,D取某一个特定值,而当X的取值超过临界值以后,则D的取值会变化。由于直接看D和Y的关系有可能有潜在的混淆偏误,因此我们转而看临界值上下的个体并比较之。由于临界值决定了D的取值,距离临界值很近的人自然距离D的取值转换的临界点很近。换句话说,这些人的D的取值“可上可下”。对比一下随机实验的话,我们就可以近似地认为,这些临界点上下的人构成了一个类似随机实验的环境,谁上谁下(谁的分数超过分数线几分,谁的分数低于分数线几分都很正常)基本上不会有系统性的差异。虽然实际情况下,确实有一些人上去了,有一些人下来了,但决定这一上一下的对比更多的是一些随机的事件(例如突发感冒或者高考没有发挥好,因而没有上线)。既然如此,我们就能够基于这些对象估计出因果效果。(www.daowen.com)
回归断点的方法一开始是用在教育心理学研究主题中的。当时考察的是特定的教育激励机制是否有效(Thistlethwaite和Campbell,1960)。例如,设想一个作文考试,考试成绩设定一个分数线,如果一个学生的作文成绩过了这个分数线,将会得到一定的奖励,如果没过分数线就没有奖励。基于这种设计,研究者进而去观察,若干年以后,得到奖励的那些同学的发展趋势是不是特别想去从事和研究类相关的工作。在这个例子中,自变量是奖励,响应变量是未来发展的方向选择,构成断点的变量就是作文成绩。我们知道,奖励与否的判断是一个非黑即白的决定,作文竞赛分数超过分数线就能得到奖励,低于这个分数线就得不到奖励。这时候,我们比较的就是接近分数线,但是一些人在分数线下,而另一些人在分数线上的两拨人。如果说,在这两拨人里面,得到奖励的人特别容易从事学术研究类工作,那么我们就有理由人为这个奖励是有因果影响的。
但是,早期的回归断点设计在实践起来并不是特别的严格,或者说随意性比较大。例如,低于分数线或者高于分数线多少分算是能够接受的范围,这类问题往往付诸日常经验和常识,而非严格的统计或者数据标准。直到后来,经济学研究开始关注并利用回归断点设计,一些计量经济学家对整个回归断点设计的方法进行了系统化和数理化的提升,这些成果构成了下面我们要讲的主要内容(如Hahn、Todd、Van der Klaauw,2001)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。