理论教育 劳动社会评论-分析策略

劳动社会评论-分析策略

时间:2023-08-13 理论教育 版权反馈
【摘要】:为了获得最佳倾向值并进行匹配,尽可能避免logistic回归模型中变量选择的主观性,我们使用一般加速建模法。GBM 在预测倾向值的结果中会输出每个协变量的影响力,即每个输入协变量所解释的对数似然函数的百分比,由此可以知道每个协变量对估计的对数似然函数的贡献大小。

劳动社会评论-分析策略

农民工在家乡新建住房并不是一个随机过程,是否建房受到多种条件的制约。由于建房者和不建房者的初始条件不同,他们兴建住房的概率就不同。如果简单比较新建住房者与未建房者入户城市的意愿,就会存在选择性偏误。这就是说,我们不能随机地选择兴建住房者(干预组)和未建住房者(对照组),让兴建住房者(干预组)和未建住房者(对照组)以同等概率进入模型分析。

此外,如果使用一般的Logistic回归,必须加入影响新建住房行为(解释变量)的控制变量,这些控制变量实际上是影响解释变量的原因,它们之间存在因果关系,将它们与解释变量并列地进入回归模型就会对解释变量产生混淆作用。

因此,为了处理样本的选择性偏误,我们采用倾向值匹配分析法来构建模型。[45][46][47]

倾向值匹配法是以个体发生某个事件的概率或倾向性为依据,综合“干预组”(“新建住房”)和“控制组”(“未建住房”)两个分组之间在各个方面的差异;然后根据倾向分在每个层次上对两组个体进行一对一、一对多或其他形式的匹配,以此消除各层次内部“干预组”与“控制组”之间的个体特征差异。这些匹配好的个体最终被合成为一个新的样本,由于样本选择性偏差是由个体进入特定分类的概率上的差异引起的,所以一个基于匹配的样本可以尽可能地处理掉选择性偏误。(www.daowen.com)

为确保这个估计的无偏性,根据“严格可忽略性假设”(Strongly Ignorability Assumption),分析中要尽可能把那些影响个体新建住房的倾向性的协变量纳入进来。在本研究中,我们用于预测新建住房倾向性得分的变量包括被访者个体因素(出生年份、性别和受教育程度等),父母状况(父亲的受教育程度、职业、政治面貌和父母外出务工状况等)和家庭状况(家庭人口数、土地状况、被访者第一次外出打工时的月工资和家庭年收入等),详细的赋值情况见表4和表5。

为了获得最佳倾向值并进行匹配,尽可能避免logistic回归模型中变量选择的主观性,我们使用一般加速建模法(Generalized Boosted Models,简称GBM)。GBM 在预测倾向值的结果中会输出每个协变量的影响力(influence),即每个输入协变量所解释的对数似然函数的百分比,由此可以知道每个协变量对估计的对数似然函数的贡献大小。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈