理论教育 学术影响力测评方法与实践:二分类变量回归

学术影响力测评方法与实践:二分类变量回归

时间:2023-10-06 理论教育 版权反馈
【摘要】:二分类变量Logit模型。此外,OLS假定误差项呈恒方差正态分布,这两种情况在因变量为二分类取值时均不适用,故应该避免使用OLS。表9.1二分类变量Logit模型续表*p<0.05;**p<0.01;***p<0.001现在,通过给解释变量赋值计算预测的引用概率,该模型便可用于预测研究。表9.2二分类变量Logit模型的预测表请注意,对模型预测力的评估与模型的内部有效性有关。

学术影响力测评方法与实践:二分类变量回归

科学计量学和信息计量学中,二分类变量Logistic模型经常用于分析或预测论文是否被引用(Van Dalen,Henkens,2005),专利是否被商业化(Lee,2008),是否用于军事(Acosta,Coronado,Marín,Prats,2013),以及是否会被侵权(Su,Chen,Lee,2012)。这个模型也被用于基金决策和出版决策的研究(Fedderke,2013)、获得科学奖励的研究(Heinze,Bauer,2007;Rokach,Kalech,Blank,Stern,2011)、职业转型和晋升的研究(Jensen,Rouquier,Croissant,2009),以及网络用户对公共图书馆的使用研究等(Vakkari,2012)。通过二分变量回归还可以得到许多其他结论,如研究者是否为某杂志的编辑委员会成员,是否可能合作或出版一本书,是否申请了专利,是否调入另一个机构,在引文量和h指数方面是否会突破某一阈值

(1)二分类变量Logit模型。

如果yi是值为0或1的二分类变量,Logit模型的函数如下:

这里的是Logistic函数。Logistic函数范围介于0和1之间,从而确保预测概率也在此范围内。这就是为什么对于二分类因变量而言,使用Logistic模型比使用OLS模型更合适的原因。此外,OLS假定误差项呈恒方差正态分布,这两种情况在因变量为二分类取值时均不适用,故应该避免使用OLS(同理,OLS在有序和计数因变量模型中也不适用)。在Logit模型中,有关系数的解释并不是那么直接,应转换成下列形式:

这里的是yi=1的几率(Odds)(例如,当Pi=0.8时几率为4∶1)。从这个等式中可以看出βi是指在其他变量不变的情况下,xi每增加一个单位log-odds的变化量。系数的幂值eβi是指xi每增加一个单位几率的增加量。然而,用几率衡量的效应不能模糊地解释为用概率衡量的效应,因为当xi增加一个单位所引起的概率的变化,既取决于xi的水平也取决于其他解释变量的值。解决这个问题的方法是估计某解释变量xi的“均值处边际效应”,用此方法可以得到xi每增加一个单位,预测函数的改变量[3]。虽然这种边际效应的方法不能够取代估计系数和比值比Odds Ratio(当解释变量偏离其平均值时仍然成立),但边际效益仍然能够提供一些信息。

Logit模型中的系数可通过最大似然法进行估计。大部分统计软件可以进行必要的迭代数值的优化并计算相应的标准误,对系数进行显著性检验(检测估计效应是否由抽样变异导致)。在模型预测中对所有参数进行全局检验,可以检测使用估计系数的观察数据的可能性是否显著高于没有自变量的模型的可能性。该检验被称为似然比检验,它使用这样一个统计量,该统计量在所有参数为0的零假设下近似服从卡方分布。

(2)阐述。

现在,我们用Logit模型对信息计量学领域期刊文献的引文频次进行研究。因变量用于测量论文自发表后的历年来是否被其他期刊文献所引用。在样本量中66%的论文被引用,34%的论文未被引用。表9.1列出了模型中估计系数的标准误和显著性检验以及相应的比值比(Odds Ratio)和边际效应(Marginal Effect)。

结果表明,在模型中其他自变量不变的情况下,发表在ISOS、SM和RP杂志的论文被引用的概率显著高于参照对象JASIST,而发表在RE上的论文被引用的概率较低。文献见刊的月份这一变量对被引频次具有负面影响,这是可以预期到的,因为被引用的概率取决于其出版后所持续的时间。具有显著效应的变量还包括国际合作、参考文献的数量以及论文是否与h指数相关等。

系数、比值比和边际效应表明效应的大小。JOI的估计系数是0.85,表明在其他条件不变的情况下,发表在JOI上的论文被引频次的log-odds比发表在JASIST上的论文高0.85倍。比值比e0.85=2.34,表明发表在JOI杂志上论文的被引频次是发表在JASIST杂志上论文被引频次的2.34倍。(www.daowen.com)

边际效应是通过解释变量平均值的估计概率来衡量的。JOI杂志中的论文被引用的概率比JASIST高18%(由于总体被引的非条件概率约为66%,因此18个百分点确实不小)。另一个差异较大的边际效应是,在其他变量不变的情况下,RE中论文被引用的概率比JASIST低17%。有关h指数的论文,被引概率也增加了18%(与没有涉及h指数的论文相比)。显然,对于想要提高自身h指数的学者而言,在JOI中发表有关h指数的论文是一个值得考虑的策略。

表9.1 二分类变量Logit模型

续表

*p<0.05;**p<0.01;***p<0.001

现在,通过给解释变量赋值计算预测的引用概率,该模型便可用于预测研究。同样,可通过上述模型计算本章样本论文的被引概率。因为我们已经知道这些论文最终是否被引,所以这也是我们评估上述预测模型的一种方式。当论文的预测概率大于0.5时,我们便认为论文被引用,则该模型预测的结果是:未被引文献的预测成功率为17%,被引用文献的预测成功率为94%(见表9.2)。

为了评价模型的质量,我们应该选取在没有解释变量的情况下所做的正确预测作为基线,将上述数字与该基线进行比较。因被引论文的总体比例为66%,对于任一给定的论文,最好的猜测便是预测其被引。在未被引组,Logit模型的正确预测比例从0%增至17%,而被引论文的正确预测的比例从100%下降到94%。对于一个好的模型,正确预测比例的总和应大于100%(Verbeek,2008),我们的数据符合这一要求(对角线元素总和为17%+94%=111%)[4]统计学中Logit模型中最常见的拟合优度检验为McFadden's R2(对应于表9.1中的Pseudo-R2),它是指从没有自变量的基线模型转移到全模型时对数似然log-likelihood所增加的百分数。

表9.2 二分类变量Logit模型的预测表

请注意,对模型预测力的评估与模型的内部有效性有关(即此模型重现样本数据的能力有多大)。好的内部有效性并不意味着模型对新的数据同样有效。评价外部有效性的一个方法是只使用观察值的一部分(如90%)去估计模型(训练数据),随后用剩余的观察值(测试数据)去评估模型的预测力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈