理论教育 学术影响力测评:效应量及相关概念解析

学术影响力测评:效应量及相关概念解析

时间:2023-10-06 理论教育 版权反馈
【摘要】:Cumming将效应量定义为有意义的事物的总和。表12.1用于文献计量分析的效应量指标举例aCumming使用术语危险度和相对危险度。因此,在讨论效应量时,我们不仅要给出效应量本身,还要给出有助于评价此方法的统计指标及实际意义的相关指标。表12.2给出了三个机构的平均百分位数排名及其他指标。表12.2使用平均百分位数排名为个体机构计算效应量和检验显著性平均数是一种最简单易懂的指标。样本量的大小对显著性检验有很大影响。

学术影响力测评:效应量及相关概念解析

Cumming(2012)将效应量定义为有意义的事物的总和。他举了几个例子,在表12.1中,我们列出了文献计量学家可能特别感兴趣的几个效应量指标。

但是,如果孤立而言,效应量的效用是有限的。首先,由于抽样差异的存在,所估计的效应量通常要比真值大或者小,即在偶然因素的作用下,计算出的机构影响力可能高于或低于真实情况,或者机构间的明显差异看上去要比其真实值大或小。其次,我们需要一个评估效应量的标准。常用的标准便是参照统计学差异,例如,两个机构的影响力差异显著,不太可能是偶然因素所致。美国心理协会呼吁研究者在研究时不仅要考虑统计学意义,还要评估其实际意义。这个问题可以通过理论(理论或者经验可能告诉人们,机构间5分的差别可能有明确的实际意义,而1分的差别却没有实际意义)和实验的方法(使用推荐指南确定效应量是小还是适中,亦或是大)加以解决。

表12.1 用于文献计量分析的效应量指标举例

aCumming(2012)使用术语危险度(Risk)和相对危险度(Relative Risk)。他举的例子是“意外事件”。但是我们也可以将“危险度”看作其他可能发生的事件,例如,某文献有成为高被引文献的“危险”。

因此,在讨论效应量时,我们不仅要给出效应量本身,还要给出有助于评价此方法的统计指标及实际意义的相关指标。先从平均百分位数排名开始。

表12.2给出了三个机构的平均百分位数排名及其他指标。

表12.2 使用平均百分位数排名为个体机构计算效应量和检验显著性

平均数是一种最简单易懂的指标。它就是某机构发表的全部文献的百分位数排名的算术平均数。由于百分等级的编码方式很特别,低百分位数意味着高被引。有很多种用平均数评估某一机构引文影响力的方法。总体均数(50)便是其中之一。很容易从表中看出某一机构是在平均水平之上还是之下。当然,也可以使用其他标准。一个机构可能希望与同类机构(Peer Institution)或者有抱负的机构(Aspirational Peer)进行比较。Peer Institution是指某些精英大学、同一地区的学院或者竞争生源及财政拨款的学院。Aspirational Peer是指公认的实力较强的并且向更高标准冲刺的学院。因此那些自认为在本国甚至国际上实力顶尖的学院,其发表文献的平均水平至少在前25%的排名里。相反,那些不是很注重科研的学院认为如果本地区的竞争者平均排名为75,则这个排名对自己而言已经足够了。

通过表12.2可知,机构1的得分(49.67)仅比总体均数好一点,机构3(45.98)比总体均数高出约4个百分点,机构2(32.15)比总体均数高出约18个百分点。

然而,平均百分位数不应该成为评价机构间引文影响力的唯一指标。平均数只是一种点估计。偶然因素就能使平均数忽高忽低。而可信区间则提供一种更为详尽的评估平均数的重要方法。Cumming(2012)等人讨论了若干种将可信区间列为评估指标的方法。可信区间给人的感觉是一种精确度的指标。换句话说,可信区间给出了平均数真值可能的波动范围。举个例子,如果观察到的平均数是40.95%的可信区间可能是35~45,那么,虽然40是平均值的“最优猜测值”,它也可能是35~45之间的任意值。

可信区间也给出了一种假设检验的方法。如果假设值(例如,总体平均数为50)在可信区间内,就不能拒绝零假设。换句话说,如果假设值50在可信区间内,那么50便是平均值的一个合理替代值,因此不能作为一种概率事件排除[2]。(www.daowen.com)

表12.2列出了3个机构各自的可信区间,图12.1以图形的方式给出了同样的信息,并且更易于理解。一看便知每个机构的平均值及平均值可能的取值范围。借助平均值为50这条水平线便可一目了然地知道零假设给出的值是否在可信区间内(引文影响力等同于中位数影响力,例如总体平均值50)。如果水平线穿过可信区间,则不能拒绝零假设;反之则拒绝零假设。

图12.1 各机构的平均百分位数,附有95%可信区间

对于机构1,可信区间在45.99(比总体均数高出4个百分点)到53.36之间。由于平均值50在可信区间内,所以不能排除机构1是低于、等于还是高于平均值。机构2的可信区间是29.85到34.46,说明机构2明显高于平均值。机构3的可信区间是43.37到48.59,说明机构3起码比平均值好一些。

显著性检验(本例是单样本t检验)也可用于判断某机构观察到的平均值与假设的平均值之间的差异有无显著性。在本例中,我们检验某机构的平均数与已知的总体值50是否有差异。当然,如果认为更高的或更低的标准比较合适,也可以选择其他标准。单样本t检验的公式,附有机构2数据的计算过程如下:

其中样本平均数,μ0是假设检验中给定的平均值(本例中是50),s是x的标准差,N是样本量。是平均数的标准误。表12.2报告了标准差和标准误。

如果本例中零假设为真(在本例中位置机构2的平均值确实是50),统计量t将服从自由度为N-1的分布。统计量t的数量级越大(为正或为负),零假设为真的可能性越小。统计量t的临界值,即我们认为零假设不可能成立的临界值取决于样本量大小。就目前的样本量来说,统计量t的绝对值需要等于1.96或者更大,这样才能排除在零假设中观察到的偏差是由偶然因素引起的。从表12.2的t检验可以看出机构1的均值与总体均值的差别不具有统计学意义。机构2与机构3的t值具有统计学意义,但是机构2的t值是机构3的t值的5倍多。

然而显著性检验也有自身的局限性,尤其是有统计学意义的结果并不都具有实际意义。样本量的大小对显著性检验有很大影响。如果样本量足够大,即使微小的差别也有统计学意义。反过来,如果样本量很小,即使差别很大也没有统计学意义。例如,如果样本量足够大,当检验水准为0.05时,样本均数49和总体均数50的差别就具有统计学意义。相反,如果样本量很小,也许当检验水准为0.06时,样本均数40与总体均数50的差别才有统计学意义。如前所述,显著性检验可能有用,但是效用却有限。

为了将这个重点说清楚些,考虑与上述减肥例子相似的另外一个例子:如果告诉你某一机构的得分高于平均水平,并且差值具有统计学意义,会让你对此机构印象深刻吗?然而,一旦告诉你该机构的得分比平均水平高出1个点,并且在检验水准为0.04时有统计学意义,你还会印象深刻吗?也许不会了。相反,如果告诉你某机构的得分与平均数的差别无统计学意义,你是不是不会留意?也许是吧。但是如果告诉你该机构的得分比平均水平高出10个点,并且在检验水准为0.06时差值有统计学意义,你会不会关注一下此机构?也许大多数人都会对后一个机构感兴趣,即便此机构在0.05的水平上几乎没有统计学意义。

也许,我们有充足的理论基础及直觉来判断某一效应是否能够引起注意,例如,理论或者直觉或者过去的经验会告诉我们1个点的差别不足以令人在意,而10个点的差别需要关注。然而,在情况不明朗时,诸如Cohen's d等测量方法就给了我们另一种评估实际意义的方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈