文献计量学中的百分位数能提供与参照集(同一年同一学科发表的文献)中其他论文相比某论文引文影响力的信息。为了对研究中的文献进行标准化处理,某一文献的引文影响力可通过该文献在相应参照集中引文分布的排名来衡量(Leydesdorff,Bornmann,2011;Pudovkin,Garfield,2009)。例如,一篇文献发表于2009年,被Thomson Reuters列入“Physics,Condensed Matter”学科,那么所有发表于2009年并且属于“Physics,Condensed Matter”学科的文献构成了这篇文献的参照集。根据参照集中所有文献的引用排名,能计算出某一文献在参照集中对应的百分位数。这个百分位数所表达的是:相对于其他文献而言,该文献的引文影响力的地位。
基于百分位数的方法是在一次辩论中提出的。辩论中提到,常用的引文影响力指数是基于标准化的算术平均数得来的,如“相对引用率”(Glänzel,Thijs,Schubert,Debackere,2009;Schubert,Braun,1986),以及“Crown Indicator”(Moed,DeBruin,Van Leeuwen,1995;van Raan,van Leeuwen,Visser,van Eck,Waltman,2010),它们在技术(Lundberg,2007;Opthof,Leydesdorff,2010)及概念上(Bornmann,Mutz,2013)都是有缺陷的。百分位数有很多优点,其中之一便是它限制了极端值的影响。否则,几篇具有极高引用频次的文献将对检验统计量和参数估计有很大的干扰。
下面将举例说明。Leiden Ranking指数使用基于算术平均数标准化(平均标准化引文值,MNCS)和基于百分位数(PPtop10%,用于测量某年某学科领域前10%高被引论文的比例)的引文影响力指标进行计算。以哥廷根大学为例,在存在极端值的情况下,使用MNCS指标和PPtop10%指标会得到截然不同的排名:
使用MNCS指标计算,哥廷根大学排名第2;但是使用PPtop10%指标计算,哥廷根大学排名第238。使用MNCS指标计算的结果很大程度上受某一篇极高被引论文的影响。该文献发表于2008年1月,到2010年年底它的被引用次数超过16 000次。如果去掉这篇论文,哥廷根大学的MNCS指标是1.09,而不是之前的2.04,那么,哥廷根大学的排名将从第2位变为第219位。与MNCS指标不同,PPtop10%指标几乎不受单篇高被引论文的影响。这是因为PPtop10%指标只考虑某文献是否属于该学科高被引论文的前10%。该指标对某一文献的具体被引用频次不敏感(Waltman et al.,2012)。(www.daowen.com)
百分位数法作为基于平均值的被引频次标准化指标的一种有效替代品在文献计量学中获得了认可,自此另外一些基于百分位数的方法也相继问世(See an Overview in Bornmann,Leydesdorff,Mutz,2013)。最近,有一种百分位数法(PPtop10%也叫作优秀率)作为评估工具广泛地应用于Leiden排名(Waltman et al.,2012)及SCImago机构排名(Bornmann,de Moya Anegon,Leydesdorff,2012)中。
计算参照集的百分位数共需三步,第一步,对参照集中所有文献按被引频次升序排列。第二步,对每篇文献按序号赋予百分位数(百分位数排名)。百分位数有多种计算方法(Bornmann et al.,2013;Cox,2005;Hyndman,Fan,1996),最常用的计算公式是100(i-1)/n,其中,n是文献总数,i是文献按升序排列后的序号。例如,中位数或者第50百分位数将前一半文献与后一半文献分隔开来。当然,也可以用公式100(i/n)计算百分位数。该算法用于InCites(Thomson Reuters,见下文)。第三步,最小或者最大百分位数的等级可以调整。零引用的论文排名为0。将零被引的论文排名为0,可以保证缺失引文影响力的那些论文在百分位数上以相同的方式体现。如果计算百分位数时没有在底部使用常量0作为排名序号,那么零被引论文将会得到不同的排名(Leydesdorff,Bornmann,2012;Zhou,Zhong,2012)在使用百分位数做研究评价时存在关于节点处理的技术问题(例如,Pudovkin,Garfield,2009;Schreiber,2013;Waltman,Schreiber,2013)。假设有50篇文献,被引用数依次为61、61、61、58、58、58、58、58、58、58,其余40篇的被引用数均为1。对这一虚构的参照集而言,无法精确地计算出前10%的高被引论文。不过,可以计算3/50(6%)和10/50(20%)的。那么,阈值的排名就会产生不确定性(Leydesdorff,2012)。Schreiber(2012)、Waltman和Schreiber(2013)提出分数计数法解决了这一问题,该方法可以把参照集转换到预先设定好的百分位数等级里(如PPtop10%)。
将分数按照比例归为阈值的不同侧,可以消除结果指数的不确定性。然而,此方法只适用于确定PPtopx%(如,x=10)论文在参照集中的精确比值,不能用来计算某一文献的百分位数。此外,百分位数排名的分数分布的计算量很大。既然单篇论文在许多研究中都是一个基本研究单元,那么在很多情况下百分位数的分数分布就起不到什么作用了。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。