首先,值得关注的是经过人工确认后的数据集中保留下来的每个研究人员的文章比例。更具体地说,是文献中标署了魁北克省科研机构地址且署名与该省科研人员相匹配的文献数据集(每位作者至少匹配到一篇文献,匹配了11223人)[8],基于该数据集,被清洗过的出版文件可用来评估作者同名问题的情况。随着作者姓名的自动匹配,与清洗过的出版文件的对比情况如图7.1所示。
(1)在文献匹配中,有2972人(26.5%)没有找到其对应的文献,即他们并没有发表任何文献(检索到的文献都是他们的同名作者发表的)。
(2)匹配到的0.1%~25%的文献归属于1862位研究者(16.6%)。
(3)匹配到的25.1%~50%的文献归属于975位研究者(8.7%)。
(4)匹配到的50.1%~75%的文献归属于722位研究者(6.4%)。
(5)匹配到的75.1%~99.9%的文献归属于818位研究者(7.3%)。
(6)在人工确认的过程中,有3874人(34.5%)的文献全部被保留下来,即他们在魁北克省的文献数据集中没有同名作者。
所以,如果采用不将同名作者文献剔除的简单匹配过程,对于作者消歧问题,至少可以判别1/3以上的作者,而剩余2/3的作者会有过高的发文量。因为不可能事先知道哪位作者的发文量会被过高的评估,所以理论上需要对每位作者的每篇文献进行人工确认。如前文所提到的,发表文件中的文献都是经过人工确认的(被分类或被剔除),以逆向工程的方式,作为发现科研人员的文献发表模式的试验台。
图7.1 经过人工验证后的文献百分比
与Wooding等人(2006)关于关节炎研究的方法类似,随后的文献分析是为了找出有助于分离每位研究人员核心论文集的特征。每位作者文献核心集合中的文献是该作者文献集合的子集,其中不包含同名作者的论文。这对本研究来说更加复杂,因为需要发现所有作者的核心文献,而这些作者可能活跃于不同的研究领域,不仅是在关节炎研究领域。经过几次实验分析,发现三个变量的组合能使文献判别的数量和误判率之间的比率达到最优。图7.2和图7.3展示了发现高校科研人员文献核心集合的两组准则。图7.2展示的是第一组匹配准则:匹配高校科研人员和文献作者的全名,包括完整的名字(WoS自2006年开始提供),匹配科研人员所属高校和文献中标署的高校名称。
图7.3展示了第二组匹配准则。首先,文献作者姓名的拼写格式和列表中科研人员的必须相同。其次,文献中标署的机构名称〔或者其所从属的机构名称,例如,维多利亚皇家医院(Royal Victoria Hospital)从属于麦吉尔大学(McGill University)〕和列表中的机构名称必须相同。最后,文献发表期刊所属的学科及作者的院系或机构的学科和列表中科研人员所属机构的必须相近[9],或者文献发表期刊所属的学科必须在该科研人员所属院系发表文章最多的5个学科之中。
图7.2 构建文献核心集合的第一条匹配准则
图7.3 构建文献核心集合的第二条匹配准则
参考Boyack和Klavans(2008)的研究,本章也对罕见的姓氏做了分析,我们把在高校科研人员列表中只属于一个人的姓氏定义为罕见姓氏。所以,如果拥有罕见姓氏科研人员的文献中标署了其所属机构的信息,则这些文献都被包含在核心文献集合中。如表7.1所示,使用以上三条准则构建了超过75%的科研人员的文献核心集合,每位研究者至少有一篇文献通过了人工确认(8081人),判别出了56.4%的文献和47.5%的作者—文献组合。每一个层次上的错误率都非常低,尤其是作者—文献组合这一层次(低于1%)。
表7.1 对高校科研人员、文献和作者—文献组合三个层次使用三条匹配准则分析核心文献的匹配结果
还可以发现另外一组科研人员文献发表模式中的规律。其思想是使用核心文献集合的子集发现科研人员的其他文献,而这些文献并没有显现出图7.2和图7.3中所列的特征。完成这个过程需要把每一位科研人员的文献发表记录分为两个时间段:2000—2003年,2004—2007年。
利用每一位给定科研人员第一个时间段内发表文献的特征,我们尝试将第二个时间段中的文献自动判别给该作者。这一过程中有两个较好的指标可以使用:①文献标题、关键词、摘要和预发表文献摘要中相同词汇的使用情况(见图7.4),使用关键词指标时文献判别正误的比例,其是一个关键词的函数,这些关键词是高校科研人员在2000—2007年使用的;②相同参考文献的引用情况(见图7.5),当然,该文献在WoS数据库中的作者姓名(例如,LARIVIERE-V)和机构名称(例如,MCGILL-UNIV)也应该是相匹配的。图7.4展示了判别正确与错误的文献百分比,其是一个关键词的函数,这些关键词是高校科研人员在2000—2007年使用的关键词指数。关键词指数(Keyword Index)是一个为2004—2007年每篇文章匹配一个作者的简单指标,是基于作者第一个时间段2000—2003年所发表文献的关键词建立的。其计算公式如下:
图7.4 使用关键词指标时文献判别正误的比例
其中,Nkpm表示某位作者第一个时间段所发表的文献和第二个时间段内的文献中相匹配的关键词的数目,Nkp是第二个时间段内的文献的关键词总数,而Nkt是该作者第一个时间段内所发表文献的关键词数目。为了得到关键词的总数(分母),使用Nkt的平方根代替Nkt,该数值不会很大,尤其是对于高产作者。为了使该指标更接近整数,将结果再乘以100。
图7.4表明,当关键词指数为2时,大约有90%的文献被正确地判别给作者,约10%的文献判别错误。当关键词指数大于2(3或者更大)时,判别正确的文献比例上升到95%以上,一直维持到关键词指数等于7时,该比例上升到100%。这些数字表明,在标题、关键词和摘要词汇使用中发现的规律可以应用于文献所属作者的判别。
图7.5 使用参考文献指数时文献判别正误的比例
图7.5展示了基于2000—2007年的文献得到的第二个时间段内文献的参考文献指数(Reference Index),其是一个参考文献的函数,这些参考文献是高校科研人员在2000—2007年使用的。参考文献指数与前文提出的关键词指数很相似,是基于某位科研人员在前期(第一个时间段)所发表文章参考文献集合的。其计算公式如下:
(www.daowen.com)
其中,Nrpm表示某位作者第一个时间段所发表的文献和第二个时间内的文献中相匹配的参考文献数目,Nrp是第二个时间段内的文献的参考文献总数,而Nrt是该作者第一个时间段内所发表的文献的参考文献数目。为了得到参考文献的总数(分母),使用Nrt的平方根代替Nrt,该数值也不会很大。同样,为了使该指数更接近整数,将结果再乘以100。
图7.5表明,只要获得了信息,例如在第二个时间段内得到的第一个时间段文献所引用的参考文献,文献正确判别的比例就超过了90%,当参考文献指数增加到1或者更多时,所有的文献都能被正确地判别。
使用文献核心集合中的关键词和参考文献后(设置关键词指数≥2,参考文献指数≥0),又判别出了10892篇文献,其中只有236篇判别错误(占增加文献的2.2%)。总体而言,文献判别错误的比率为2.2%,文献—作者组合判别错误的比率为1.7%(见表7.2),核心集合中的文献与所匹配的文献有相同的关键词或参考文献。文献的判别只针对科研人员进行,它们可能匹配到多篇核心文献,而科研人员的数目是恒定的,但是部分科研人员至少会有一篇文献判别错误(6.7%)。
表7.2 对高校科研人员、文献和作者—文献组合三个层次,使用关键词或参考文献时的核心文献匹配结果
使用相同的参考文献和关键词(阈值同前文)进行了另一次文献自动判别,但是这一次只使用姓名(例如LARIVIERE-V)和省份(魁北克)两个元素,不考虑机构(例如MCGILL-UNIV)。增加了3645篇被判别的文献,其中有674篇文献判别错误(见表7.3),核心集合中的文献与所匹配的文献有相同的关键词或参考文献,不考虑机构名称的匹配。虽然文献可判别的比例很高,但是文献层次的总体错误率依然很低(3.2%),作者—文献组合的更低(2.3%)。
表7.3 对高校科研人员、文献和作者—文献组合三个层次,不使用机构名称时的核心文献匹配结果
为了增加可判别的科研人员数量,以找到与之对应的一定数量的核心文献,需要对科研人员所属学科和文献所属学科的关系进行分析。增加可判别的科研人员以保证能够发现核心文献非常重要,因为核心文献是自动判别其他文献的基础。对于5615个已有的期刊学科(见附录1)和院系学科(见附录2)的组合,形成一个各院系科研人员在各学科期刊中发表文献比例的矩阵。毫无疑问,对于某一专业的文献,如果作者也属于该专业,则这些文献属于该作者的可能性更大。例如,发表在地理学期刊上的186篇文章,其作者姓名和地理学院系的科研人员姓名都匹配,而这些文献也正是这些科研人员所发表的。还有其他几组明显的院系—专业关系,例如化学工程院系科研人员及其发表在化学工程类期刊上的文献(1017篇文献中99%的文献能被正确地判别),但是也有一些不明显的关系,例如土木工程的研究者及其发表在地球行星科学类期刊上的文献(316篇文献中95%的文献能被正确地判别)。
另外,有333篇发表在生物化学和分子生物学类期刊上的文献,其作者姓名和来自人类学、考古学和社会学的科研人员姓名相匹配,但是他们并不是这些文献的作者。还有202篇发表在有机化学类期刊上的文献作者姓名和商务系的科研人员姓名相匹配。所以,我们做出一个假设:对于某一个研究领域,如果在本章所研究的时间段内,该领域的高校科研人员都没有在相关专业期刊上发表过文章,那么将来的情况也是一样的。
图7.6 人工确认后每个组合中的文献比例
图7.6展示了文献判别比例的矩阵,每个组合中X轴代表院系所属的学科,Y轴代表期刊所属的学科。每个区域代表期刊学科和院系学科的组合,区域的颜色越深表示在人工确认的过程中该区域文献判别正确的比例越大,颜色越浅表示该区域中被剔除的文献越多。由该图可知,有很多院系学科/期刊学科组合区域中的文献都是同名作者所发表的(浅色区域),深色区域中的大部分文献都被正确地归类,但是深色区域的数量很少。不出所料,在深色的区域中院系学科一般和期刊学科是相关的。例如,属于信息科学和图书馆科学院系的科研人员在图书信息科学类期刊上发表文章。该图清晰地展示了在人工确认过程中的哪些组合判别出的文献多,而哪些组合中被剔除的文献多。所以,我们可以重点关注浅色区域文献的剔除,以及深色区域文献的增加。
图7.7 作者—文献组合判别正误的数量
图7.7展示了随着判别文献比例的变化,作者—文献组合判别数量的变化情况,其是判别文献比例的一个函数,文献判别时将一个学科的文献和一个院系的作者文献进行匹配。可以看出:当判别文献超过80%以后,院系/专业组合判别错误量明显有所下降,超过95%后下降得更明显。所以,可以使用这些比例自动判别给定院系特定专业作者的文献。为了降低错误率,对于文献中只标署了省份而没有标署机构名称的文献,设置文献判别的比例为95%。这样的文献共有17002篇,其中有16518篇判别正确,而只有484篇判别错误(2.8%)。对于在文献中标识了机构的文献,设置文献判别的比例为80%,在被判别的68785篇文献中有10.7%的文献判别错误。
值得注意的是,所有的处理过程是同时进行的。所以,此处呈现的文献数量包含了本小节前文中使用其他准则处理过的文献。表7.4展示了所有步骤综合作用下的错误率,使用了前文介绍的核心文献、关键词、参考文献,以及院系学科和文献专业形成的矩阵。在算法中增加了院系和期刊学科矩阵后,又判别出了310位科研人员,他们每人至少有一篇文献在核心集合中。总体而言,混合后的算法自动判别了50353篇文献,涉及6427位研究者,73331条作者—文献组合。
表7.4 文献自动匹配的总体结果
本章发现的模式可用于文献数据集中文献所属作者的判别,实验中判别出了约80%的作者及其所作的至少一篇文献。基于核心文献集合中的文献特征,我们可以增加核心集合文献或创建文献的其他属性集合。本章的算法将做反方向的工作,其目的是要找出不属于列表中科研人员的文献。
如图7.6所示,在人工确认的过程中,有几种院系学科和文献专业的组合,其中大量的文献被剔除。确实,如果X部门的高校科研人员在Y专业中没有发表过文献,那么以后也不会有科研人员发表。所以,在这些组合中的文献可以直接自动剔除。
这些模式不仅可以剔除文献,也可以关闭研究者的文献发表文件,因为这些研究人员的文献或者已经被前文提到的方法判别过了,或者已经在使用院系/专业矩阵判别时被剔除了。在使用院系/期刊组合矩阵时,使用50%作为阈值时达到的效果最好,可以自动剔除202928篇文献,其中有183656篇(占91%)是真正需要被剔除的,只有19272篇(占9%)不应该被剔除。这些被剔除的作者—文献组合占所有被剔除组合的90%(226325)。
经过上述步骤后,13479份文献发表文件中有5036份(占37.4%)被自动标记为关闭状态(包含2256份没有文献或者文献由同名作者发表的文献),因为他们的文献或者全部被判别过了,或者全部被剔除了。对于另外的6069位研究者,他们的文献中至少有一篇会被自动判别(45%),50353篇文献中有1633篇文献判别错误(占3.2%)。总体而言,本算法为13479位研究者中的11105位科研人员(占82.4%)提供了至少一篇文献的归属信息。或者说11223位研究者中8849位科研人员,在排除了2256份无论研究人员或者同名作者都没有文献可匹配的文件的同时,也没有被研究者或同名作者授权。因此,仍有2374位研究人员不能实现文献自动判别(归入或剔除),所以需要采用完全人工确认的方式。尽管如此,本算法在大规模文献的自动判别和剔除中还是很有用的,如在本章中,将11223位科研人员降低到2374位(减少了79%),剩余的再采用完全人工确认的方式。☞
总结
本章给出了科研人员文献发表模式的证明,这些模式可用于自动判别文献所属的作者,剔除同名作者所发表的文献。本章发现了两种类型的模式:①个体作者层次的;②团体层次的。
对于个体层次,我们发现科研人员在使用参考文献时十分规律。这也是我们所预期的:其他学者的研究也表明了这一点,科研人员在学术活动中趋向于引用相同的资料(Barnett,Fink,2008;Gingras et al.,2008)。因此,我们使用加拿大魁北克省科研人员数据集的一部分对这一发现进行了验证,发现文献作者与科研人员同名时(姓氏和名字缩写相同),如果文献中至少有一条参考文献是该研究者之前的文献使用过的,那么该研究者通常就是这篇文献的作者。与之类似的是,科研人员的研究主题是相对稳定的。比较科研人员前期与后续文献中使用的关键词,我们发现使用相同关键词的文献作者往往指向同一作者。
对于团体而言,有两种模式。一种模式是,绝大部分文献中都标署了作者的机构从属信息。利用这一规律,可以构建一个文献的核心子集,在此基础上应用科研人员前期使用的参考文献和关键词找到该研究者的其他文献。另一种模式是院系学科与文献期刊学科之间的关系。对于一些院系/专业的组合,大部分文献所属作者的判别都是正确的,然而也有一部分组合中的大部分文献是同名作者发表的。所以,第一种组合可用于文献归属的自动判别,而后者可用于作者—文献组合的剔除。
对比其他关于作者消歧的现有研究,大多数使用的都是小样本数据集(Aswani et al.,2006;Han et al.,2005;Wooding et al.,2006),或者是针对特定的作者-文献组合做的研究(Boyack et al.,2008),本文在此基础上做了更进一步的研究。但目前文献题录数据库有了很多的改进,例如,科研人员编号(Research ID)、ORCID(Open Researcher and Contributor ID)、作者与其地址的链接、作者全名索引。由于这些特征可能使将来的文献判别工作更加容易,所以它们在分析中可能会越来越重要。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。