与现有研究不同,作为研究起点,本章使用了不同高校科研人员列表(13479人),包含了科研人员所在学校和院系的信息(Larivière et al.,2010)。通过匹配该列表和WoS中加拿大魁北克省的科学文献中作者的姓氏和名字缩写,获取高校科研人员和其同名作者的文献数据。第一次匹配获取到125656篇不同的文献和347421条作者—文献组合记录。为了剔除同名作者的文献,随后对每位作者的每一篇文献进行人工确认。人工确认通常是通过在Google上搜索文献标题,查找其电子版来完成的,文献电子版中一般都会有作者的全名,这样可以确定文献是否属于某位科研人员。另外一种方法是通过Google搜索科研人员的姓名,找到其个人主页以获取文献发表列表或者个人简介。经过一些文献的分析后,可以了解作者的文献发表模式,并且能正确地判别出作者的文献。这些基本步骤很耗时,但是其将数据集中的文献数量减少了51%,降低到62026篇,将作者—文献组合记录数目减少了70%,降低到103376条。对该数据集(包含已归类的和被剔除的文献)的分析,可以了解魁北克省科研人员的同名情况。
为了评估人工确认科研人员发表文章这一过程的可靠性和可重复性,使用1380人(大约占总人数的10%)的样本数据对不同的个体“属性”做了测试。结果表明:对于发表的大部分文章,两位测试人员人工判别的结果是相同的。更具体地说,有1269份文件(92%)的作者指派是一致的,有1篇文章不同的有72份(5.2%),2篇的有15份(1.1%),3篇的有9份(0.7%),4篇的有3份(0.2%)。其余12份文件中,最多的有12篇是不同的。在作者—文献组合记录判别方面,错误率非常低,第一次处理得到12248条记录,第二次处理时保留了12124条(99%)。这说明人工确认过程是可靠的、可重复的。
为了发现科研人员的文献发表模式,本章使用了WoS所收录的一个文献数据集,数据集中文献作者的姓名(例如Smith-J)与加拿大魁北克省科研人员的相匹配,并且文献中至少标署了一个加拿大的地址,文献发表的时间范围为2000—2007年。这些文献经人工判别其是否属于真正的作者,这一过程与现有的大部分研究不同,这可以测试作者文献发表模式是如何影响文献误判率的。已分类的和被剔除的文献之间的差异使得该算法可以进行测试。(www.daowen.com)
为了便于发现文献发表模式,WoS中收录的每一种期刊都被归属于一个学科和一个专业(见附录1)[6],其依据是美国国家科学基金(NSF)科学与工程体系的分类方案。相对于汤森路透的分类方案,该方案的优点在于:①具有两个层次的分类(学科和专业),可以进行两个层次的整合分类;②将每一种期刊归属于一个学科和一个专业,防止文献属于多个学科时的重复计数。与之类似的是,每一个科研人员的机构也只有一个研究学科(见附录2)。这些学科的分类基础是美国NCES(Department of Education's National Center for Education Statistics)在CIP(Classification of Instructional Programs)制定的2000年修订版方案的基础上得到的。[7]本章中的数据集是发现高校科研人员学科归属和其文献学科归属之间关系的关键。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。