学术影响力测评方法与实践：文献所属作者判别的研究综述

更新时间：2026-01-13 理论教育 版权反馈

【摘要】：随后使用这些核心集合为每一位科研人员创建了一个合作者列表，并使用这些列表对其他领域的文献进行判别。总体而言，虽然大部分研究使用的都是小样本数据集，对误判率、漏判率以及其他错误也都没有做全面的分析，但是这些研究确实促进了以下问题的解决：①作者消歧的自动化；②文章所属作者的自动判别。为了评价这一算法的精度，他们对一个包含200位作者的小样本数据进行了人工消歧，得到该算法的查全率和查准率分别是0.788和0.832。

近年来，已有一些研究提出作者消歧的算法。然而，除了Reijnhoudt、Costas、Noyons、Börner、Scharnhorst（2013）和Levin、Krawczyk、Bethard、Jurafsky（2012）的研究，大部分使用了较小的数据集（Gurney、Horlings，van den Besselaar，2012；Wang et al.，2012），而且没有对同名作者和“真正”作者的文献数据做清洗工作。Jensen、Rouquier、Kreimer、Croissant（2008）尝试使用WoS数据为法国国家科研中心（CNRS）的6900名科研人员编制出版及引用文件。在每位研究者的出版文件中，他们并没有采用剔除同名作者所写文章的方法，而是计算这位作者有同名作者的概率，将概率过高的作者从样本数据中剔除。更准确地说，他们首先要通过对每位作者的姓氏及名的首字母（VLEMINCKX-S）和其多种变化形式（VLEMINCKX-SG、VLEMINCKX-SP等）进行比较，计算出每位作者具有同名作者的概率。如果某位作者的姓名有过多的变化形式，那么要将该作者剔除。另一条标准与发表文章的数量有关：如果某位作者的发文量过高，那么这些文献发表记录可能属于多位同名作者的。所以，他们认为每位作者的发文量应该是每年0.4～6篇。最后一条标准：每位科研人员发表第一篇文章的年龄应该在21～30岁。最终，他们得到了一个包含3659人的数据集（占原始样本数据的53%）。

该方法至少有两个不足之处。第一，姓名唯一并不意味着只有一位作者。例如VLEMINCKX-S，可能是姓氏和不同名首字母的组合：Serge Vleminckx、Sylvain Vleminckx、Sophie Vleminckx等。第二，将高度活跃的作者从样本数据中剔除（年发表文献数量大于6篇的作者）明显会影响分析结果。该方法与Boyack和Klavans（2008）的方法类似，他们对使用罕见姓氏的作者重新构建了文献及专利发表活动。通过文献中标署的作者/发明者和机构^[5]的组合，计算出某篇文献属于给定作者的可能性。

另外一种方法是Han、Zha、Giles（2005）的，他们使用K均值聚类算法和朴素贝叶斯模型，将以Anderson-J和Smith-J为作者署名的文章中的70%分到了不同的类中，所使用的变量是合作者姓名、期刊名称和文章标题。算法的假设是，科研人员通常在同一类期刊中发表相同主题的论文，并且拥有稳定的合作者。Torvik、Weeber、Swanson、Smalheiser（2005）在使用Medline数据分析时也使用了类似的方法，同样地，Wooding、Wilcox-Jay、Lewison、Grant（2006）以Arthritis Research Campaign资助的29位主要科研人员作为数据样本，通过合作者之间的关系剔除同名作者。对于每一位作者，他们首先找出那些确定属于该作者的文献核心集合，它们是关节炎（Arthritis）研究领域文献的子集。随后使用这些核心集合为每一位科研人员创建了一个合作者列表，并使用这些列表对其他领域的文献进行判别。该研究的新颖之处在于多次循环执行合作者增加过程，这样核心集合中的合作者人数将逐渐增加。该算法循环3次以后可以判别出99%的文献，查全率可以认为是99%，误判率仅为3%，即查准率达到了97%。该方法与Kang等人（2009）使用的方法非常类似，Reijnhoudt等人（2013）对其做了扩展，增加了一些启发式的属性，例如作者邮件地址、通信作者等。Cota、Ferreira、Nascimento、Gonçalves、Laender（2010）也做了类似的探索，又增加了合作者、文献标题、出版地点三个属性，并对DBLP和BDBComp中大约4500篇文献进行了作者消歧。(https://www.daowen.com)

Aswani、Bontcheva、Cunningham（2006）增加了标准的文献题录信息（摘要、作者姓名缩写、标题、合作者），采用自动网页挖掘的方法对同名作者的文献进行分组。网页挖掘算法搜索作者的全名，并尝试找到其文献发表信息的页面。其结果表明：该方法提高了文章归属确切作者的性能，但是在使用小样本数据时，其结果可信度变小。总体而言，虽然大部分研究使用的都是小样本数据集，对误判率、漏判率以及其他错误也都没有做全面的分析，但是这些研究确实促进了以下问题的解决：①作者消歧的自动化；②文章所属作者的自动判别。另外，Levin等人（2012）提出了一个基于引用的、处理大规模数据的算法，其着重强调自引情况，使用该算法对WoS中5400万条作者—文献组合记录做了消歧处理。结果表明：当综合考虑作者的电子邮件地址、姓名、文章语种、自引情况时效果最好。为了评价这一算法的精度，他们对一个包含200位作者的小样本数据进行了人工消歧，得到该算法的查全率和查准率分别是0.788和0.832。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

学术影响力测评方法与实践：文献所属作者判别的研究综述

学术影响力测评方法与实践的文献计量学研究

学术影响力测评：方法与实践

学术影响力测评方法与实践

学术影响力测评方法与实践结果

学术影响力测评：MapEquation的方法

学术影响力测评方法及其实践

PageRank定义：学术影响力测评方法与实

学术影响力测评方法探析及实践成果

相关推荐