近年来,已有一些研究提出作者消歧的算法。然而,除了Reijnhoudt、Costas、Noyons、Börner、Scharnhorst(2013)和Levin、Krawczyk、Bethard、Jurafsky(2012)的研究,大部分使用了较小的数据集(Gurney、Horlings,van den Besselaar,2012;Wang et al.,2012),而且没有对同名作者和“真正”作者的文献数据做清洗工作。Jensen、Rouquier、Kreimer、Croissant(2008)尝试使用WoS数据为法国国家科研中心(CNRS)的6900名科研人员编制出版及引用文件。在每位研究者的出版文件中,他们并没有采用剔除同名作者所写文章的方法,而是计算这位作者有同名作者的概率,将概率过高的作者从样本数据中剔除。更准确地说,他们首先要通过对每位作者的姓氏及名的首字母(VLEMINCKX-S)和其多种变化形式(VLEMINCKX-SG、VLEMINCKX-SP等)进行比较,计算出每位作者具有同名作者的概率。如果某位作者的姓名有过多的变化形式,那么要将该作者剔除。另一条标准与发表文章的数量有关:如果某位作者的发文量过高,那么这些文献发表记录可能属于多位同名作者的。所以,他们认为每位作者的发文量应该是每年0.4~6篇。最后一条标准:每位科研人员发表第一篇文章的年龄应该在21~30岁。最终,他们得到了一个包含3659人的数据集(占原始样本数据的53%)。
该方法至少有两个不足之处。第一,姓名唯一并不意味着只有一位作者。例如VLEMINCKX-S,可能是姓氏和不同名首字母的组合:Serge Vleminckx、Sylvain Vleminckx、Sophie Vleminckx等。第二,将高度活跃的作者从样本数据中剔除(年发表文献数量大于6篇的作者)明显会影响分析结果。该方法与Boyack和Klavans(2008)的方法类似,他们对使用罕见姓氏的作者重新构建了文献及专利发表活动。通过文献中标署的作者/发明者和机构[5]的组合,计算出某篇文献属于给定作者的可能性。
另外一种方法是Han、Zha、Giles(2005)的,他们使用K均值聚类算法和朴素贝叶斯模型,将以Anderson-J和Smith-J为作者署名的文章中的70%分到了不同的类中,所使用的变量是合作者姓名、期刊名称和文章标题。算法的假设是,科研人员通常在同一类期刊中发表相同主题的论文,并且拥有稳定的合作者。Torvik、Weeber、Swanson、Smalheiser(2005)在使用Medline数据分析时也使用了类似的方法,同样地,Wooding、Wilcox-Jay、Lewison、Grant(2006)以Arthritis Research Campaign资助的29位主要科研人员作为数据样本,通过合作者之间的关系剔除同名作者。对于每一位作者,他们首先找出那些确定属于该作者的文献核心集合,它们是关节炎(Arthritis)研究领域文献的子集。随后使用这些核心集合为每一位科研人员创建了一个合作者列表,并使用这些列表对其他领域的文献进行判别。该研究的新颖之处在于多次循环执行合作者增加过程,这样核心集合中的合作者人数将逐渐增加。该算法循环3次以后可以判别出99%的文献,查全率可以认为是99%,误判率仅为3%,即查准率达到了97%。该方法与Kang等人(2009)使用的方法非常类似,Reijnhoudt等人(2013)对其做了扩展,增加了一些启发式的属性,例如作者邮件地址、通信作者等。Cota、Ferreira、Nascimento、Gonçalves、Laender(2010)也做了类似的探索,又增加了合作者、文献标题、出版地点三个属性,并对DBLP和BDBComp中大约4500篇文献进行了作者消歧。(www.daowen.com)
Aswani、Bontcheva、Cunningham(2006)增加了标准的文献题录信息(摘要、作者姓名缩写、标题、合作者),采用自动网页挖掘的方法对同名作者的文献进行分组。网页挖掘算法搜索作者的全名,并尝试找到其文献发表信息的页面。其结果表明:该方法提高了文章归属确切作者的性能,但是在使用小样本数据时,其结果可信度变小。总体而言,虽然大部分研究使用的都是小样本数据集,对误判率、漏判率以及其他错误也都没有做全面的分析,但是这些研究确实促进了以下问题的解决:①作者消歧的自动化;②文章所属作者的自动判别。另外,Levin等人(2012)提出了一个基于引用的、处理大规模数据的算法,其着重强调自引情况,使用该算法对WoS中5400万条作者—文献组合记录做了消歧处理。结果表明:当综合考虑作者的电子邮件地址、姓名、文章语种、自引情况时效果最好。为了评价这一算法的精度,他们对一个包含200位作者的小样本数据进行了人工消歧,得到该算法的查全率和查准率分别是0.788和0.832。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。