理论教育 数据准备分析方法及实践

数据准备分析方法及实践

时间:2023-10-06 理论教育 版权反馈
【摘要】:把前10000名物理学家的名单加载到OpenRefine中做数据清洗[34]。利用OpenRefine的“Text Facet”特征进行名字分组。这10个作者每个人的数据都保存在单独的CSV文件里并加载到Sci2中。另外,这10位物理学家的引文数据从Web of Science下载。文件扩展名由.txt格式转换成.isi格式,并加载到Sci2中。接下来,运行“Reconcile Iournal Names”算法[37],从而确保将所有期刊的标题按照UCSD科学地图的标准进行标准化匹配。表14.1发文量前10的物理学家及其所属机构数、发文量和被引频次

数据准备分析方法及实践

把前10000名物理学家的名单加载到OpenRefine中做数据清洗[34]。对作者的名字做标准化处理,首先把字母改成大写的,然后清理名字前后的空格。利用OpenRefine的“Text Facet”特征进行名字分组。每个名字的计数与以该名字发表的论文数相对应,这样做是为了唯一地识别一个人的名字,减少同形同音的名字引起的重复计数。确保某个名字能够唯一标识某人后,将“Text Facet”应用于他的机构,显示每个机构的发文量。如果某一个署名的绝大多数论文是在一个机构发表的,那么就可以通过这个名字在数据集中唯一地确定这个人。对表14.1数据集中的10位高产作者做同样的处理。

接下来,在网上搜索每个机构的地址。这10个作者每个人的数据都保存在单独的CSV文件里并加载到Sci2中。采用“Bing Geocoder”算法[35]给每一个机构编码。然后,用“Aggregate Data”算法[36]按机构聚合每个作者的数据、计算这些机构发表的论文数、计算这些论文的被引频次。之所以做这样的聚合,是因为许多作者在短时间内都曾隶属于与其原机构地理上相隔较远的其他机构,这可能与他们到这些机构进行学术休假,或者去那里访学有关。

另外,这10位物理学家的引文数据从Web of Science下载。全部记录加上引文信息以ISI格式的文本文件输出。文件扩展名由.txt格式转换成.isi格式,并加载到Sci2中。接下来,运行“Reconcile Iournal Names”算法[37],从而确保将所有期刊的标题按照UCSD科学地图的标准(Börner et al.,2012)进行标准化匹配。(www.daowen.com)

表14.1 发文量前10的物理学家及其所属机构数、发文量和被引频次

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈