理论教育 学术影响力测评方法与实践的主题分析成果

学术影响力测评方法与实践的主题分析成果

时间:2023-10-06 理论教育 版权反馈
【摘要】:为了对文本的主题进行分析及可视化,需要先对文本做规范化处理。UCSD科学地图以可视化的方式呈现13学科内554个分支学科及学科间的相互关系。

学术影响力测评方法与实践的主题分析成果

14.2.5.1 数据预处理

有关学者、研究机构、国家、论文、期刊以及研究领域的主题或语意覆盖范围可以从与之相关的文本里获取。为了对文本的主题进行分析及可视化,需要先对文本做规范化处理。Sci2的“Lowercase,Tokenize,Stem,and Stopword text”算法[18]可实现基本的文本规范化处理。该算法的输入值为附有文本字段的表格数据,输出值为将指定文本字段规范化后的表格。该算法把文本的所有字母转换成小写;把单词拆分成token(按照用户选择的分隔符进行拆分);找出每个token的词干(去除意义不大的前缀及后缀);剔除停用词,如the和a之类的常见(非必须的)词和短语。Sci2提供基本的停用词表[19],用户针对特定需要对该表进行编辑。文本标准化的目的是为了方便不重复单词的提取,从而识别出文本的主题内涵。

14.2.5.2 数据分析

在前文时间分析小节里讨论的“Burst检测”算法经常用于识别文本资料的主题范围。由于“Burst检测”也包含时间分析模块,因此该算法是展示科学研究主题演化的理想工具。(www.daowen.com)

14.2.5.3 数据可视化

Sci2提供科学地图可视化算法用于展示主题的分布,也叫作“Expertise Profile”。UCSD科学地图(Börner et al.,2012)以可视化的方式呈现13学科内554个分支学科及学科间的相互关系。该算法有两种方式:“Map of Science via Journals”[20]和“Map of Science via 554 Fields”[21]。前者通过将期刊的标题与相应的分支学科匹配得以实现,UCSD科学地图分类策略[22]对此有详细说明。后者通过将554个学科的ID(1~554的整数)与分支学科匹配得以实现。两种算法均以表格数据作为输入值,前者以期刊名为列,后者以字段ID为列。推荐用户在使用科学地图算法之前,先运行“Reconcile Journal Names”算法[23]。两种科学地图算法均输出PostScript文件,“Map of Science via Journals”算法还输出另外两种表格:一个为在科学地图上明确定位的期刊,另一个为无法定位的期刊。图14.5显示了FourNetSciResearchers.isi文件的主题分布,FourNetSci Researchers.isi文件是含有网络科学四个主要研究者的引文数据集(361条记录),这四个研究者分别是:Eugene Garfield、Stanley Wasserman、Alessandro Vespignani和Albert-Laszlo Barabasi。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈