上述过程产生共词网络分析的结果,呈现在表10.2中,并在可视化图10.5中予以展示。结果显示System、Citation、Web、Search和Knowledge这五个概念网络中点度最高。这表明,这些概念2012年在JASIST杂志上出现的频率最高,同时也表明,这几个概念也是与其他概念联系最紧密的概念。这五个概念作为JASIST杂志在2012年度的信息中枢,能够合理反映该年度JASIST期刊的总体内容。此外,我们注意到,System和Citation的中介中心度同样最高,这表明在此网络中这两个概念在其他次概念之间充当桥梁。
表10.2 按点度中心度、接近中心度、中介中心度排名的前25个节点
a节点的度数是指该节点与其他节点连接的数量,具有较高度数的节点在网络中起信息枢纽的作用。
b节点的接近中心度表示它对整个网络的影响程度。
c节点的中介中心度是指经过该节点的最短路径的数量,高中介中心度的节点在网络中起着连接其他子网络的桥梁作用。
图10.5 基于2012年度JASIST期刊论文的共词网络Gephi可视化图谱
Gephi软件的可视化结果与上面的结果相同,但是它进一步细化了节点间的相互作用。我们不难看出2012年JASIST杂志上比较突出的主题包括信息检索、信息网络和Web环境下的信息计量学。尤其突出的两个研究主题为:第一,信息检索相关研究与信息网络相关研究的相互作用。此外,信息检索在Web语境下进行研究;第二,引文分析是重点研究对象。在文献计量学和信息网络领域(如Web)都涉及引文分析研究。☞(www.daowen.com)
总结
作为一种文献计量学工具,文本挖掘技术具有大规模主题分析的能力。此案例表明通过多种程序的应用可使大量文本数据处理变得非常容易,而且研究结果能给研究人员带来对期刊主题的新见解。虽然还有其他的文本挖掘工具,但由于Stanford CoreNLP功能丰富且具有扩展性,因此我们使用该工具进行文献计量学研究。通过本章案例,我们展示了如何将Stanford CoreNLP软件很容易地应用于一系列文章摘要的共词分析。
Tseng、Lin和Lin(2007)在专利分析中对文本挖掘过程做了正确的概括:“文本挖掘过程涉及一系列用户与文本挖掘工具的交互行为,通过探索资源库来寻找相关模式。经有经验的专家分析并结合额外的信息补充,这些模式将变成非常重要的智能决策”。为此,我们推荐使用Stanford CoreNLP软件并且鼓励感兴趣的研究人员将在此展示的技术应用于他们自己的文本挖掘驱动的文献计量学研究中。
【注释】
[1]M.Song,Department of Library and Information Science,Yonsei University,Seoul,South Korea,E-mail:min.song@yonsei.ac.kr;T.Chambers,Department of Information and Library Science,School of Informatics and Computing,Indiana University,Bloomington,IN,USA,E-mail:TISCHT@INDIANA.EDU.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。