在CitNetExplorer的指导手册中,我们对科学计量学领域中文献的引文网络进行分析及可视化。
首先打开网络:
(1)启动CitNetExplorer。如果没有安装CitNetExplorer,可以在以下网址下载:http://www.citnetexplorer.nl。
(2)运行后会出现Open Citation Network对话框。在Web of Science一栏选择要处理的Web of Science的输出文件。这些文件来自13.5.1节的数据集,研究1945—2013年的所有文献,在默认情况下,Include Non-Matching Cited References选项是打钩的。设想一下,如果不选择Include Non-Matching Cited References选项,只有在Web of Science的输出文件中有题录数据的文献才能出现在引文网络中。如果选择Include Non-Matching Cited References这一选项,那么所有具有最小引文数的文献都会出现在网络中,即便这些文献在Web of Science的生成文件中找不到题录数据(不是从参考文献中提取的数据)。至于最小的引文次数,我们选择默认的10次。
(3)点击OK按钮关闭Open Citation Network对话框,这样就打开了引文网络。接下来CitNetExplorer进行引文匹配,并确保网络是非循环的(见13.4.2节)。这个过程需要一些时间。
图13.7是引文网络的可视化结果。回想一下,13.4.2节的网络中只有40个高被引论文。当把鼠标放在某一节点上时,在CitNetExplorer窗口的左面就会显示题录信息(例如,作者、标题、期刊)。图13.7结构清晰,在视图的左边能看到有关信息科学与信息检索的文献,视图中间是科学计量学方面的文献,视图右边是技术与创新研究方面的文献。曲线代表文献间的引文关系。
假设我们有兴趣了解更多有关文献计量网络可视化方面的文献,在图13.7的40篇文献中,我们会发现有3篇关于文献计量网络可视化方面的文献:Small(1973)、White and Griffith(1981)以及White and McCain(1998)。这3篇文献都在文献综述部分(见13.2节)讨论过了。我们用这3篇文献来精简引文网络。
(4)点击一下节点Small(1973),这篇文献就被标记了。为了便于识别,这篇文献用正方形表示。
图13.7 CitNetExplorer制作的文献引文网络可视化视图
(5)点击一下节点White and McCain(1998),这篇文献也被标记了。请注意,Small(1973)、White and McCain(1998)还有几个文献的图标都是红边的。标记成红边说明这几篇文献都被选中了。在默认情况下,如果某个文献被选中有两种可能,一种是其自身被标记,另一种是它位于被标记文献的引文关系链上。例如,对White and McCain(1998)和Small(1973)标记后,White and Griffith(1981)也被标记了,引文White and Griffith(1981)在两篇文献的引文关系链上。White and Griffith(1981)被White and McCain(1998)引用,并引用Small(1973)。在可视化视图中,40篇高被引文献以外的文献也可以被选择,但是这些文献不是直接可见的。在CitNetExplorer视图的左上方写着有多少篇文献被选择。本例中,有261篇文献被选择。每一篇被选择的文献都在由Whiteand McCain(1998)到Small(1973)的引文关系链上。
(6)点击一下CitNetExplorer窗口上方的Drill Down按钮,这样我们就可以把全部文献的引文网络精简成只含有选定的261篇文献的网络,这个网络便成为当前网络。
精简后,得到图13.8。在可视化视图中展示了261篇文献中的40篇高被引文献。
图13.8展示的大多数文献和文献计量网络可视化这一主题没有直接的关系。接下来我们使用一种聚类群技术(见13.4.2节)进一步精简网络:
图13.8 对文献引文网络第一次精简后得到的CitNetExplorer可视化视图
(1)点击一下CitNetExplorer窗口上方的Analysis按钮,在Analysis菜单中选择Clustering选项,就会出现Clustering对话框。
(2)使用Clustering对话框中的默认参数值。点击OK按钮关闭该窗口。然后CitNetExplorer就开始对网络中的261篇文献进行聚类。
(3)聚类完成后弹出消息窗口,提示发现5个文献聚类群。点击OK按钮关闭该窗口。现在,视图中的文献节点都被着了色。文献的颜色表明了文献所属聚类。共有5组,对应5个聚类群。
(4)文献计量网络可视化主题的文献集中在第2组。这些文献节点都是绿色的。在CitNetExplorer左边窗口的Selection Parameters选框里选择Based on Groups(在Selection的下拉窗口里)。在Groups列表选项里,选择Group 2,然后第2组里的66篇文献就被选中了。在视图中,这些文献节点的边框都是红色的。
(5)点击Drill Down按钮。
图13.9是精简后的可视化视图[6]。目前,网络中有66个文献节点,视图中显示了40个高被引文献节点。
现在我们对发表在1973—1998年关于文献计量网络可视化主题方面的重点文献有了一个宏观的了解。
然而,并非所有1973—1998年发表的重要文献都出现在网络中,1973年以前及1998年以后的文献也不在网络中。为了纳入更多的文献,我们对目前的网络进行扩展。先看下网络中发表时间在66篇文献之前的文献。我们把被66篇文献引用的所有参考文献都纳入到网络中:
(6)点击CitNetExplorer窗口上方的Expand按钮,会出现Expand Current Network对话框。
(7)在Publications的下拉选项中选择Predecessors。不要更改Min.Number of Citation Links及Max.Distance的参数值,并且不要勾选Add Intermediate Publications。点击OK按钮关闭Expand Current Network对话框,当前网络将被扩展。
图13.9 对文献引文网络第二次精简后得到的CitNetExplorer可视化视图(www.daowen.com)
扩展后,当前网络包含342个文献节点。在这些节点中,我们能找到Alfred Lotka、Eugene Garfield以及Derek de Solla Price等人的经典著作。
假设我们还想看看发表时间在66篇文献之后的文献,换言之,我们想看看引用这66篇文献的文献。那些引用任意66篇文献并且引用次数最小为1次的施引文献数量庞大,并且很多施引文献与文献计量网络可视化这一主题可能并没什么直接联系。因此,我们要求施引文献的最小引用次数至少为3次。操作步骤如下:
(8)点击CitNetExplorer窗口上方的Back按钮,取消完成网络扩展操作。
(9)点击Expand按钮,打开Expand Current Network对话框。
(10)在Publications的下拉选项里选择Successors。把Min.Number of Citation Links的参数值设为3。
(11)不要更改Max.Distance的参数值,不要勾选Add Intermediate Publications。点击OK按钮,关闭Expand Current Network对话框,CitNetExplorer将执行扩展操作。
图13.10 第二次扩展后文献引文网络的CitNetExplorer可视化视图
图13.10是扩展后的视图。当前网络有248个文献节点。在最新的文献中,我们发现了几篇关于文献计量学网络可视化的文献,如Kevin Boyack、Chaomei Chen、Richard Klavans以及Loet Leydesdorff的著作。
上述指导手册讲解了CitNetExplorer用户界面中最基本的功能。然而,限于指导手册的篇幅,还有许多CitNetExplorer的功能没能详尽介绍。要想了解CitNetExplorer的其他功能,详见:http://www.citnetexplorer.nl/gettingstarted/。☞
总结
本章我们对文献计量学网络可视化这一话题进行了探讨,并对相关文献及主要的软件工具做了概述。我们主要介绍了两个软件工具:VOSviewer和CitNetExplorer。我们讨论了这些工具使用的重要技术,并编写了这两个工具的指导手册,旨在为用户提供详尽的指导。
在结论部分,我们首先讨论了文献计量网络可视化的局限性及如何恰当地使用可视化工具。然后对文献计量学网络可视化的研究现状及未来发展趋势进行了概述。
首先是文献计量网络可视化的局限性及如何合理使用的问题。
文献计量网络可视化的宗旨是:通过利用相对简单的方式将核心数据可视化以实现对大规模、复杂化的文献数据的揭示。文献计量网络可视化的优势就是简洁,但是简洁的代价就是要损失一部分信息。
将题录数据简化为文献计量学网络的过程中会损失一部分信息。例如,将文本数据转换成词共现网络时,就舍弃了词共现的语境信息。相似地,在构建引文网络时,我们能观察到谁引用谁,但是我们不了解为什么引证。
在文献计量网络可视化过程中也会有信息丢失。例如,在使用基于距离的可视化方法的案例中,在二维空间中定位节点时,想让节点之前的距离能够精确地反映节点之间的相关性通常是不可能的,只能近似地用距离表示关系,如此一来就损失了信息。在基于图和基于时序的可视化方法中,我们只对有限的节点做可视化分析,例如网络中的度较高的节点。这样就舍弃了其他节点的信息。
信息丢失问题是个难题,因为很难评估到底丢失了多少信息,并且很难判断信息丢失对文献计量网络可视化的研究结论有多大的影响。例如,在基于距离的可视化方法中,节点间的距离在多大程度上能够准确地反映节点间关系的强弱呢?如果在词共现网络中所包含的词组发生了变化,那么这种变化对网络可视化的变化有多大程度的影响?即使我们意识到了在文献计量网络的可视化中存在误差,仍然很难评价误差的程度及后果。
与此相关,由于有各种技术参数需要设置,很难评价文献计量网络可视化的灵敏度。使用不同的技术参数生成的可视化视图会不会大相径庭,或者差别很小?各种技术参数的设置对可视化结果的影响有多大,或者能否证明某些参数值的设定是合理的呢?可视化网络的某些结构真的能反映潜在的数据吗,或者它只是可视化技术的制造品?经常从事文献计量网络可视化研究的科研人员可以靠直觉解答这些问题,但是大多数文献计量网络可视化的使用者却缺乏这种直觉,因此很难评价可视化结果的精确度。
面对上述难题,我们建议读者用专业知识来分析问题,用可视化分析辅助解决问题。当使用专业知识和文献计量网络可视化的分析结果一致并且判断的方向相同时,它们就互相证实了彼此的分析结论,加强了分析结果的可靠性。当两者的结果不一致时,要么需要专家重新考虑他们的研究,要么需要参考其他专家的观点,要么需要考虑会不会是因为重要的信息丢失导致可视化结果不精确,要么就是可视化的方法出了问题。如果能结合专业知识并慎重地解释可视化结果,那么文献计量网络可视化分析将会非常有用。另外,可视化分析可作为达到目的的手段,但不是目的本身。例如,当处理少量数据时,使用可视化分析就没什么意义了。那么最好的办法就是直接分析数据。
其次是文献计量网络可视化的现状及未来的发展问题。
我们对文献计量网络可视化的现状及未来的发展进行了探讨。
计算资源的快速增长促进了大型文献计量网络可视化分析方法的重大发展,同时人们对其的关注度也日益增加。Boyack等(2005)的著作里有对大型期刊网络进行分析的例子,Klavans和Boyack(2006)的著作里有对大型文献网络进行分析的例子,Skupin等的著作里有对大型词网络进行分析的例子。此外还有其他一些数据资源分析的例子(如,Bollen et al.,2009)。
可视化分析方法的第二个发展是交互式可视化工具的应用越来越广泛。在人们对可视化工具日益关注的今天,交互式可视化工具对大型文献计量网络的分析尤其重要。对大型网络而言,静态的可视化分析工具作用有限。用静态可视化分析工具将很难展示大型网络的具体结构。交互式可视化工具可以更有效地对大型网络进行可视化探索,例如,它可以让用户把粗略的视图精简为详细的视图。CitNetExplorer的精简功能可以说是这一想法的具体实践。
可视化分析方法的第三个发展是人们对动态可视化分析的兴趣日益浓厚,动态可视化分析能够呈现出文献计量网络随时间变化的状况。以前,人们比较关注静态的可视化分析,这种分析通常是在给定的时间点展示文献计量网络的结构。然而对于动态可视化分析的关注度较低,尽管已经有人在这一方面开展了一些有趣的研究,例如CiteSpace的开发(Chen,2004,2006),还有一般网络分析工具的开发,如Gephi和Visone(http://visone.info)。正如大型网络可视化分析一样,交互式网络分析可能会极大地推动动态可视化分析的发展。
总而言之,面对日益增长的大型文献计量学网络,我们期待可视化分析方法朝着交互式、动态化的方向发展。很显然,这是摆在我们面前的一个令人兴奋又极具挑战性的研究课题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。