理论教育 使用MATLAB进行PageRank计算-学术影响力测评

使用MATLAB进行PageRank计算-学术影响力测评

时间:2023-10-06 理论教育 版权反馈
【摘要】:PageRank计算可利用Sci2工具来操作。考虑到这些困难,我们选择MATLAB执行PageRank计算。在MATLAB命令窗口,输入如下命令:p=calc_PageRankPageRank计算马上执行。通常执行100次循环足够得到准确的PageRank值。当PageRank计算完成后,其结果保存在MATLAB工作区的向量中。使用步骤创建的Pajek网络文件,MATLAB计算的PageRank值能被链接到期刊名称。PageRank值最高的10种期刊在表4.1中列出。在本章的第二部分,我们详细说明了如何综合应用两种软件工具Sci2和MATLAB来计算PageRank。

使用MATLAB进行PageRank计算-学术影响力测评

PageRank计算可利用Sci2工具来操作。但是,会有一些困难。因为Sci2工具0.5.2版本的一个缺陷,想要在这一版本中基于加权网络计算PageRank是不可能的。最新发布的版本可以计算,但这些版本又不支持创建期刊引文网络所需的数据库插件。考虑到这些困难,我们选择MATLAB执行PageRank计算。

首先,我们需要在MATLAB中加载期刊引文网络。执行如下步骤:

(13)在文本编辑器中打开创建的Pajek网络文件。

图4.2 步骤(8)~(13)的屏幕截图(使用Sci2工具建立期刊引文网络)

(14)搜索“*Arcs”行,拷贝这一行下的所有行到剪贴板。

(15)启动MATLAB。

(16)把剪贴板内容粘贴到MATLAB工作区。确保是一个矩阵而不是多列向量。矩阵卷标是cit。

(17)在MATLAB命令窗口,输入如下命令:

n=max(max(cit(:,1:2)));

C=sparse(cit(:,2),cit(:,1),cit(:,3),n,n);

这些命令创建一个期刊引文矩阵C。矩阵中的元素C(i,j)表示从期刊i到期刊j的引用数量。

在MATLAB中加载期刊引文网络后,基于网络就能计算PageRank了,采用后续步骤:

(18)创建一个MATLAB函数calc-PageRank。相应代码如图4.3所示。将此代码保存到calc_PageRank.m的文件中。

图4.3 calc_PageRank函数的MATLAB代码

(19)将calc-PageRank.m文件保存的文件夹设置为MATLAB当前文件夹。

(20)在MATLAB命令窗口,输入如下命令:

p=calc_PageRank(C,0.85,100)(www.daowen.com)

PageRank计算马上执行。阻尼因子参数设置为0.85,幂方法循环的次数设置为100。通常执行100次循环足够得到准确的PageRank值。当PageRank计算完成后,其结果保存在MATLAB工作区的向量中。向量的元素p(i)表示期刊i的PageRank值。图4.4提供了步骤(14)~(21)的屏幕截图。

使用步骤(13)创建的Pajek网络文件,MATLAB计算的PageRank值能被链接到期刊名称。对我们收集的103种Information Science和Library Science期刊,期刊名称和对应的PageRank值保存在文本文件中,可从www.ludowaltman.nl/pagerank/LIS_journals.txt下载。PageRank值最高的10种期刊在表4.1中列出。我们强调所计算的PageRank值对期刊规模是敏感的。在其他条件相同的情况下,有更多出版物的期刊也有较高的PageRank值。为了修正期刊规模,一种期刊的PageRank值需要除以期刊的出版物数量。我们也注意到图4.3中的MATLAB代码,每种期刊在“teleportation”情况下被选择的可能性是均等的。更复杂的方法会把期刊被选择的概率与期刊的出版物数量对应,正如4.3节Eigenfactor方法中所讨论的。☞

图4.4 步骤(14)~(21)的屏幕截图(使用MATLAB计算PageRank)

表4.1 Information Science and Library Science领域PageRank值最高的前十种期刊

续表

注:表中右侧的PageRank值已被乘以100。

总结

在这一章,我们主要讨论了引文分析中PageRank相关方法的使用。首先解释了Brin和Page(1998)以及Page等(1999)提出的用于Web页面排序的原始PageRank方法。然后综述了用于引文分析的PageRank相关方法,从早期Pinski和Narin(1976)所做的工作到最近受1998年提出的PageRank启发的一些方法。在讨论最近的研究时,我们将其划分为用于期刊、作者和出版物引文网络的PageRank的相关方法。在本章的第二部分,我们详细说明了如何综合应用两种软件工具Sci2和MATLAB来计算PageRank。在使用说明中,我们演示了基于Web of Science数据库获得的书目数据来计算PageRank值。作者和独立出版物的计算与此类似。

【注释】

[1]L.Waltman,Centre for Science and Technology Studies,Leiden University,Leiden,The Netherlands,E-mail:waltmanlr@cwts.leidenuniv.nl;E.Yan,College of Computing and Informatics,Drexel University,Philadelphia,PA,USA,E-mail:erjia.yan@drexel.edu.

[2]在引文网络环境中悬点问题的实证分析可参见Yan和Ding(2011a)。

[3]在引文网络环境中,除了设置阻尼因子参数值为0.85外,有时也设置为0.5。更深入讨论可参见Chen等(2007)。

[4]http://wiki.cns.iu.edu/display/SCI2TUTORIAL/3.2+Additional+Plugins。

[5]http://wiki.cns.iu.edu/display/SCI2TUTORIAL/3.4+Memory+Allocation。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈