理论教育 Linkpred工具配置文件使用方法及实践

Linkpred工具配置文件使用方法及实践

时间:2023-10-06 理论教育 版权反馈
【摘要】:Linkpred工具支持配置文件的使用。一个配置文件就是一个描述预测器及其运行所需的设置文件。一个配置文件允许在设置上更精细化的控制。配置文件可被写成JSON和YAML格式[3]。如查全—查准表和最大F值所示,值约为0.5似乎是最优的。配置文件如下:总结在过去10年的信息计量学研究领域,网络分析技术的使用已经变得越来越普遍了。在信息计量学领域,这一技术被研究者之间协作的研究案例所证实。

Linkpred工具配置文件使用方法及实践

Linkpred工具支持配置文件的使用。一个配置文件就是一个描述预测器及其运行所需的设置文件。配置文件在设置预测器和通过命令行设置方面有两大优点:

(1)我们不需要每次输入一个设置可能很长的列表。

(2)一个配置文件允许在设置上更精细化的控制。例如,预测器参数只能通过一个配置文件来控制。

配置文件可被写成JSON和YAML格式[3]。这里我们使用YAML并用一个典型应用——推荐来说明。

在信息计量学中,假设我们想要在作者间产生协作推荐。主要的挑战是要在同一时间生成理想的、不是显而易见的推荐。正如为前处理所做的,我们不排除少数的多产作者并将最小度数设置为1,这样做是合理的。下一步骤是预测。在默认设置下,我们当然只对那些看不到的链接感兴趣。应该选择哪个预测器?因为大多数预测器产生相对明显的预测,我们将主要使用性能好的全局预测器,例如rooted PageRank和Katz。这些预测器的参数影响着一个被预测的节点对多久能被分离,对每一对我们选择测试两个不同的值。最后,因为我们是进行推荐,所以没有评估步骤,我们设置输出到缓存区—预测。相应的配置文件与下文所示类似:

注意:我们能设置预测参数并改变一个预测器的展示名称(在图表图例中展示的方式等)。我们保存配置文件到rootdpr.yaml,使用如下命令:

>linkpred inf2005-2009.net--profile rootedpr.yaml

因为评估哪个参数值将产生最好的预测结果是困难的,所以明智的做法是首先在一个训练和测试网络的相关集合中测试不同的设置。例如,因为我们在2005—2009数据集的基础上推荐新的链接,所以我们能以1990—2004作为训练网络,2005—2009作为测试网络,试验Rooted PageRank的哪个α值能产生最好的结果。如查全—查准表和最大F值(见表2.2)所示,值约为0.5似乎是最优的。(www.daowen.com)

表2.2 不同α值对应的最大F值

作为一个最后的例子,我们展示了在Jaccard这个案例中,怎样用查全—查准率和ROC图表比较一个预测器的加权和无权变量。配置文件如下:☞

总结

在过去10年的信息计量学研究领域,网络分析技术的使用已经变得越来越普遍了。在理论和实践应用方面,链接预测是一套比较新的技术。在信息计量学领域,这一技术被研究者之间协作的研究案例所证实。

总而言之,因为在社交和信息网络中链接的形成不是随机的,所以链接预测证明是可能的。虽然如此,链接预测方法在一些方面也有局限。首先,这些方法只依赖于网络拓扑,不考虑影响网络进化的社会、认知和其他环境因素。在某种程度上,这些因素在网络的拓扑结构中被反映出来但相互匹配总是不完美的。其次,在给定一个具体的条件下,“哪个预测器是最好的选择”这个问题难以回答。一些预测器(如Katz)在许多研究中展示出良好性能,也因此在缺失某些具体信息的情况下是一个好的“第一选择”。同时,为了在预测器选择上作一个更有根据的决定,在一个可比较的数据集上(Yan,Guns,2014)测试不同的预测器通常是一个好的想法。最后,在预测准确性和非肤浅之间有个权衡:好的预测器常常能产生可预见的预测结果,因此缺乏吸引力。

正如我们所展示的,Linkpred工具为链接预测研究提供了一种简单但有力的方式。它的主要局限性与速度和网络规模有关:较大型网络可能预测慢或者用Linkpred分析甚至是不可能的(也依赖于使用哪个预测器)。不管如何,这一程序已被应用于拥有几千个节点和链接的网络中且没有问题。而且,从Linkpred输出的预测结果(评估)用于在其他软件中进一步的分析和处理是可能的。最后,我们提醒大家Linkpred是开源软件(BSD许可修改)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈