理论教育 链接预测与应用-学术影响力测评方法与实践

链接预测与应用-学术影响力测评方法与实践

时间:2023-10-06 理论教育 版权反馈
【摘要】:图2.1是链接预测过程的总框架图。在一些研究中,预测和评估之间会有一个额外增加的后处理步骤。把预测器应用到前处理网络会产生大量的预测。在一个较高水平上,链接预测可被看作是一个统计分类任务。我们通常能区分链接预测和其他应用。下面,我们列出五种可能的链接预测应用。一些文献研究了链接预测在推荐中的作用。

链接预测与应用-学术影响力测评方法与实践

图2.1是链接预测过程的总框架图。其中,有四个主要步骤:数据收集、前处理、预测和评估。在一些研究(如Guns,2009)中,预测和评估之间会有一个额外增加的后处理步骤。因为后处理较少见,我们也不多作介绍。

数据收集是很显然的一个步骤。之所以这么明确,是因为输入数据的质量会严重影响到之后的预测质量。在这一步,我们要区分训练数据和测试数据,它们都来自同一个数据源。我们所指的训练网络就是以此为依据进行预测的网络。如果想要将预测结果和一个标定好的网络比较(例如同一网络的一个后期快照),之后的网络叫作测试网络。注意测试网络仅用于评估。

前处理是非常普遍但并不强制的步骤。前处理的主要工作是过滤出某些节点。做这些的原因和标准可参阅2.5.1节。前处理应用于训练网络和测试网络。

预测步骤在训练网络上执行。这一步骤包括预测器的选择,它是一个函数或算法,计算每个节点对(或者一个节点对的子集)的可能分值。把预测器应用到前处理网络会产生大量的预测。在实践中,预测步骤产生一个带有相关可能分值W的潜在链接列表。通过W值降序排列潜在的链接并选择一个阈值,我们就能得到一个预测的网络。这一步不影响训练网络和测试网络,如图2.1的虚线所示。

评价包括测试网络和预测网络的比较。有几种可能的技术和方法,大部分来自于信息检索、数据挖掘及其相关领域(见2.5.3节)。

在一个较高水平上,链接预测可被看作是一个统计分类任务。分类的条目是节点对,应该被分为两组:链接和非链接。在实验数据(一个训练网络,其链接是经过证实的链接)的基础上,我们给每对分配一个链接概率。这些概率值可以不同方式使用。我们通常能区分链接预测(即概率的使用仅用于预测)和其他应用(这些概率以不同方式被使用)。下面,我们列出五种可能的链接预测应用。前两个主要是未来链接预测,接下来的两个是缺失链接预测,最后一个涉及在更理论化的层面上进行链接预测的重要性问题。

第一,我们集中关注链接预测。通常,我们想要知道未来有哪些链接会出现(或者在网络中,哪些链接不是临时的链接)。在科学计量中,这些也是政策制定者关心的,对他们来说,充分理解可能的未来进化是极其重要的。一般而言,这种案例最好用于一个只有较少数量交互的环境中,或者,换句话说,用于一个重视查准率胜过查全率的环境。在原数据生成的环境中,链接预测可能帮助缓解可靠联系稀少的问题(Rodriguez,Bollen,Van de Sompel,2009,p.11)。(www.daowen.com)

图2.1 链接预测步骤图

第二,另一个相关的应用是推荐。不是要预测未来网络的状态,而是试图寻找可能但未经证实的链接,常常牵涉一个特定的节点。例如,给定节点a,我们能创建一个邻居的候选排序列表(经常是短的)。这些候选的邻居对a来说就是推荐。有趣的是,这样做可能影响网络的进化。比如,对较小型的研究团队来说,推荐就是研究国内的或者国际的协作:谁会是可能的合作者?在推荐、推荐系统和协同过滤方面有相当大数量的研究文献,其中,a和推荐给a的条目是不同类的,比如研究者和他可能阅读或者引用的文章,一个图书馆用户和他可能感兴趣的资料。尽管大量关于这种类型推荐的研究不涉及网络,但它可以被抽象为一个二模网的链接预测问题。一些文献研究了链接预测在推荐中的作用(Guns,Rousseau,2014;Yan,Guns,2014)。

第三,从实际数据抽取出来的许多网络在某些方面是不完整的,链接预测能作为一种发现缺失信息的工具。反之,错误数据可能混入网络,且可能极大地影响研究结果。如果错误数据掩盖了一条当前不应该存在的链接(类似一个完全随机的链接插入到网络),链接预测方法可能挑出极不可能的假链接。

第四,检测虚假链接与链接预测的第二个应用——异常检测有关系。Rattigan和Jensen(2005)建议异常检测提供比链接预测更丰富的查询途径。基本思路是链接预测提供工具来发现异常链接,那些意想不到然而有趣的链接。例如,在一个引文网络中,一个意想不到的引用可能是一个跨学科的标志(一篇文章的方法或观点来自其他学科)。

第五,在理论层面,链接预测的主要用途是可作为测试、评估网络的形成和进化模型的实用方法。预测器通常来自于一个显式或隐式的假说,关于网络中的链接是如何出现、为什么出现的假说。因此,一个预测器的性能也可能是帮助测试潜在假说的有效性。如果一个预测器在不同网络中运行结果显著的不同,这可能表明了在这些网络进化中发挥作用的因素变量

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈