链接预测与应用-学术影响力测评方法与实践

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：图2.1是链接预测过程的总框架图。在一些研究中，预测和评估之间会有一个额外增加的后处理步骤。把预测器应用到前处理网络会产生大量的预测。在一个较高水平上，链接预测可被看作是一个统计分类任务。我们通常能区分链接预测和其他应用。下面，我们列出五种可能的链接预测应用。一些文献研究了链接预测在推荐中的作用。

图2.1是链接预测过程的总框架图。其中，有四个主要步骤：数据收集、前处理、预测和评估。在一些研究（如Guns，2009）中，预测和评估之间会有一个额外增加的后处理步骤。因为后处理较少见，我们也不多作介绍。

数据收集是很显然的一个步骤。之所以这么明确，是因为输入数据的质量会严重影响到之后的预测质量。在这一步，我们要区分训练数据和测试数据，它们都来自同一个数据源。我们所指的训练网络就是以此为依据进行预测的网络。如果想要将预测结果和一个标定好的网络比较（例如同一网络的一个后期快照），之后的网络叫作测试网络。注意测试网络仅用于评估。

前处理是非常普遍但并不强制的步骤。前处理的主要工作是过滤出某些节点。做这些的原因和标准可参阅2.5.1节。前处理应用于训练网络和测试网络。

预测步骤在训练网络上执行。这一步骤包括预测器的选择，它是一个函数或算法，计算每个节点对（或者一个节点对的子集）的可能分值。把预测器应用到前处理网络会产生大量的预测。在实践中，预测步骤产生一个带有相关可能分值W的潜在链接列表。通过W值降序排列潜在的链接并选择一个阈值，我们就能得到一个预测的网络。这一步不影响训练网络和测试网络，如图2.1的虚线所示。

评价包括测试网络和预测网络的比较。有几种可能的技术和方法，大部分来自于信息检索、数据挖掘及其相关领域（见2.5.3节）。

在一个较高水平上，链接预测可被看作是一个统计分类任务。分类的条目是节点对，应该被分为两组：链接和非链接。在实验数据（一个训练网络，其链接是经过证实的链接）的基础上，我们给每对分配一个链接概率。这些概率值可以不同方式使用。我们通常能区分链接预测（即概率的使用仅用于预测）和其他应用（这些概率以不同方式被使用）。下面，我们列出五种可能的链接预测应用。前两个主要是未来链接预测，接下来的两个是缺失链接预测，最后一个涉及在更理论化的层面上进行链接预测的重要性问题。

第一，我们集中关注链接预测。通常，我们想要知道未来有哪些链接会出现（或者在网络中，哪些链接不是临时的链接）。在科学计量中，这些也是政策制定者关心的，对他们来说，充分理解可能的未来进化是极其重要的。一般而言，这种案例最好用于一个只有较少数量交互的环境中，或者，换句话说，用于一个重视查准率胜过查全率的环境。在原数据生成的环境中，链接预测可能帮助缓解可靠联系稀少的问题（Rodriguez，Bollen，Van de Sompel，2009，p.11）。(www.daowen.com)

pagenumber_ebook=58,pagenumber_book=40

图2.1　链接预测步骤图

第二，另一个相关的应用是推荐。不是要预测未来网络的状态，而是试图寻找可能但未经证实的链接，常常牵涉一个特定的节点。例如，给定节点a，我们能创建一个邻居的候选排序列表（经常是短的）。这些候选的邻居对a来说就是推荐。有趣的是，这样做可能影响网络的进化。比如，对较小型的研究团队来说，推荐就是研究国内的或者国际的协作：谁会是可能的合作者？在推荐、推荐系统和协同过滤方面有相当大数量的研究文献，其中，a和推荐给a的条目是不同类的，比如研究者和他可能阅读或者引用的文章，一个图书馆用户和他可能感兴趣的资料。尽管大量关于这种类型推荐的研究不涉及网络，但它可以被抽象为一个二模网的链接预测问题。一些文献研究了链接预测在推荐中的作用（Guns，Rousseau，2014；Yan，Guns，2014）。

第三，从实际数据抽取出来的许多网络在某些方面是不完整的，链接预测能作为一种发现缺失信息的工具。反之，错误数据可能混入网络，且可能极大地影响研究结果。如果错误数据掩盖了一条当前不应该存在的链接（类似一个完全随机的链接插入到网络），链接预测方法可能挑出极不可能的假链接。

第四，检测虚假链接与链接预测的第二个应用——异常检测有关系。Rattigan和Jensen（2005）建议异常检测提供比链接预测更丰富的查询途径。基本思路是链接预测提供工具来发现异常链接，那些意想不到然而有趣的链接。例如，在一个引文网络中，一个意想不到的引用可能是一个跨学科的标志（一篇文章的方法或观点来自其他学科）。

第五，在理论层面，链接预测的主要用途是可作为测试、评估网络的形成和进化模型的实用方法。预测器通常来自于一个显式或隐式的假说，关于网络中的链接是如何出现、为什么出现的假说。因此，一个预测器的性能也可能是帮助测试潜在假说的有效性。如果一个预测器在不同网络中运行结果显著的不同，这可能表明了在这些网络进化中发挥作用的因素变量。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关学术影响力的测评　方法与实践的文章

链接预测与应用-学术影响力测评方法与实践

如何撰写2025年公司迟到检讨书

如何撰写2025年军训迟到的检讨书

2025年早晨迟到的反思与总结，怎么写更合适

如何写2025年高中生迟到检讨书

如何撰写2025年教师迟到的检讨书

如何撰写2025年年银行员工迟到检讨书

如何撰写2025年银行上班迟到检讨书

2025年上班迟到开会检讨，该如何写

相关推荐