预测步骤产生了大量的预测结果,每一个都有特定的关联值W。它依赖于我们下一步应该做什么的意图。如果没有提供测试文件,唯一可能的输出是通过设置输出到缓存区保存预测列表。列表被保存为一个Tab键分隔为三列的文件:第一节点、第二节点和关联值。这种格式能被方便地转化为一个类似MS Excel的电子数据表或者一个类似SPSS的数据包用于进一步的分析。
如果提供了一个测试文件,就可能通过将预测结果与测试网络比较去评价它们。下列额外的输出值是可能的:
·缓存区—评估:保存评估数据在一个tab键分隔的文件。每一行有四列:真实的正数、虚假的正数、虚假的负数和真实的复数。
·查全—查准率:形成一个查全—查准率表格(是默认的)。
·Roc:产生一个ROC图表,画出错误的检出率对比正确的检出率(查全率)。
·F-分数:产生一个图表,显示了F-分数的进化(查全率和查准率的调和平均值)正如所做的许多预测一样。
·fmax:产生一个独立数字性能指示器,命名为最高F分数值。
作为例子,我们来尝试比较下列预测器的性能:共同邻居、余弦、度输出、SimRank和Katz。我们键入如下命令:
>linkpred inf1990-2004.net inf2005-2009.net-p Common Neighbours Cosine DegreeProduct SimRank Katz(www.daowen.com)
对训练网络应用所选择的预测器,采用默认设置。因为没有特别输出被设置,选择的是默认输出(查全—查准)。图2.2展示了结果。这张图表说明了比较不同预测器的困难。例如,虽然Katz在开始时是最好的预测器(左边),但它被共同邻居和余弦预测器因略高的查全率超越。度输出和SimRank在比较中似乎是较弱的预测器,但能达到较高的查全率。
图2.2 五种预测器的查全—查准率表
ROC图表在同样的数据上提供了另一视图。图2.3采用如下命令获得:
>linkpred inf1990-2004.net inf2005-2009.net-p Common Neighbours Cosine DegreeProduct SimRank Katz-o roc
这张图表可以这样解释,如果预测是纯粹随机的,它们就会呈现对角线的形态。一个理想的预测将呈现为一条从左下端到左上角,再到右上角的线条。换句话说,越高越好。尽管这张图表使用和图2.2同样的数据,但有一个不同的解释:SimRank似乎是最好的预测器。主要原因是图2.3中的最大部分对应的查全率超过0.3(大致的),5个预测器中有3个没有达到。因为大多数应用中查准率超过查全率,我们认为查全—查准图表常被建议用于链接预测评估中。
图2.3 五种预测器的ROC表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。