理论教育 经典基于关系迁移的方法优化

经典基于关系迁移的方法优化

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:MLNs是一种强大的形式化方法,它将一阶逻辑的紧凑表达和概率的灵活性相结合,将其用于统计关系学习。在MLNs中,关系域中的实体由谓词表示,它们的关系由一阶逻辑表示。此外,教授与其学生之间的关系类似于经理与其工人之间的关系。修正后的MLNs可以用作目标域中对于关系模型的推导或推理。Davis和Domingos[37]提出了一种基于二阶Markov逻辑形式的关系知识迁移算法。

Mihalkova等人[33]提出了一种TAMAR(transfer via automatic mapping and revision)算法,该算法使用Markov逻辑网络(MLNs)[34]在关系域之间传输关系知识。MLNs是一种强大的形式化方法,它将一阶逻辑的紧凑表达和概率的灵活性相结合,将其用于统计关系学习。在MLNs中,关系域中的实体由谓词表示,它们的关系由一阶逻辑表示。TAMAR的动机来源于:如果两个域相互关联,则可能存在从源域到目标域的连接实体及其关系的映射。例如,教授可以被认为是在学术领域扮演着与工业管理领域的经理相似的角色。此外,教授与其学生之间的关系类似于经理与其工人之间的关系。因此,可能存在一个从教授到经理的映射以及一个从教授-学生关系到经理-工人关系的映射。在这种情况下,TAMAR试图利用为源域学习的MLNs来帮助目标域的MLNs学习。大体上,TAMAR是一个分为两阶段的算法。在第一步中,基于加权伪对数似然度量(WPLL),可以构建一个从源MLNs到目标域的映射。在第二步中,通过用于修改一阶理论的归纳逻辑编程(ILP)的FORTE算法[35],可以对目标域中的映射结构进行修改。修正后的MLNs可以用作目标域中对于关系模型的推导或推理

在AAAI-2008年关于复杂任务4迁移学习的研讨会中,Mihalkova和Mooney[36]将TAMAR扩展到以单一实体为中心的迁移学习环境。在这种环境下,目标域中只有一个实体可用。Davis和Domingos[37]提出了一种基于二阶Markov逻辑形式的关系知识迁移算法。该算法的基本思想是通过使用来自目标域的谓词来样本化这些公式,以带有谓词变量的Markov逻辑公式的形式来寻找源域中的结构规律。

Mihalkova等[33]使用了3个真实世界的关系域——IMDB、UW-CSE和WebKB。每一个数据集都被分解为若干个数据集合,每个数据集合都包含了一组相互关联的事实,单个的数据集合是相互独立的。IMDB数据库被划分为5个数据集合,每个集合包含关于4部电影、导演和首次出现在其中的演员的信息。UW-CSE数据集基于计算机科学的五个领域,该数据集被划分为多个数据集合。UW-CSE列出了一个学院里的人(比如学生、教授)和他们的关系。WebKB数据集包含的信息来源于“大学计算机科学系”资料集,原始的数据集包含来自4所大学的网页,这些网页根据它们描述的实体(例如student、course)进行了标记。该实验的WebKB版本包含了谓词student(A)、faculty(A)、course TA(C,A)、course prof(C,A)、project(P,A)和same person(A,B)。实验考虑了以下迁移场景:WebKB→IMDB、UW-CSE→IMDB、WebKB→UW-CSE、IMDB→UW-CSE;此外还考虑了一个场景,其中使用带有UW-CSE数据的手工构建的知识库作为源MLNs(UW-KB→IMDB)。这里使用了两个度量标准:曲线下面积(AUC)和条件对数似然(CLL)。AUC很有用,因为它展示了算法如何很好地预测数据中少数的积极方面。另外,CLL决定算法输出的概率预测的质量。迁移比例(transfer ratio,TR)是迁移学习模型(TAMAR或TrKD)在学习曲线下的面积与从零开始学习模型(ScrKD)在学习曲线下的面积之比,TR给出了从零开始学习的迁移过程中性能的提升情况,TR>1表示在目标域上较从零开始学习的提升。表3.6给出了在观察目标域内的一个元样本集合(meta sample set)上的精度提升百分比(percent improvement,PI)。在AUC方面,两种迁移系统在所有实验中都优于ScrKD,只有一个实验例外。在这一实验中,两种迁移学习模型的表现都不一致。从表3.7可以看出,在CLL方面,迁移学习总是优于从零开始学习,TAMAR在所有情况下的性能都优于TrKD。此外,从表3.8中可以看出,TAMAR的训练时间比TrKD短,两种迁移系统的训练时间都短于ScrKD的训练时间。其中,迁移系统的训练时间不包括学习源结构所需的时间。

表3.6 在ScrKD上的TR和PI的AUC[33](www.daowen.com)

表3.7 在ScrKD上的TR和PI的CLL[33]

表3.8 平均(在所有学习曲线点上)总训练时间[33] 单位:min

括号中的数字给出了构造谓词映射所需的平均秒数

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈