理论教育 领域本体的扩展方法与应用场景

领域本体的扩展方法与应用场景

时间:2023-06-01 理论教育 版权反馈
【摘要】:通过这一过程,将产品评论抽象为一个概念网络,并且量化概念之间的关系,实现领域本体的扩展与延伸。在此基础上,还需要对领域本体进行实时更新。

领域本体的扩展方法与应用场景

1.领域术语的识别——关联度计算

根据本章4.2.1节中的定义,领域术语是描述相关概念的词语,可能是概念的部件、属性或者属性值,与概念之间存在关联关系。由于两个词语在评论中的位置越接近,其相互之间的关联关系越紧密。因此,本章以产品的基本概念为中心,将上下文中邻近的词语作为候选领域术语,通过计算基本概念与候选领域术语的语义关联度,识别产品评论中的领域术语。

根据第3章3.3.1节中提出的领域术语提取方法,本章也根据词语的共现模式(包括共同出现、共同不出现以及二者仅出现其一等多种模式),采用平衡互信息法(BMI)计算语义关联度,详见式(3-39)。

对于每个基本概念,将其相关的候选领域术语以关联度从高到低排序,仅保留前30个关联的术语,生成该基本概念的领域术语集。在此基础上,以已经识别的领域术语作为新的概念,利用同样的算法寻找更多的术语。通过这一过程,将产品评论抽象为一个概念网络,并且量化概念之间的关系,实现领域本体的扩展与延伸。

此外,本章还利用概念的领域术语集构建文本向量,以概念与术语的关联度为向量值,以便于以下的语义计算工作。

2.概念子类的识别——隶属度计算

根据本章4.2.1节中的定义,概念的子类与概念之间具有不同逻辑层次上的种属继承关系。子类将继承概念的所有属性,并且对概念的隶属关系为非对称关系。因此,结合Lau[165]提出的非对称关联规则算法进行隶属度计算,以识别概念c的子类a。

其中,(t1,t2,…,tn)为概念c的相关术语,ass(a,ti)和ass(c,ti)表示概念与术语的关联度,详见式(3-39)。此外,还需要进一步对隶属度进行线性缩减,即,以确保语义隶属度取值在单位区间[0,1]。(www.daowen.com)

3.概念实例的识别——相似度计算

根据4.2.1节中的定义,概念与其在产品评论中的实例表达相近的意思,所以概念的相关术语与该概念的实例也存在关联关系。因此,采用余弦相似度算法确定概念c的实例b。

其中,(t1,t2,…,tn)为概念c的相关术语,ass(b,ti)和ass(c,ti)表示概念与术语的关联度(详见公式(3-39))。此外,还需要进一步对相似度进行线性缩减,即,以确保语义相似度取值在单位区间[0,1]。

4.领域本体的更新

随着评论的更新,领域术语在概念描述中的权重将发生变化,同时新的、关联度更高的术语被识别出来。因此,需要对每一个领域概念,添加新的相关术语,并且去掉权重低的术语。在此基础上,还需要对领域本体进行实时更新。

本书采用一种类似于Rocchio学习的方法[166],实现领域本体概念空间的自动更新。令Rnew表示新增语料,表示新增语料Rnew中领域概念c的术语向量,其中向量值为概念与相关术语在新增语料中的语义关联度。

其中,,ass(c,t2),…,ass(c,tn))为原有的术语向量,为更新值,|Rnew|为新增的评论总数,为向量的模。令α=β=0.5,以保证评论学习的均衡与一致。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈