理论教育 隐式特征词识别方法探讨

隐式特征词识别方法探讨

时间:2023-06-01 理论教育 版权反馈
【摘要】:通过隐式特征词的识别,将其与观点词进行配对,以处理产品评论中主语缺失的问题。根据本书对基本概念的定义,按照观点词是否具有明确的指代对象,将其划分为特征指示观点词和通用观点词。然而,特征指示观点词不是概念的同义词,与概念的相关术语之间也并不一定都存在关联关系,所以无法用余弦相似度算法计算其与隐式特征词的相似关系。

隐式特征词识别方法探讨

根据本书对基本概念的定义(详见第1章1.4.1),特征词还被分为显式特征词和隐式特征词,其中显式特征词是直接出现在评论中的词语,而隐式特征词是未出现在评论中,但可由上下文隐含地指示的词语。例如手机评论:“小巧,美观,颜色漂亮”,其中“小巧”与“美观”指示未出现的特征词“外观”,所以“外观”为隐式特征词,而“颜色”为显式特征词。

如果评论中出现无法配对的观点词,则认为该评论存在隐式特征词。通过隐式特征词的识别,将其与观点词进行配对,以处理产品评论中主语缺失的问题。

为了有效地识别隐式特征词,本书引入了特征指示观点词的概念。根据本书对基本概念的定义(详见第1章1.4.1),按照观点词是否具有明确的指代对象,将其划分为特征指示观点词和通用观点词。其中,通用观点词可用于评价所有特征词,如“好”为所有特征词公用的观点词,而特征指示观点词则只用于评价有限的特征词,对隐式特征词有指示作用,如“漂亮”通常用于指示“外观”。

由于特征指示观点词可用于指代其评价对象,所以它对与其关联的领域概念具有一定的区分与指示能力。在信息检索的研究领域中,通常使用TFIDF(Term Frequency-Inverse Document Frequency)算法计算词语在文本中的权重,也就是词语对文本类别的区分能力。因此,本书在传统权重计算方法的基础上,提出TFIPF(Term Frequency-Inverse Phrase Frequency)算法,用于计算观点词o对概念c的指示能力。设定阈值T3,将大于阈值(μ(o)>T3)的观点词识别为特征指示观点词。

其中,概念C为一个词语集合,集合中的w分别为概念本身、同义词及其相关术语,p表示词组或短语,由观点词o与指示对象w组合而成,tfp(o)为观点词o在词组p中出现的频率,tf(p)为词组p在语料中出现的频率,pf(o)为语料中包含观点词o的词组总数,为语料中的词组总数。换句话说,式(4-5)是计算观点词o在与概念C的所有相关术语组合而成的词组中占有的权重,该权重值表示观点词o对概念C的识别与区分能力。

在产品评论中,特征指示观点词与其评价的隐式特征词都是用于描述同一个产品属性,所以这两个词语具有相似的含义。因此,在识别特征指示观点词的基础上,通过查询领域本体,获得与特征指示观点词相关的特征词,再进行语义相似度计算,将与特征指示观点词最相似的特征词识别为隐式特征词。(www.daowen.com)

然而,特征指示观点词不是概念的同义词,与概念的相关术语之间也并不一定都存在关联关系,所以无法用余弦相似度算法计算其与隐式特征词的相似关系。现有研究常采用中文自然语言处理中的常用知识本体库How Net,根据描述概念的相关义原在本体中的位置,计算概念间的相似程度[169-170]。因此,本书根据与词语相关的领域术语在领域本体中的位置,并且结合二者之间的关联关系,计算词语的语义相似度。

其中,o为特征指示观点词,并且有n个与之相关的领域术语,f为特征词,并且有m个与之相关的领域术语,ass为领域术语与词语的语义关联度(式(3-39))。simont(ta,tb)的计算结果依赖于与词语相关的领域术语在本体中的位置,以及相互之间的距离,如式(4-7)所示。

其中,spd(ta,tb)为领域术语ta和tb在领域本体中所拥有的共同父节点的路径长度,dis(ta,tb)为领域术语ta和tb在领域本体中的最短距离,dep(ta)和dep(tb)分别为领域术语ta和tb在领域本体中所处的层数位置(根节点深度为0,其子节点深度为1,依次类推)。

求平均值(其中|f|为与特征指示观点词相关的特征词个数),并且进行线性缩减simnormal=(sim-simmin)/(simmaxsimmin)∈[0,1],以确保语义相似度取值在单位区间[0,1]。

最后,将具有最大平均值的候选特征词作为隐式特征词补充到评论中,并且将隐式特征词及其特征指示观点词进行配对。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈