总体而言,现有特征词与观点词配对研究的不足主要是仅根据语料中词语的位置、共现性或者语法规则等,匹配特征词与观点词。也就是说,该方法只考虑了特征词与观点词在语料中表现出的表面关系,却忽略了它们之间的潜在语义关系,从而影响特征词与观点词配对的准确率和召回率。
基于统计自然语言处理的方法的不足主要表现在以下几个方面。
(1)基于邻近原则的方法以词语出现的位置判断特征词与观点词的搭配关系。但是产品评论的表达方式多样,在观点词及其评价的特征词之间可能存在多个修饰语或定语(包括否定词和程度副词等),使得二者之间的距离较远。所以该类方法并不适合将相隔较远的特征词和观点词进行配对。
(2)基于序列标注的方法可以根据具体的语料,将词语的语义特征、词性特征和浅层句法信息等融入序列模型中。但是该类方法难以利用复杂的语法信息,从而无法有效地匹配特征词与观点词。此外,条件随机场具有马尔科夫性质,即某时刻的条件概率只与当前状态有关,这使得该模型无法很好地处理由句法等特征引入的长距离问题,从而降低了搭配关系识别的召回率。(www.daowen.com)
基于语义分析的方法的不足主要表现在以下几个方面。
(1)基于规则的方法能够获得较好的匹配精度,但是在预先定义配对规则,以及利用句法依存树时,需要大量规范标注的、面向特定领域的语料作素材。所以该方法的召回率普遍不高,特征词与观点词配对的结果较大程度地依赖于语料标注和规则库构建的全面性和准确性。
(2)基于领域本体的方法能较好地反映特征词和观点词之间的语义关系,提高了搭配关系识别的性能。但是现有的领域本体大多通过手工建立,自动化程度不高,并且节点及其关系的定义还依赖于构建者在相关领域中的专业知识,领域可移植性不强。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。