基于统计自然语言处理的方法主要采用邻近原则和序列标注等方法来对特征词和观点词进行配对。其中,基于邻近原则的方法根据特征词和观点词在评论中的位置和距离判断二者的搭配关系。
Hu和Liu[41]首先将产品评论中出现的高频名词与名词短语当作特征词,然后分析观点词和特征词之间的关系,并且认为与特征词距离最近的形容词是其对应的观点词,最后利用在一定词距内两个词语的共现性来识别特征观点对。在此基础上,他们还开发出Opinion Observer系统[3],对产品评论进行优缺点统计,从而实现多个产品间的对比评价。
与之类似,朱圣代等[42],Liu、Wu、Yao[43],Scaffidi[44]都是通过人工建立面向特定产品的特征词集合识别评论中的特征词,并且将与特征词相邻的形容词当作与之配对的观点词。Kim和Hovy[45]提出以观点词为中心,将虚拟窗口中的名词或名词短语作为特征词,从而将二者进行配对。
仅用词语之间的距离衡量特征词与观点词的关系过于简单和粗糙。为了更好地衡量特征词和观点词之间的关联,Su等[46]利用词语的共现性识别特征词和观点词的配对关系。首先从产品评论中提取名词生成特征词集,并且提取形容词生成观点词集,然后计算特征词与观点词的共现频率,并对特征词集与观点词集的词语进行聚类,最后根据聚类结果识别特征观点对。
王素格和杨安娜[47]提出了一种混合语言信息的词语搭配方法,根据词语的词性,设计“形容词+名词”、“名词+形容词”、“形容词+形容词”、“形容词+动词”、“动词+动词”和“动词+名词”等词语搭配的六种模式,并基于此构建各个模式的概率潜在语义模型。(www.daowen.com)
还有一些学者将特征词和观点词的配对当作序列标注问题来研究。这类方法由最早将序列模型引入特征观点对识别任务的Choi等人提出[48]。其思路是先人工标注特征词和观点词,再利用标注结果训练条件随机场模型,最后利用训练后的模型识别特征观点对[49]。
Johansson和Moschitti[50-51]通过扩展全局结构的方法,引入多种反映句子情感极性的语法结构特征,分析特征词与观点词的搭配关系,最终实现特征观点对的识别。在相同的MPQA语料库环境下,与Choi等的方法进行实验对比,结果表明Johansson和Moschitti的方法在性能上有较大的优势。
与之类似,Zhang等[52]首先人工标记训练语料中的特征词,然后训练条件随机场识别特征词,最后基于邻近原则与句法依存树,识别与特征词相对应的观点词。然而,将基于序列模型的方法用于特征词与观点词配对,其性能不及基于语义分析的方法。例如,在2008国际NTCIR7-MOAT的评测中,Zhang等人[53]和Meng等人[54]使用条件随机场模型提取特征观点对,其实验结果远低于基于规则匹配的方法。
针对这一问题,Wu等[55]提出了结合监督学习和无监督学习的方法,以弥补监督学习在匹配关系识别性能上的不足。通过人工标记特征词、观点词和观点持有者,训练条件随机场,并且将训练后的模型与Integer Linear Programming(ILP)相结合,以推断测试语料的特征词和观点词配对关系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。