理论教育 基于统计自然语言处理的方法优化

基于统计自然语言处理的方法优化

时间:2023-06-01 理论教育 版权反馈
【摘要】:基于统计自然语言处理的方法通常将观点词限定在形容词的范围内。实验结果表明该方法识别观点词的准确率达到90%以上。Mei等[32]提出一种主题情感混合模型。在TSM中,情感被看作是与主题独立的语言模型,每一个词语只能属于情感语言模型和主题语言模型的其中之一。因此,TSM的情感语言模型虽然能较好地识别常用的观点词,但是对于一些与产品相关的观点词则无能为力。

基于统计自然语言处理的方法优化

基于统计自然语言处理的方法通常将观点词限定在形容词的范围内。先对大量评论语料进行文本预处理,再标记出一部分种子观点词,最后利用词语之间的共现模式识别更多的观点词。

Xia等人[29]将形容词作为观点词,首先对评论语料进行人工标注,然后选择观点种子词,最后利用点互信息法识别新的观点词。实验结果表明该方法识别观点词的准确率达到90%以上。

Wiebe[30]人工标注种子词语,并且计算候选词语与种子词语在评论中的分布位置上的相似性,以此为基础识别观点词。该方法能够在大规模语料集上有效地识别形容词性的观点词。

以上两种方法都仅将形容词当作观点词,但是在实际的评论中,除了形容词之外,还存在名词及其短语作为观点词的情况。为了能够识别多种词性的观点词,Riloff和Wiebe[31]提出了一种自助扩展(Bootstrapping)的学习方法。首先利用主观性词典将评论划分为主观评论和客观评论,然后根据主观评论提取主观性表达的语法规则,并且对主观性观点词进行人工标注,最后基于语法规则自动识别更多的观点词。

这些方法的人工干预程度较高,语料标记的数量和质量已经成为提高观点词识别性能的瓶颈。因此,一些研究者提出基于LDA主题模型的方法,建立情感语言模型识别观点词。(www.daowen.com)

Mei等[32]提出一种主题情感混合模型(Topic Sentiment Mixture,TSM)。他们认为,评论并非只具有单一的情感(褒义或者贬义),而是由不同情感类型按照一定的比例混合而成,所以可以通过将评论中的词语按照不同的情感类型进行聚类识别观点词。

在TSM中,情感被看作是与主题独立的语言模型,每一个词语只能属于情感语言模型和主题语言模型的其中之一。然而,在实际的产品评论中,情感与主题相互依存,观点词在表达情感的同时也可能指代特定的产品属性(即主题)。因此,TSM的情感语言模型虽然能较好地识别常用的观点词,但是对于一些与产品相关的观点词则无能为力。

针对这一问题,Lin和He[33]提出一个联合情感主题模型(Joint Sentiment/Topic JST),更好地识别观点词。在JST中,每一篇文档对应着一个情感和主题的联合分布。JST的生成过程是:首先从情感分布中选择一个情感标志,然后基于选定的情感标志从主题分布中选择一个主题,最后基于选定的主题和情感从词语表中生成每一个词语。

此外,Jo和Oh[18]还在句子层面上构建了特征情感统一模型(Aspect and Sentiment Unification Model,ASUM),假设一个句子只表达一类情感,根据词语在不同类别情感下的概率分布判断其是否具有明显的情感极性,在此基础上识别观点词。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈