根据第2章文献综述,现有特征词与观点词识别的研究大致可以分为两类:基于统计自然语言处理的方法和基于语义分析的方法。这两类研究方法的不足主要是依赖于大量人工标记的语料,以及人为定义的候选种子词集、规则库或者情感词典,人工干预程度较高,领域可移植性不强。此外,特征词与观点词识别的性能取决于研究人员在特定领域中的专业知识,以及种子词集、规则库或者情感词典构建的全面性与准确性。现有研究的不足具体表现在以下三个方面。
(1)基于统计自然语言处理的方法通过统计语料中词语出现的频率和共现性,采用监督学习或者半监督学习的方法,识别特征词与观点词,自动化程度高,并且适合处理数据量大的语料库。然而,该类方法可能识别出与产品无关的高频词语(如快递服务和售后服务等),而忽略与产品相关的低频词语。监督学习或者半监督学习的准确率和召回率还受到语料所在领域、人工标注结果的准确性以及语料数量的影响。
(2)基于语义分析的方法通过预先定义的语法或者句法规则,分析特征词和观点词在评论中出现的规律,具有较好的针对性,适合用于语法规范的语料。然而,该类方法同样受到人工构建的外部资源影响较大,规则库和情感词典都需要人工定义和扩展,可能存在歧义等问题。此外,针对口语化严重和语法不规范的中文产品评论,句法分析的准确率还有待提高。(www.daowen.com)
(3)基于LDA主题模型的方法不需要人工干预,领域可移植性强,并且更适用于大数据挖掘。然而,现有模型大多从文档和句子层面上定义主题和情感分布,使得一个主题包含多个产品属性,从而影响词语的聚类效果。
针对现有研究的不足,本章提出面向产品评论的LDA主题模型。该模型从评论片段中提取表达的情感和评价的产品属性,将属于同一类情感或者同一个产品属性的词语进行聚类,并且基于此进行特征词和观点词的识别。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。