特征词识别研究评述

时间：2023-06-01 理论教育 版权反馈

【摘要】：中文产品评论的句法并不规范，往往用逗号代替句号断句，而现有主题模型通常定义文档级和句子级的潜在主题，其粒度较粗，一个主题可能包含多个产品属性，影响词语的聚类效果，从而降低特征词识别的准确性。基于规则匹配的方法针对性强，对于语法规范的文本具有较好的识别能力，但是当面对口语化严重和语法不规范的中文产品评论时，识别性能并不理想。

特征词识别研究评述

总体而言，现有特征词识别研究的不足主要是人工干预程度较大，领域可移植性不强，并且无法有效地识别隐式特征词。

基于统计自然语言处理的方法大多依赖于特定领域的、大量人工标注的语料，并且需要人工构建与领域相关的特征词集。同时，该方法只能针对语料中出现的词语进行统计分析，无法有效地识别隐式特征词。

这类研究方法的不足主要表现在以下几个方面。

（1）基于词频的算法比较简单且容易实现，但是通常会识别较多与产品无关的特征词（如快递服务等），而遗漏与产品相关的低频特征词。这类方法的识别结果中包含过多语义相近的特征词，所以还需要手工调整算法的相关参数。

（2）基于监督学习的序列标注方法的针对性强，但是需要特定领域专业知识的支持，以对大量的训练语料进行人工标注。所以该方法受到训练语料所在领域、人工标注结果的准确性以及语料数量的限制较大，领域可移植性不强。(www.daowen.com)

（3）基于半监督学习的序列标注方法能够获得较高的准确率，但是仍然需要人工构建特征词集，以及对语料进行大规模的标注工作。所以该方法受到人工干预的限制，召回率普遍比较低。

（4）相比之下，基于主题模型的方法虽然不需要人工训练，但是在潜在主题的定义上仍然存在一定的不足。中文产品评论的句法并不规范，往往用逗号代替句号断句，而现有主题模型通常定义文档级和句子级的潜在主题，其粒度较粗，一个主题可能包含多个产品属性，影响词语的聚类效果，从而降低特征词识别的准确性。

基于规则匹配的方法针对性强，对于语法规范的文本具有较好的识别能力，但是当面对口语化严重和语法不规范的中文产品评论时，识别性能并不理想。同时，该类方法还需要人工建立面向特定领域的规则库，要求研究人员对于大量语料进行语言分析与处理，所以人工干预程度较高，领域可移植性不强。此外，由于规则的制定都有局限性，无法很好地涵盖所有可能的实例，从而使得该类方法虽然有着较高的精度，但是在召回率上都不高。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关基于LDA主题模型和领域本体的中文产品评论细粒度情感分析的文章

特征词识别研究评述

特征词和观点词搭配研究评述

隐式特征词识别方法探讨

特征词和观点词的识别方法

实验：特征词与观点词识别的对比实验

问题的提出与研究评述

平衡记分卡研究评述

工程项目群优选研究评述

国内研究进展与评述

相关推荐