总体而言,现有特征词识别研究的不足主要是人工干预程度较大,领域可移植性不强,并且无法有效地识别隐式特征词。
基于统计自然语言处理的方法大多依赖于特定领域的、大量人工标注的语料,并且需要人工构建与领域相关的特征词集。同时,该方法只能针对语料中出现的词语进行统计分析,无法有效地识别隐式特征词。
这类研究方法的不足主要表现在以下几个方面。
(1)基于词频的算法比较简单且容易实现,但是通常会识别较多与产品无关的特征词(如快递服务等),而遗漏与产品相关的低频特征词。这类方法的识别结果中包含过多语义相近的特征词,所以还需要手工调整算法的相关参数。
(2)基于监督学习的序列标注方法的针对性强,但是需要特定领域专业知识的支持,以对大量的训练语料进行人工标注。所以该方法受到训练语料所在领域、人工标注结果的准确性以及语料数量的限制较大,领域可移植性不强。(www.daowen.com)
(3)基于半监督学习的序列标注方法能够获得较高的准确率,但是仍然需要人工构建特征词集,以及对语料进行大规模的标注工作。所以该方法受到人工干预的限制,召回率普遍比较低。
(4)相比之下,基于主题模型的方法虽然不需要人工训练,但是在潜在主题的定义上仍然存在一定的不足。中文产品评论的句法并不规范,往往用逗号代替句号断句,而现有主题模型通常定义文档级和句子级的潜在主题,其粒度较粗,一个主题可能包含多个产品属性,影响词语的聚类效果,从而降低特征词识别的准确性。
基于规则匹配的方法针对性强,对于语法规范的文本具有较好的识别能力,但是当面对口语化严重和语法不规范的中文产品评论时,识别性能并不理想。同时,该类方法还需要人工建立面向特定领域的规则库,要求研究人员对于大量语料进行语言分析与处理,所以人工干预程度较高,领域可移植性不强。此外,由于规则的制定都有局限性,无法很好地涵盖所有可能的实例,从而使得该类方法虽然有着较高的精度,但是在召回率上都不高。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。