本书结合设计科学和计量经济两种研究范式,对“中文产品评论的细粒度情感分析”进行了系统的研究,从而实现对产品评论的挖掘与应用。在计算机科学层面上,以设计科学研究方法论为指导,按照“算法设计→算法实现→算法评价”的研究路线,设计细粒度情感分析算法;在经济学层面上,建立基于多属性离散选择的产品销量模型,以此分析产品评论对销量的影响。主要研究内容如下:
1.细粒度情感分析研究综述
对本书涉及的相关领域的研究工作进行综述。主要包括产品评论的特征词识别、观点词识别、特征词与观点词配对、特征观点对的情感强度计算与情感极性分类、产品评论对销量影响等方面。
(1)特征词是在评论中描述产品属性的词语。现有特征词识别研究大致可以分为基于统计自然语言处理的方法和基于语义分析的方法两类。基于统计自然语言处理的方法将特征词限定在名词或名词短语的范围内,使用词频、关联规则、条件随机场和隐马尔科夫模型等统计方法识别特征词。基于语义分析的方法先对语料进行词性标注与句法分析,再根据预先制定的规则识别特征词。
(2)观点词是表达用户情感的、用于评价特征词的词语。现有观点词识别的方法大致可以分为基于统计自然语言处理的方法和基于情感词典的方法。基于统计自然语言处理的方法将观点词限定在形容词的范围内,先对大量评论语料进行文本预处理,再标记出一部分种子观点词,最后利用词语之间的共现模式识别更多的观点词。基于情感词典的方法主要计算评论中的词语和词典中的词语之间的语义倾向相似度,以此识别观点词。
(3)现有的特征词和观点词配对方法主要可以分为两类:基于统计自然语言处理的方法和基于语义分析的方法。基于统计自然语言处理的方法主要采用邻近原则和序列标注等方法,对特征词和观点词进行配对。基于语义分析的方法先对语料进行词性标注,再根据预先制定的规则,对特征词和观点词进行配对。
(4)情感强度计算与极性分类的方法大致可以分为基于语料的方法和基于情感词典的方法两类。基于语料的方法主要通过对评论语料进行词性标注与情感标注,根据语料中词与词之间的共现信息或者句法模式,计算词语的情感强度,并且基于此判断词语的情感极性。基于情感词典的方法主要使用情感词典中的信息,计算观点词与已知情感极性的种子词之间的相似度,以此量化观点词的情感强度和极性。
(5)现有关于产品评论影响产品销量的研究主要从口碑效应这一角度着手,分析产品评论口碑效应的不同度量指标对产品销量的影响。已有研究通常使用以下几个指标量化产品评论的口碑效应:评论数量、情感极性、情感极性的混杂度、扩散度等。其中,评论数量和情感极性是主要考察的两个维度。
2.基于LDA主题模型的特征词与观点词识别
针对现有特征词与观点词配对研究中存在的问题,从统计自然语言处理的角度出发,提出了基于LDA主题模型的中文产品评论特征词与观点词识别算法。该方法利用LDA主题模型的学习性,自动模拟产品评论的生成过程。从而减少人工干预的成分,提高特征词与观点词识别的查准率和查全率,并且具有较好的领域可移植性。此外,SA-LDA主题模型对词语的聚类效果明显优于关联规则与语法规则,适用于挖掘口语化严重和语法不规范的中文产品评论。
在实验评价阶段,构建了涵盖手机、数码相机和笔记本电脑三类产品的实验语料库。并且对训练语料和测试语料进行人工标注,标注结果的Kappa值在可以接受的范围之内,保证了语料标注的一致性与有效性。由于我国的情感分析实验语料库构建处在起步阶段,尤其缺乏针对细粒度情感分析的大规模情感资源的支撑,所以本书根据国外语料库建设在收集语料、制定标注规范和质量监控等方面的经验,通过“网络爬虫自动下载评论+人工标注评论”的方式,构建面向细粒度情感分析的实验语料库。其作用一方面是训练SA-LDA主题模型,为模型中关键参数的初始化工作提供支持;另一方面是将算法标注结果与人工标注结果进行对比,从而验证本书提出算法的有效性。
在此基础上,本书还分别以基于统计自然语言处理和基于语义分析的代表性方法为基线方法,设计对比实验。实验结果验证了基于LDA主题模型的特征词与观点词识别算法的有效性和领域可移植性,以及在现有研究基础上的改进。
3.基于领域本体的特征词与观点词配对(www.daowen.com)
针对现有特征词与观点词配对研究中存在的问题,从语义分析的角度出发,提出基于领域本体的中文产品评论特征词与观点词配对算法。该方法自动构建领域本体,利用本体描述的概念与概念之间的抽象关系,识别特征词与观点词之间潜在的语义关系,从而避免因语法不规范而造成的词语相距较远、语义关系模糊等问题。此外,该方法还能识别因主语缺失而产生的隐式特征词。
在实验评价阶段,使用实验语料库中的测试语料作为实验语料。分别以基于统计自然语言处理和基于语义分析的代表性方法为基线方法,设计对比实验。实验结果验证了基于领域本体的特征词与观点词配对算法的有效性和领域可移植性,以及对现有研究方法的提高。
4.面向“特征观点对”的情感强度计算与情感极性分类
针对已有的情感分析研究中存在的问题,本书将特征词与观点词视作一个整体,提出基于上下文语义计算的特征观点对情感分析方法。该算法的基本思路:先计算特征观点对的情感强度,再确定情感强度的临界值,最后进行情感极性分类。该算法不仅量化上下文语境对观点词情感强度与极性的影响,还计算与判断产品评论中口语观点词的情感强度和极性。
在实验评价阶段,使用实验语料库中的测试语料作为实验语料。以基于语料和基于情感词典的代表性方法为基线方法,分别设计情感强度计算与情感极性分类的对比实验。实验结果验证了基于上下文语义计算的特征观点对情感分析方法的有效性和领域可移植性,以及在现有研究基础上的改进。尤其是在三类产品的测试语料上,特征观点对情感强度计算和情感极性分类的准确率都比基线方法提高了约10个百分点。
为了保证情感极性分类的准确率,还对情感强度的临界值设置进行了实验。结果表明在三类产品的测试语料上,T=0时都能取得较高的情感极性分类准确率,并且正面、负面和总体情感分类准确率比较平均,说明该临界值下的情感极性分类效果比较良好和稳定。
此外,还设计了实验,以互联网上评出的两款热门手机为实验对象,分别抽取一定数量的评论,进行细粒度情感分析。在此基础上,对产品进行对比评测,初步探讨了产品评论细粒度情感分析的商业价值。
5.细粒度情感分析的应用——产品评论对商家销量的影响
针对现有关于产品评论与销量关系的研究中存在的不足,本文以产品评论的细粒度情感分析为基础,通过分析产品评论的文本信息为消费者购买决策带来的边际效用,研究产品评论对销量的影响。
实证研究的结果表明产品评论的文本信息对商家销量具有显著的影响。相对于产品评论的数值信息(如星级评分和评论数量等),不同产品属性的正、负面评价能够更好地解释和衡量产品评论的口碑效应。从评论的整体上看,正面评价大多与销量正相关,负面评价大多与销量负相关,尤其是负面评价对销量的损害远大于正面评价对销量的促进;从评论的细节上看,不同产品属性及其对应的正、负面评价对于产品销量具有不同程度的影响力。
结合产品评论的细粒度情感分析结果,以及不同产品属性及其正、负面评价在产品评论中的权重,能够帮助商家合理地利用产品的网络口碑,有针对性地进行广告宣传和促销活动等;能够获得更加详细的用户反馈信息,便于商家了解消费者的需求,从而辅助商家进行产品改进、新产品开发以及目标市场定位等战略规划;能够帮助商家理解产品评论如何影响其销售业绩,并且定位影响销量的关键因素,从而促使商家提高产品质量或者研发更满足市场需求的新产品;还能够有助于第三方电子商务网站为商家提供产品口碑的统计报表以及管理咨询报告等,以及进一步引导与激励消费者发布产品评论。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。