全书共七章,第1章为绪论,第7章为全文总结与研究展望,第2章到第6章为论文的主要部分。其中,第2章为相关研究综述,第3章到第5章分步骤介绍了中文产品评论的细粒度情感分析方法,第6章是细粒度情感分析的应用。本书的章节之间相互联系,构成一个较为完整的研究体系。
第1章,绪论
首先介绍本书的研究背景,分析研究意义,据此提出本书拟解决的问题;然后介绍本书的研究内容和研究思路,以及论书的组织结构;最后介绍本书的主要研究工作和成果,以及研究的创新之处。
第2章,研究综述
对于本书涉及的相关领域的研究工作进行了综述。主要包括产品评论的特征词识别、观点词识别、特征词与观点词配对、特征观点对的情感强度计算与情感极性分类、产品评论对销量影响等方面。在对研究现状进行总结的基础上,指出现有研究的不足,从而为本书的必要性和重要性提供理论支持。
第3章,基于LDA主题模型的特征词与观点词识别
针对现有特征词与观点词识别研究中的不足,借鉴统计自然语言处理方法,提出基于LDA主题模型的方法。首先,介绍标准LDA主题模型的基本原理,并基于此提出改进的SA-LDA(Senti-Attribute Latent Dirichlet Allocation)主题模型;然后,以评论片段为单位,通过词语聚类提取片段表达的情感和评价的产品属性;接着,利用SA-LDA主题模型生成“情感-属性对”在词语向量空间上的概率分布矩阵,从而识别产品评论中的特征词和观点词;最后,构建涵盖手机、数码相机和笔记本电脑三类产品的实验语料库,并且以现有相关研究中的代表性方法为基线方法,通过对比实验,检验本文提出的特征词与观点词识别算法的有效性。
第4章,基于领域本体的特征词与观点词配对
在第3章的基础上,对已经识别的特征词与观点词进行配对。针对现有特征词与观点词配对的不足,从语义分析的角度出发,提出基于领域本体的方法。首先,依据半结构化的产品参数说明初始化领域本体,设计语义计算方法量化领域概念之间的关系,利用已经识别的特征词与观点词,自动构建面向产品评论的领域本体;然后,通过将评论中的特征词和观点词映射到领域本体的概念空间,识别特征词与观点词之间的语义关系,并且进一步识别隐式特征词;最后,使用第3章建立的实验语料库,以现有相关研究中的代表性方法为基线方法,通过对比实验,验证本书提出的特征词与观点词配对算法的有效性。
第5章,面向“特征观点对”的情感分析(www.daowen.com)
在第4章的基础上,对已经识别的特征观点对进行情感强度计算和情感极性分类。针对现有情感分析方法的不足,从考虑上下文语境的角度出发,提出基于上下文语义计算的情感分析方法。首先,对观点词和观点修饰词的情感强度模糊性进行分析,并且从情感词典中提取情感种子词、否定词、双重否定词和程度副词;然后,分析上下文语境对观点词情感强度与极性的影响,通过语义计算方法量化特征观点对的情感强度;接着,确定情感强度的临界值,以此进行情感极性分类;最后,使用第3章建立的实验语料库,以现有相关研究中的代表性方法为基线方法,通过对比实验,检验本书提出的情感分析方法的有效性。
第6章,细粒度情感分析的应用——产品评论对商家销量的影响
针对现有相关研究的不足,以产品评论的细粒度情感分析为基础,分析产品评论的文本信息(即评价对象及其评价观点)为消费者购买决策带来的边际效用,并且以此研究产品评论对商家销量的影响。首先,以描述消费者购买决策的多属性离散选择模型为理论基础,建立产品评论对销量影响的计量模型;然后,以产品评论的细粒度情感分析结果为样本数据,对模型进行回归分析,并且通过面板数据的固定效应模型和工具变量法处理内生性问题;最后,根据回归分析的结果,分析产品评论中的不同产品属性及其正、负面评价对销量的影响,并且基于此为商家利用产品评论的正、负面口碑提供管理建议。
实证研究的结果表明产品评论的文本信息显著地影响产品销量。相对于产品评论的数值信息(如星级评分和评论数量),评论中对于不同产品属性的正、负面评价能够更好地解释和衡量产品评论的口碑效应。
第7章,研究总结与展望
对全书的研究成果进行全面的总结,并且指出研究的不足以供今后改进。在此基础上,还对今后情感分析领域的研究内容和实际应用进行了展望。
本书各章节的关系如图1-4所示。
图1-4 本书的结构体系
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。