本书结合设计科学与计量经济两种研究范式,按照“模型设计→模型实现→模型评价”的研究思路,对“中文产品评论的细粒度情感分析”进行了系统的研究。在此基础上,建立产品销量的计量模型,分析产品评论的口碑效应,并且量化其对商家销量的影响。
具体来说,首先通过网络爬虫程序从互联网上自动下载产品的相关评论,然后利用细粒度情感分析技术挖掘产品评论中的特征观点对,并且对其进行情感分析,最后将细粒度情感分析的结果代入产品销量的计量模型,通过回归分析揭示产品评论对销量的影响机理。具体而言,包括以下四部分。
(1)特征词与观点词的识别
从统计自然语言处理的角度出发,提出基于LDA(Latent Dirichlet Allocation)主题模型的特征词与观点词识别算法。该方法首先构建面向产品评论的LDA主题模型;然后以评论片段为单位,通过词语聚类,提取片段中表达的情感和评价的产品属性;最后依据以词语为向量的概率分布矩阵,识别产品评论的特征词与观点词。
(2)特征词与观点词的配对
从语义分析的角度出发,提出基于领域本体的特征词与观点词配对算法。该方法首先以半结构化的产品参数说明为素材,以语义计算为手段,从产品评论中提取领域概念和概念之间的语义关系,并且基于此构建面向产品评论的领域本体;然后通过将产品评论映射到领域本体的概念空间,识别特征词与观点词之间的潜在语义关系;最后匹配特征词及其对应的观点词,并且识别隐式特征词。
(3)特征观点对的情感分析(www.daowen.com)
从上下文语义分析的角度出发,提出面向特征观点对的情感分析方法。该方法首先对观点词和观点修饰词的情感强度模糊性进行分析,并且从情感词典中提取少量的情感种子词、否定词、双重否定词和程度副词;然后,分析上下文语境对观点词情感强度与情感极性的影响,并且利用语义计算方法量化特征观点对的情感强度;最后确定情感强度的临界值,以此判断特征观点对的情感极性。
(4)产品评论对商家销量的影响
从实证研究的角度出发,采用计量经济学方法,以产品评论的细粒度情感分析为主要解释变量,构建产品评论对销量影响的计量经济模型。通过多元回归分析,量化产品评论与商家销量之间的关系,尤其是不同产品属性的正、负面评价对销量的影响程度与方向。通过经济学角度的研究,不仅为商家利用产品评论的正、负面口碑提供管理建议,还丰富了产品评论价值发现的研究体系。
基本的研究框架如图1-3所示。
图1-3 本书的研究框架图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。