本书利用细粒度情感分析技术对产品评论进行挖掘,从而获得用户对产品的详细评价信息。因此,基于特征观点对的识别和情感分析,生成产品评价矩阵,以此将非结构化的产品评论转化成结构化的用户评价数据。
在特征观点对情感强度计算的实验中,对于计算结果的准确性判断允许存在一定的误差,并且根据已有研究的经验数据设定可接受的误差系数。这样的做法虽然能够有效地检验情感强度计算的准确率,但是为了保证实证研究结果的可靠性和可信度,本章采用特征观点对的情感极性分类结果作为样本数据。
为了研究产品评论对销量的影响,本书将特征观点对作为主要的解释变量,代入基于多属性离散选择的产品销量模型中,分析不同特征观点对对产品销量的作用程度和方向(即促进或者降低销量)。因此,产品评价矩阵以特征词为列向量,以观点词为行向量,向量值为特征观点对在评论中出现的数量。以手机为例,通过手机评论的细粒度情感分析,生成手机评价矩阵。其结果如下图所示。
图6-3 手机评价矩阵(示例)
由于产品评论包含的特征观点对数量众多,使得产品评价矩阵的维度过高,无法直接将其作为解释变量代入产品销量的计量模型中。因此,还需要对产品评价矩阵的列向量和行向量进行降维。
对产品评价矩阵的列向量进行降维,也就是将描述同一产品属性的特征词进行合并。根据基本概念的界定(详见第1章1.4.1),产品属性为产品具有的各个方面,也是用户在评价产品时的关注点,所以将产品属性作为产品评价矩阵的新列向量。基于第3章提出的特征词与观点词识别算法,通过对SA-LDA主题模型输出的“情感-属性对”进行k-均值聚类(详见第3章3.3.2),识别产品评论中带有正、负面情感的产品属性。同时,由于词语归属于“情感-属性对”的概率反映了该词语对相应产品属性的隶属程度,所以可以根据特征词在聚类后的“情感-属性对”下的概率分布,将特征词映射到概率最高的产品属性。
对产品评价矩阵的行向量进行降维,也就是按照观点词的正、负面情感极性进行合并。就常识而言,产品的正面评价通常对销售产生积极的作用,而负面评价则通常产生消极作用,所以可以分别对不同产品属性的正面观点和负面观点进行统计。针对每一个产品属性,分别合计正面情感的观点词数量和负面情感的观点词数量,以此作为产品评价矩阵中的向量值。
经过对产品评价矩阵的列向量和行向量进行降维,手机评价矩阵的转化结果如图6-4所示。
图6-4 降维后的手机评价矩阵(示例)(www.daowen.com)
值得注意的是,“情感-属性对”的聚类结果在一定程度上影响产品属性的识别,并且进一步决定评论对销量影响的计量模型的有效性。因此,为了获得较好的聚类结果,需要确定最佳的聚类数kopt。
在第3章特征词与观点词的识别算法中,提出了为k-均值聚类确定最佳聚类数的方法(详见第3章3.3.2)。针对“情感-属性对”集合,在确定的聚类数搜索范围内,运行聚类算法产生不同聚类数目的聚类结果,选择合适的有效性指标来评价聚类算法产生的哪个聚类结果是最优的,并将最优的聚类结果对应的聚类数目作为最佳聚类数。具体步骤如下:
(1)选择聚类数的搜索范围是[kmin,kmax],其中kmin=2,kmax=(其中n为样本数(S×A))。
(2)从(kmin~kmax)依次为k赋值:
①选取距离所有样本中心(均值)最近的一个样本作为初始聚类中心z*;
②运用k-均值聚类算法,更新计算成员关系矩阵和聚类中心;
③检查终止条件,如不满足,则转向步骤(2);
④利用聚类结果计算平均Silhouette指标值,转向步骤2。
(3)比较平均的Silhouette指标值,最大的平均指标值所对应的k即为最佳聚类数kopt。
(4)输出聚类结果:最佳聚类中心、最佳成员关系矩阵和最佳聚类数。
综上所述,通过产品评论的细粒度情感分析,将产品评论转换为以产品属性为列向量和以正、负面情感为行向量的产品评价矩阵,再基于此建立产品评论对销量影响的计量模型。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。