理论教育 SA-LDA主题模型构建方法详解

SA-LDA主题模型构建方法详解

时间:2023-06-01 理论教育 版权反馈
【摘要】:相对于标准的LDA三层模型,SA-LDA主题模型新增了“评论片段”层,并且为模型的“产品属性”添加了“情感”的约束。图3-4SA-LDA主题模型的贝叶斯网络图解互联网上产品评论的附加信息反映了用户对产品的积极或者消极态度,所以将评论的整体情感当作可观测的随机变量λr。表3-2SA-LDA主题模型的贝叶斯网络图解中符号的含义续表综合上述,基于SA-LDA主题模型的评论生成过程如下。

SA-LDA主题模型构建方法详解

1.SA-LDA主题模型的基本概念

根据中文产品评论多以逗号断句的特点,本书以逗号“,”为界,将产品评论分割为多个评论片段,并且假设每一个评论片段都只评价一个产品属性。对于在相同评论片段内的词语和在不同评论片段之间的词语而言,前者的内在联系远大于后者。因此,本书以评论片段为单位,定义潜在主题。

根据基本概念的界定(详见第1章1.4.1节),产品属性表示产品具有的各个方面,特征词为评论中描述产品属性的具体词语。含义相近的多个特征词可能描述同一个产品属性,例如“价钱”、“价格”、“价位”和“价值”等特征词都描述产品的价格。此外,某些观点词也能指示产品属性,例如“便宜”特指产品价格。因此,LDA主题模型通过将语义相近的词语进行聚类,提取评论中的产品属性。

在产品评论中,用户通常针对特定的产品属性发表积极或者消极的评价。也就是说,评论中的产品属性都带一定的情感,所以将情感类型与产品属性组合成“情感-属性对”,作为评论的潜在主题。

综合上述,本书对标准的LDA主题模型进行改进,将主题提取的层面从文档级与句子级细化到片段级,并且以“情感-属性对”作为模型的提取对象,从而构造面向产品评论的SA-LDA主题模型。

2.SA-LDA主题模型的评论生成过程

本书认为,在产品评论的生成过程中,用户首先对产品给予整体评价,然后针对产品的各个方面发表不同的看法,最后生成相应的特征词与观点词,以表达用户对不同产品属性的正、负面评价。

例1:假设这么一个场景:用户A在网上为某款手机发表了一条评论,表达了自己对该款手机70%满意和30%不满意。其中满意的方面包括屏幕、功能和价格等三个方面,并且各占总满意度的50%、25%和25%,而不满意的方面包括外形和体积两个方面,并且各占不满意度的80%和20%。

基于这一假定,“产品属性”和“情感”相互作用,即评论中的“产品属性”被赋予特定的“情感”,而“情感”也对应于特定的“产品属性”。换句话说,“情感”的多项式分布受到“产品属性”先验概率的影响,同时“情感”的观测结果也作用于“产品属性”的观测结果。因此,SA-LDA主题模型的贝叶斯网络图解如图3-4所示。相对于标准的LDA三层模型(图3-3),SA-LDA主题模型新增了“评论片段”层,并且为模型的“产品属性”添加了“情感”的约束。

图3-4 SA-LDA主题模型的贝叶斯网络图解

互联网上产品评论的附加信息(如星级评分等)反映了用户对产品的积极或者消极态度,所以将评论的整体情感当作可观测的随机变量λr。根据LDA主题模型的基本概念(表3-1),图3-4中所示各个符号的含义如表3-2所列。

表3-2 SA-LDA主题模型的贝叶斯网络图解中符号的含义

(www.daowen.com)

续 表

综合上述,基于SA-LDA主题模型的评论生成过程如下。

对于每篇评论:

1.生成M个评论片段,且M~Poisson(ξ);

2.根据Dirichlet分布计算每篇评论的情感分布概率向量,即由随机生成一个S维向量

3.根据Dirichlet分布计算每类情感下的产品属性概率分布向量,即由随机生成一个A维向量

4.对于每个评论片段:

(1)从情感分布概率向量的多项式分布中随机筛选情感sn,即根据分布生成sn,且

(2)给定上述筛选的情感sn,从产品属性分布概率向量的多项式分布中随机筛选zn,即根据分布生成zn,且

(3)对于每个评论片段包含的每一个词语wn

①从上述筛选的“情感-属性对”(sn,zn)的多项式分布中挑选一个词语wn,即根据分布生成wn,且

②重复①,依次迭代出剩余的词语;

(4)重复(1)、(2)和(3),依次迭代出剩下的评论片段。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈