SA-LDA主题模型初始化的优化方法

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：本书通过对超参数β设置非对称的初始值，将评论词语的分类信息嵌入SA-LDA主题模型中。因此，利用领域术语词集与情感种子词集，对SA-LDA主题模型的超参数β设定非对称值，从而将已知的、特定词语被分配到“情感-属性对”的概率信息代入模型中，提高模型对产品属性的识别能力和对情感类型的区分能力。

1.评论词语的分类

根据词语在产品评论中发挥的不同作用，本书将其划分为领域术语、情感种子词和普通词语三类。其中，领域术语是一组描述特定领域中相关概念的词语，并且具有区分不同产品属性的能力，所以产品评论中的特征词与部分指示产品属性的观点词都是领域术语；情感种子词为常用的、具有明确情感极性的词语，并且情感极性不会随上下文变化，具有区分不同情感类型（即正面和负面）的能力；普通词语包含尚未识别的潜在特征词、潜在观点词以及评论中的其他常用词。

本书通过对超参数β设置非对称的初始值，将评论词语的分类信息嵌入SA-LDA主题模型中。一方面，利用领域术语聚合与之相关的潜在特征词，另一方面，利用情感种子词聚合具有相同情感极性的潜在观点词，从而提高词语的聚类效果，有助于特征词与观点词的识别。

2.领域术语词集

由于领域术语与领域概念之间具有高度的相关性，所以，领域术语集生成的第一步是提取特定产品的基本概念。目前国内各大电子商务网站（如中关村在线和淘宝商城等）都使用较为统一的产品参数说明，为用户提供不同产品之间的对比评测服务。因此，本书主要从产品参数说明中提取该产品的基本概念。

在此基础上，从产品评论中抽取与基本概念相关的领域术语。首先，对产品参数说明中的参数进行分词处理，并将在产品评论中出现的高频词语作为产品的基本概念；然后，对产品评论进行预处理（包括分词、去停用词和词性标注），仅保留名词、动词和形容词；接着，以评论中出现的基本概念为中心，分别提取左右σ个词语作为候选领域术语；最后，计算基本概念与每个候选领域术语的关联度，并且将关联度从高到低排序，为每个基本概念保留前30个关联的术语。

在信息检索的研究中，一般用互信息法（Mutual Information，MI）衡量词语之间的关联关系。但是该方法仅考虑了词语的共现性，却忽略了二者都不出现以及二者仅出现其一的情况。因此，本书结合Lau等[140]提出的平衡互信息法（Balanced Mutual Information，BMI），计算基本概念c与术语t的关联度。同时，由于两个词语在文档中出现的距离越接近，其相互之间的关系越紧密，所以在计算中加入滑动窗口的概念。

pagenumber_ebook=80,pagenumber_book=60

pagenumber_ebook=81,pagenumber_book=61

在对所有文档进行预处理的基础上，将包含σ个字符的虚拟窗口从左往右地、以每次一个词语的速度滑动，直至文末。现有研究[140-141]认为σ的有效值为5～10。根据中文产品评论的特点，口语化表达较长，因此本书以σ=8为窗口大小。

在式（3-39）中，Pr（c）和Pr（t）分别为概念c和术语t出现在窗口中的概率，与分别为它们未出现在窗口中的概率，Pr（c，t）为二者同时出现在窗口中的联合概率，为二者均未出现在窗口中的联合概率，与为二者仅其一出现的联合概率。权重因子β∈[0.5，0.7]用于调节正、负关联度的相对权重。此外，由于词语之间的关联度取值在单位区间[0，1]，因此需要对原值进行线性缩减 pagenumber_ebook=81,pagenumber_book=61 。

最后，将提取的领域术语按照词语录入的先后顺序，依次建立索引，生成领域术语词集Vdomain。

3.情感种子词集(www.daowen.com)

现有大多研究都是依据已有的情感词典，采取一定的策略来选择情感种子词。例如，王素格等[142]采用5种资源，包括《General Inquirer词典》、《学生褒贬义词典》、《How Net词典》、《褒义词词典》和《贬义词词典》，构建中文情感词词表；朱善宗等[143]采用How Net中包含“良|莠”义素的词和How Net2007发布的情感分析词语等建立情感极性词集。

本书以How Net提供的情感词为基础，从不同类型产品的评论中抽取高频的情感词，生成正、负类情感种子词集，如表3-3所列。

表3-3　情感种子词集

pagenumber_ebook=81,pagenumber_book=61

此外，否定词和双重否定词会改变或者维持情感种子词的情感极性，所以需要将它们与情感种子词进行组合，形成新的词语，并且对原词的情感极性进行相应的调整。

具体来说，对于否定词与情感词搭配成的新词，逆转原有的情感极性；对于双重否定词与情感词的结合，则保留原有的情感极性。本书根据已有文献建立的情感极性词典[144]提取否定词与双重否定词，相应的词集见表3-4。

表3-4　否定词和双重否定词集

pagenumber_ebook=82,pagenumber_book=62

4.模型参数设置

根据词语在“情感-属性对”下的概率分布，概率相近的词语可能描述同一个产品属性或者表达相似的情感。因此，利用领域术语词集与情感种子词集，对SA-LDA主题模型的超参数β设定非对称值，从而将已知的、特定词语被分配到“情感-属性对”的概率信息代入模型中，提高模型对产品属性的识别能力和对情感类型的区分能力。

例如，将领域术语多项式分布的参数βdomain设置为0.1，同时将其他词语多项式分布的参数βt设置为0，有利于聚合描述同一产品属性的词语；将正面情感词多项式分布的参数βp设置为0.1，将负面情感词多项式分布的参数βn设置为0，以及将其他词语多项式分布的参数βc设置为0.001，有利于聚合表达正面情感的词语；将负面情感词多项式分布的参数βn设置为0.1，将正面情感词多项式分布的参数βp设置为0，以及将其他词语多项式分布的参数βc设置为0.001，有利于聚合表达负面情感的词语。

因此，通过对Dirichlet先验参数β进行非对称值设置，分别构建领域术语模型，正面情感种子词模型，负面情感种子词模型，以及普通词语模型。其中，Vdomain、Vp、Vn和Vt分别表示领域术语、正面情感种子词、负面情感种子词和普通词语的数量。这些模型都是在具有（V=Vdomain+Vp+Vn+Vt）个词语的词集上的多项式分布。