理论教育 输出SA-LDA主题模型的运算结果实验二优化

输出SA-LDA主题模型的运算结果实验二优化

时间:2023-06-01 理论教育 版权反馈
【摘要】:图3-17“情感-属性对”在词语表上的概率分布矩阵针对每一个“情感-属性对”,将词语按照概率的高低进行排序,以此提取产品评论中潜在的产品属性及其对应的情感。表3-9列出了SA-LDA主题模型从三类产品的测试语料中提取的部分“情感-属性对”,以及其概率排名前10的词语。情感种子词与潜在观点词出现在同一个“情感-属性对”的词语列表中,有利于观点词的识别。

输出SA-LDA主题模型的运算结果实验二优化

手机评论为例,利用SA-LDA模型获得“情感-属性对”在词语向量空间上的分布矩阵((S×A)×V),每一行表示“情感-属性对”在词语表上的多项式分布,数值取对数。如图3-17所示。

图3-17 “情感-属性对”在词语表上的概率分布矩阵

针对每一个“情感-属性对”,将词语按照概率的高低进行排序,以此提取产品评论中潜在的产品属性及其对应的情感。表3-9列出了SA-LDA主题模型从三类产品的测试语料中提取的部分“情感-属性对”,以及其概率排名前10的词语。

表3-9 基于SA-LDA主题模型提取的“情感-属性对”(部分)

(www.daowen.com)

通过对表3-9进行分析,不难发现基于SA-LDA主题模型识别的“情感-属性对”具有以下几个特点:

(1)一方面,每个“情感-属性对”下的词语表达的含义比较集中和一致,能够较大程度地反映具体的产品属性;另一方面,不同“情感-属性对”下的词语差异较大。这说明SA-LDA主题模型对词语的聚类效果较好,词语之间的关系比较密切,无关词语引起的噪声也较小。这些都有利于特征词和观点词的识别。

(2)在同一个产品属性的正面情感和负面情感词语集合中,存在不同情感极性的词语(例如,“便宜”和“贵”分别属于笔记本电脑评论中的“正面价格”和“负面价格”两个集合),同时也存在相同的词语(例如“屏幕”在手机评论中的“正面屏幕”和“负面屏幕”下都具有较高的概率)。这说明词语的分布能够较好地区分情感类别和识别产品属性。

(3)情感种子词与潜在观点词出现在同一个“情感-属性对”的词语列表中,有利于观点词的识别。例如,情感种子词“好”与潜在观点词“清晰”在“正面屏幕”下都具有较高的概率;情感种子词“问题”与潜在观点词“小”都属于“负面屏幕”。

(4)通过发挥领域术语和情感种子词对词语聚类的作用,SA-LDA主题模型能够识别产品评论中的部分流行新词和口语化词汇(如“坑人”和“价钱”等)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈