理论教育 特征词和观点词的识别方法

特征词和观点词的识别方法

时间:2023-06-01 理论教育 版权反馈
【摘要】:表3-5部分“情感-属性对”下概率最高的前5个词语根据“情感-属性对”之间的相似度进行聚类,生成多类“情感-属性对”。k-均值聚类的算法实现过程如下所示:算法3.2 k-均值聚类Kmeans“情感-属性对”的聚类结果在很大程度上决定了特征词与观点词的识别性能。最佳聚类数的算法实现过程如下:算法3.3 最佳聚类数kopt3.特征词集与观点词集的生成根据基本概念的界定,特征词是描述产品属性的词语,观点词是表达用户情感的词语。

特征词和观点词的识别方法

1.“情感-属性对”的提取

词语在特定“情感-属性对”下的概率越高,表示其对该“情感-属性对”的解释能力越强。因此,利用“情感-属性对”在词语表上的分布矩阵,识别带有正、负面情感的产品属性。分布矩阵是以“情感-属性对”为列向量、以词语为行向量的V×S×A维向量空间,如图3-5所示。

图3-5 “情感-属性对”在词语表上的分布矩阵(示例)

手机评论为例,利用SA-LDA主题模型进行评论挖掘,并且为每个“情感-属性对”选择概率最高的词语,其部分结果如下表所列。此外,根据“情感-属性对”下正、负面情感种子词的分布情况,还可以判断相关词语的情感极性。

2.“情感-属性对”的聚类

按照词语在“情感-属性对”下的概率分布矩阵,SA-LDA主题模型从产品评论中提取潜在的、带有不同情感极性的产品属性。然而,可能存在多个“情感-属性对”表示同一个产品属性的情况(表3-5)。因此,本书利用聚类算法来降低分布矩阵的列向量维度

表3-5 部分“情感-属性对”下概率最高的前5个词语

根据“情感-属性对”之间的相似度进行聚类,生成多类“情感-属性对”。其中,每一类“情感-属性对”都指向同一个产品属性。借助n维空间中两个向量之间的某种距离来表示“情感-属性对”之间的相似程度。常用的方法是使用向量之间的内积来计算。令“情感-属性”SAi=(wi1,wi2,…,wiV),其中wik表示词语k被分配到“情感-属性对”i的概率,下标k表示词语w在词语库中的索引。相似度计算公式如下:

如果考虑向量的归一化,则可用两个向量夹角的余弦值来表示相似程度,具体公式如下:

在此基础上,对“情感-属性对”进行k-均值聚类。首先取定聚类数k和选取k个初始聚类中心,按最小距离原则将各“情感-属性对”分配到k类中的某一类;然后不断地计算类中心和调整类别;最后使各“情感-属性对”到其所属类别中心的距离平方之和最小,即误差平方和(SSE)局部最小。选择Cj中所有“情感-属性对”的均值向量作为聚类中心,k-均值聚类算法如式(3-42)所示。

其中,SA表示“情感-属性对”,k表示聚类数,Cj表示第j个聚类,mj表示聚类Cj的聚类中心,Sim(SA,mj)表示新的SA和聚类中心mj之间的距离。

k-均值聚类的算法实现过程如下所示:

算法3.2 k-均值聚类Kmeans(k,SA*)(www.daowen.com)

“情感-属性对”的聚类结果在很大程度上决定了特征词与观点词的识别性能。因此,为了保证聚类结果的有效性,需要确定最佳的聚类数kopt

具体来说,首先针对“情感-属性对”的数据集,在确定的聚类数搜索范围内,运行聚类算法,产生基于不同聚类数目的聚类结果;然后选择合适的有效性指标来评价聚类结果,将最优的聚类结果所对应的聚类数目作为最佳聚类数。其中,常用的聚类数搜索范围是[kmin,kmax]。kmin=1表示样本均匀分布,无明显特征差异,所以通常的聚类数最小值为2,即kmin=2。

对于如何确定kmax,目前尚无明确的理论指导,大部分学者使用的经验数值为(其中n为样本数(S×A))[147-148]。现有相关研究已经提出了一些检验聚类有效性的函数指标,性能较优的指标主要有Calinski-Harabasz(CH)指标,Weighted Inter-Intra(Wint)指标,In-Group Proportion(IGP)指标和Silhouette(Sil)指标等[149-152],其中Silhouette指标以其简单易用和良好的评价能力而得到广泛的应用。

设a(i)为“情感-属性对”i与其聚类中心的距离,b(i)为“情感-属性对”i到其他每个聚类中心距离的最小值。Silhouette指标值如式(3-43)所示:

Silhouette指标反映了聚类结果的类内紧密性和类间分离性,既可用于评价聚类质量,也可用于估计最佳聚类数。Silhouette指标的值在[-1,1]范围内变动。所有样本的平均Silhouette指标值越大,表示聚类质量越好,其最大值对应的类别数目为最佳聚类数。

最佳聚类数的算法实现过程如下:

算法3.3 最佳聚类数kopt

3.特征词集与观点词集的生成

根据基本概念的界定(详见第1章1.4.1),特征词是描述产品属性的词语,观点词是表达用户情感的词语。因此,根据SA-LDA主题模型计算词语在不同“情感-属性对”下的概率分布,判断其是否带有特定的情感,或者指示特定的产品属性。

根据“情感-属性对”的聚类结果,对于指示同一个产品属性的“情感-属性对”,如果一个词语被分配到该属性正面情感下的概率显著高于其被分配到负面情感下的概率,那么该词语具有正面情感极性,反之亦然;如果一个候选特征词以较高的概率同时归属于多个产品属性,则这个词语不具备区分不同产品属性的能力,也就不是特征词。

综合上述,特征词与观点词的识别过程如下:

(1)对“情感-属性对”进行聚类,并且将每一个“情感-属性对”下的词语按照概率高低进行排序,取前N个词语生成候选词集;

(2)对于同一类“情感-属性对”,比较每个词语在不同情感下的平均概率,并且设定阈值,将平均概率之差大于阈值的词语当作观点词,而小于阈值的词语则当作候选特征词;

(3)根据候选特征词在不同产品属性下的分布概率,如果候选词归属于某产品属性的概率远大于其归属于其他所有产品属性的平均概率,则认为该候选词为特征词;

(4)集合识别结果,生成特征词集与观点词集。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈