根据词语之间的语义关联关系,计算观点词的情感强度。基本思路是:与具有正面情感的词语之间存在关联关系的词语也表达正面情感,反之,与具有负面情感的词语之间存在关联关系的词语也表达负面情感。其中,与正面情感强度最高的情感词之间的关联度越强,该词语表达的正面情感强度越高;反之,与负面情感强度最高的情感词之间的关联度越强,该词语表达的负面情感强度越高。因此,通过计算观点词与一组具有高强度正面情感和高强度负面情感的种子词之间的语义关联度,量化观点词的情感强度。
基于以上思路,Turney[100]分别计算词语与正面情感种子词(如“好”等)的点互信息(Point Mutual Information,PMI),以及与负面情感种子词(如“差”等)的点互信息,最后通过求差值的方式来量化观点词的情感强度。在此基础上,Turney还以情感强度等于0为临界点,对形容词进行情感分类,准确率为82.8%。
然而,基于PMI计算词语之间语义关联度的算法却忽略了两个词语同时不出现在评论中的概率,以及二者仅其一出现的概率,即遗漏了词语之间隐性的关联关系。因此,结合第3章3.3.1采用的平衡互信息法(BMI)[140],本书提出SO-BMI(Sentiment Orientation-Balanced Mutual Information)算法,计算观点词的情感强度。如式(5-2)所示。
同样使用滑动窗口遍历评论,并且根据前文所述(详见第3章3.3.1),窗口大小设为8个字符。在式(5-2)中,tp表示正面情感种子词,tn表示负面情感种子词,Pr(o)=no/N为观点词o出现在窗口中的概率(no为包含观点词o的窗口数量,N为语料中的窗口数量)。同理,Pr(ti)(i=p,n)为情感种子词ti出现在窗口中的概率,与分别为观点词o与情感种子词ti未出现在窗口中的概率,Pr(o,ti)为观点词o与情感种子词ti同时出现在窗口中的联合概率,为观点词o与情感种子词ti均未出现在窗口中的联合概率。权重因子β∈[0.5,0.7]用于调节正、负关联度的相对权重。
最后,对观点词与所有情感种子词的SO-BMI值进行算术平均,将平均值作为其情感强度值,如式(5-3)所示。(www.daowen.com)
其中,k表示正面情感种子词的数量,l表示负面情感种子词的数量。
此外,在选择情感种子词时,根据观点词情感强度计算的需要,其情感强度必须为公认的最高,即强度的绝对值接近于1。由于在第三章基于LDA主题模型的特征词与观点词识别算法中(详见第3章3.3.1的表3-3),已经从产品评论中提取了高频情感种子词。因此,只需要从情感种子词集中选取情感强度最高的一组种子词。
本书邀请9位语言学专家,对原有的情感种子词进行情感强度打分。情感强度的分数取值范围要求在-1到1之间,并且以0为界限。将大于0的分值赋予表达正面情感的观点词,其中将分值1赋予正面情感强度最高的词语。同理,将小于0的分值赋予表达负面情感的观点词,其中将分值-1赋予负面情感强度最高的词语。最后,对每个观点词的分值求平均值(对负面观点词的分值取绝对值),将总分从高到低排序,取前10个情感词作为情感强度最高的、用于观点词情感强度计算的种子词。结果如下表所列。
表5-2 用于观点词情感强度计算的种子词集
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。