根据5.3.1节的分析,当观点词与不同的特征词搭配时,观点词的情感极性和情感强度都可能发生变化。因此,将特征词当作观点词的情感修正器,以观点词的情感强度为基础,特征词对观点词的修正作用为系数,共同计算特征观点对的情感强度。
假设正面的特征观点对能够对正面评论产生正向的作用,而对反面评论产生负向的作用;同理,负面的特征观点对能够对负面评论产生正向的作用,而对正面评论产生负向的作用。基于Lau等的研究结论[164-165],特征观点对与其所在评论之间存在如下关系:正面的特征观点对在正面评论中出现的概率大于其在负面评论中出现的概率,反之亦然。
因此,本书提出基于上下文语境分析的语义计算方法,量化特征词对观点词情感的作用。根据KL距离理论(Kullback-Leibler divergence,KL)[183],本书采用词语距离(Word Divergence,WD)衡量特征词对观点词的情感影响系数。该方法的有效性已经在Kindo等[184]和Lau等[164-165,199]的研究中得到了验证。与原KL距离理论不同的是,WD并非求特征观点对在正面与负面的评论中出现的条件概率之和,而是反过来求差,以表现特征观点对排斥与其情感相反的评论的能力,这恰好与本书的假设条件相符。
特征词对观点词的情感影响系数如式(5-4)所示。
对方程求双曲正切函数tan,是为确保影响系数w(f,o)的取值在单位区间[0,1]内。在式(5-4)中,与Pr(neg|(f,分别计算特征观点对(f,o)出现在正面情感与负面情感的评论中的条件概率。其中,d f(pos,(f,o))与d f(neg,(f,o))分别表示包含该特征观点对的正面评论数与负面评论数,df(f,o)则表示包含该特征观点对的评论总数。与Pr(n eg)=分别计算评论的整体情感为正面与负面的先验概率,其中,d f(pos)和d f(neg)分别表示正面评论与负面评论的数量。(www.daowen.com)
此外,每新增一批测试语料,需要自动更新特征词对观点词的情感影响系数:w′(f,o)=α×w(f,o)+β×wnew(f,o),其中,wnew(f,o)为对新语料进行计算所得的情感影响系数,并且α=β=0.5。
最后,将特征词对观点词的情感影响系数,以及程度副词的作用强度(详见式(5-1)),代入观点词的情感强度计算公式中(详见公式(5-3)),得到整个特征观点对的情感强度值,如式(5-5)所示。
其中,wi表示程度副词的作用强度,w(f,o)表示特征词对观点词的影响程度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。