基于语料的方法主要通过对评论语料进行词性标注与情感标注,根据语料中词与词之间的共现信息或者句法模式计算词语的情感强度,并且基于此判断词语的情感极性。
基于词语共现的方法预先选择一组具有正面或者负面情感极性的词语作为情感种子词,再根据词语之间的共现性分别计算观点词与褒贬种子词的语义关联度,最后将关联度的差值作为其情感强度,并且基于此判断观点词情感极性。这类方法的基本思路是:与正面情感种子词之间的语义关联更强的词语也具有正面情感;反之,与负面情感种子词之间的语义关联更强的词语具有负面情感。
Turney和Littman[76]人工收集了3 596个词语,包括形容词、副词、名词和动词,以此构建褒义词和贬义词的集合作为观点种子词。在此基础上,利用点互信息(PIM)和潜在语义分析(Latent Semantic Analysis,LSA)的方法,分别计算观点词与褒贬种子词的关联关系,从而自动判断观点词的情感极性。
Yu和Hatzivassiloglou[77]改进了Turney和Littman的方法,人工定义了更多的情感种子词,并且用对数似然比(log-likelihood ratio)代替PMI和LSA方法进行词语与观点种子词的关联统计。
基于词语共现的方法忽略了观点词的极性可能会随着上下文语境而变化的情况,所以一部分研究者提出基于句法模式的方法,在情感分析的过程中加入上下文语境信息。
基于句法模式的方法主要先从大量的语料中提取形容词以及词语之间的句法连接词(如表示并列、转折与递进等关系的词语),再进行机器学习并且生成相应的模型,最后预测新观点词的情感强度与极性。这类方法的基本思路是:形容词之间的句法连接限制形容词的情感强度与极性,比如并列与递进关系连接的两个形容词应该具有相同的情感极性,转折关系连接的形容词应具有相反的情感极性,而递进关系连接的后一个形容词应该比前一个形容词具有更加强烈的情感。
Hatzivassiloglou和Mc Keown[78]提出了一种使用句法连接的非监督学习方法。首先提取语料库中所有形容词之间的句法连接,并且将其分为语义方向一致和语义方向相反两类;然后使用对数线性回归算法计算连接的两个形容词具有相同或者不同情感极性的程度,并且以形容词为节点,词语之间的句法连接关系为边,生成情感关系图;接着使用聚类算法将图分为具有不同情感极性的两类,使得目标函数取最小值;最后计算每类形容词在语料库中出现的频率,频率较高的一组具有正面情感极性,另一组具有负面情感极性。
姚天昉和娄德成[79]根据词语之间的并联并列关系和统计关系,以种子词的情感强度与极性作为参照,计算词语的情感强度和极性。首先,人工从情感词典GeneralInquirer和How Net中提取3 120个正面情感词和3 485个负面情感词,并且邀请四名标注人员对其进行极性和强度标注,形成情感种子词集;然后,利用词语之间的关联关系(包括递进关系、并列关系和转折关系),在观点词的上下文中查找与其具有关联关系的情感种子词,从而对观点词进行标注;最后,如果未发现相关联的种子词,计算观点词与每个种子词的点互信息,以此得出观点词的情感强度与极性。
然而,以上的方法只以形容词作为观点词的词性,也只考虑了连接词这一种语法要素,并且计算过程相对简单,在情感极性分类上的准确率还未达到80%。因此,更多的研究者采用更复杂的句法分析对特征观点对进行情感分析。(www.daowen.com)
Popescu与Etzioni[7]考虑了观点词的情感极性随其所修饰的特征词不同而变化的三种情况,分别是单个观点词、观点词与特征词搭配以及在一定语境下的特征观点对。他们首先使用句法分析判断词语对情感极性的贡献值;然后建立可迭代的模型,依次判断不同情况下观点词的情感极性,并反复进行迭代;最后根据迭代结果分别判断观点词的情感极性、特征观点对的情感极性以及特征观点对所在评论句或者评论文档中的情感极性。
姚天昉等人[69]提出了基于上下文语境计算词语情感极性的算法,根据汽车本体、情感极性词典、基本元素、语法分析树以及匹配规则等多种知识来判断特征观点对的极性。
赵军等[81]提出基于条件随机场模型的方法,将上下文语境和冗余标签代入条件随机场模型中,进行特征观点对的情感极性分类,并且取得了优于贝叶斯模型和支持向量机的实验结果。
Kobayashi等人[82]提出了一种通过自我学习方式判断词语情感极性的方法。首先通过情感极性词典获得情感种子词,然后根据手工构造的52个规则分析观点词和情感种子词的关系,最后基于此判断观点词的情感极性,并且将该观点词加入种子词集。
顾正甲和姚天昉[25]提出基于经验的语言模式方法判断观点词的情感极性。该方法充分地考虑了不同类型的句子,以及副词和连词对观点词情感极性的影响。尤其是对一般副词、贬义副词和副词“太”进行了详细的探讨。
Hassan和Radev[83]使用无监督的马尔可夫随机游走(Random Walk)模型判断观点词的情感极性。该模型的优点是处理速度快并且不需要大量语料,但是在准确率等评价指标上的表现并不理想。
Du[62]提出基于改进的信息瓶颈方法构建面向特定领域的情感词典。具体是通过为特定领域手工标注情感种子词,利用信息瓶颈法以及KL距离(Kullback-Leibler)理论,判断其他词语的情感极性。
闻彬等[85]提出一种基于语义分析理解的情感分类方法,在情感词识别中引入了情感义原,并根据词语间的情感相似度计算情感语义值,再基于此判断词语的极性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。