理论教育 基于情感词典的文本分析方法

基于情感词典的文本分析方法

时间:2023-06-01 理论教育 版权反馈
【摘要】:基于情感词典的方法主要使用情感词典中的信息,比如词语之间的同义、反义和层次关系,或者利用词语的释义信息,计算观点词与已知情感极性的种子词之间的相似度,以此确定观点词的情感强度和极性。还有一种是基于词频的方法。该模型将基本的情感词典Word Net中对情感词的释义以及语法规则等结合在一起,利用上下文语境判断观点词的情感极性。

基于情感词典的文本分析方法

基于情感词典的方法主要使用情感词典中的信息,比如词语之间的同义、反义和层次关系,或者利用词语的释义信息,计算观点词与已知情感极性的种子词之间的相似度,以此确定观点词的情感强度和极性。

Kamps等最早提出基于语义关联的方法[86],首先以Word Net中所有形容词为节点,代表两个词同义关系(两个词出现在同一个同义词集中)的连接为边,建立情感关系图;然后将图中连接两个词语的最短路径长度作为词语之间的距离;最后,通过观点词与两个种子词“好”和“差”的相对距离,计算特征观点对的情感强度。在此基础上,以0为情感极性分类的临界值,情感强度大于0的观点词带有正面情感;反之,小于0的观点词带有负面情感。

基于释义的方法假设词语及其释义中的词语具有相同的情感极性,如“好”和“棒”的释义中都包含了表示欣赏和赞同的词,而“差”和“坏”的释义中都包含了贬义词,所以可以利用词典中词语的释义(即词义的文本解释)分类确定词语的情感极性。

Andreevskaia和Bergler[87]提出了STEP算法(Semantic Tag Extraction Program)。首先,基于Word Net对词语的定义,使用种子词的同义词、反义词和下位词扩充原种子集合,得到新的情感词表;然后,对Word Net中的所有释义,查找其中包含的情感种子词,并加入相应的情感类别(正面和负面)中;最后,利用词性标注判断释义中情感词的词性,并且去除错误标注和标注中有冲突的词。

Esuli和Sebastiani[88]在研究中首先建立初始的情感种子词集;然后在词典中查找与种子词同义和反义的词语,以此扩充词集;接着以扩充后的情感种子词集为训练集,对训练集和测试集中每个词语的释义进行文本特征提取,将两个词集都转化为向量空间模型;最后利用训练集训练情感分类器,对测试集中的词语进行情感极性分类。

还有一种是基于词频的方法。Ku等[89]假设词语的情感极性是由组合成词语的字决定的,所以通过计算单字在词典中出现的频率表示单字的情感强度,而词语的情感强度则由字组合而成。首先从情感词典中提取了2 764个正面情感词和7 778个负面情感词,作为种子词集,并且利用同义词词林对种子词集进行扩充;然后分别通过统计字在正面和负面种子词集中出现的次数,将二者之间的差值作为该字的情感强度;最后对观点词中所有字的情感强度取平均值,作为该观点词的情感强度。在此基础上,以0为情感极性分类的临界值,情感强度大于0的观点词带有正面情感;反之,小于0的观点词带有负面情感。

与Ku等类似,Kim和Hovy[45]首先将44个动词和34个形容词作为情感种子词,并且在Word Net中查找形容词的同义词和反义词以及动词的同义词,从而扩充种子词集;然后分别计算观点词与情感种子词的共现频率,得到该观点词的情感强度;最后仍然以0为临界值判断观点词的情感极性。

为了提高针对特定领域语料的情感强度计算与情感极性分类的准确率,一些学者在已知词典的基础上,通过人工标注或者语义相似度计算等方法,建立面向特定领域的情感词典。

Bloom等[58]首先从Word Net中抽取基本的情感种子词,然后利用Stanford Parser手工构建的31条语法规则,人工构建针对电影评论的情感评价词典,最后依据该词典判断观点词的情感极性。(www.daowen.com)

Ding,Hu和Yu[90]首先建立情感评价词典,然后根据词典判断观点词的情感极性,最后根据句子内和句子间的连接词与转折词,如“并且”与“但是”,判断依赖于上下文的观点词的情感极性。

Wilson,Wiebe和Hoffmann[91]先通过手工标注评论中带有情感倾向的观点词,再结合情感词典GeneralInquirer和同义词典识别具有情感倾向的短语,并且根据短语在句法中的作用确定该短语的极性。

Agarwal等[92]结合情感词典和Word Net为观点词的情感极性打分,并通过该情感词语所在的语法结构和N-gram结构分析上下文对其情感极性的影响。类似的研究还有Devitt和Ahmad[93],Denecke[94],Fahrni和Klenner[95]等,他们都利用情感词典SentiWord Net判断观点词的情感极性。

Somasundaran等人[96]首先利用情感极性词典General Inquire对评论中的观点词进行标注;然后再利用基于监督学习的IterativeCollective Classification(ICA)和基于无监督学习的ILP自动扩展标注结果;最后以评论片段为单位,构建观点词的情感极性分类模型。

Zirn等人[97]提出基于马尔科夫逻辑网的模型。该模型将基本的情感词典Word Net中对情感词的释义以及语法规则等结合在一起,利用上下文语境判断观点词的情感极性。

Asher等人[98]将情感分为11类(生气,惊讶,喜欢,讨厌,失望,害怕,恼怒,伤心,高兴,无聊,消遣),在利用词典识别观点词的基础上,根据不同的情感类型判断观点词的情感极性。在此基础上,以评论片段为单位提取情感表达短语,根据句法连接(即连接词和转折词等)修正观点词的情感极性。

Miao,Li和Zeng[99]将评论分为半结构化评论(按优缺点划分的评论)与非结构化评论(混合优缺点的评论),并且根据半结构化评论建立领域知识库,以此存储观点词的情感极性,以及产品特征的同义词等信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈