本书从舆情数据库中选择从新浪新闻网上抓取的1篇具有代表性的帖子进行试验(根据人民网舆情监测频道统计,2013年3月19日热门新闻排序第一的是新浪新闻网站标题为“广州城管被砍无民众援助,局长痛心社会不理解”的新闻,评论数总计27411)。本实验从中随机筛选出7276个回复字字符数大于8的回帖。
9.2.6.1 实验一:回帖情感倾向识别
通过程序实现回帖的情感倾向计算算法,并自动进行回帖情感倾向计算,最后会为每个帖子赋予一个情感极性值,为正表示正面情感倾向,为负表示负面情感倾向,为0表达中性。程序自动实现对7276个回帖进行自动情感标注,并将实验结果人工标引结果做比较,计算出自动标注的准确率。从两个粒度对标注的准确率进行统计:①回帖级别的情感倾向识别准确率统计;②句子级别的情感倾向识别准确率统计。以标准率、标全率和F1值作为评价指标。
这里的A是人工标注和机器标准标注都标注为正(或负或0)的帖子数或句子数;B是机器自动标注为正(或负或0)的帖子数或句子数;C是人工标注为正(或负或0)的帖子数或句子数。
句子自动情感标注P值、R值和F1值的简明情况如表9-9所示。对比句子自动情感标注和人工情感标注,其准确率到达78.26%。
图9-9 用户评论回帖意见挖掘流程示意图
对实验帖子中7276个回帖的自动情感标注,同样以P值,R值和F1值作为评价指标。回帖自动情感标注P值、R值和F1值情况如表9-9所示。对比回帖自动情感标注和人工情感标注,回帖自动情感标注的准确率达到81.07%。
由上述实验可以看出,句子和回帖的自动情感标注的准确率分别达到78.26%和81.07%,性能和效果在情感词库不断得到补充和扩展后,还是比较理想的,基本能够运用于实际的分析工作中。
表9-9 句子和回帖自动情感标注P值、R值和F1值简表
综上可知,机器对正面的句子和帖子的标注准确率较低,而对负面和中性的标注准确率略高。分析认为主要有以下3种原因:
1)在网络的匿名环境下,用户在表达负面看法和观点时,往往情感倾向非常鲜明,使用较多情感倾向较重的负面词语进行表达。计算机在进行自动标注时较为容易识别负面的情感词语。
2)用户在表达正面的情感倾向时,部分用户较为理智,通常较为全面地分析事件或事物的两面性之后做出较为中肯的看法和观点。这给只能进行浅层语义分析的计算机的自动标注带来一些噪音,影响了自动标注的结果。
3)中性的句子和帖子的标引准确率比较高,可能跟人工标注时,对一些没有包含明显正面或负面倾向词语的句子和帖子的第一反应是将其归为中性。
另外,对计算机没有能够正确标注的句子和帖子也进行的总结和分析,发现主要存在4个因素导致计算机无法正确识别和标注:(www.daowen.com)
1)句子中含有错别字。用户因为误打错字或故意使用别字,导致计算机无法正确分词和识别。比如“默默爱掉(哀悼)”,用户将“哀悼”输成了“爱掉”,在情感词典中,“爱”是一个具有正面情感倾向的词语,而“哀悼”是一个具有负面情感倾向的词语,这样便导致无法正确标注。
2)上下文语境的影响。一些没有情感倾向的词语的特定的语境下,拥有了或正或负的情感倾向。比如“人民养了一支大狗”,这句话如果单独来看,是一个中性的句子,但是发帖者用“大狗”影射城管,所以拥有负面情感倾向。
3)语气和修饰手法的影响。比如“城管被砍你们开心了吧”,虽然该句还有正面情感倾向的“开心”一词,但是与“吧”搭配之后成反问语气,带有负面的情感倾向。类似的句子还有像“如果这就是现实,那我以后想爱的祖国的话要如何去爱呢?”。
4)词法分析组件错误的影响。这个主要是因为新词或一些其他因素导致无法准确分词,词性识别后导致无法准确计算词语情感倾向值。比如句子“好可怜的城管”,分词组件算法将“好”单独分词并将计算情感倾向值,导致情感标注偏差。中文分词依然是意见挖掘情感倾向分析中需要解决的关键技术。
9.2.6.2 实验二:回帖情感倾向分析
汇总实验一中的情感分析结果,实现自动对7276个回帖的情感倾向分别统计,输出粗粒度意见挖掘报告,图9-10显示正面、负面和中性帖子的比例。
图9-10 用户评论情感倾向占比
为了更好展现正面负面情感倾向的程度,我们将正面情感倾向按照自动标注后的极性值分为一般、中度和高度三个层次,负面情感倾向类似。这样加上中性就形成了7个情感倾向级别。7个级别的情感倾向极性值范围如表9-10所示。使用柱形图展示7个情感倾向级别所占的比例(实验结果如图9-11所示)。
表9-10 情感倾向分层与极性值范围表
图9-11 用户评论情感倾向分析
【注释】
[1]蔡健平,林世平.基于语义理解的意见挖掘[C].中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集,2007:5.
[2]娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006(11):2622-2625.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。