理论教育 设定特征观点对情感强度的临界值实验

设定特征观点对情感强度的临界值实验

时间:2023-06-01 理论教育 版权反馈
【摘要】:表5-9在不同临界值下的特征观点对情感极性分类准确率根据表5-9的实验结果,不难发现在不同的测试语料上,最高的情感极性分类准确率对应的临界值并不相同,分别为T手机=0,T数码相机=0.05和T笔记本电脑=-0.05。由于本章提出的方法依赖于对语料的统计,所以特征观点对情感强度的取值与语料库中不同情感的语料所占比例密切相关。

设定特征观点对情感强度的临界值实验

在实验1的基础上,本书还设计实验,通过确定情感强度的临界值,进一步判断特征观点对的情感极性。

在情感极性分类中,通常需要预先设定分类的临界点。在相关研究中,大部分学者都从人们判断情感极性的常识出发,将临界值设为0[81,91-93,96,100,171]。这样的做法虽然具有一定的合理性,但是却鲜有研究者用实验证明是否还有其他的阈值比0更适合成为情感极性分类的临界点。因此,本书在对特征观点对进行情感极性分类之前,先通过实验确定最佳的情感强度临界值。

本书将情感极性分类临界点的取值范围设定为[-0.15,-0.1,-0.05,0,0.05,0.1,0.15],并且在三类产品的测试语料上,进行特征观点对情感分类的对比实验。表5-9列出了在不同情感强度临界值的条件下情感分类的准确率,包括正面情感分类准确率、负面情感分类准确率和总体情感分类准确率。

表5-9 在不同临界值下的特征观点对情感极性分类准确率

(www.daowen.com)

根据表5-9的实验结果,不难发现在不同的测试语料上,最高的情感极性分类准确率对应的临界值并不相同,分别为T手机=0,T数码相机=0.05和T笔记本电脑=-0.05。

造成这一现象的主要原因可能与测试语料中正面评论与负面评论所占比重相关。由于本章提出的方法依赖于对语料的统计,所以特征观点对情感强度的取值与语料库中不同情感的语料所占比例密切相关。

根据5.4.2对测试语料的统计结果(表5-3),在三类产品的测试语料中,手机评论中的正、负情感分布情况相对比较平衡。具体来说,手机的正、负面评论数量之差最小,并且正、负面特征观点对的数量之差也最小;数码相机的正面评论比负面多,正面特征观点对也比负面多;而笔记本电脑则相反,其正面评论比负面评论少,正面特征观点对也比负面特征观点对少。

以上这种情况可能造成了情感强度的临界值发生偏移。数码相机语料中存在相对较多的正面特征观点对,使得总体情感分类结果受正面情感分类结果的影响相对较大,所以当T=0.05时正面情感分类的准确率较高,也使得总体情感分类的准确率达到最高;反之,笔记本电脑语料中存在相对较多的负面特征观点对,使得总体情感分类结果受负面情感分类结果的影响相对较大,所以T=-0.05可以提高负面情感分类的准确率,也就增加了总体情感分类的准确率。

此外,不同产品评论的人工标注结果也存在主观性,从而产生一定的误差,也可能使得情感强度临界值T≠0。通过对表5-9的实验结果进行分析,在三类产品的测试语料上,T=0时都能取得较高的情感极性分类准确率,并且正面、负面和总体情感分类准确率也比较平均,说明该临界值下的情感极性分类效果相对比较良好和稳定。因此,本书仍然以T=0作为情感极性分类的临界值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈