理论教育 实验语料的处理方法与技巧

实验语料的处理方法与技巧

时间:2023-06-01 理论教育 版权反馈
【摘要】:表5-3实验语料的统计结果从表5-3可以看出,数码相机的正面评论包含的特征观点对总数小于其正面特征观点对的数量,而笔记本电脑的负面评论包含的特征观点对总数小于其负面特征观点对的数量。

实验语料的处理方法与技巧

1.文档预处理

文档预处理主要包括:分词、去停用词,如“的”、“呢”等,以及词性标注。类似于第3章和第4章的实验方法,本章同样采用ICTCLAS软件对中文产品评论自动进行分词和词性标注,并且用逗号“,”替代评论中的空格、“~”、“/”等符号。

2.实验语料统计结果

本章是在第4章的基础上,对已经识别的特征观点对进行情感强度计算,并且基于此进一步判断其情感极性。因此,本章使用的实验语料仍然为第3章建立的实验语料库中的测试语料,包含手机数码相机笔记本电脑三类产品的评论各1 000条。

(www.daowen.com)

图5-2 实验基本流程图

为了保证实验结果的有效性与一致性,本次实验选择与前面实验中相同的三名语料标记人员,对实验语料中的特征观点对的情感极性(正面或者负面)与情感强度进行手工标注。将特征观点对的情感强度的取值范围设定为[-1,1],步长为0.1。正面情感的强度越高,特征观点对的情感强度值越接近1,反之,负面情感的强度越高,特征观点对的情感强度值越接近-1。如果三人对某个特征观点对情感极性的判断一致,则该特征观点对的情感强度以三位标注者的平均值为最终标记结果;如果对该特征观点对情感极性的判断存在不一致的情况,则由三人讨论后进行修改,确定最终的情感强度。实验语料的人工标注结果如表5-3所列。

表5-3 实验语料的统计结果

从表5-3可以看出,数码相机的正面评论包含的特征观点对总数小于其正面特征观点对的数量(605×5.8=3 509<3 703),而笔记本电脑的负面评论包含的特征观点对总数小于其负面特征观点对的数量(587×5.2=3 052.4<3 222)。这说明正面评论中可能包含负面的特征观点对,而负面评论中也可能包含正面的特征观点对。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈