理论教育 实验中的语料处理方法

实验中的语料处理方法

时间:2023-06-01 理论教育 版权反馈
【摘要】:为了保证实验结果的有效性与一致性,本次实验选择与前次实验相同的三名语料标记人员,对实验语料中的特征观点对进行手工标注,尤其是对隐式特征词的理解、识别与标记。为了测试标记结果的一致性,随机选择20条语料来计算Kappa统计量。结果显示Kappa值约为0.809,高于0.8表明语料标注结果的一致性可以接受。对人工标注的实验语料进行统计,结果如表4-2所列。

实验中的语料处理方法

1.文档预处理

文档预处理主要包括:分词、去停用词,如“的”、“呢”等,以及词性标注。类似于第3章的实验方法,本章同样采用ICTCLAS软件对中文产品评论自动进行分词和词性标注。用逗号“,”替代评论中的空格、“~”、“/”等符号,并且以此为界将产品评论划分成多个评论片段。

2.实验语料统计结果

由于本章是在第3章的基础上,对已经识别的特征词与观点词进行配对,所以本章使用的实验语料为第三章构建的实验语料库中的测试语料,包含手机数码相机笔记本电脑三类产品的评论各1 000条。

为了保证实验结果的有效性与一致性,本次实验选择与前次实验相同的三名语料标记人员,对实验语料中的特征观点对进行手工标注,尤其是对隐式特征词的理解、识别与标记。为了测试标记结果的一致性,随机选择20条语料来计算Kappa统计量。结果显示Kappa值约为0.809,高于0.8表明语料标注结果的一致性可以接受。对人工标注的实验语料进行统计,结果如表4-2所列。

表4-2 实验语料的统计结果(www.daowen.com)

根据表4-2的统计结果,可以得到以下结论:

(1)大约58%的评论片段包含特征观点对,说明将产品评论划分为多个片段,有利于特征词与观点词的配对;

(2)平均每条评论大约含有5~6个特征观点对,说明特征观点对是产品评论的基本情感评价单元

(3)相较于其他两类产品,笔记本电脑的评论中包含特征观点对的评论片段所占比例较小,说明在笔记本电脑的评论中包含较多与产品无关的叙述(例如用户对电子商务网站的售后服务等的评价),在一定程度上加大了评论挖掘的难度。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈