1.实验语料收集
实验语料库是存放实验所需语言材料的数据库。通过“实验结果(算法标注结果)”与“实际结果(人工标注结果)”的对比,分析研究所提出算法的优劣,是情感分析领域的通用处理方式。因此,人工标注的实验语料库是进行细粒度情感分析研究的前提和基础。
我国的情感分析实验语料库构建处在起步阶段,尤其缺乏针对细粒度情感分析的大规模情感资源的支撑,影响着细粒度情感分析研究的发展。因此,本书决定自建实验语料库。
这是一项长期而复杂的任务,从收集语料,制定标注规范,到完成语料加工,每一步都要既确保速度,又确保标注质量。本书根据国外语料库建设在收集语料、制定标注规范和质量监控等方面的经验,通过“网络爬虫自动下载评论+人工标注评论”的方式,构建面向细粒度情感分析的实验语料库。
以亚马逊网站(http://www.amazon.cn/product-reviews/)为实验语料的来源,利用Perl语言编写的网络爬虫程序(详见附录A),获取关于手机、数码相机和笔记本电脑的评论作为实验语料。这些实验语料又被分为两类:训练语料和测试语料。其中,训练语料用来初始化面向产品评论的SA-LDA主题模型,而测试语料则用来检验基于SA-LDA主题模型的特征词与观点词识别算法的有效性。
选择亚马逊网站主要有三个原因:第一,亚马逊网站为全球知名的电子商务网站,其知名度和口碑都得到大众的一致认可;第二,亚马逊网站从1995年就开始为消费者提供发表产品评论的功能,这是该网站获得成功的关键因素之一;第三,从产品评论的长度上看,通过分析国内几个同类型电子商务网站(如京东商城和天猫商城等),亚马逊网站上的产品评论相对较长,信息量相对比较丰富,从而在一定程度上有利于进行评论挖掘的实验。
此外,本书还以中关村在线(http://detail.zol.com.cn/)为提取领域术语所需的产品参数说明来源。选择中关村在线也主要有三个原因:第一,中关村在线是一家资讯覆盖全国的IT互动门户,也是中国第一科技门户;第二,中关村在线拥有最全面、最具权威和影响力的专业产品数据库,并且四大门户网站和近百家网络媒体均采用中关村在线的标准产品数据库;第三,中关村在线为每个产品提供权威、准确和详细的参数说明,并且依据厂商官方信息、评测中心数据以及市场反馈,实时地更新产品参数。
2.文档预处理
由于网页中的内容具有多样性(比如网页中有链接或者广告),其中包含了许多与产品评论无关的噪声。因此,为了减少干扰,提高评论挖掘的准确性,在对语料进行正规化处理之前,需要先进行文档预处理。
文档预处理是构建SA-LDA主题模型以及特征词与观点词识别的基础。它的任务是通过对文本的扫描,快速识别出具有一定意义的简单实体片段,并且按照某种规则为每个识别出的片段赋予一个标记。
与英文相比,中文具有以下特点:一方面汉字是由形象文字演化而来的方块字;另一方面词语之间没有形态标记。具体来说,汉字是以字为基本单位,由字组成词,并且词语自身与词语之间都没有明显的形态标记。由于词语是评论挖掘的基本单元,所以中文分词是细粒度情感分析的基础。
ICTCLAS(http://ictclas.org/)是一款基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词软件,最初由中国科学院计算技术研究所张华平博士开发。在本书中,采用ICTCLAS对中文产品评论进行分词和词性标注,用逗号“,”替代评论中的空格、“~”和“/”等符号,以及去停用词(如“的”和“呢”等)。分词与词性标注结果如例2所示。
例2:手机评论:“这个手机挺好用的,性价比也高,但就是有点太大,太重,带着不方便。”采用ICTCLAS分词与词性标注结果为:“这个/r手机/n挺/d好用/a的/u,/w性价比/n也/d高/a,/w但/c就/d是/v有点/d大/a,/w有点/d重/a,/w带/v着/u不/d方便/a”。
3.实验语料统计结果(www.daowen.com)
本书根据评论的星级评分自动标注评论的整体情感极性。根据对样本数据的统计以及已有研究提供的经验数据[105-109],本书以3颗星为临界点,认为3.5~5颗星的评论为正面评论,0~3颗星的评论为负面评论。
对于产品评论中的特征词与观点词标注,需要人力手工完成。在被告知了关于手机、数码相机和笔记本电脑等三类产品评论的特征词和观点词的判别细节之后,三名具有信息系统背景的研究生被要求对测试语料中的特征词与观点词进行手工标注。
由于人工标注带有主观性,不同人的标注结果存在差异,因此随机选择20条语料来计算Kappa统计量[156],以检验三名标注者标注结果的一致性。结果显示Kappa值约为0.83,高于0.8表明语料标注结果的一致性可以接受。
根据现有关于机器学习算法的研究,训练集与测试集的语料数量之比通常为4∶1[11,90,96,133,154,180]。因此,本书从每类产品的5 000条评论中,随机筛选4 000条语料为训练集,其余1 000条语料为测试集。实验语料的人工标注结果如下所列。
表3-6 训练语料的统计结果
表3-7 测试语料的统计结果
从表3-6和表3-7的结果中可以看出,在手机、数码相机和笔记本电脑等三类产品的评论中,大约70%的评论片段包含特征词或者观点词。这说明评论片段为评论挖掘的基本单元,并且该语料库具有足够的资源以保证实验的有效性。
4.语料库示例
表3-8显示了实验语料库中语料的标记结果和存储形式。
表3-8 实验语料示例
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。