1.基线方法
在特征词与观点词配对的对比实验中,分别从统计自然语言处理和语义分析这两类研究中选取具有代表性的算法作为基线方法,与基于领域本体的方法进行对比。
基于互信息与聚类的算法:在基线实验1中,重现Su等提出的方法[46]。首先,根据特征词之间的互信息对特征词进行聚类,同时根据观点词与特征词的互信息对观点词进行聚类;然后,根据观点词的聚类信息,通过计算特征词与观点词的互信息,重新对特征词聚类,反之亦然;最后,反复迭代直至特征词集合与观点词集合都稳定不变,从而获得特征词与观点词的潜在关系,并基于此对二者进行配对。
基于句法路径的算法:在基线方法2中,重现赵妍研等人提出的方法[63]。首先,对产品评论进行句法分析,获取句法依存树,并且统计特征词与观点词之间的候选句法路径;然后,基于编辑距离计算路径相似度,从而将每条候选句法路径和句法路径库中的标准句法路径进行精确匹配;最后,根据匹配度确定正确的句法路径,并且将该句法路径链接的特征词与观点词进行配对。
2.实验结果比较与评价
表4-7列出了本章提出的特征词与观点词配对方法与两个基线方法的对比实验结果。结果显示在三类产品的测试语料上,基于领域本体的算法都具有较高的特征词与观点词配对能力。
表4-7 特征词与观点词配对的对比实验结果
(www.daowen.com)
通过对表4-7中的结果进行分析,可得出以下结论:
(1)总的来说,在三类产品的测试语料上,基于领域本体的特征词与观点词配对算法的调和评价值都显著高于两个基线方法,充分说明了本书对于特征词与观点词配对的改进与提高。其原因在于,本书提出的算法弥补了两个基线方法无法识别隐式特征的不足。需要说明的是,虽然基于句法路径的算法在准确率上略高于本方法,但是其综合表现(即调和评价值)明显低于本方法,这也反映了本方法的优越性。
(2)在三类产品的测试语料上,基于互信息与语法规则的算法在调和评价值上都比较低。其原因在于互信息仅考虑了两个词语的共现性,却忽略了两个词语都不出现在评论中,以及二者仅其一出现的情况,即遗漏了词语之间潜在的关联关系,从而影响特征词与观点词的聚类效果,导致配对能力不佳。
(3)相比之下,基于句法路径的算法在三类产品的测试语料上的实验效果都要好于基于互信息与聚类的算法。这间接地反映了挖掘词语之间潜在的语义关系比单纯考虑它们的共现性更有价值。然而,该算法的实验结果仍然低于本书提出的算法,尤其是召回率明显低于准确率,说明该方法对于特征词与观点词的配对能力不足。这反映了基于句法路径的算法在挖掘特征词与观点词的语义关系上还具有以下两点不足:
①人工定义的句法和语法关系能较好地处理句型比较简单、句法固定、语法规范的句子,却并不一定适用于口语化严重、语法不规范的中文产品评论。
②现有用于中文文本挖掘的标准句法路径库尚处于建设阶段,无法全面地覆盖所有可能的句法路径实例,导致基于句法路径的算法虽然具有较高的准确率,但是召回率却明显不足。因此,还需要专门构建针对中文产品评论的句法路径库。
(4)根据特征词与观点词配对的调和评价值,基于领域本体的算法与两个基线方法在三类产品测试语料上的变化都不大。尤其是前者在多次实验中都取得了大于80%的调和评价值,说明其具有良好且稳定的领域可移植性。
(5)相较于另外两类产品,基于领域本体的算法在笔记本电脑的测试语料上的召回率较低。这是因为相较于另外两类产品,笔记本电脑的评论长度较长,评论片段较多,并且包含较多与产品评论无关的叙述,使得特征词与观点词的分布稀疏,从而加大了二者配对的难度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。