系统实际效果检验的方式,主要是通过系统对文本进行分析产生的分析结果,与人工对文本进行分析产生的分析结果进行比较,按照人工分析归纳的结果为标准,检验系统对文本分析的准确性[2]。本次采集到的样本数据是按照“疫苗”作为关键词来进行过滤的,数据总共为435条数据,时间跨度为2011年8月—2016年3月。对这些样本数据进行人工分析,归纳出每一条数据所含的内容,并对这些含义进行汇总聚合分析之后,可得出表7-7数据集内容分析表。
表7-7 数据集内容分析表
续表
将表7-7化为实体的形式。需要对相同实体的内容进行合并,并将对应的实体属性标注出来,可得表7-8。
表7-8 数据集内容实体表
从表7-8看出,有较多的人关注的是“疫苗以后还要不要打”“打了之后安不安全”,对疫苗的安全问题比较关注,同时带有恐慌心理,比如某用户发布的“已注射完的疫苗,如何追本溯源查询厂家?即将要注射的疫苗,还要不要打?”就是典型该类型。同时也有一些用户发布关于疫苗的科普知识。网民关注较多的,诉求较高的是要求严惩涉案人员、有关部门对本次案件进行调查、对疫苗进行自我排查和要求了解事件进展和结果,根据频率统计可以分析出网民观点倾向,见图7-3。
图7-3 山东疫苗事件网友诉求比例
对于人工分析出来的结果,内容主要依赖于分析者对网民生成内容(UCG)句义段落的理解,并对其进行归类的准确性。人工分析的结果好处是归纳出的结果比较准确,但是耗时较久。如果是用网络舆情动态分析器分析,速度很快,分析出来的结果见表7-9。
表7-9 舆情实体及属性初步分析表
续表
(www.daowen.com)
根据表7-9舆情实体及属性初步分析表的前9个实体为例,可以看出在创建这个实体库的时候有较多的冗余,比如在这个实体库当中的实体“中国”和“国家”其实是同一个实体。而“山东”和“事件”这两个实体出现的行为和描述属性其实都十分类似,因此,可以将这两个实体进行合并,如表7-10。
在疫苗舆情信息中网民关注的实体主要是“疫苗”“山东事件”。网民主要关注接种疫苗、打疫苗、经营疫苗和疫苗的监管这几个范畴。从描述当中可以得到网民比较关心“假疫苗”的安全问题,同时也看出网民对疫苗产生了恐慌的心理。分别对疫苗的动作分析和属性分析可以得到图7-4疫苗事件中实体“疫苗”属性图。
表7-10 网络舆情动态分析表
在疫苗舆情信息中网民关注的实体主要是“疫苗”“山东事件”。网民主要关注接种疫苗、打疫苗、经营疫苗和疫苗的监管这几个范畴。从描述当中可以得到网民比较关心“假疫苗”的安全问题,同时也看出网民对疫苗产生了恐慌的心理。分别对疫苗的动作分析和属性分析可以得到图7-4疫苗事件中实体“疫苗”属性图。
图7-4 疫苗事件中实体“疫苗”属性图
对疫苗事件中的实体进行匹配,对匹配的结果输出,然后人工筛选之后的结果,见表7-11。
从表7-11可以看出系统可以抓取出包含在用户发表内容里的语义关系,虽然在抓取的时候可能会把同句当中其他相关的实体也抓取出来,识别不出实体对应的关系。但是在设定了条件之后还是可以减少识别实体关系的工作量。根据不完全调查,人民网舆情监察等平台进行网民诉求分析时大部分是使用人工抽样的方法,抽样数据大多在300条。而在本次测试中,所使用的网络舆情信息数据所包含的句子总共是1535条,筛选出具有关系的为1260条,减少了82%的工作量,大大提高了网络舆情动态分析的效率。从关系抽取的准确性角度看,目前ACE在英文关系抽取人物测评方面的最好纪录也尚未突破40%[3]。对比人工抽取,在实体名称词典的辅助下,本系统的关系识别准确性约为63%。实验有效证实了本书所提方法的可行性和有效性。
表7-11 疫苗事件实体关系示例
【注释】
[1]黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1):94-99.
[2]刘明岩.面向语义关系发现的文本挖掘研究[D].南京理工大学,2010:22-39.
[3]赵琦,刘建华,冯浩然.从ACE会议看信息抽取技术的发展趋势[J].现代图书情报技术,2008(3):18-23.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。