6.3.2.1 数据构成分析
来自互联网的多源异构数据集,从数据构成上可以划分为三大类:用户数据、资源数据和主题数据。
1)用户数据是指关于生成信息的用户的数据,例如用户ID、用户IP、用户的注册数据(注册账号时用户提供的性别、年龄、职业、注册时间、用户身份、用户所处行业、爱好等信息,用户注册后相应平台根据用户的使用情况给予的用户等级信息等。)。不同类型的用户数据数量和结构存在差异,需要根据相应的平台来进行数据定义。
2)资源数据指的是信息发布者、信息发布时间、信息发布地址、信息发布平台(媒体)、信息正文,以及资源获得的点赞数、评论数、转发数等交互特征数据。因为数据来源的不同,资源数据的结构存在的差异较大,需要根据相应的平台来进行数据定义。
3)主题数据是指将资源数据进行主题分析之后得到的数据,例如信息正文中包含的机构实体、人物/人群实体、地点实体、时间实体、主题词、情感词等。除了学术论文或著作、少量案例提供有主题词以外,其余类型的信息的主题数据都需要经过文本挖掘来获取,此类数据的处理难度最大。
6.3.2.2 信息聚合单元分析
网络舆情信息聚合的聚合单元分析是建立在舆情信息的内在结构和外部特征两种基础上,结合信息分析的需求,从网络舆情信息、政府文件、科研成果三种来源对信息结构进行分解,得到分析所需使用的数据的不同维度,作为信息聚合的基本单元。
(1)网络舆情信息构成要素分析
网络舆情是由事件引起的,与新闻事件或普通事件的描述有所不同,其构成要素也因此区别于纯粹的新闻报道事件或普通事件。突发网络舆情应对决策的制定与实施密不可分,网络舆情事件往往是一个“舆情产生—官方回应—公众与媒体反应”的连续体,需要将决策制定与实施联系在一个统一的系统中。因此本书认为:
从文本角度看,网络舆情事件信息聚合要素应该包括两个方面:一是消息,二是评论或转载。前者是指在微信公众号文章、微博文章、媒体网站文章、企业网站文章、论坛主帖、博客文章、政府网站文章等各种平台上发布的文本及伴随着文本发布的相关数据。后者是指对平台发布的文本进行转发或评论的文本,以及伴随着转发或评论而产生的相关数据。为了清楚说明网络舆情事件的发展态势、辅助应对决策,除了描述事件信息以外,还需要把舆论参与过程动态反映到事件状态中来。
从社会管理角度看,网络舆情事件指的不只是实际发生的事件本身,而是人们因为关注某一事件或话题而参与到网络空间的讨论中的全过程。因此,本书认为,网络舆情信息聚合要素应该包含网络舆情事件发生的时间、地点、涉事人物、涉事机构、参与各方表达的主题或观点等要素。
1)时间
网络舆情事件区别于线下事件的特征之一就是其对舆情事件动态性的强调,时间既是描述事件静态状态的要素,也是描述动态性必不可少的关键要素。“一呼百应”甚至“一呼万应”已成为网络常态,一条热门信息一旦上网,便可能在数以亿计的微信群、QQ群、微博、虚拟社区等以几何级的速度、核分裂式传播,从发生到发酵成为热点所需时间越来越短。赢得时间才能赢得话语权,人民网舆情监测室提出“黄金4小时”概念,指的就是应对决策要及时、快速,从网络舆情管理的五阶段划分也可知,网络舆情事件发生后需要及时进行调节。因此,网络舆情事件信息聚合时需要描述时间维度,作为表示知识、呈现信息、分析事件和舆情发展过程的关键要素。
网络舆情事件中的时间包括以下几类:
①与事件生命周期有关的时间,即具体事件发生、发展、结束的时间,如汶川地震发生的时间、天津港爆炸发生的时间、十九大召开的时间和结束的时间等。与事件生命周期有关的时间,是进行舆情案例归档、事件跟踪时重要的记录字段。
②事件引发的舆情生命周期时间,即舆情的发生时间、发展过程相关的高峰或回落时间、舆情结束的时间、舆情事件的归档时间,可以分为三大类:媒体报道时间、官方回应时间、每个网友发帖或评论的具体时间等。
与事件生命周期相关的时间和与舆情生命周期相关的时间在有些舆情事件中是重合的,但也不乏存在具有时差的情况,例如“孙小果舆情事件”中包含相关报道中提到其多次犯案的时间、上次被捕的时间,以及引发网络舆情的时间;女大学生失踪时间与该事件引起关注的时间;食品安全案件处理结果通报时间与该案件曝光时间等,在分析舆情事件时,会发现存在多个时间子类,彼此之间可能存在较大的时差。由于多方参与,信息交流过程中,事件生命周期的各个时间节点会被多种来源的信息不断地补齐,从而形成一条较为完整的时间链。
2)地点
应对网络突发舆情事件产生的危机必须有的放矢,因此网络舆情事件与“谁”有关,是分析舆情以辅助决策首先要解决的问题。网络舆情事件中涉及的实体类型(即“谁”)众多,可以分为地点、机构和人物三种。地点信息反映具体事件发生的空间,会让舆情参与者们更了解事件的经过,同时也会让相关的地方媒体或政府更加重视这一事件。
网络舆情事件中的地点包括以下三类:
[19]事件发生的相关地,如2017年舆情热点中的红黄蓝幼儿园虐童事件、江苏常熟民房纵火事件、全国多地现脚臭盐事件、江歌遇害案等事件中都包含了事件发生地的详细信息。
②舆情指向地,如“最悲伤作文”小学将被强拆事件中,除了该小学之外,舆论主要指向之一是当地政府;“山东情侣公园约会遭枪杀”事件中火车站安保问题遭受质疑,地点是河南安阳;反腐新闻报道跟帖中,网友常常不会对报道的事件本身做评论,而是在跟帖中透露或发布某个地方存在腐败的信息。
③观点产生的地址,属于动态地址,随评论者变化而变化,如网友IP地址。观点产生者的地点在分析恶意散播谣言、网络水军等方面具有重要的作用。
3)人物
人物是网络舆情事件实体类型中的第二种,是构成事件的关键要素。为了描述事件,首先需要描述人和对象等参与事件的实体①。网络舆情事件中的人物包括以下三类:
①涉事主体与客体,包括事件发起者、承受者,或参与事件的个体或群体,例如2017年网络舆情热点事件中,弱势群体、学生群体的生活状态一直是社会关注的焦点,涉事主体的分析是应对决策时首先需要了解的人物对象。学生、教育工作者、警察、名人、医务人员常常是高频涉事人群。例如,社会管理问题中常常爆发网络舆情的“强拆事件”,其施事者可能有“城管”“开发商”“艾滋病拆迁队”,客体可能有“村民”“钉子户”等。除了个人以外,还有一部分舆情事件是指向涉事群体的,涉事群体可能包括例如:公务员、富二代、留守儿童等,代表的是一个时空背景下的某一群人。(www.daowen.com)
②非涉事者,然而成为公众评论指向的对象,在网友讨论过程中,还会出现针对某个网友的评论内容或其中提到的与事件本身没有关系的人或人群进行评论的情况,这些情况涉及的人物并非第一类,然而却掀起了舆情高峰。
③参与网络舆情的每一个个体,含信息发布者、信息评论者、信息转载者、信息关注者,这些个体自身具有代表其网络身份的特征,包括ID、昵称、级别(如是否认证微博、博客等级)等。倘若实行网络实名制以后,这些个体信息将更加全面、准确。
4)机构
当前我国网络舆情事件多发,机构是处置网络舆情的主体,因此,机构是网络舆情事件实体类型中的第三种,与地点要素通常直接相关,如政府部门、学校、社会组织、公益组织、企业等。网络舆情事件中的机构通常包括以下几类:
[20]涉事机构,即发起事件或参与事件的相关机构。例如“宁波一煤气站距学校20米,安监部门:煤气站先建的”事件中,涉事机构包括煤气站、学校、安监部门。
②非涉事机构,却因其他原因被卷入舆论漩涡。研究表明,新媒体环境下信息传播的根本特征之一是增强事件间的联动性,经网络传播的事件,在一定条件下可能发展成为联动事件,进而影响主流社会舆论①。例如因郭美美炫富而引起慈善信任危机的中国红十字会、“山东情侣公园约会遭枪杀”事件中安保问题受到质疑的安阳火车站等。
5)主题
网络舆情信息的主题是指网民讨论的话题的主要内容,可以使用标签或主题描述的方式来进行表达。在用户自生成内容中,标签的使用已经较为普遍,可以通过直接采集用户自己为所发布信息添加的标签来实现信息聚合。主题描述则是较为规范的通过抽取文本内容中的主要概念来获得,本书考虑使用主题词的方式,每个主题词代表一个概念,通过概念与概念之间的语义关系,可以构建起主要议题的知识体系,这是比标签更为规范、系统的信息资源组织方法。
(2)政府文件的信息聚合单元分析
舆情应对决策方案制订需要参照相关的政府公文、行政法令、应急预案等。一般来说,政府公文、行政法令、应急预案等政府文件均具有较为统一规范的结构,本节接下来将对政府文件信息聚合的聚合单元进行分析。
①时间。通常指的是公文、法令或应急预案发布的时间、开始实施的时间、公开时间三类。一般来说,政府公文和法令的文本信息中会直接出现发布时间与开始实施时间,应急预案一般则没有,可以提取其公开时间。公开时间是指公文、法令或应急预案在互联网上发布的时间。
②机构。通常指的是公文、法令或应急预案的发布机构、适用机构两类。一般来说,从以上文件的文本信息中都会直接显示。
③人物或人群。通常指的是公文、法令或应急预案的适用人群。一般来说,从以上文件的文本信息中都会直接显示。
④地点。通常指的是公文、法令或应急预案的适用人群。一般来说,从以上文件的文本信息中都会直接显示。
⑤主题。一般来说,除了公文会在问候列出关键词以外,法令或应急预案均没有明确、具体的关键词或主题词,需要使用文本挖掘的方法从标题、正文或目录中提取主题词作为主题描述,根据关键词或主题建立起行政法令的检索入口,实现与网络舆情事件的对接。
(3)科研成果的信息聚合单元分析
科研成果的物理结构是较为规范的,一篇完整的论文、一本著作或一份科研报告的外表属性通常包括作者、作者所属机构、发表时间,内容属性包括标题、摘要、关键词、正文、参考文献、附录等8个部分构成。正文内容通常包括文字、图片、表格三种不同的表达方式。因此,其聚合单元包括:
①时间,通常包括发表时间与发布时间。
②地点,从辅助应对决策的角度看,地点应该指的是科研成果内容适用的地理空间。需要使用文本挖掘的方法获取。
③人物或人群,常指科研成果的作者或主要贡献者,除此之外,还可能包括成果所研究的对象。
④机构,常指作者所属机构,还可能包括成果所研究的对象。
⑤主题,通常可以直接从关键词中直接提取,为了保证全面性,还可以从正文分词后通过相应的主题分析获得。
科研成果一般可以从学术论文数据库(如CNKI、万方、维普、Elsevier等数据库等)、智库、科研项目官方网站、学术会议网站等获得全文或部分内容。
科研成果与网络舆情事件描述的对接方式有三种:关键词、主题、专家名称(科研成果的作者)。在不清楚该领域专家有哪些的情况下,通过关键词或主题获得相关成果信息。在了解专家的情况下,可以直接通过专家名称获得相关成果信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。