信息技术与经济社会的交汇融合引发了数据迅猛增长,包括来自各行各业日常业务工作的管理数据、对大自然或动植物的特点和变化进行监控而产生的环境数据、社交媒体环境下用户生成的内容、科研数据等,其发展各有先后、来源各不相同,并且在以不同形式如潮水般涌来。Gartner公司在一份研究报告中指出,数据的爆炸是“三维的”,分别是:同类型数据的数量快速增长、数据增长速度在不断加快、数据来源和种类不断增加[8]。IDC的一份报告则测算到2020年全球数据总量超过40ZB(相当于4万亿GB,是2011年的22倍),其中有33%左右的数据能被分析利用,从而产生有价值的信息[9]。埃森哲认为,2020年,数字经济从2015年占全球GDP的22%增加到25%[10]。我国高度重视信息化工作,提出了“大力推进信息化,加快建设现代化”的战略方针,先后出台了一系列重要政策文件,涉及国家信息化发展战略、信息资源开发利用、电子政务建设、政务信息公开等多个方面。特别是在中共中央办公厅、国务院办公厅《关于加强信息资源开发利用工作的若干意见》中,就加强信息资源的公益性开发利用和服务提出了明确的要求。国家信息中心《全球信息社会发展报告2017》显示,2017年全国信息社会指数为0.4749,比上年增长4.60%,在全球126个国家中排第81位,在55个“一带一路”沿线国家中排第35位,在亚洲35个国家中排第19位,到2020年前后全国信息社会指数达到0.6,全国有38个城市已经进入信息社会,其中深圳、广州、北京三个城市信息社会指数超过0.8,已经进入信息社会发展中级阶段。2017年全国数字生活指数为0.5443,移动电话指数、电脑指数和互联网指数分别为0.5781、0.4960、0.5589,移动电话指数开始负增长,电脑指数有所提高,互联网指数继续提升[11]。
来自社会管理领域的网络舆情数据的产生同样呈指数级增长趋势,如何收集、管理、分析和利用这些数据正在日渐成为社会管理者必须面对的一个重要挑战。科学研究领域和社会应用领域最近几年对于网络舆情的研究兴趣稳定且持续的增长,主要表现为这一领域涌现出了大量的信息资源、监测系统、文本挖掘应用程序,然而这一领域仍然面临着巨大的科研挑战和应用挑战。
一方面,在Web2.0时代,人们的信息传播力正在被激发出来,一个人的声音在网络效应下可以被迅速放大,并传播到人群的各个角落,同时很多个体都受到他们所接收到的带情感倾向的文本信息的影响。因为个体间高度互联的特性,现实中的社会关系影射到虚拟空间,在人们虚拟空间也建立起各种社会关系,现实社会关系和虚拟社会关系之间相互影射,单个节点产生的内容不再是孤立、零散地分布在现实中,而是同时存在于虚拟空间,使得虚拟空间中个体之间的对话、政府与民众之间的对话(官方舆论与公众舆论)、消费者与商家的对话(产品评论)成为实时泛在的社会政治和商业状态[12]。自媒体的出现以及其持续发展,免费的、可获取的用户生成数据量和传感器产生的数据量均达到了前所未有的数值。这一数量是非常庞大的,而且单个文本资源长度较短、特征稀疏,资源碎片化和个人化特征明显,人类想在一个合理的时间内理解全部数据已经变得不现实、不可能,这也就是为什么科学界对一种具备从多来源数据中获取信息的能力的研究兴趣持续高涨的原因。(www.daowen.com)
另一方面,从文本内容、格式以及扩展的角度来讲,可获得信息的多样性也是前所未见的。在网络舆情事件中,公众意见经由网络传播,散见于各种电子传播载体,表达方式各异,这正是网络舆情信息分析者所要解构的,然而由于上网习惯、“沉默的螺旋”以及抽样统计方法等原因,从网络上归纳的意见,并非现实中全部、真实的民意,某种程度上就难免出现雅斯贝尔斯所言的“意见的幻象”情况[13]。确实,整体上看,从微博、论坛等用户自生成的内容中获取的信息是不充分、不全面的,用户往往不会过多在意其表达的语法或完整性,然而,科研领域中的综述相关的数据会更多并且遵循更为严格的语法规则[14]。所以,当试图去开展任何信息分析的时候,需要容纳不同的思维方式和思考角度。尤其是网络舆情分析,在总结网络民意、评价事件性质和提出应对建议时,应在综合利用多源信息的情况下谨慎断言,避免以偏概全。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。