面对大数据,我们唯有积极应对,别无选择。如何应对,需要考虑以下几个方面:
(1)需要改变总体、个体乃至样本的定义方式
传统的统计分析,是先有总体,再有数据,即必须先确定总体范围和个体单位,再收集个体数据,分析总体。但对大数据来说,情况完全不同了,是先有数据,再有总体。从某种意义上说,大数据的产生系统多数是非总体式的,即无事先定义的目标总体,只有与各个时点相对应的事后总体,原因就在于个体是不确定的,是变化着的,是无法事先编制名录库的,这与传统的总体与个体有很大的不同。更为复杂的是,事后个体的识别也很困难,因为同一个个体可能有多个不同的网络符号或称谓,而不同网络系统的相同符号(称谓)也未必就是同一个个体,而且还经常存在个体异位的情况(即某一个体利用另一个体的符号完成某种行为),因此我们对于大数据往往是只见“数据”的外形而不见“个体”的真容。但对大数据的分析,仍然有一个总体口径问题,依然需要识别个体身份。这就需要我们改变总体与个体的定义方式——尽管它们的内涵没有变。与此对应,如果要从大数据库中提取样本数据,那么样本的定义方式也需要改变。当然,考虑到大数据的流动变化性,任何时点的总体都可以被理解为一个截面样本。
(2)需要改变对不确定性的认识
众所周知,统计学是为了认识和研究事物的不确定性而产生的,因为无论是自然现象还是社会经济现象,都时时处处充满着因个体的差异性而引起的不确定性,因为在大多数情况下我们缺乏足够的信息或缺乏足够的知识去利用有效信息,而人们总是期望通过量化事物的不确定性去发现规律、揭示真相,认识不确定性背后的必然性。要研究不确定性就需要收集数据,在只能进行抽样观测的情况下,这种不确定性就表现为如何获得样本、如何推断总体(包括估计与检验)和如何构建模型等方面。对于大数据,仍然存在着个体的差异性,区别只在于它包括了一定条件下的所有个体,而不是随机获得的一个样本。这样,大数据的不确定性就不再是样本的获取与总体的推断,而是数据的来源、个体的识别、信息的量化、数据的分类、关联物的选择、节点的确定以及结论的可能性判断等方面。可以说,大数据的不确定性只来自其来源的多样性与混杂性,以及由于个体的可变性所引起的总体多变性,而不是同类个体之间的差异性——因为我们已经掌握了一定条件下的完全信息。
(3)需要建立新的数据梳理与分类方法
大数据的多样性与混杂性以及先有数据、后有总体的特点,让原有的数据梳理与分类方法将受到诸多的限制。传统的数据梳理与分类是按照预先设定的方案进行的,标识与指标的关系、分类标识与分组规则等都是结构化的,既是对有针对性地收集数据的加工,也是统计分析的组成部分。但对于大数据,由于新的网络语言、新的信息内容、新的数据表现形式不断出现,使得会产生哪些种类的信息、有哪些可以利用的分类标识、不同标识之间是什么关系、类与类之间的识别度有多大、信息与个体之间的对应关系如何等,都无法事先加以严格设定或控制,往往需要事后进行补充或完善。面对超大量的数据,我们从何下手,只能从数据本身入手,从观察数据分布特征入手,这就需要采用不同的数据梳理与分类方法,否则,要想寻找到能有效开展数据分析的路径是不可能的。因此根据大数据的特点,创新与发展数据的梳理与分类方法,是有效开展大数据分析的重要前提。这里需要强调的是,能否建立起能自动进行初步的数据梳理与分类的简单模型,从技术上讲,我们已经具备了一定的对大数据进行多次迭代建模的算法。
(4)需要强化结构化数据与非结构化数据的对接研究
有效实现结构化数据与非结构化数据的对接,是数据概念拓展的必然结果。尽管大数据是超大量数据,但大数据不能涵盖所有的数据,因此传统意义上的结构化数据与大数据中的非结构化数据必将长期并存。大数据时代的来临,使得数据收集、存储与分析的能力大为增强,而且步伐越来越快,但出于针对性与安全性考虑,总有一些结构化数据要通过专门的方式去收集而不能依赖于公共网络系统(例如政府统计数据,专题研究数据)。这样,如何既能有针对性地收集所需的结构化数据,又能从大量非结构化数据中挖掘出有价值的信息,使两者相辅相成、有机结合,就成了一个新的课题,值得探讨的问题包括非结构化数据如何结构化或结构化数据能否采用非结构化的表现形式等。通过特定的方法,实现结构化数据与非结构化数据的转化与对接是完全可能的。但要实现这种对接,必须要增强对各种类型数据进行测度与描述的能力,否则大数据分析就没有全面牢固的基础。如果说传统的基于样本数据的统计分析侧重于推断,那么基于大数据的统计分析需要更加关注描述。
(5)需要转变抽样调查的功能(www.daowen.com)
对于传统的数据收集而言,抽样调查是最重要的方式。尽管样本只是总体中的很小一部分,但由于依据科学的抽样理论,科学设计的抽样调查能够确保数据的精确度和可靠性。但抽样调查毕竟存在着信息量有限、不可连续扩充、前期准备工作要求高等缺陷,很难满足日益增长的数据需求。现在有了大数据,我们应该利用一切可以利用的、尽量多的数据来进行分析而不是仅局限于样本数据。但这是否意味着抽样调查可以退出历史舞台,笔者认为还为时过早,在信息化、数字化、物联网还不能全覆盖的情况下,仍然还有很多数据信息需要通过抽样调查的方式去获取。与此同时,尽管我们可以对大数据进行全体分析,但考虑到成本与效率因素,在很多情况下抽样分析仍然是不错的或明智的选择。当然,抽样调查也要适当转变其功能以便进一步拓展其应用空间:一是可以把抽样调查获得的数据作为大数据分析的对照基础与验证依据;二是可以把抽样调查作为数据挖掘、快速进行探测性分析的工具——从混杂的数据中寻找规律或关系的线索。
(6)需要归纳推断法与演绎推理法并用
哲人培根说过“知识就是力量”。统计研究的任务就是为了发现新的知识,归纳法则是发现新知识的基本方法。因此,归纳推断法成为最主要的统计研究方法,使得我们能够从足够多的个体信息中归纳出关于总体的特征。当然,归纳推断的依据通常是样本数据,即在归纳出样本特征的基础上再推断总体。对于大数据,我们依然要从中去发现新的知识,依然要通过具体的个体信息去归纳出一般的总体特征,因此归纳法依然是大数据分析的主要方法。正如世界著名统计学家C.Radhalrishnna·Rao(简称C.R.劳)指出:“‘从数据中提取一切信息’或者‘归纳和揭示’作为统计分析的目的一直没有改变。”但是,大数据是一个信息宝库,光重视一般特征的归纳与概括是不够的,还需要分析研究子类信息乃至个体信息以及某些特殊的、异常的信息。或许它(们)代表着一种新生事物或未来的发展方向,还需要通过已掌握的分布特征和相关知识与经验去推理分析其他更多、更具体的规律,去发现更深层次的关联关系,去对某些结论做出判断,这就需要运用演绎推理法。演绎法可以帮助我们充分利用已有的知识去认识更具体、细小的特征,形成更多有用的结论。只要归纳法与演绎法结合得好,我们就既可以从大数据的偶然性中发现必然性,又可以利用全面数据的必然性去观察偶然性、认识偶然性、甚至利用偶然性,从而提高驾驭偶然性的能力。
(7)需要相关分析与因果分析并重
《大数据时代》认为,我们只需从大数据中知道“是什么”就够了,没必要知道“为什么”,并且指出“通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来”以及“建立在相关关系分析法基础上的预测是大数据的核心”。毫无疑问,从超大量数据中发现各种真实存在的相关关系,是人们认识和掌控事物、继而做出预测判断的重要途径,而大数据时代新的分析工具和思路可以让我们发现很多以前难以发现或不曾注意的事物之间的联系,因此大力开展相关分析是大数据时代的重要任务。但是,我们仅仅停留于知道“是什么”是不够的,还必须知道“为什么”,正所谓“既要知其然,更要知其所以然”,只有这样才能更好地理解“是什么”——为什么需要把手电筒与蛋挞放在一起。只有知道原因、背景的数据才是真正的数据。因此探求“是什么”背后的原因始终是人类探索世界的动力,因果分析是人类永恒的使命。哲学家德谟克利特早就指出:“与其做波斯国王,还不如找到一种因果关系。”如果我们只知道相关关系而不知道因果关系,那么数据分析的深度只有一半,一旦出现问题或疑问就无从下手。而如果我们知道了因果关系,就可以更好地利用相关关系,就可以更好地掌握预测未来的主动权,就可以帮助我们更科学地进行决策。当然,因果分析是困难的,正因为困难,所以要以相关分析为基础,要更进一步利用好大数据。相关分析与因果分析不是互相对立的,而是互补的,两者必须并重。
(8)需要统计技术与云计算技术融合
尽管用于收集和分析数据的统计技术已相对成熟、自成体系,但其所能处理的数据量是有限的,面对不可同日而语的大数据、特别是其中大量的非结构化数据,恐怕单凭一己之力是难以胜任的,只能望“数”兴叹。首先遇到的问题就是计算能力问题,这就要求我们在不断创新与发展统计技术的同时,还要紧紧依靠现代信息技术、特别是云计算技术。云计算技术主要包括虚拟化、分布式处理、云终端、云管理、云安全等技术,或者说以编程模型、数据存储、数据管理、虚拟化、云计算平台管理等技术最为关键。借助云计算技术可以将网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术与现代网络技术融合起来,把多个计算实体整合成一个具有强大计算能力的系统,并借助SaaS、PaaS、IaaS、MSP等商业模式把它分布到终端用户手中。云计算的核心理念就是不断提高“云”处理能力来减少用户终端的处理负担,使用户终端简化成一个单纯的输入输出设备,并能按需享受强大的“云”计算处理能力。可见,统计技术与云计算技术的融合是一种优势互补,只有这样统计技术才能在大数据时代一展身手、有所作为,才能真正把统计思想在数据分析中得到体现,实现统计分析研究的目的。
数据创造统计,流量创新分析。由于各个应用领域的不断变化,特别是数据来源与类型的不断变化,使得统计学还难以成为一门真正成熟的科学。因此,在数据分析的世界里,不断提高驾驭数据的能力是统计学发展的终身动力。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。