“大数据”在不同的学科领域、不同行业的从业人员肯定会有不同的理解。与传统意义上的数据相比,大数据的“大”与“数据”都有了新的含义,绝不仅仅是体积与数量的问题,更重要的是数据的内涵问题。或许,“大”与“数据”根本就不能分开,只有把“大数据”当作一个整体概念来理解才有意义。那么从统计学的角度,我们该如何来理解大数据。大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。目前通常用4V(Volume,Variety、Velocity和Value)来形容大数据的特征,最根本之处就是数字化基础上的数据化。通俗地说,大数据就是一切可记录信号的集合。
如果说,传统统计研究的数据是有意收集的结构化的样本数据,那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。基于样本数据所进行的分析,其空间十分有限——通常无法满足多层次、多角度的需要,若遇到抽样方案事先未曾考虑到的问题,数据的不可扩充性缺点就暴露无遗。而大数据是一切可以通过现代信息技术记录和量化的数据,不仅所蕴含的信息量巨大,而且不受各种框框的限制——任何种类的数据都来者不拒、也无法抵拒。不难发现,大数据相比于样本数据的最大优点是,具有巨大的数据选择空间,可以进行多维、多角度的数据分析。更为重要的是,由于大数据的大体量与多样性,样本不足以呈现的某些规律,大数据可以体现;样本不足以捕捉的某些弱小信息,大数据可以覆盖;样本中被认为异常的值,大数据得以认可。这将极大地提高我们认识现象的能力,避免丢失很多重要的信息,避免失去很多决策选择的机会。
这里,我们自然就想到了大量观察与大数据这两个概念中的“大”的区别。对于传统的统计研究方法而言,大量观察法是基础,是收集数据的基本理论依据,其主要思想是要对足够量的个体进行调查观察,以确保有足够的微观基础来消除或削弱个体差异对整体特征的影响,足以归纳出关于总体的数量规律。所以,这里的“大”是足够的意思。大量观察法的极端情况就是普查,但限于各种因素不能经常进行,所以一般情况下只能进行抽样调查,这就需要精确计算最小的样本量。基于大量观察法获得的样本数据才符合大数法则或大数定律,才能用以推断总体。而大数据则指不限量的数据,是基于现代信息技术的一切可以记录的全体数据,其特征之一就是尽量多地包含数据,它与样本容量无关,只与信息来源的数量与储存容量有关。因此,这里的“大”是全体的意思。(www.daowen.com)
可见,“大数据”与统计学的研究对象没有变,变的是数据的来源、体量、类型、速度与量化的方式,这种变化对统计研究带来了什么样的挑战。《大数据时代》提出了“大数据”与统计学的研究对象的三个最显著的变化:一是样本等于总体,二是不再追求精确性,三是相关分析比因果分析更重要。这些观点具有很强的震撼力,迫使我们对现有的统计研究思维进行反思。尽管这些观点值得进一步商榷,但至少告诉我们这样一个道理:统计研究对象的基础变了,统计思维也要跟着变化,否则统计研究的对象只是全部数据的一部分,而且所占比例越来越少,那又怎么能说统计学是一门关于数据的科学,又怎么去完善和开展数据分析研究的统计方法论。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。