(1)基本情况简述[11]
为了与大数据相对应,将传统的数据分析称为小数据。传统数据分析与大数据有着本质意义上的区别,要充分理解大数据,两者的对比分析是必不可少的。
首先,传统数据分析是基于结构化、关系性的数据,往往是取一个很小的数据集,来对整个数据进行预测和判断。但现在是大数据时代,理念已经完全改变了,存储和管理的是整个数据全集,涉及大量的结构化和非结构化的数据。
第二,以前的分析是小样本分析,所以往往要用小样本来预测整个数据全集的特性,这就决定了所采集的小样本必须是高品质的,单位数据价值要高,否则预测出来的结果就会出现很大偏差。现在的大数据分析是对数据全集的分析,所以要对数据的一些噪声有一定的包容性,能够消除噪声,并在大量的单位价值较低的数据中挖掘信息。
第三,原先传统的数据分析重视因果关系,而大数据重视相关关系。传统数据分析是根据小样本数据的分析对全局数据进行分析和预测,所以在整个预测分析过程中往往采用因果关系的推理过程。现在的大数据分析因果关系并不是关注点,而是基于对整个数据全集的分析,侧重关联性的分析和规律性的分析。比如啤酒往往跟尿布的销售同步上升,那么在大数据的分析下,我们不需要了解为什么啤酒和尿布的销售量会同步增长,只需要知道尿布和啤酒是同步上升就可以了,基于这个结果就可以制定很多商业策略和营销手段。
第四,现在的数据往往是海量的,特别是很多新兴的数据,具有很强的时效性,打破了原先数据先收集、清洗、存储,然后进行分析的滞后手段。很多分析的需求往往是实时的,需要边采集,边分析,这也是大数据分析的另一大特性。
(2)案例详述[12]
我们可以通过一个案例来直观感受大数据和传统数据分析的区别,案例来自大众比较了解的学校方面。
传统数据中,一个学生读完9年制义务教育产生的可供分析的量化数据基本不会超过10kb,包括个人与家庭基本信息、学校与教师相关信息、各门各科的考试成绩、身高体重等生理数据、图书馆与体育馆的使用记录、医疗信息与保险信息等,以及其他类别的评估数据。这样的数据量,一台较高配置的普通家庭计算机加上初级的EXCEL或SPSS软件就能进行5000名以下学生量的统计分析工作;而双核处理器加上ACESS、SurveyCraft等软件的配置足以完成整个区域学校的学生的高级统计运算。这样的工作一般只需要中级水平的教育与心理统计知识,一套可供按部就班进行对照处理的数据分析模板,以及两三个月的操作培训就能基本胜任。(www.daowen.com)
大数据的分析则完全是另一种层面的技术。根据美国著名的课堂观察应用软件开发商Classroom Observer的研究,在一节40分钟的普通中学课堂中一个学生所产生的全部数据约有5~6GB,而其中可归类、标签、并进行分析的量化数据约有50~60MB,这相当于在传统数据领域中积累5000年的数据总和。而要处理这些数据,需要运用云计算技术,并且需要采用Matlab、Mathematica、Maple等软件进行处理并进行数据可视化。而能够处理这些数据的专业人才一般来自数学或计算机工程领域,需要极强的专业知识与培训。更为困难的是,大数据挖掘并没有一定的方法,更多需要依靠挖掘者的天赋与灵感。
大数据与传统数据最本质的区别体现在采集来源以及应用的方向上。传统数据的整理方式更能够凸显群体水平——学生整体的学业水平、身体发育与体质状况、社会性情绪及适应性的发展、对学校的满意度等。这些数据不可能,也没有必要进行实时地采集,而是在周期性、阶段性的评估中获得。传统数据反应的是教育的因变量水平,即学生的学科学习状况如何、生理健康与心理健康状态如何、对学校的主观感受如何等问题。这些数据,完全是在学生知情的情况下获得的,带有很强的刻意性和压迫性——主要会通过考试或量表调查等形式进行,因此也会给学生带来很大的压力。
而大数据有能力去关注每一个学生的微观表现——他在什么时候翻开书,在听到什么话的时候微笑点头,在一道题上逗留了多久,在不同学科课堂上开小差的次数分别为多少,会向多少同班同学发起主动交流?这些数据对其他个体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过程性的:课堂的过程,作业的过程,师生或学生之间的互动过程之中……在每时每刻发生的动作与现象中产生。这些数据的整合能够诠释教育微观改革中自变量的水平:课堂应该如何变革才符合学生心理特点?课程是否吸引学生?怎样的师生互动方式受到欢迎?……而最有价值的是,这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此它的采集也非常的自然、真实。
所以,综合以上的观点,我们不难发现在教育领域中,传统数据与大数据呈现出以下区别:
1)传统数据诠释宏观、整体的教育状况,用于影响教育政策决策;大数据可以分析微观、个体的学生与课堂状况,用于调整教育行为与实现个性化教育。
2)传统数据挖掘方式、采集方法、内容分类、采信标准等都已存在既有规则,方法论完整;大数据挖掘作为新鲜事物,还没有形成清晰的方法、路径以及评判标准。
3)传统数据来源于阶段性的、针对性的评估,其采样过程可能有系统误差;大数据来源于过程性的、即时性的行为与现象记录,其采用的第三方、技术型的观察采样的方式误差较小。
4)传统数据分析所需要的人才、专业技能以及设施设备都较为普通,易获得;大数据挖掘需要的人才、专业技能以及设施设备要求较高,并且从业者需要有创新意识与挖掘数据的灵感而不是按部就班地开展工作,这样的人才较为稀缺。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。