与大数据给高校学生工作带来的冲击与挑战相比,更值得一提的是大数据给高校学生工作带来的机遇。最大的机遇便是大数据彻底变革了传统的思维模式。过去不可计量、存储、分析,甚至跟“信息”基本不搭边的事情都被数据化了,对数据的精确性我们更加宽容,也不再热衷于寻找事物之间的因果关系。拥有大量的数据和更多不那么精确的数据以及对于相关关系的关注,为高校学生工作打开了一扇新的大门,也成为学生工作者获得新认知和创造新价值的源泉。
(一)便于收集全体数据,进行工作延展
在过去的很长一段时间里,因为记录、存储和计算的技术不够发达,我们仅能分析少量数据,甚至出现了一些用尽可能少的数据预测未来趋势的技术和学科,比如统计学的目的就是用一小部分数据来预言其他重大发现,我们似乎已经习惯了用最少的数据获得最多的信息,于是在小数据时代,随机采样是一种重要的研究方法。随机采样使许多看似非常困难的问题得以实现,也大大提高了工作效率。比如,在调查学生对某个问题的看法和意见时,不必花费巨大的人力和财力对每个学生进行调查,而只需随机抽查一部分学生即可。随机抽样确实成为现代测量和研究领域的主心骨,取得了很大成功。但随机抽样是在不可能或是必须要花费巨大的精力才能完成对所有数据的收集和分析的情况下做出的无奈选择。
统计学家们证明,随机采样的精确性并不会随着样本数量的增加而增大,而是随着采样随机性的增大而出现大幅度提升,也就是说采样的随机性甚至比样本的数量更重要,这也是随机采样成功的关键。但要想真正实现采样随机性非常困难,一旦采样过程中出现一点偏差,分析结果就会有天壤之别。如果抽样的对象更加复杂,比如是一个学生网络,那么根本不可能找到一个最优的抽样标准,更别提要让抽样得到的小网络能够反映总体的所有特征。更糟糕的是,随机采样不适合用来对子类别进行单独考察,因为一旦继续细分,采样结果的错误率会大大增加。例如,一个对1 000名学生进行的调查,如果要细分到“大学二年级的少数民族女生”,调查的人数就远远少于1 000人了,即使是完全随机的调查,也不可能只用少数的人来预测整个学校大学二年级的少数民族女生的意愿。所以,当我们想了解细分部分的情况时,随机采样的方法就失效了。在宏观领域有效的方法在微观领域就不可取了。随机采样的结果只可远观,无法准确地聚焦到某个点。除此之外,由于随机采样是提前计划和安排好的,我们只能从采样数据中得到预设的答案和结果,而不可能采集到突然意识的问题或出现的新问题,所以随机采样的结果缺乏延展性,调查结果不能用来分析计划之外的其他目的。
而现如今,数据存储和计算能力变得简单容易,各种传感器和移动终端也收集了大量数据,当我们可以很轻松地获得数据的时候,采样也就失去了它原有的意义。随着大数据的发展,在教育领域,从收集部分数据到尽量收集全部数据已经成为可能,我们力争做到让“样本 = 总体”。通过利用所有的数据,我们可以对一些细节进行考察,甚至对某些子类别进行深层次的研究。需要注意的是,这里的大数据的“大”,取的是相对意义,并非所采集的数据量有多大,而是保留所有数据、丢弃随机分析的方法。Lytro相机就是将大数据运用到了摄影中。传统的相机只可以记录一束光,但Lytro相机可以记录所有光,最多可达1 100万束。因为可以捕捉到所有数据,所以用户没必要在一开始就聚焦决定生成什么样的照片,可以在拍摄之后再根据需要决定。所有的光束都被记录了,就相当于采集了所有的数据,因此这些照片不是一次性的,更具有可循环利用性。学生工作领域也是如此,学生工作关注每个学生的方方面面,既包括学生的思想动态、认知方式、行为举止、情感需求等,也包括各种随机性、即时性的动态与现象。大数据时代每个学生都是大数据的制造者、传播者、共享者和分析对象。[11]我们没必要事先决定需要哪些信息,而是尽可能多地收集所有学生的所有信息,并根据工作需要用大数据去探索新的论证和假设。
(二)益于接收混杂数据,提高工作效率
在传统的工作中,对“小数据”而言,收集到的数据十分有限,一旦任何一个地方出现细小的错误可能都会对全盘数据分析产生非常大的影响,所以在数据的收集和整理过程中,最基本也是最重要的就是减少错误,对数据的精确度要求非常苛刻。无论是家庭经济困难认定还是优秀学生评选,为了使结果更加准确公正,大部分学生工作者都致力于优化考核方法和测评手段。但是在大数据背景下,我们几乎可以掌握整个样本的数据,但为此也要付出一定代价,那就是有些不准确甚至错误的数据也会混杂进来。在大数据时代,允许不精确的出现已经不是缺点,而是一个新的亮点。大数据极强的容错性可以让我们对细小的错误忽略不计。例如,在每年度的家庭经济困难认定工作中,传统的做法是根据影响家庭经济情况的几项指标对所有申请学生的家庭经济情况进行量化评估,按其评估分值进行排序,初步判断学生的困难程度,并综合考虑学生的消费情况、操行表现等。由于学生消费情况无法准确衡量,所以对于影响家庭经济情况的几项指标数据的采集务必十分精确,但学生可能出现瞒报谎报等情况,要想获得精确的数据十分困难。在大数据时代,情况则完全不同。
除对几项指标进行量化外,还可以收集学生的校园卡消费信息、网上购物信息,甚至可以获取这部分学生的全部信息,由于数据量增大,因此不必拘泥于信息的极度精确,收集到的信息中也必然包含了很多不准确甚至错误的信息。但这海量的数据不仅能抵消数据不准确造成的影响,还能实时追踪更新每个学生的不同信息,提供更多的额外价值,在挖掘出我们想要信息的基础上,更能掌握事物的发展态势,真实、客观地认识和了解每个学生。(www.daowen.com)
除了接受大数据带来的内容方面的混杂性,其在结构方面也有很多混乱。学生在网络上以及各种传感器产生和捕捉了大量音频、图像、视频等信息,这些都是非机构化数据。目前,人类社会产生的数据中,只有5%是结构化数据,剩下的95%都是非结构化数据。正是这些看似不够精确、结构比较混乱的数据给我们打开了一扇提高学生工作效率的窗户。我们既不必花费大量的人力物力去寻找事物唯一的答案,也不必为了提高数据的精确性而付出很高的代价,更不必害怕某个单元或环节的信息错误而对全局结果产生不利影响。大数据教会我们不要纠结于信息的极度准确,而要接受更加纷繁复杂的数据,大数据绝不是海量数据优于少量数据那么简单,而是大数据的简单算法会比小数据的复杂算法产生更好的效果。
(三)利于挖掘关系实现工作预测
在小数据时代,我们更加注重分析事物的因果关系。根据自己的经验,从建立假设开始,然后采集数据和收集证据来论证自己的假设,假设要么被证实要么被推翻。但由于分析的本身是源于假设,整个过程难免会受到偏见的影响以及自身经验和阅历的限制,很容易导致错误。在小数据时代,我们也会进行相关关系分析,但由于数据采集困难,要想收集分析数据耗资巨大。并且由于计算能力欠缺,大部分相关关系分析都仅限于寻求线性分析,但实际情况绝非这么简单,经过复杂的分析,数据之间也存在非线性关系。在大数据背景下,可用的数据如此之多,相关关系真正发挥了它的价值。相关关系的核心是找出两个数据之间的数理关系。
相关关系是指一个数据会因为另一个数据的增加而增加。如果找到一个现象的关联物,相关关系可以帮助我们更方便、更快捷地分析现在和预测未来。如果A和B经常一起发生,只要我们观察到A发生了,就可以预测B也可能发生了,尤其当B是一个不易直接测量和观察的现象时,通过A就可以捕捉和推测B。相关关系虽然无法预知未来,但这完全是基于数据对未来的预测,不容易受到偏见的影响。众所周知,一个高校学生从刚入学到变成贫困生的过程,不会是瞬间的,而会逐渐暴露出问题。通过对数据的收集,我们可以事先发现该生要出现问题的信号,比如到课率下降、迟到早退现象严重、作业上交不及时等,这都为问题的发生敲响了警钟。我们把这些异常情况与正常情况进行对比,尽早重视该生的状况,就能在问题形成之前主动采取帮扶措施,防止事态恶化。
因此,大数据时代更加注重相关关系,而不是因果关系。通过找到一个关联物并监控它,我们就能知道将会发生什么,而不是为什么会发生。但实际情况是当我们知道了“是什么”,也就是进行相关关系分析后,我们又想知道“为什么”,于是会继续追问背后的因果关系。所以相关关系分析同时也是研究因果关系的前提,只有找出可能相关的事物,才能在此基础上进行因果关系分析,只有预测出问题的发生,才能及时地追寻问题根源并解决问题,相关关系分析在很大程度上能够在指导因果关系上起作用。
大数据时代带来了很多学生工作的思维变革,打破了很多常规理念和研究范式,但更多是带来了前所未有的新思路,将会推动高校学生工作方式的转变。这种巨大的价值和影响使我们对于大数据的理念和方法的选择将不再是一种利弊的权衡,而是一种必然的改变。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。