数据清理是数据分析前的一个非常重要的环节,目的是为了清除数据中不符合要求的数据,提高数据的可靠性和利用率,保证数据的质量。数据清理通常分为三个阶段:第一阶段是原始数据的变量定义和错误分析阶段;第二阶段是搜索错误数据阶段;第三阶段是修正错误阶段。清理数据需要进行合并、删除、填补或其他操作。清理数据需要使用特定的工具,如SPSS等软件。
1.原始数据的变量定义
变量定义是数据清理最初执行的环节,包括界定变量名、加入说明标签等过程。通常在数据录入分析软件前,原始数据一般都采用Excel电子表格进行保存,对变量定义需要编写变量编码手册,确定每个变量的意义和用途,并对合法范围进行限定。
编码手册的制定是要形成有关变量、数据类型和编码等一系列的规则,这需要在熟悉监测项目和监测目标的基础上,明确每个项目的具体意义,形成详细的编码规则。
【示例】
表5-1 编码手册内容举例
变量定义。依据监测内容,把题目定义为一个或多个变量,学科试卷的每个项目变量由7位数字构成,第1位代表学科,第2位代表学段,第3~4位分别代表客观或主观题(也可以表示为相关内容维度),第5~6位代表题号,第7位代表小题号。如变量名为“C4SO061”,第1位C代表语文学科;第2位4代表四年级;第3~4位用“SO”或“SS”表示,分别代表客观题或主观题;第5~6位06代表通编题号第6题;最后一位代表该题下的小题号。问卷前3位区分学生、教师和校长,分别用“XSQ”“JSQ”“XZQ”表示,后4位数字表示题号,其中前2位代表大题,后两位代表该题的小题号。如XSQ1002,表示学生问卷第10大题第2小题。
异常情况处理。异常情况是指:监测实施过程中,学校提供信息错误;抽样时抽中的特殊被试人员的情况;临考前,原抽样的被试人员未到,被替换或缺席的情况;监测卷、答题卡缺失;网络错误、数据清理过程中发现的学生、教师、学校管理人员填涂过程中的不符合规定等特殊情况。
采集样本信息时,常常会出现部分学校提供的样本信息错误,这需要各级教育行政部门及相关科室协调配合。通过区县审核,确定上报信息的准确性。收集到样本信息后,通过联系基础教育科和计划财务科,对区县上报的数据进行对比核实,确保学校提供的信息正确。
2.原始数据的分析
原始数据包括扫描的机读卡数据和人工阅卷数据两类。进行数据清理时,需要对得到的原始数据有充分的了解,制定或掌握每一个变量的名称、正确格式、代表的含义、变量的属性、变量的数值范围及分布情况及变量间的关系等。根据变量形成的方式,猜测可能导致变量出现问题的可能原因,确定查找的方向、操作及如何修订等。最好能建立一个原始变量说明表,制定清理的原则。
【示例】(www.daowen.com)
表5-2 2015年监测数据清理说明
制定数据清理规则。根据数据可能存在的问题,制定重复、缺失、错误、异常等清理规则,确定对错误数据进行删除或者修正规则。
3.学科试卷的数据清理和处理
在对学科测试数据清理时要注重对编写的数据中变量名与实际试卷题号的对应关系,做好记录表,便于核对数据。通常可以对缺失的数据,采用录入“99”方式作为缺失标记(或已有标记)。对多选题,转换为0/1模式,即每个选项为一列,选择了记为“1”,未选择记为“0”。在清理选择题时,需要逐一核对各小题的答案和评分标准。对新生成的一列学生变量而言,需要计算出每个学生的缺失题目数量。在正式分析中删除在所有题目上都缺失的学生。查找特殊被试标记,在正式分析中删除这类学生变量。
4.调查问卷的数据清理
调查问卷主要用封闭式题目来进行数据收集,因此调查问卷的数据清理的关键在三个方面:一是编写数据中变量名与实际问卷题号的对应表,便于核对数据;二是确定问卷数据的缺失标准,即缺失比例达到多少以上的数据应删除,然后删除不符合标准的数据;三是针对反向计分的题目,需要将计分顺序调换,生成新的计分变量。
5.多库数据链接
对应量化数据的收集和清理通常是分类进行,完成后的数据需要链接形成多数据库模式,具体操作如下:
第一步,将监测卷数据和学生问卷链接,链接变量为学生编号。
第二步,将第一步中链接好的库与校长问卷和教师问卷链接。校长问卷可以直接按照学校编码链接,教师问卷上的变量要经过合成后,按照学校编码链接。教师问卷变量合成的方法主要有两种,一种是求均值合成,即求出一个学校所有教师的平均分,合成到学校层面,多针对连续变量,如教师的满意度、教师的工作量等;另一种是求比例合成,即求出一个学校某种类型教师的比例,再合成到学校层面,多针对两类变量,如教师的性别、教师的学历等(某种类型即选择报告中最想关心的类型)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。