理论教育 数据来源及其质量探析

数据来源及其质量探析

时间:2023-06-17 理论教育 版权反馈
【摘要】:根据造成误差的原因不同,数据误差可以分为登记性误差和代表性误差。这就是说数据的适用性等同于数据的生命。

数据来源及其质量探析

2.2.1.1 数据来源

从调查主体角度看,数据主要来源于两种渠道:一种是通过直接的统计调查传感器获得的原始数据,一般称之为第一手或直接的统计数据,该数据是尚未经过整理的数据。另一种是他人获得的数据,这些数据一般都是进行加工汇总后公布的数据,通常称之为第二手或间接的统计数据。

2.2.1.2 数据质量

(1)数据的误差种类

数据的误差是指统计数据与客观事实之间的差距。无论采用哪一种获取数据的方式和方法,收集到的数据由于各种各样的原因都可能存在一定程度的误差。根据造成误差的原因不同,数据误差可以分为登记性误差和代表性误差。

①登记性误差。

登记性误差是指在调查过程中由于调查者与被调查者的人为原因形成的误差。其中,调查者的人为原因主要有总体界定错误、调查单位缺失、计算和测量错误、记录错误、抄录错误、汇总差错等;被调查者的人为原因主要有有意识地提供虚假数据、无意识地提供有误数据。从理论上说,登记性误差属于可以消除的误差。

②代表性误差。

代表性误差是指利用样本数据推断总体数据产生的误差。根据误差的特征不同,代表性误差又分为随机性误差和系统性误差两种。

随机性误差,这是由于随机性原因形成的误差,也可称为偶然性误差。随机性误差是不可以消除的误差,只要利用样本数据推断总体参数,就必然存在着随机性误差。但是,随机性误差是可以计算的,其取值随着样本容量的增大而减小,在抽样时通过抽取适当的样本容量,就可以将随机性误差依概率控制在一定范围之内。

系统性误差,这是由于非随机性原因形成的误差。产生系统性误差的主要原因有抽样框过于陈旧、非随机样本、无回答问题、辅助数据偏误等。系统性误差属于代表性误差,也是在利用样本数据推断总体参数时产生的误差,但是系统性误差不会随着样本容量的增大而减小,不能通过增大样本容量来实现对系统性误差的控制。系统性误差的特点类似于登记性误差,从理论上说,系统性误差同样属于可以消除的误差。

在现实统计调查过程中,系统性误差往往被人们所忽视,各类非随机样本,以及存在大量无回答问题的调查,都存在着显著的系统性错误。(www.daowen.com)

(2)数据的质量标准

数据的收集是统计活动的基础环节,所有统计数据的处理和分析都是在这一基础上进行的。对于数据质量的要求,具体可以归纳为数据的时效性、准确性、适用性和一致性4个方面的具体标准。

①数据的时效性。

数据的时效性就是指及时和准时获取统计数据。及时获取统计数据就是要在规定的统计调查时间内,保质保量完成统计调查工作,保证数据在时间上的效率;准时获取统计数据就是要确切地反映出统计调查对象在规定的调查时点上或在规定的调查时段中的数量特征,以保证统计数据在时间上的准确性和可比性。

②数据的准确性。

数据的准确性是指数据的真实性与精确性,即数据准确刻画目标现象的程度。真实性是数据准确性的一个显著特征,它是指调查数据要如实地反映每一个调查单位的真实状况。精确性是指样本数据与总体数据要尽可能靠近,这就要求数据要完整,调查单位以及调查项目要齐备;特别在抽样调查过程中,要求抽样误差在规定的许可范围之内。

③数据的适用性。

数据的适用性是指数据满足用户实际需要的程度。数据的适用性体现了数据的效用,如果调查人员花费大量时间与经费收集的数据,不是用户所需,或者不能为用户解决实际问题,那么这些数据即使满足准确和及时的要求,但从效用的角度对使用者而言,这些数据没有任何价值。这就是说数据的适用性等同于数据的生命。

④数据的一致性。

数据的一致性是指数据在时间与空间上具有连续性和可比性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈