理论教育 数据预处理方法优化:提高数据分析效率的关键步骤

数据预处理方法优化:提高数据分析效率的关键步骤

时间:2023-06-17 理论教育 版权反馈
【摘要】:数据预处理是数据整理的先期步骤,它是对数据分组前所做的必要处理,内容包括数据的审核、排序等工作。凡是不符合上述规定要求的,必然是数据有问题,必须查清。

数据预处理方法优化:提高数据分析效率的关键步骤

数据整理是将收集的各种原始数据条理化、系统化,使之符合统计分析的要求。通过整理可以大大简化数据,更有效地提供统计信息。数据预处理是数据整理的先期步骤,它是对数据分组前所做的必要处理,内容包括数据的审核、排序等工作。

2.2.2.1 数据审核

数据审核是指对原始数据的审查与核对。按照数据质量标准的要求,对于通过直接收集取得的原始数据,其审核的内容应主要包含以下4个方面:

(1)准确性审核

准确性审核主要从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。准确性审查可包括以下几个方面:

①逻辑性审查

它是利用逻辑理论检查数据之间有无矛盾。例如,人口调查中,少年儿童年龄段的居民,不应有婚姻情况,文化程度不应是大学毕业以上,职务不应是工程师以上等。如果出现已婚、高级工程师,显然在逻辑上是不可能的,要进一步查实、更正。

②比较审查法

它是数据之间进行比较方式审查。例如,规定某指标的数值必须大于或小于另一指标,某几个指标之和应小于或等于总和等。比如,一个地区的居民户数不能大于居民人数,固定资产净值必须小于固定资产原值等。凡是不符合上述规定要求的,必然是数据有问题,必须查清。

③设置疑问框审查

一般来说,数据之间存在一定取值范围与比例关系,利用这种范围和比例关系,可以设置疑问框,从而审查数据是否有疑问,如规定现价工业总产值销售,可以设置疑问框,从而审查数据是否有疑问,如规定现价工业总产值销售收入的比值不小于0.7,不大于1.5;工业净产值与现价总产值的比例不大于0.6,不小于0.2等。疑问框的设置不能相距过大,否则会遗漏有差错的数据;但是也不能过小,过小会使大量无差错的数据被检出来增加审查的工作量。因此,疑问框的设计必须由对数据资料情况十分熟悉的人负责,不能随意设置。(www.daowen.com)

(2)适用性审查

审查数据的适用性,主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。

(3)及时性审查

审查数据的及时性,主要是检查数据是否按规定时间报送,如未按规定时间报送,就需检查未按时报送的原因。

(4)一致性审查

审查数据的一致性,主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。

2.2.2.2 数据排序

数据排序是按一定规则,如大小、高低、优劣等次序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。在某些场合,排序本身就是分析的目的之一,例如美国的《财富》杂志每年都要在全世界范围内排出500强企业,通过这一信息,不仅可以了解自己企业所处的地位,清楚自己的差距,还可以从一定侧面了解竞争对手的状况,从而有效制订企业发展的规划和战略目标。

无论是数值型数据,还是非数值型数据的排序,都可以方便地使用各种计算机软件来实现,Excel就具有很强的数据排序功能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈