理论教育 数据清洗工具介绍及优缺点

数据清洗工具介绍及优缺点

时间:2023-06-07 理论教育 版权反馈
【摘要】:(一)工具的框架结构该数据检测和清洗工具的框架结构如图5-5-1所示。(二)工具的优缺点该平台是利用Delphi 7.0和SQL Server 2000相结合设计的。

数据清洗工具介绍及优缺点

(一)工具的框架结构

该数据检测和清洗工具的框架结构如图5-5-1所示。

978-7-111-50077-3-Chapter05-84.jpg

5-5-1 脏数据检测和清洗框架结构图

1.源数据库与目标数据库

源数据库存放着待检测和清洗的数据,目标数据库存放着清洗干净的数据,用于导入到数据库中。

2.DBMS

本工具中应用SQL Server 2000系统,也作为数据的准备区使用。清洗完的数据也暂时放在这里,待所有清洗工作完成之后,再由它将数据导出。

3.人机界面

使用Delphi 7.0设计的人机交互的前台界面,通过这里来完成数据清洗工作。

4.不完整数据检测

不完整数据检测主要包括两个重要组成部分,主键字段的连续性检测,以及重要字段的缺失值检测。通过设计相应的代码,将数据库中连续性主键违背连续性的缺失记录挑选出来,以及将重要字段的空值或缺省值记录整理出来,交由工作人员根据不同的情况进行不同的处理。(www.daowen.com)

5.不一致数据检测

不一致数据检测是指对数据库中不同表单的相同属性进行一致性检查,将检测出的不一致整理出来,交由工作人员进行添加或删除操作。

6.不准确数据检测

不准确数据检测的重点是发现数据中存在的错误、相似的重复记录等。对于连续型异常数据通过统计的方法进行简单的概化描述,鉴于神经网络、K均值聚类、回归分析等方法都有现成的清洗算法,本章并未对此进行开发;对于离散型异常数据,通过发现的相关规则,对离散型数据进行简单判断,发现其中的错误。对于相似重复记录,本平台对改进算法进行了实现,并加以应用。

7.数据清洗中心

数据清洗中心负责各个模块的协调工作,主要是负责相关模块对DBMS上数据的操作。

8.日志

对工具的日志进行管理,并与追溯,评估和修改。

(二)工具的优缺点

该平台是利用Delphi 7.0和SQL Server 2000相结合设计的。Delphi语言相对简单,使用者可以根据需要对平台进行修改。这样将数据检测和清洗的工作重点放到对数据本身的理解上去,以便在短期内找到合适的数据清洗方案。平台的人机交互过程中,利用的是Windows系统的消息驱动原理,从而可以随时对清洗过程进行实时监控;开发中利用数据库管理系统提供的功能,可以极大地减少程序的编制量。

平台的缺点主要表现在所检测和清洗的数据是数据准备区中的数据,而不是对事务处理系统中数据的实时清洗,当然即使是实现对事务处理系统中数据的实时清洗,也会极大地影响系统的运行效率。而且将数据的导入和导出功能交由SQL Server2000去实现,没有直接集成到工具中来。由于时间的关系,该工具作的还很不完善,主要是对本章的数据检测和清洗原理提供了一个简单的测试平台。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈