理论教育 基于清洗的数据质量改进策略

基于清洗的数据质量改进策略

时间:2023-06-07 理论教育 版权反馈
【摘要】:生产管理模块基于清洗的数据质量改进的过程分为以下几个步骤:1.进行“脏数据”的分析在进行清洗前,一个详尽的数据分析是不可缺少的。生产管理模块中数据清洗的关键就是根据发现的脏数据定义数据清洗规则,自动清洗数据或者将无法清洗的记录筛选出等待进一步处理。

基于清洗的数据质量改进策略

产生脏数据的原因是多种多样的,这些共同的因素导致了数据的不完整、不一致、不准确、不及时,由于不及时数据尚无法通过清洗方式的来发现,本章重点通过清洗的方式来发现系统中的不完整数据、不一致数据和不准确数据,从而提高ERP系统中生产管理模块的数据质量。

生产管理模块基于清洗的数据质量改进的过程分为以下几个步骤:

1.进行脏数据的分析

在进行清洗前,一个详尽的数据分析是不可缺少的。除了手动的检查数据外,还需要结合数据库中源数据的描述来发现一些规则,获取数据属性的描述。

2.定义检测和清洗规则

针对数据源中存在的脏数据形式,定义不同的清洗规则,有效地提高数据清洗的效率。生产管理模块中数据清洗的关键就是根据发现的脏数据定义数据清洗规则,自动清洗数据或者将无法清洗的记录筛选出等待进一步处理。其中清洗规则主要描述数据清洗的类型、错误数据的判断条件、错误数据的处理类型。

3.提取脏数据(www.daowen.com)

将系统中数据抽取到数据准备区,等待数据清洗。

(1)执行数据清洗

根据定义的规则对脏数据进行检测,一般来说,首先进行不完整数据的清洗,接着进行异常数据和相似重复记录的清洗,最后进行不一致的清洗。这是因为前面的清洗结果有可能会被后面直接利用。对发现的脏数据采取适当的方法进行处理,对不完整数据,采取适当的方法填充;对不准确数据中的异常数据进行修改,相似重复记录进行合并;对不一致的数据进行添加或修改。

(2)评估和验证

对整个数据清洗工作进行评价,尤其是对相关规则和算法的评价,实施进一步的改进,同时检验该过程中数据质量是否得到了提高。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈