数据质量是数据治理的重要内容,也是企业最为头疼的数据管理问题,数据质量管理应涵盖数据质量问题的预防、识别、度量、分析、监控和清洗等管理活动,需要针对问题的根源,从制度、组织、流程、工具和绩效考核等方面入手,多措并举方能见效。
1.数据质量与数据质量管控
数据是信息系统生产的产品,既然是产品,就存在质量问题,但数据的质量与有形产品的质量还不尽相同。人们对数据质量的认识也是逐步深化的,在20世纪80年代之前,国际上对数据质量的人事集中在准确性方面,但随着对该问题研究和实践的深入,准确性不再是数据质量的唯一评价标准。
目前,一般认为数据质量是一个广义的概念,是数据产品满足指标、状态和能力的特征总和。高质量的数据至少要满足以下几大特点:一是准确性,在录入、转换、分析、存储、传输和应用流程中不存在错误;二是完整性,数据应用或要求的所有记录字段都存在;三是一致性,体现在整个数据的定义和维护方面,确保数据在企业使用的整个过程中是一致的;四是时效性,衡量指标是在指定的数据与真实的业务情况同步的时间容忍度内,即指定的更新频度内,及时被刷新的数据的百分比;五是可靠性,提供数据的数据源必须能够可靠稳定地提供数据。
与有形的产品类似,数据质量也需要进行有序管理,所谓数据管理,是指在数据产品的生产过程中,确定数据质量方针、目标和职责,并通过质量策划、质量控制、质量保证和质量改进来实现所有管理职能的全部活动。针对数据质量管理活动,麻省理工大学开展了全面数据质量管理(Total Data Quality management,TDQM)活动,借鉴了物理产品管理的有效经验,提出了数据产品的质量管理模型,具体如图8-11所示。
图8-11 全面数据质量管理模型
如图8-11所示,数据质量管理分为4个阶段:第一,定义,定义数据质量要求,反映数据提供者、生产者和管理者对于数据产品不同角度的质量要求;第二,度量,根据数据产品及其数据质量定义,确定质量评价指标体系,评价数据质量;第三,分析,分析质量问题出现的原因;第四,改进,根据分析结果,采取措施消除产生质量问题的根源,进而改进数据质量。
2.数据质量问题产生的原因分析
当前多数企业的数据质量管理还处于初级阶段,在组织架构、制度流程及技术平台方面还未建立全局性的管理机制,这导致数据质量问题频频出现,最常见的是以下6种情况。
● 定义缺失:缺少关键元素定义,导致对同一元素的理解不一致。
● 数据异常:系统的个别字段出现异常信息,如乱码、取值错误和格式错误等。
● 信息缺失或不准确:系统数据录入不准确、不完整,重点是纳税人信息。
● 系统间数据不一致:系统之间同一数据不一致,通常是系统不集成所致。
● 数据完整性问题:主要是系统表之间的参照完整性出现问题。
● 代码问题:系统之间代码不统一,没有编辑代码,或者出现意外代码。
产生这些数据质量的问题是很多的,总体说可以分为信息、流程、技术和人员等4个方面,具体的原因分析如图8-12所示。
(1)技术问题域
技术类问题是指由于具体数据处理的各技术环节异常而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。技术类数据质量问题主要产生在数据创建、数据获取、数据传递、数据装载、数据使用和数据维护等环节,具体描述如下。
● 数据创建质量问题主要包括:业务系统数据延迟入库、创建数据默认值不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效和记录重复等。
● 数据获取质量问题主要包括:采集点不正确、取数时间点不正确,以及接口数据在获取过程中失真。例如:编码转换处理错误或精度不够,导致指标统计结果不一致或数据无效等。
● 数据传递质量问题主要包括:接口数据及时率低、接口数据漏传和网络传输过程不可靠,如包丢失、文件传输方式错误、传输技术问题和协议使用不当导致的数据不完整等。
● 数据装载质量问题主要包括:数据清洗算法、数据转换算法、数据加载算法的错误和调度机制不合理等。
● 数据使用质量问题主要包括:展示工具使用错误、展示方式不合理和展示周期不合理等。
● 数据维护质量问题主要包括:数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据等。
(2)信息问题域
信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题。产生这类数据质量问题的原因主要有元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。
图8-12 数据质量问题产生的原因分析
数据度量主要包括完整性、唯一性、一致性、准确性和合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。(www.daowen.com)
信息类问题中易引起描述及理解错误的元数据主要包括以下两个。
● 业务元数据:主要包括业务描述、业务规则、业务术语和业务指标口径等。
● 技术元数据:主要包括接口规范、执行顺序、依赖关系、ETL转换、数据建模和工具等方面的内容。
(3)流程问题域
流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题。流程类问题主要来源于BI系统的数据创建流程、数据传递流程、数据装载流程、数据使用流程、数据维护流程和稽核流程等各环节,具体描述如下。
● 数据创建流程质量问题主要指操作员数据录入时缺乏审核流程。
● 数据传递流程质量问题主要指通信流程沟通不畅。
● 数据装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误。
● 数据使用流程质量问题主要指数据使用流程缺乏流程管理。
● 数据维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程,以及对人工后台调整数据没有严格的流程监控。
● 稽核流程质量问题主要指缺乏数据检查及问题反馈流程。
(4)人员问题域
管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,管理类问题主要包括人员的管理、培训和激励等方面的措施不当导致的管理缺失。人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;人员管理所产生的质量问题主要指缺乏管理目标、责任人缺失或有关人员缺乏责任心,以及工作的优先级安排不当;人员激励所产生的质量问题主要指缺乏奖惩制度、奖惩制度的执行不到位、激励反馈渠道不畅和缺乏反馈机制。
3.数据质量问题产生的规律
质量问题的产生还有自身的规律,数据质量问题主要在数据产生环节,其次在数据集成环节的数据加工过程,数据使用环节由于原则上不对数据做修改,基本不产生数据质量问题。而数据质量问题的发现则基本呈相反特征,数据集成环节由于是内部数据的一个最主要汇聚点,因此通常是数据质量问题暴露最多的环节;数据使用环节是数据质量问题频繁暴露的另一个环节,很多质量问题都在使用时首次发现,如图8-13所示。
图8-13 数据质量问题产生与发现的基本规律
因此,数据质量管理应当涵盖从“数据产生”到“数据集成”再到“数据使用”在内的全过程,要形成一个数据质量的发现——修正——跟踪——评估的闭环流程。
4.数据质量管控措施优化建议
数据发生质量问题的原因虽然很多,但人员、流程、业务系统前端录入、业务系统后端数据库设计、数据抽取及数据加载等是产生问题最多的环节。其中人员、流程和业务系统前端录入主要依靠制度来进行控制,业务系统后端数据库设计、数据抽取和数据加载等主要依靠技术来进行控制,具体如图8-14所示。
因此,数据质量管控可以从制度和技术两个方面入手,总体措施可以概括为:健全管控机制、建立管控平台,实现对数据的生成、处理、使用和消亡等生命周期各阶段中数据质量全面掌控,有效提升数据的质量。
(1)健全数据质量管控机制
以数据标准为基础,以质量审计为手段,完善数据质量控制的制度和流程,配以严格的奖惩促使促进数据质量的提升。企业要尽快制定和完善《数据质量管理办法》,完善数据质量管理流程,优化数据质量考核标准和奖惩机制,依靠严格的制度确保数据质量的稳步提升。
图8-14 数据治理问题产生及控制措施分类
(2)实施数据质量管理系统
数据质量管理应涵盖数据质量问题的预防、识别、度量、分析、监控和清洗等管理活动,这些工作紧靠手工很难完成,必须要有工具的支持。企业级的数据质量管理平台建设至关重要,它是数据质量问题发现和解决的日常工作平台,依据该平台可以设定数据质量检核规则及数据质量统计指标,识别和统计数据质量问题,大大提高数据质量管控的水平。建议企业尽快引入数据质量管理系统,开展数据质量的监控、审计和逻辑校验,并对有问题的数据及时核实和更改,提升基础数据的准确性和可信度。
总之,数据质量的改进是一项长期的任务,需要从组织、制度、流程和质量管理工具等多个层面持续改进。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。