美国Gartner公司在2017年的一份报告中披露,有33%的财富100强企业由于没有足够的能力来充分评估企业信息的价值、进行管理和予以信任而导致信息危机。在这些公司的信息中,有34%为冗余、过时或琐碎的数据,有52%是价值不明的“暗数据”。在信息社会,随着计算机网络、电话等通信技术的迅速发展,我们面临的“信息危机”不是信息匮乏,而是信息数量过剩的问题,即“信息爆炸”带来的问题,“没有控制和组织的信息不再是一种资源,它倒反而成为信息工作者的敌人”。
Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义,将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。
数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程、优化利益相关方的交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法和手段,即通过数据治理,来支持关键的业务目标:“为支持良好的业务决策提供可信、及时且相关的信息”。实现数据治理的方法主要有:元数据方法、主数据管理、数据清洗等。
1)元数据方法
元数据(Metadata)是对其他数据进行描述的数据(data about other data),或者说是用于提供某种数据资源的有关信息的结构数据(structured data)。其使用的目的在于:描述信息资源或数据本身的特征和属性,规定数字化信息的组织方式;具有对数据的定位、发现、证明、评估、选择等功能;能够识别数据资源、评价数据资源,以及追踪数据资源在使用过程中的变化;实现简单、高效地管理大量的网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用数据资源的有效管理。元数据的基本特点主要有:
①元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要。
②元数据是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
③由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
2)主数据管理
“主数据管理”(Master Data Management,MDM)描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有信息产生和使用中的利益相关方(如用户、应用程序、数据仓库、作业流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。
主数据管理的关键就是“管理”。主数据管理不会创建新的数据或新的数据纵向结构。相反,它提供了一种方法,使企业能够有效地管理存储在分布式系统中的数据。主数据管理使用现有的系统,它从这些系统中获取最新信息,并提供了先进的技术和流程,用于自动、准确、及时地分发和分析整个企业中的数据,并对数据进行验证。
主数据管理解决方案具有以下特性:
①能够在组织的整体层面上,整合现有纵向结构中的客户信息以及其他知识和深层次信息;
②能够共享所有系统中的数据,使之成为一系列以客户为中心的业务流程和服务;
③能够实现对于客户、产品和供应商等信息的使用者通过借助于主数据的形式,加速数据输入、检索和分析;(www.daowen.com)
④能够支持数据的多用户管理,包括限制某些用户添加、更新或查看维护主数据的流程的能力;
⑤能够集成产品信息管理、客户关系管理、客户数据,以及集成可以对主数据进行分析的其他解决方案。
由于主数据管理关联的方法和流程的运行,与企业的业务流系统以及其他系统彼此独立,因此这些方法和流程不仅能检索、更新和分发数据,还能满足主数据的各种用途。主数据管理通过将数据与操作应用程序实时集成来支持操作用途。主数据管理还通过使用经过授权的流程来创建、定义和同步主数据,从而支持依靠数据来实现协作的用途。最后,主数据管理通过事件管理工具,可以事先将主数据主动推送至分析应用程序来支持特定的分析用途,从而实现数据的智能化管理。
3)数据清洗
数据清洗(Data Cleaning)从名字上也看得出就是要把“脏”的数据“洗掉”,其在信息治理中指发现并纠正数据文件中可识别的错误,包括检查数据一致性、完备性与准确性,处理信息中存在的重复信息、无效信息和缺失信息。
数据清洗功能主要与数据仓库的应用结合。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来,而且往往包含历史数据,这样就避免不了有的数据是错误数据,有的数据相互之间存在冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。需要按照一定的规则把这些“脏数据”“洗掉”,这就是数据清洗。不符合要求的数据主要包括不完整的数据、错误的数据和重复的数据三大类。
数据清洗的主要操作包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足数据中存在的残缺值/空值、丢弃过时、无效的数据/变量。
4)主题数据库(Subject Database)
将各类信息加以过滤识别,再从全局出发,根据管理应用的需求,将信息按照不同的分类定义出“主题”。
主题数据库的基本特征有:
①面向业务主题。主题数据库面向业务主题组织和存储数据,例如,企业中需要建立的典型的主题数据库有:产品、客户、零部件、供应商、订货、员工、文件资料、工程规范等。其中产品、客户、零部件等数据库的结构,是对有关单证、报表的数据项进行分析整理而设计的,不是按单证、报表的原样建立的。这些主题数据库与企业管理中要解决的主要问题相关联,而不是与通常的计算机应用项目相关联。
②信息高度共享。主题数据库是对各个应用系统“自建自用”的数据库的彻底否定,强调建立各个应用系统“共建共用”的共享数据库。不同的应用系统按照需要调用并共享这些主题数据库,例如,库存管理调用产品、零部件、订货数据库;采购调用零部件、供应商、工程规范数据库等。
③一次一处输入。主题数据库要求调研分析企业各经营管理层次上的数据源,强调数据的就地采集,就地处理、使用和存储,以及必要的传输、汇总和集中存储。描述同一对象的同一数据,必须确保一次、一处进入系统,保证信息的准确性、及时性和完整性,经由网络→计算机→数据库系统→终端应用,可以多次、多处使用。
④由基本表组成。一个主题数据库的科学的数据结构,是由多个达到“基本表”(Base Table)规范的数据实体构成的,这些基本表具有原子性——基本表中的数据项是数据元素(即最小的、不能再分解的信息单元);演绎性——可由基本表中的数据生成全部输出数据(即这些基本表是精练的,经过计算处理可以产生全部企业管理所需要的数据);规范性——基本表中的数据满足数据规范化模式中第三范式(3-NF)的要求,这是科学的、能满足演绎性要求并能保证快捷存取的数据结构等特性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。