理论教育 数据仓库:管理信息系统中的关键成功因素

数据仓库:管理信息系统中的关键成功因素

时间:2023-08-14 理论教育 版权反馈
【摘要】:20世纪80年代中期,William H.Inmon在其《建立数据仓库》一书中定义了数据仓库的概念。有资料表明,1996年以来全球企业在数据仓库上的投资以每年19.1%的速度增长,“幸福500”中已经有85%的企业建成或正在建立数据仓库。据IDC调查,数据仓库的平均投资回报率为401%。

数据仓库:管理信息系统中的关键成功因素

20世纪80年代中期,William H.Inmon在其《建立数据仓库》一书中定义了数据仓库的概念。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。随后许多人又给出了数据仓库的其他定义,其中较为精确的是:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库中的数据并非是最新的、专有的,而是来源于其他数据库。

978-7-111-44885-3-Chapter02-28.jpg

图2-23 数据表之间的联系

数据仓库技术是发展最快的IT应用增长点。有资料表明,1996年以来全球企业在数据仓库上的投资以每年19.1%的速度增长,“幸福500”中已经有85%的企业建成或正在建立数据仓库。据IDC调查,数据仓库的平均投资回报率为401%。数据库系统主要用于支持组织的联机事务处理(OLTP),比如及时收集业务运行、产品销售财务的数据,将其有效地存储和组织起来,提供及时性的报表,但是在对数据进行有意义的分析,支持决策支持系统的运行方面,数据库系统的能力十分有限。简单地说,数据库是支持联机事务处理(OLTP)的技术,而数据仓库是支持联机分析处理(OLAP)的技术。

1.OLTP和OLAP技术

企业数据处理方式主要两种,分别为联机事务处理(OnLine Transaction Processing,OLTP)和联机分析处理(OnLine Analytical Processing,OLAP)。联机事务处理,以事务处理的形式来处理信息,涉及对要输入的信息的收集和处理,再对收集和处理的信息加以利用,去更新已有的信息。OLTP是事件驱动,面向应用的,基本特点如下:

● 支持日常的业务。

● 事务驱动。

● 面向应用。

● 数据是当前的并在不断变化。

● 存储详细数据(每一个事件或事务)。

● 支持办事人员或行政人员

● 对应业务的变更频繁的存取。

联机分析处理是一种为支持决策而进行的信息处理方式,是跨部门的,面向主题的、基本特点如下:

● 支持长远的业务战略决策。

● 分析驱动。

● 面向主题。

● 数据是历史的。

● 数据反映某个时间点或一段时间。

● 数据是静态的,除数据刷新外。

● 数据是汇总的。

优化针对查询而不是更新。

● 支持管理人员和执行主管人员。

联机分析处理和传统的联机事务处理是两种性质不同的数据处理方式,它们之间的区别如下:

● OLTP主要用来完成基础业务数据的增、删、改等操作,如民航订票系统、银行储蓄系统等,对响应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性效率

● OLAP应用对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术,对数据进行分析和形成各种报表。

2.数据仓库的主要特点

数据仓库的建立并不是要取代数据库,它建立在一个较全面和完善的信息应用基础之上,用于支持高层决策的分析。它存储的数据在量和质上都与操作性数据库不同,其有如下特点。

(1)面向主题

与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,它能完整统一地刻画各个分析对象所涉及的企业中的各项数据,以及数据之间的联系。所谓较高层次是相对于面向应用的数据组织方式而言的,是指按照主题进行数据组织,具有更高的数据抽象级别。

(2)集成

数据仓库中的数据是从原有的分散的数据库数据抽取出来的。操作型数据与管理决策中的分析型数据之间差别很大。第一,数据仓库的每一个主题所对应的源数据分散在各个原有的数据库中,有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起。第二,数据仓库中的综合数据不能从原有的数据库系统直接得到。因此,在数据进入数据仓库之前,必然要经过统一和综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作包括如下两点。

● 统一数据源中所有矛盾之处,如字段的同名异义、异名同义、计量单位不统一、字长不一致等。

● 进行数据综合与计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生

成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

(3)不可更新(www.daowen.com)

数据仓库中的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。其中的数据反映的是相当长的一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,比如采用各种复杂的索引技术。同时由于数据仓库面向的是商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。

(4)随时间不断变化

数据仓库中的数据不可更新是对于应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,数据仓库中的所有数据都是永远不变的。

数据仓库的数据是随时间的变化而不断变化的,这主要表现在如下3个方面。

● 数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉联机事务处理数据库中变化的数据,追加到数据仓库中,也就是要不断地生成OLTP数据库的快照,经统一集成后增加到数据仓库中。

● 数据仓库随时间变化不断删去旧的内容。数据仓库中的数据也有存储期限,一旦超过了这个期限,过期数据就要被删除,只是数据仓库内的数据时限要远远长于操作型环境中数据的时限。在操作型环境中一般只保存60~90天内的数据,而在数据仓库中则需要保存较长时期的数据(如5~10年),以适应管理决策中进行趋势分析的要求。

● 数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间段进行抽样等。这些数据要随着时间的变化不断地进行重新综合。因此,数据仓库的数据特征都包含时间项,以表明数据的历史时期。

综上所述,数据仓库是以决策支持为主要目的的、面向主题的、集成的、非易失的、随时间变化的数据集合。数据仓库根据用户决策的要求,用新的、创造性的方式来关联数据。它从相关的业务系统和外部数据源中抽取历史数据,经过“净化”处理,消除其不一致性,并加以集成,从而建立起适合于最终用户进行业务分析的信息库。与数据库相比,数据仓库有许多新的特性,如表2-6所示。

表2-6 数据库与数据仓库的特点比较

978-7-111-44885-3-Chapter02-29.jpg

(续)

978-7-111-44885-3-Chapter02-30.jpg

3.数据仓库的体系结构

数据仓库用来存储已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。此外,数据仓库中还应存储元数据,记录数据的结构和数据仓库的所有变化,以支持数据仓库的开发和使用。客户应用供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果的工具。IBM、Oracle、Sybase、Informix、SAS Tnstitute、Prism Software等厂商都提出了自己的数据仓库解决方案和结构。构成数据仓库的最基本的框架,如图2-24所示。任何一个数据仓库结构都可以从这一基本框架发展而来,实现时往往还要根据分析处理的需要具体增加一些部件。

978-7-111-44885-3-Chapter02-31.jpg

图2-24 数据仓库的体系结构

(1)数据仓库管理系统

数据仓库管理系统用来实现数据仓库的安全和特权管理、跟踪数据的更新、数据质量检查、元数据的管理和更新、审计和报告数据仓库的使用和状态、存储管理等功能。

(2)数据集市(Data Marts)

数据集市指为了特定的应用目的或应用范围,从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(Subject Area)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,然后再将几个数据集市组成为一个完整的数据仓库。

(3)数据抽取工具

数据抽取工具可以把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本和SQL语句等,以访问不同的数据。数据抽取、数据转换和数据载入要包括以下内容:删除对决策应用没有意义的数据段;统一数据名称和定义;计算统计和衍生数据;给数据赋默认值等。

(4)元数据

元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理的数据,包括数据源信息、数据转换的描述、数据仓库内对象和数据结构的定义、数据清理和数据更新使用的规则、用户访问权限、数据备份历史记录、数据导入历史记录、信息发布历史记录等。商业元数据从业务的角度描述了数据仓库中的数据,包括业务主题的描述、报表等。

元数据为访问数据仓库提供了一个信息目录(Information Directory),这个目录全面描述了数据仓库中有什么数据,这些数据是怎么得到的以及如何访问这些数据。信息目录是数据仓库运行和维护的中心,数据仓库服务器利用它来存储和更新数据,用户通过它来了解和访问数据。

(5)信息发布

信息发布是把数据仓库中的数据或其他相关的数据发送到不同的地点或用户,基于Web的信息发布系统是应对多用户访问的最有效方法。

(6)访问工具

访问工具为用户访问数据仓库提供手段,包括数据查询和报表工具、联机分析处理

(OLAP)工具、数据挖掘工具等。

在整个体系结构中,数据仓库管理系统是整个数据仓库环境的核心,它存放数据并提供对数据检索的支持。相对于操作型数据库来说,其突出的特点是对海量数据的支持和快速的检索技术。

4.数据仓库的发展前景

数据仓库概念已经逐渐被接受,并在多个领域得到应用。比如在证券业,数据仓库技术可处理客户分析、账户分析、证券交易数据分析、非资金交易分析等多个业界关心的主题,这是证券业扩大经营、防范风险的预警行动。在税务领域中,通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与实际纳税金额进行对比,从而查出可能的偷漏税者。此外,数据仓库技术还在保险业银行业、营销业、保健业等客户关系管理中有广泛的应用。

随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也在不断发展。数据仓库已经在我国一些信息技术领先的企业中开始应用,宝钢是其中之一。中国的数据仓库市场前景广阔,更是充满无限商机

但是,数据仓库绝不是对数据库的替代。数据仓库和操作型数据库在企业的信息环境中承担着不同的任务(高层决策分析和日常操作性处理),并发挥着不同的作用。用于高层决策的数据仓库需要丰富的数据基础,存储的数据量庞大,同时要使数据仓库真正发挥作用,还要有层分析工具,因而数据仓库的成本一般比较高。对国内各公司和企业来说,是否建立数据仓库,取决于有没有相应的基础和需求,还要考虑成本和效益问题。总之,要具体情况具体分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈