理论教育 数据仓库的定义与层级分析

数据仓库的定义与层级分析

时间:2023-11-24 理论教育 版权反馈
【摘要】:数据仓库之父W.H.Inmon在1991年出版的《Building the Data Warehouse》一书中指出:“数据仓库是一个面向主题的、集成的、非易失的、随时间变化的的数据集合,用于支持管理决策。”图8-16 数据仓库源于业务数据库因为数据仓库的数据几乎没有Update操作,数据可以冗余,所以数据仓库中的数据都会分层综合,一般包括原始数据、初步综合数据、中度综合数据、高度综合数据。

数据仓库的定义与层级分析

数据仓库(Data Warehouse)的最终目标是把企业范围内的所有数据集成在一个大仓库中,让用户能运行查询、产生报告、执行分析。

数据仓库之父W.H.Inmon在1991年出版的《Building the Data Warehouse》一书中指出:“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、非易失的(Non-Volatile)、随时间变化的(Time Variant)的数据集合,用于支持管理决策。”按这个定义,数据仓库应该是一个大的数据集合;数据仓库的目标是支持企业的管理决策;数据仓库的数据存储和组织方式是面向分析主题的,即根据分析主题的需求把所有相关数据组织在一起;数据仓库中的数据内容不再是零散或细节的,而是集成和综合的,已经消除了数据在表达上和含义上的不一致性;由于数据仓库中的数据加上了时间维度,数据修改的可能性就很小(除非后来发现把某个时间点的数据输错了),几乎不用传统数据库的Update操作,因此数据仓库是非易失的;另一方面,正是由于数据仓库中所有基础数据都是针对某时间点的,随着时间的变化,不断需要载入新的数据,或者淘汰旧的数据,即是随时间变化的。

数据仓库的数据来自许多不同的业务数据库,如图8-16所示,并按主题进行数据组织。数据仓库的数据导入一般需要ETL(Extract-Transform-Load,即数据抽取、转换、装载)工具,ETL过程包括数据抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Load)等环节,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

(www.daowen.com)

图8-16 数据仓库源于业务数据库

因为数据仓库的数据几乎没有Update操作,数据可以冗余,所以数据仓库中的数据都会分层综合,一般包括原始数据、初步综合数据、中度综合数据、高度综合数据。尽量保证在数据分析过程中不用重新从细节数据开始统计,而是直接查找到相关数据,节约数据分析的处理时间,快速支持企业的管理决策。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈