数据仓库的主要思想:建立一个虚拟的集成数据库,存储现有的、真实的历史数据,从而尽可能地减少物理上和语义上的不一致问题,使现有的数据不仅可以应用于简单的事务处理,也可以用于管理目的。数据仓库的概念可描述为,数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。也就是说,数据仓库是把分布在企业网络中不同信息岛上的商业数据转换成公共的数据模型并集成到一起,存储在一个单一的集成关系型数据库中,即数据仓库是集成信息的存储中心。利用这种集成信息,可方便用户对信息的访问,便于决策人员对一段时间内的历史数据进行分析,研究事物发展的趋势,进行辅助决策。
数据仓库一般包括以下3 个基本的功能部分:
(1)数据获取。数据获取是数据进入仓库的入口,它负责从外部数据源获取数据。数据被区分出来,进行复制或重新定义格式等处理后,准备载入数据仓库。
(2)数据存储和管理。该部分负责数据仓库的内部维护和管理,是数据仓库最为关键的部分,提供的服务包括数据存储的组织、数据的维护、数据的分发、数据仓库的例行维护等。(www.daowen.com)
(3)信息访问。该部分属于数据仓库的前端,面向不同种类的最终用户,其性能主要集中在多维分析、数理统计和数据挖掘方面,而多维分析又是数据仓库的重要访问形式。相应地,进行数据访问的软件工具主要是查询生成工具、多维分析工具和数据挖掘工具等。互联网的发展使得多维分析领域的工具和产品更加注重提供基于Web 的前端联机分析界面,而不仅仅是在网上发布数据。数据仓库的最终用户可以通过访问提取信息、分析数据集、实施决策。
作为数据仓库系统三要素之一的信息访问部分,是最终用户从数据仓库中提取信息、分析数据、实施决策的必然途径,其最终目的也是面向高层的决策支持,但用于决策支持的信息必须通过数据挖掘才能获取。事实上,数据仓库无论是在纵向上还是在横向上都为数据挖掘提供了更广阔的发掘空间。一方面,由于数据仓库完成了数据的收集、集成、存储、管理等工作,使得数据挖掘面对的是经初步加工的数据,从而能更专注于知识的发现;另一方面,由于数据仓库所具有的新的特点,又对数据挖掘技术提出了新的更高的要求。因此,数据挖掘技术要充分发挥潜力,必须和数据仓库的发展结合起来。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。