理论教育 数据仓库与数据挖掘技术介绍

数据仓库与数据挖掘技术介绍

时间:2023-05-24 理论教育 版权反馈
【摘要】:(一)数据仓库与数据挖掘技术简介1.数据仓库技术数据仓库为商务运作提供结构与工具,以便系统地组织、理解和使用数据进行战略决策。为此,W. H. Inmon被尊为数据仓库之父。目前用于数据仓库的主要技术包含数据管理技术、数据存储技术和数据仓库接口技术。在数据管理技术中包含大批量数据管理技术、数据仓库索引与数据监视技术、元数据管理技术、数据压缩技术和复合键码技术。

数据仓库与数据挖掘技术介绍

电子商务运行过程中,将会有大量的电子数据产生。这些数据包括产品目录、顾客信息、交易信息、供应商和与售后服务有关的数据。数据的表现形式既有文本数据与字符数据,又有数值型数据和图形数据。起初,各种商业数据仅仅存储在计算机的数据库中,然后发展到对数据库中的商业数据进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘不仅能对过去的数据进行查询与遍历,对企业的信息流和整个交易过程进行有效的控制,可以更好地分析交易行为、了解顾客、了解供应商、了解自身的优劣势,及时发现企业中的隐患,能够找出数据之间的潜在关系,并进行各种决策,从而加大了信息应用的深度。随着海量数据收集、强大的多处理器计算机和数据挖掘算法三种技术的发展成熟,数据挖掘技术在商业应用中得到广泛的重视。

(一)数据仓库与数据挖掘技术简介

1.数据仓库技术

数据仓库为商务运作提供结构与工具,以便系统地组织、理解和使用数据进行战略决策。它是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息做出策略性的决策。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界,数据仓库是一个有价值的工具。W. H. Inmon在1993年所写的论著《Building the Data Warehouse》系统性地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。为此,W. H. Inmon被尊为数据仓库之父。W. H. Inmon在《Building the Data Warehouse》中将数据仓库定义为“一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。

从W. H. Inmon关于数据仓库的定义中,可以看出数据仓库有以下主要特征。

(1)面向主题的。主题是在较高层次上将数据进行综合归类的一个抽象概念。每个主题对应一定的客观分析领域,每个领域都有自己的逻辑内涵而互不相交。所谓“面向主题”是指数据仓库中的信息按主题组织的,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据间的关联关系。例如,一个企业管理信息系统有计划、生产、销售等应用子系统分别处理生产计划、生产进度、订单等各自的业务信息,但对用户提出的如“某种产品的投资回报率是多少”这样的问题,原系统是无法回答的,必须在已有信息系统的基础上按照主题如产品、客户、投资、收益等重新构造数据。

(2)数据的集成性。集成性是指数据仓库的数据是从原有的分散的数据库中经过分析抽取出来的,不是业务数据的简单拼凑与汇总。数据仓库的每个主题对应的源数据是按照应用逻辑组织的,且可能分散在不同结点,在抽取和集成数据时要消除数据冲突和不一致,要进行数据综合和计算,以得到所需的结构数据。

(3)数据是时变的。数据仓库中存储的是一个时间段的数据,而不仅仅是某一时刻的数据。可变性主要体现在三个方面:数据仓库随时间变化不断增加新的内容;数据仓库随时间变化不断删去旧的数据内容;数据仓库中包含有大量的综合数据。这些综合数据中很多是与时间有关的。

(4)数据的非易失性。数据仓库的数据非易失性是指数据仓库中的数据不经常进行更新处理,数据仓库涉及的数据操作主要是数据查询而不是数据更新,其所需数据反映的是一段时间内的历史内容而不是联机处理的数据。联机处理仅处理当前数据,如处理订单的应用程序总是显示库存的当前值,不同时间的查询一般会得到不同的结果。但存储在数据仓库中的数据可以准确地表示过去某段时间的数据,历史数据是不会改变的。也就是说,数据的非易失性可以支持不同用户在不同的时间查询相同的问题时,获得相同的结果。

数据仓库是数据库和联机事务技术发展和应用深化的产物,它建立在一个较全面和完善的已有数据信息的基础上对数据库进行重新组织和集成,面向分析应用且为制定决策提供所需的数据信息。

数据仓库组织和管理方法和普通数据库不同,主要体现在三个方面:数据仓库是多维的,即数据仓库的数据组织是多层次的;数据仓库支持决策处理,不同于普通的事物处理;数据仓库中的数据来源于普通数据库,但数据是依据决策要示精选的,并经过一定的处理。目前用于数据仓库的主要技术包含数据管理技术、数据存储技术和数据仓库接口技术。在数据管理技术中包含大批量数据管理技术、数据仓库索引与数据监视技术、元数据管理技术、数据压缩技术和复合键码技术。数据存储技术包含多介质存储设备的管理技术、数据存储的控制技术、数据的并行存储与管理技术、可变长技术和锁切换技术。数据仓库接口技术包含多技术接口技术、语言接口技术和数据的高效率加载技术。

2.数据挖掘技术

数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。

从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以用于信息管理,查询优化,决策支持和过程控制等。

从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。(www.daowen.com)

从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,预测客户行为,帮助决策者调整市场策略,从而减少风险,辅助做出正确决策。它是提高商业和科学决策过程中的质量和效率的一种新方法。

从数据库的角度看,数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的信息的高级处理过程。从中可以看出,数据挖掘是一个高级的处理过程,它从数据库中识别出用模式表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一个螺旋式上升过程。

简而言之,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有大规模数据库、高效的计算能力、经营管理压力和有效的计算方法后的产物,是从存放在数据库、数据仓库或其他信息库大量数据中挖掘有用知识的一个过程。

(二)数据仓库、数据挖掘技术与电子商务

数据仓库、数据挖掘技术在近几年蓬勃发展起来,为电子商务环境下的企业提供了强大的信息处理工具,对电子商务的支持是全方位的,这些工具对电子商务的支持可以概括为以下几个部分。

1.数据收集、存储和组织

对于参与电子商务的企业而言,运营过程中要运用和产生大量的数据,这些数据不仅仅只是企业内部,还包括大量的外部数据,数据分布分散,内容和特征的多样性都给企业进行数据存储和数据分析带来了很大的困难。随着经济全球化,一方面,企业与外部环境的关系越来越紧密,客观上要求企业既要对内部数据进行收集,还要积极主动地去收集外部微观和宏观环境的数据,为企业经营、管理与决策服务;另一方面,企业在市场经济中谋生存,而市场是瞬息万变的,在电子商务环境下,对变化的快速反应成为企业生存和发展的一个必要条件,这也要求企业能够获得基础性数据、生产力数据、竞争性数据和资源配置方面的数据,并能高效率地对数据进行组织和分析,从而及时制定策略,采取措施。

数据仓库作为一种新兴的、实用的、功能强大的解决方案,将数据分主题的、有组织的,系统地进行存储,在较高的层次上对分析对象进行了完整、统一的描述,保证了数据的完整性和一致性。因而,企业就必须采取这种数据仓库的数据存储思想,利用先进的存储工具来解决企业数据收集、存储和组织的棘手问题。

2.数据分析和知识挖掘

电子商务环境下的企业在经营过程中积累的数据越来越多,逐渐形成了海量的数据。这些海量的数据中隐藏着许多重要的信息,管理者希望能够对其进行更高层次的分析,以便更好地利用有价值的数据。由于传统的数据库系统缺乏数据分析和挖掘数据中隐藏的知识的手段,交易数据形式的复杂多样以及数据规模的庞大更使传统的决策支持无能为力。为提高数据的利用率,企业十分需要能够从海量的数据中快速地挖掘出有意义、有价值的知识,以及支持管理者经营决策的技术。而数据挖掘就是从数据中抽取有价值的信息,它可以帮助企业从数据仓库中识别出有效的、新颖的、潜在有用的以及最终可理解的知识,这些知识可以指导企业高层管理人员进行管理决策,帮助管理人员发现企业隐患,及时对企业的产品、市场、价格与服务进行调整,降低企业的经营成本,增加企业经营战略成功的机会。

3.决策支持

由于电子商务交易的全球化,电子商务市场变化频繁,从而加大了企业预测市场动向和规划经营管理策略的难度。在这种环境中,电子商务的决策就显得更加重要了。企业可以利用数据仓库和数据挖掘技术对电子商务的海量数据进行分析,让企业的决策者灵活地操纵企业的数据,从多方面和多角度以多维的形式来观察电子商务企业的状态和了解企业的变化,了解企业自身、了解客户、了解竞争对手、了解合作伙伴,并根据分析的结果做出正确的决策,随时调整经营策略,以适应市场的需求,赢得市场。

通过数据仓库技术,收集、整理和存储涉及网上客户消费行为的大量信息,然后利用数据挖掘技术对数据进行加工和处理,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,并推断出相应消费群体或个体的下一步的消费行为。然后,对不同的消费群体进行特定内容的定向营销的营销策略,提高营销效果。

数据仓库和数据挖掘技术可以通过交易方特征、交易种类、支付手段等多种角度对历史数据进行分析,挖掘出交易特性,及时地发现虚假行为现象,避免不良行为的发生,避免企业遭受不必要的损失,提高企业的经济效益、客户的满意度和企业的信誉。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈