在数据仓库的应用中,用户要对大量的数据进行分析,从中提取数据中隐含的某些事物的发展规律和事物之间的联系,这时需要用到一些统计、建模、分析的技术与工具。数据挖掘(Data Mining)就是新兴的一种从大量数据中提取有用信息以支持管理决策的技术,它代表了决策支持解决方案的发展趋势。
1.数据挖掘的概念
数据挖掘,也可以称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理技术。数据挖掘的重要性就来源于数据仓库中巨大的数据量。数据仓库组合许多不同来源的信息,创建一个具有比任何单个数据源拥有更多列或属性的数据实例。尽管这会增加数据挖掘工具的精确度,但是也会使得人们很难对海量信息进行排序并寻找其中的趋势,而且,因为数据仓库中信息太多,从而无法完全利用每一条信息。所有这些因素,都促使人们对数据仓库使用数据挖掘工具。
数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索、查询、调用,而且要对这些数据进行统计、分析、综合和推理,以指导实际问题的求解,发现事物间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘的结果可以增加收入、降低费用,甚至二者兼而有之。为了实现数据挖掘,现在已经开发出许多软件工具,并且形成了若干产品。
2.数据挖掘的主要方式
数据挖掘的主要方式有以下4种。
1)分类:从大量数据中找出不同类别对象的特征,从而对新加入的对象自动分类。例如,银行按客户信用程度对客户分类,数据挖掘能找出每类客户的数据特征,快速判断一个新客户的信用类别。(www.daowen.com)
2)聚类:根据数据特征对数据对象进行自动归类。例如,超市可以将客户划分为互不相交的不同客户群,为不同的客户群推荐不同的目标商品。
3)关联规则发现:从大量数据中找出有关联的数据,或者找出同时发现的事件。例如,从超市的交易数据中发现哪些商品可能被同时购买,从而进行商品捆绑销售。
4)时序模式发现:寻找事件发生的时序关系。例如,分析超市数据,发现一个客户购买了一台电视机,几天后又买了摄像机,那么他在一个月内购买摄像机的概率为50%。
很多情况下,人们可能只是想对数据进行分析,但事先并没有把要解决的问题想清楚,对数据的利用便无从谈起。比如,作为商业经理,你可能隐约地意识到商品摆放的布局会影响销售额,但是却无法通过任何的数据查询来证实这一点。数据挖掘技术的诱人之处在于,它并不需要用户事先给出查询公式,而是利用先进的统计技术和内嵌的分析算法,自动对底层数据进行查找,在大型数据库(包括因特网上的数据库)中找出各种事实,帮助用户预测未来的数据动态,自动生成有关的模式和异常事件的假设。简单地说,数据挖掘技术可以帮助用户抽取隐藏在数据仓库中的商业模式、趋势和规则,从而帮助用户回答诸如“什么商品与什么商品摆放在一起销路更好”之类的问题。
数据挖掘的用途很多。在客户关系管理中,可以使用数据挖掘来发现使客户盈利的因素或促使客户转向竞争对手的因素;在医学领域中,可以使用数据挖掘来确定哪些过程更为有效,哪些病人最适合于做外科手术;在制造领域中,可以使用数据挖掘来确定哪些过程参数最能影响产品的质量;在市场营销领域中,可以使用数据挖掘来确定哪些客户更感兴趣于哪些特定商品或增加销售收入的方法,例如,沃尔玛就是利用这一技术发现了啤酒与婴儿尿布之间的潜在联系。一般看来,啤酒和尿布是顾客群完全不同的商品,但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好,原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒,因此啤酒和尿布一起购买的机会是最多的,而把啤酒与婴儿尿布摆到一起便成为最佳的经销策略。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。