关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,是知识发现(Knowledge Discovery in Database,简称KDD)技术研究的重要内容。随着数据的积累,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。关联规则挖掘算法是关联规则挖掘研究的主要内容。
描述有关关联规则,一定先来看一个经典的故事:“尿布与啤酒”的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多地了解顾客的购物习惯。特别是想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客购物数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。1993年,Agrawal等人首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,其核心思想是通过候选集生成和数据的向下封闭性检测两个阶段来挖掘频繁项集。迄今为止,Apriori算法的思想作为关联规则挖掘代表性算法被广泛优化、改进从而适应各个领域,通过对数据的关联性进行分析,从而得出这些数据在决策制订过程中存在的内在隐藏的相互规则信息或参考价值。(www.daowen.com)
Apriori算法被R.Agrawal等人提出之后,因为其推导过程简单易懂、接受面广、能够缩小候选集的范围等优势,很快成为关联规则挖掘技术中的代表算法,但是其在实际应用过程中,尤其是面对“爆炸”增长的海量数据时,其缺陷也很快突显出来:一是在迭代过程中产生大量的中间元素——候选项集,占用存储空间;二是需要重复扫描目标数据库不断地建立候选项集并循环查找,如此反复地扫描数据库将会对计算机造成巨大的I/O负载,时间开销增多,算法效率较低。另外,由于Apriori挖掘算法是将数据库中出现项目的频率作为发现信息的依据,是针对普通非频繁的规则,面对概率小但重要的事物无法察觉甚至忽略,但在现实生活中,每个项目的受重视程度必然是不同的,比如对于商业决策者而言,一般都会更倾向于考虑利润丰厚的产品,但利润高的产品却不一定是经常被交易,甚至交易的频率极低,此时原始的挖掘算法就会忽略对决策者有用的信息。通过在传统的常规关联规则算法中为每一个项目添加权值,就可以充分考虑到项目的重要性,从而有效地解决这个问题,使得关联规则挖掘在商业及其他的各实际领域都拥有了广泛的应用价值。
另外,随着社会物质文化的不断丰富,消费者群体的消费观念与消费能力也不断在进步。特别是电子商务的发展,依靠互联网的购物模式变得越来越平常。商家选择在电子商务平台上投放相应的广告,以吸引用户从而获得较高利润。网络广告的产生,主要由于网络上的信息传播为广告的投放提供便利并对盈利带来正面的促进作用。网络广告的合理投放在电子商务平台中,一方面可以极大吸引客源,刺激消费者积极消费,扩大经济收益,另一方面增加了商务平台的点击率和知名度。为使得广告投放更有针对性,满足不同的用户,从而最大化广告的价值,商家就需要为不同的用户提供不同的广告服务,即根据用户的个人喜好、商品购买频率,为处于不同消费水平的用户推荐符合该用户实际消费能力的商品。这样,关联规则的挖掘一方面可以使商户通过推荐商品吸引一些潜在客户,在竞争过程中博得一席之地;另一方面,消费者通过智能推荐系统的进行信息挖掘后归纳出的个性化推荐,就可以在有限的时间内迅速找到藏于众多商品之中自己理想的购买商品。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。