理论教育 解密啤酒和尿布的关联规则

解密啤酒和尿布的关联规则

时间:2023-06-09 理论教育 版权反馈
【摘要】:所谓关联,就是几个物品或是事情同时出现,且相互之间会有牵连和影响,啤酒和尿布就是两种关联物品。以啤酒和尿布为例,如果最终发现了它们的关联规则,可以用公式表示为:Support(支持度)≥10%,Confidence(置信度)≥70%。在啤酒和尿布的关联规则中,能够看出大部分购买尿布的顾客还会同时购买啤酒。

解密啤酒和尿布的关联规则

有一项特别有意思的调查,就是在一家超市中,啤酒和尿布这两种看起来没有任何联系的产品,它们的日销售量竟然呈同比增长,因此很多超市就把啤酒和尿布摆放在了同一商区,让人惊奇的是,这个办法竟然同时使两种产品销量上升了。

这不是在开玩笑,而是来自沃尔玛超市的一个真实案例,直到现在还被很多商家乐此不疲地讨论着。原因是这样的:很多妈妈在家看孩子,她们常常嘱咐下班回家的丈夫顺便买尿布回来,而丈夫买尿布的时候就顺带买了自己最爱的啤酒。

这个有趣的发现为商家带来了利益,但在这么不计其数又七零八落的数据中人们是怎么发现啤酒和尿布的连锁效应呢?我们又能得到什么启发?

其实就是关联!所谓关联,就是几个物品或是事情同时出现,且相互之间会有牵连和影响,啤酒和尿布就是两种关联物品。关联,表示事件间的依存或关联。从英文词典中能够查出relevance和association两个单词都有关联的意思,都用来表示事件间的相关程度。但relevance多用于互联网,例如搜索引擎算法中文档之间的关联性;而association多用于实际事物之间的联系,例如出售商品间的关联度;associationrules则表示关联规则。

若两个或者两个以上的事物间有关联,那我们就可以根据其中一个事物的数值去推测其他事物的数值。简单来说,我们可以用这样的公式来表示关联性:A→B,A是前提或者左部,而B则是结果或者右部,假如我们想要表示尿布和啤酒之间的关联性,就可以这样写:买尿布→买啤酒。

1.关联算法的两个概念

支持度(Support)是关联算法的概念之一,就是数值表示了物品集中出现次数的概率。例如今日售出了2000件产品,其中同时售出尿布和啤酒的数量是200件,这样得出了关联的支持度是10%。

信度(Confidence)是关联算法的另一概念,表示了数据集中出现A时,发生B的概率,置信度是这样计算的:A和B同时出现的概率/A出现的概率。

数据关联是数值中能被发现的一种重要数值。如果两个或者两个以上的事物发生的变量互相间有规律性,就是关联。简单关联、时序关联、因果关联又是关联常见的几种存在方式。我们挖掘数据关联是为了找出数据中各数值间的关联度,很多时候不知道或者不确定数据中的关联函数,就需要用到置信度这个规则。

发掘数据间的规律性就是寻找关联规则,这在数据关联中是个很有意义的题目,且这几年被很多行业普遍钻研。分析关联规则能够找出各项物品间的销售规律,表示出消费者的购买行为规律,也就是买了一种物品对其他物品产生的影响。研究出这些关联和结果有助于商店的营业,比如商品和货架应该如何摆放、库存放在哪里,以及从购买模式分析顾客分类等。

2.关联规则的发展步骤

第一,重复操作辨别所有的频繁项目集,直到频繁项目集的支持度高于用户最低值。

第二,在频繁项目集里设定高于用户最低值的置信度,以形成关联规则。由此看出,辨别所有频繁项目集是关联规则的核心内容,而且计算量很大。(www.daowen.com)

支持度和置信度这两种临界值对于关联规则来说是非常重要的概念。支持度是反映事物发生的频率,是数据库的重要项目。置信度是量度关联规则的真实度。

3.挖掘关联数据的阶段

第一阶段是组合所有大数据资料,先发现高频项目组。

高频是相对于整体记录的,其中某一事物出现的次数过于频繁。以项目组A和B举例,先找出项目组的支持度,如果支持度≥最小支持度,那么A和B整体就是高频项目组。以v表示项目组包含的事物数量,达到最小支持度的v-itemset就是高频v-项目组,也可称为Largek或Frequentk。

第二阶段,是从高频项目组发生关联规则。

以最小可信度为前提,根据高频v-项目组来形成规则,找到满足最小可信度的规则,就产生了关联规则。要想产生关联规则,挖掘交易记录,首先要为最小支持度与最小可信度设定数值。举个例子解释,如果最小支持度为10%且最小可信度为70%,那么能够同时匹配这两个数值的才是关联规则。

以啤酒和尿布为例,如果最终发现了它们的关联规则,可以用公式表示为:

Support(支持度)≥10%,Confidence(置信度)≥70%。

Support≥10%在这个案例中表示:在所有商品的成交记录中,至少有10%的啤酒和尿布被同时购买。Confidence≥70%在这个案例中表示:在尿布的所有成交记录中,至少有70%的尿布交易同时会购买啤酒。

在啤酒和尿布的关联规则中,能够看出大部分购买尿布的顾客还会同时购买啤酒。所以,如果有顾客购买了尿布,商店就可以试着询问顾客是否需要购买啤酒。我们还可以依据关联规则去判定商店的货架拜访和推荐行为。

通过上述分析,还能发现关联规则比较适合在交易记录中指标取极差的方式。若是整体数据库中的指标值是连续性的数据,那么在挖掘关联规则前,应该把连续变化的数值分区间也就是离散化,在挖掘关联规则中,数据离散化是很重要的一项,只有进行合理正确的离散化,才能导出精确的关联规则。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈