理论教育 互联网环境下青少年体质健康促进的Apriori算法研究成果

互联网环境下青少年体质健康促进的Apriori算法研究成果

更新时间:2025-01-02 理论教育 版权反馈
【摘要】:要了解关联规则需要先了解Apriori算法。Apriori算法流程:a.扫描数据库,生成候选1项集和频繁1项集。

在一家超市中人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了,这是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了巨大的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?这是怎么做到的呢?这就是数据挖掘,需要对数据之间的关联规则进行分析,从而对消费者的购物选择进行预测分析。

5.3.1.1 基于关联规则的体育用品消费分析

在这个关联规则的启发下,我们收集参与健身休闲的青少年运动者的购买活动来分析其运动爱好

(1)假设I是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事物已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,这些阈值是根据挖掘需要人为设定。

表5-1 关联规则数据表

(2)用一个简单的例子说明。表5-1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,X^Y=3,D=6,支持度(X^Y)/D=0.5;X=5,置信度(X^Y)/X=0.6。若给定最小支持度α=0.5,最小置信度β=0.6,认为购买网球拍和购买网球之间存在关联。

5.3.1.2 Apriori算法概述

(1)Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛应用到商业网络安全、体育竞技等各个领域。Apriori算法是一种有影响力的挖掘布尔关联规则频繁项集的算法,很多的挖掘算法都是在Apriori算法的基础上进行改进的,比如基于散列(Hash)的方法、基于数据分割(Partition)的方法以及不产生候选项集的FP-GROWTH方法等。要了解关联规则需要先了解Apriori算法。

(2)Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。(www.daowen.com)

其中,Apriori算法具有这样一条性质:任一频繁项集的所有非空子集也必须是频繁的。因为假如P(I)<最小支持度阈值,当有元素A添加到I中时,结果项集(A∩I)不可能比I出现次数更多。因此A∩I也不是频繁的。

(3)Apriori算法流程:

a.扫描数据库,生成候选1项集和频繁1项集。

b.从2项集开始循环,由频繁k-1项集生成频繁k项集。

c.频繁k-1项集生成2项子集,这里的2项指的生成的子集中有两个k-1项集。使如有3个2项频繁集{a,b}{b,c}{c,f},则它所有的2项子集为{{a,b}{b,c}}{{a,b}{e,f}}{{b,c}{c,f}}

d.对由b.1生成的2项子集中的两个项集根据上面所述的连接逐步进行连接,生成k项集。

e.对k项集中的每个项集根据如上所述进行计算,舍弃掉子集不是频繁项集即不在频繁k-1项集中的项集。

f.扫描数据库,计算b.3步中过滤后的k项集的支持度,舍弃掉支持度小于阈值的项集,生成频繁k项集。

g.当前生成的频繁k项集中只有一个项集时循环结束。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈