理论教育 关联分析:对象关联性和相关性分析

关联分析:对象关联性和相关性分析

时间:2023-11-23 理论教育 版权反馈
【摘要】:关联分析用于分析对象之间的关联性和相关性。关联规则是关联分析的技术之一。在关联规则的分析中暂且忽略这些信息,并且为了表示的简洁性而忽略了每个商品的具体品牌和规格等信息。

关联分析:对象关联性和相关性分析

关联分析用于分析对象之间的关联性和相关性。关联规则是关联分析的技术之一。关联规则概念最早源于对超市购物篮的分析(Market Basket Analysis),用于分析顾客一次购买的商品之间的关联性,即哪些商品经常被一起购买,这从一定程度上反映了顾客的购买行为模式。这种模式可以被用于辅助旅游产品零售的运营管理,例如旅游商品的布局陈列、旅游线路的促销策略、旅游餐饮、住宿、交通等的采购管理等方面;还可以用于发现不同旅游消费领域数据之间的关联,通过分类、聚类等其他挖掘任务,进而研究其相关性。

1.频繁模式与关联规则

以购物篮分析为例,关联规则用于分析顾客一次购买的商品的关联性。为了进行此类分析,需要记录顾客每次购买的所有商品,记录该信息的数据库被称为交易数据库(Transaction Database),以便记录购买数量、价格和折扣等详细信息。在关联规则的分析中暂且忽略这些信息,并且为了表示的简洁性而忽略了每个商品的具体品牌和规格等信息。

2.频繁项集的典型挖掘方法

关联规则的挖掘一般分为两个步骤:第一步发现所有的频繁项集;第二步从频繁项集中发现关联规则。典型的挖掘算法包括Apriori算法、FP-growth算法、Eclat算法等。挖掘闭合频繁项集的典型算法包括CLOSET+算法、CHARM算法等。例如,逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由小到大逐级进行的,即首先发现频繁1项集,然后发现频繁2项集……最后发现频繁N项集。在发现过程中为了减少需要检查的项集的个数、提高发现效率,该算法充分利用了一个项集如果是不频繁的,则其所有超集一定也是不频繁的规则。

3.关联规则的其他类型

对于购物篮分析,需要利用商品的类别层次信息进行关联分析,发现包含负项的模式及规则,以及将交易数据库推广到结构化表的数据中。

(1)多层次关联规则

(www.daowen.com)

图11-8 概念层次树

如果只对顾客购买的商品细节进行关联分析,有可能出现某些商品出现频率太低的情况,如果将商品进行归类,属于一类的商品的支持度会大于其包含的每个商品的支持度,从而有利于发现一些有意义的频繁模式或关联规则。为此研究者提出了多层次关联规则的挖掘方法,商品的类别信息通常可以利用概念层次树来表示,如图11-8所示的是有关景区旅游体验的概念层次树。

在概念层次树中,结点代表具体的景区旅游体验类型,而其上层结点代表其类别信息。如果一个结点A和结点B之间存在一条从A指向B的有向边,则A称为B的双亲结点,B则为A的子女结点,从根结点到一个结点A的路径中的所有除A外的结点都是A的祖先,同时A也是这些结点的子孙结点。结点的层次从根结点开始,根结点的层次为1,根结点的子女结点的层次为2,以此类推。利用项的概念层次信息不仅可以发现涉及那些出现频率比较低的旅游体验的频繁模式和关联规则,而且还可以发现概括性更强的规则。为了发现包含不同层次商品的频繁模式,可以将交易数据库进行更新,将一行中每个商品的所有祖先结点都添加到该行中,与其他项同等对待,利用频繁模式和关联规则的挖掘算法可以发现类似“观赏体验-审美”或“观赏体验-拍照”等类型的关联规则。当然,引入概念层次信息也会有一些问题存在,例如,挖掘效率变低、发现冗余的关联规则等。如果一个规则中的项是另一个规则中的项的祖先,则称前者是后者的祖先规则。例如规则“观赏体验-互动体验”是规则“审美-模仿”的祖先规则。如果一个规则和其祖先规则具有近似相同的置信度,则该规则称为冗余规则。为了减少发现的规则数目,可以将冗余规则从输出的结果中删除。

(2)负模式

如前所述,集合I{i1,i2,i3,…,ik}包含了交易数据库中出现的所有项,当项Ik没有出现在某个给定的交易中,我们称该项对于该交易是个负项;与此对应,出现在该交易中的每个项互称为正项。一个包含负项的项的集合称为负项集。一个负项集的支持度如果不小于用户给定的最小支持度,则称为频繁负项集。负项集和负关联规则统称为负模式。为了发现负模式,如果将未出现在一个交易中的所有项都以负项的形式加人是不行的,因为毕竟出现在交易中的项的个数是很少的,可以只将那些频繁出现的项或所关注的某些项加入。

(3)结构化数据中的关联分析

交易数据库可以看作是非结构化的形式,我们也可以将其转化为结构化的表的形式存放。方法是将集合I中的每个项都作为一个属性,对于某个交易,如果某项出现在此交易中,则相应的该属性的取值为1,否则取值为空(或为0)。同样对于存放在关系数据库表中的数据,我们可以利用关联分析的方法发现其中的频繁模式和关联规则。对于类别取值的属性,将每个取值转化为“属性=值”的形式,以便更好地理解所发现的频繁模式或关联规则。对千取值连续的属性,首先将其离散化,然后将每个取值区间作为一个值,继而转化为“属性=值”的形式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈