IAW算法的关联树设计

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：基于上述问题，本书作者提出基于增量式关联树的加权关联规则模型及算法，即利用关联树，运算求和计算项集支持数，不需要扫描数据库，对数据库的总体扫描次数减至一次；对决策树采取不剪枝而砍伐更新决策树的规则，以适应由于数据流产生漂移而降低决策树的计算精度。输出构建关联树，算法结束。由上至下计算各节点的支持度。IAW增量式自适应加权关联挖掘算法结束。

数据挖掘能够从大型数据库中提取或“挖掘”出人们有用的知识，甚至利用已有的数据对未来事物的变化趋势进行预测，关联规则是数据挖掘领域中的一个主要的研究内容，用于表明数据项集之间的规则或模式联系。

一些现有的关联规则算法有以下优势：

（1）针对Apriori算法会忽略概率小但重要性高的项目可能生成过多无趣关联规则的缺陷，引入权值思想，提出功效加权关联度的算法，避免重要事物被忽略的可能性。

（2）针对常规关联规则算法的缺陷——重复扫描目标数据库且生成大量不必要的候选项集，引入关联树思想，降低时间的消耗及空间的占用。

（3）研究加权关联规则挖掘算法中通用的定义和模型，引入k－频繁项支持期望作为频繁项支持度阈值的计算依据。

（4）不剪枝，避免数据流不是一次输入的特点而误剪枝的现象发生。

（5）当频繁集支持度的排序发生变化时，说明数据流产生漂移，引入时效加权关联支持度算法，对失效数据进行舍弃，使得所建立的关联树随着数据的更新，实时变化，所以该算法适应具有数据漂移的数据流的关联分析。

存在的不足之处：

（1）算法中，凭经验定义的参数较多，这样算法不够稳定。

（2）由于为了减少算法所需的存储空间，对失效数据进行舍弃，所以会丢掉一些数据信息。

基于上述问题，本书作者提出基于增量式关联树的加权关联规则模型及算法，即利用关联树，运算求和计算项集支持数，不需要扫描数据库，对数据库的总体扫描次数减至一次；对决策树采取不剪枝而砍伐更新决策树的规则，以适应由于数据流产生漂移而降低决策树的计算精度。

下面给出IAW增量式自适应加权关联挖掘算法流程。首先给出构建关联树的算法流程。

算法：加权关联挖掘算法

输入：事务数据库i＝1，2，…，n，D＝D1∪D2∪…∪Dn；

最小支持度、最小置信度阈值；

T＝｛t1，t2，…，tn｝，时效加权支持度权值向量V＝｛v1，v2，…，vn｝；

功效加权支持度权值向量H（tn）＝｛h1（tn），h2（tn），…，hm（tn）｝，这里tn为当下时间段的时间标签；

输出：关联树

步骤：

（1）扫描数据库D1，D2，…，Dn，建立矩阵形式数据库。

（2）按支持计数从大到小进行排列，更新事务数据库矩阵形式。

（3）对各项按支持计数从大到小进行排列，按表顺序建立第一层第一节点。(www.daowen.com)

（4）在剩余的事物中选取第一个出现的项，作为第一层的第二个节点，以此类推，建立第一层的其他节点。

（如表6.12中的项B是建立的第一层第一节点，事务序号为｛t，1，2，3，5，6，7｝，在剩余的事物中｛t，4，8，9｝选取第一个出现的项F，作为第一层的第二个节点，事物序号为｛t，8，9｝，以此类推，建立第一层的其他节点，这里t＝t1，t2，…，tn是时间标签）

（5）对于每一个第一层节点继续生成下一层的节点，其生成原则是排在第一层节点项后面的项为第二层节点，如B项的下一层节点只能是F，A，C，E，D，以此类推，继续生成第三层等，直到叶节点，这里按式（6.4.1）和式（6.4.2）计算支持数和支持度。

（6）输出构建关联树，算法结束。

其次给出IAW增量式自适应加权关联挖掘算法的算法流程。算法：IAW增量式自适应加权关联挖掘算法；

输入：事务数据库i＝1，2，…，n，D＝D1∪D2∪…∪Dn；

最小支持度、最小置信度阈值；

T＝｛t1，t2，…，tn｝，时效加权支持度权值向量V＝｛v1，v2，…，vn｝；

功效加权支持度权值向量H（tn）＝｛h1（tn），h2（tn），…，hm（tn）｝，这里tn为当下时间段的时间标签；

输出：D1，D2，…，Dn中的频繁项集L；

步骤：

（1）扫描数据库D1，D2，…，Dn，建立矩阵形式数据库。

（2）按支持计数从大到小进行排列，更新事务数据库矩阵形式。

（3）构建关联树。

（4）每一个节点作为一个存储点，存储事务经过寻址到该节点的频数d＝d1＋d2＋…＋dn，其中di为第i时间段的事务在该节点的频数（这里n不宜取值太大，否则增大存储空间），对于更新事务矩阵形式数据库中所在行的顺序，事物的第一个取值为1的项为第i项，则该事物进入到第一层的第i项节点，该事物第二个取值为1的项为第j（i＜j）项，则进入到第i项节点后的第二层的第j项节点，以此类推，直到寻址到该事物的取值为1的最后一项为止，并在该节点的存储数加1。

（5）由上至下计算各节点的支持度（这里按式（6.4.2）和式（6.4.3）计算数和支持度）。若上层的节点的项不是频繁集，则该枝的所有下层的项都不是频繁集，即不再计算其下层的支持度。以此计算下去。

（6）数据集Dn的最后一个事物判断完成并进入叶节点后，执行（7）。

（7）输入当下时间段的数据集 pagenumber_ebook=206,pagenumber_book=195 ，并赋值Dn＝。