最经典、最具影响力的挖掘频繁项目集的算法是Apriori算法,由Rakesh Agrawal等人于1994年提出,该算法在关联规则挖掘研究中具有里程碑作用。但是随着研究的不断深入,它的缺点也逐步暴露出来。Apriofi算法有两个致命的性能缺欠:其一是多次扫描事务数据库,需要很大的I/O负载;其二是可能产生庞大的候选集。针对Apriori算法的不足,许多专家学者通过大量的研究工作,相继提出了一些优化的方法。例如,Park等人提出的DHP算法,使用哈希技术有效地改进了候选项集的产生过程;Savasere等人提出的Partition算法,采用基于划分的技术,把数据库分割处理有效地减少了挖掘过程中扫描数据库的次数,减轻了CPU的负担;H.Toivonen采用基于抽样(Samping)的优化方法,用从事务数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果,显著地减少了输入输出的代价。这些算法的提出不同程度地改进了关联规则的挖掘效率,但没有完全克服Apriori算法中固有的缺陷,因此有待进一步研究。在实际应用中,用于挖掘的数据常发生增加、减少和修改等数据更新的情况,同时,用户为了得到感兴趣的关联规则,经常调整最小支持度和最小可信度这两个阈值。这样原来挖掘出的关联规则在变化后的数据库中,或在新的最小支持度、最小置信度下不一定仍然是强规则,同时还可能存在以前没有挖掘出的关联规则,因此必须进行关联规则的更新。目前,已有一些学者对关联规则增量式更新挖掘进行了研究,并提出了一些相关算法,但随着数据库规模的日益增大,一些算法的执行效率需要进一步提高。
作为决策支持系统的两个重要组成部分,数据仓库技术和OLAP技术近年来得到了快速的发展。通过实际应用我们发现,较高的概念层中往往会产生有价值的关联规则,且这些关联规则可能会提供一般性意义的知识,而在较低的概念层中却几乎没有发现有价值的关联规则。另外,分析出数据包含的各个属性,即从“维”的角度去把握数据,是近年来数据挖掘研究的一个重要方向,并且对于关系数据库或数据仓库中的挖掘来说显得尤为重要。再者,关系数据库中有许多非离散的数值属性,而这些属性对知识的形成又起着关键的作用。因此,多层、多维及数量关联规则挖掘成为近年来关联规则挖掘研究的重点。(www.daowen.com)
研究关联规则挖掘的目的是为了应用于关联知识的发现。近年来,关联规则挖掘已经在商业、医疗、教育、保险等领域进行了广泛地应用。在商业领域,目前最常见的应用是推荐服务。很多电子商务网站都提供了推荐服务,挖掘买家的购买需求和习惯,自动地显示买家已经浏览的商品以及主动地帮买家推荐适合的商品。这些电子商务平台主要用到的数据挖掘算法就包含关联规则挖掘算法。在医疗领域,关联规则挖掘算法也可以帮助医务人员更好地研究疾病与生活习惯、遗传基因、环境、水资源等因素的关系。还有在招聘方面,关联规则挖掘算法可以研究不同的企业类型对应聘者的要求,帮助应聘者做到知己知彼,从而更好地把握招聘时机以求找到自己满意的工作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。