尽管关联规则挖掘研究取得了许多成果,但同时还存在着许多有待于进一步研究的问题。主要包括:
关联规则挖掘所面对的一般都是大型数据库。数据库的记录数可能达数百万条,每条记录的属性可能达上千个,加上可能需要对一些连续属性进行划分,这使得项集数量巨大。现有的数据挖掘算法大都是基于宽度优先的有序搜索策略,这种搜索方法的效率与问题空间的大小有直接关系。经典的Apriori算法把整个数据库作为问题空间,并需要频繁扫描数据库。后来虽然有一些基于剪枝的改进算法,但其效率仍然不能满足现实要求。因此,如何有效地从大量数据中搜索、发现频繁项集,仍然需要研究。
(2)挖掘算法的并行性
随着数据库规模的不断扩大,出现并行算法。并行思想是促进计算机软硬件迅速发展的重要动力之一,它同时也是处理海量数据较为理想的解决方案。设计高效的并行算法,可以充分利用计算机软硬件资源,结合分布式挖掘,也可以将挖掘开销分摊到网络中的多台计算机中,从而有效地节约挖掘成本和提高挖掘效率。
(3)算法公平性问题
在几乎所有算法中,只要在一个事务中某项目一出现就记为1,而根本不管其价格的多少。而某些项目(商品)例如铂金钻戒,对商家来说利润很高,而另一些项目(商品)例如面包,对商家来说利润很低,商家对于铂金钻戒的兴趣明显大于面包,如果将他们同等进行处理,对用户关注度高的商品明显不公平。因此设计加权关联规则算法,可以充分体现算法的公平性,从而挖掘出更多用户关心的规则来。(www.daowen.com)
(4)挖掘算法的交互性
目前的挖掘算法在与用户的交互性上处于较低的层次。大多数算法在用户给定最小支持度阈值和最小置信度阈值后,就脱离了用户进行规则挖掘。而事实上,用户的参与对缩小挖掘空间和改进挖掘策略十分重要。在挖掘过程中增加用户的参与,利用用户掌握的先验知识和用户的兴趣,聚集搜索模式,可以精炼挖掘请求,有效提高挖掘效率。
(5)挖掘语言的研究
目前的数据挖掘大多是采用一种高级语言作为宿主语言,还没有出现统一的数据挖掘语言。设计专门的数据挖掘语言可以有效地将挖掘算法与数据库系统集成在一起,实现数据挖掘的标准化。
(6)增量挖掘的研究
信息技术总在不断地发展,数据也在不停地变化。先前挖掘出来的关联规则,对最新的数据和情况并不一定适应,所以研究增量挖掘技术对用户掌握新的信息具有重要作用。目前主要有两种方法。一种是重新挖掘,这种方法耗时且效率低下。另一种方法是利用先前的挖掘结果,结合先前的数据结构与新的数据结构进行挖掘,这样可以避免对历史数据重复操作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。