随着网络技术的发展,越来越多的行业、企业、政府部门需要从快速、动态的业务数据流中获取信息用于决策,实际需要不断推动着数据流挖掘技术的发展。分类是数据流挖掘的一项重要任务,也是一个充满挑战的研究领域,许多技术也正处于蓬勃发展阶段,特别是在更有效地处理数据流中广泛存在的不平稳性等方面还有大量的问题期待解决。这些问题主要包括概念漂移与噪声的处理问题、不平衡数据流的处理问题、连续属性的处理问题、训练窗口大小的自适应调整问题、分类器性能的评价标准问题、代价与性能的平衡问题、样本的抽取问题、特征属性的选择问题、数据流的预处理问题、数据流管理问题等。
(1)概念漂移与噪声的处理问题。
挖掘存在概念漂移或含大量噪声的数据流是当前数据流挖掘领域的一个热点。虽然机器学习领域对概念学习问题已经有了一定的研究基础,但是面对高速动态的数据流,如何更快速地探测概念漂移的发生,概念漂移与噪声的分辨问题以及概念的发现和保存、重复背景下概念的发现、旧概念的重新利用、预测概念漂移的变化趋势等,都是非常值得研究的。
(2)不平衡数据的处理问题。
在一些各类样本数量分布不平衡数据流应用中,用户往往更关注系统对于少数类的分类情况,如金融领域的信用卡欺诈。而当前的分类系统往往对多数类具有很好的分类精度,从而保证整个系统具有很高的分类精度,整体高性能往往掩盖了系统对于少数类处理不力的问题。如何在保持系统整体高性能的同时,提高系统对于少数类的分类精度是一个具有广泛实际应用价值的问题。
(3)连续属性的处理。
即使在机器学习和传统的数据挖掘领域,连续属性处理问题依然是十分重要的研究内容。在数据流分类中,如何根据数据流的特点选择更有效的测度函数和如何更快速地计算这些测度函数,以及如何压缩存储属性值等都值得更进一步深入研究。
(4)分类器性能的评价标准问题。
当前大部分分类模型都追求高分类精度,但是一方面由于噪声、不确定性数据、不平衡数据以及属性值缺失等问题的存在,使得如何提高分类器的分类精度变得更加重要和困难。另一方面,数据流分类大多跟实际应用相关,单一分类精度指标往往并不能完全反应用户的需求。如何根据实际应用问题需要,设计合适的分类性能评价准则仍然需要进行更进一步研究。
(5)代价与性能的平衡管理问题。
在数据流分类应用中,系统需要根据新流入数据及时调整更新当前分类模型,同时将训练集中一些过时样本删除。这意味着系统既需要进行增量学习,及时获取新流入数据所带来的“新信息”,又需要进行“减量学习”,及时删除过时数据滞留的“陈旧信息”。两者都期望分类模型能正确描述数据流的当前实际情况,从而保持或获得更高的分类性能。但是,更新分类模型需要付出“代价”,必然带来时空消耗,尤其在大规模数据流量的分类应用中,此时复杂分类模型的更新或重建将是一项代价昂贵的工作,但不更新又可能带来分类性能的下降。因此,如何在模型更新代价与分类性能之间进行适度平衡与管理是一个非常值得研究的问题。(www.daowen.com)
(6)特征属性的选择问题。
如何更有效地选择相关的、包含信息丰富的特征属性是机器学习与数据挖掘的共同任务,在数据流挖掘中,这项任务显得更具挑战性。区别在于:在传统的数据挖掘中,特征属性之间的相关性是保持不变的;在数据流应用中,特征属性之间相关性等概念被严格限制在一定的时间区间内,过去相关的特征属性可能现在已经不相关,过去不相关的特征属性可能现在已经相关。因此如何根据数据流的不断演化、进化而不断调整特征属性的选择策略是一项非常有意义的研究工作。
(7)训练窗口大小的自适应调整问题。
在基于滑动窗口的数据流模型中,滑动窗口内拥有最近的n个观察样本。随着数据的流动,分类系统采用滑动窗口内的样本作为训练集更新或重新构建分类器,此时分类器的性能就与训练窗口的大小(滑动窗口内样本的个数)密切相关。训练窗口太小,可能导致分类器长期训练不足,并且可能对数据流中的概念变化过于敏感;训练窗口过大,可能导致分类器对于对数据流中的概念变化不敏感(更适合于稳定分布数据流的挖掘分类)。这两个方面都可能导致分类器分类性能的不稳定。因此分类器如何根据分类算法与数据流的特性(概念变化频度等)自适应调整训练窗口大小,如何获取最优的窗口大小以及评估不同窗口大小对于分类器性能的影响也是一个十分重要的研究课题。
(8)样本的抽取问题。
在传统的机器学习与统计学习中,训练样本不足是一个非常重要的问题,训练样本个数不足往往容易导致模型出现过拟合。但在数据流挖掘中,大量数据高速到达,样本数目过多,因此需要进行样本的抽样工作,这导致模型容易出现欠拟合。如何更有效地抽取部分样本代表全部数据以及如何用更少的样本获取更好的分类精度,并防止欠拟合的出现,这在理论与实现技术上仍有大量的问题需要研究。
(9)数据流的预处理问题。
在传统数据挖掘中,数据预处理是一个关键但非常耗时的环节。面对高速动态的数据流,如何保证预处理算法满足数据流挖掘的实时性要求是一个非常重要的问题,特别是在保证系统分类性能的前提下,如何设计一个快速、轻量级数据流自动预处理框架是一项非常具有挑战性的工作。
(10)数据流管理系统问题。
近年来,随着数据流处理技术的发展,出现了一些基于数据流模型的管理系统,即数据流管理系统。但是目前所出现的系统都是针对具体的应用需求,设计目标各异且开发重点都集中于数据流的连续查询处理方面。如何借鉴已有数据库管理系统的成果,设计通用且全面的数据流管理系统仍需进行大力研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。