自“概念漂移”在1986年由Schlimmer和Granger首次提出后,概念漂移得到了学术界的日益重视。STAGGER是他们首次提出的解决概念漂移问题的算法。从1986—2000年这段时间的研究主要围绕单分类器展开——使用单个分类器实现概念漂移数据流分类。由于使用单分类器处理概念漂移数据流时需要不断更新分类模型且分类器泛化能力不高,Street等首次将集成学习引入概念漂移数据流分类,提出了SEA算法。因此,从2000年左右开始,研究人员对概念漂移数据流分类的研究开始转移到分类器集成上来。通过多分类器集成,实现对历史样本的选择,提高分类器泛化能力。从2000年以后,概念漂移数据流分类研究进入了快速发展期,研究人员开始考虑更加接近实际状况的概念漂移数据流。2004年由Intelligent Data Analysis期刊出版的概念漂移数据流专刊主要探讨了如何利用增量学习方法以较小的代价使已有分类器适应概念漂移。之后概念漂移数据流分类中的类别不平衡学习、概念重复学习、半监督学习、主动学习等问题开始得到较多关注。2010年IOS还出版了《Adaptive Stream Mining:Pattern Learning and Mining from Evolving Data Streams》。
从近年机器学习与数据挖掘领域的一些研究成果来看,概念漂移数据流分类的研究正日益成为学术界关注的焦点,对概念漂移数据流的研究已经开始与转移学习、进化计算、特征选择、聚类、时间复杂度分析、社会计算等结合起来。由于运动是物质的本质,概念漂移也是数据的本质,因此,从趋势上来讲,已有各种模式分类的理论和算法都可与概念漂移相结合而引出更多新的研究问题。
对已有各种学习器进行调整使之适应概念漂移数据流学习是目前主要的研究方向。这些算法可分为两类:一类通过单分类器实现,另一类通过多分类器集成实现。
利用单分类器进行概念漂移数据流学习的方法主要有四种:
(1)选择训练样本。该类方法的主要思路是从开始到目前为止采集的训练样本中选择一部分最合适对未来数据实施准确分类的样本训练分类器,其主要做法有滑动窗口法、自适应滑动窗口调整法以及动态样本选择法等。
(2)给训练样本赋以权值。该类方法的主要思路是对最新的训练样本赋予最大的权值,以提高对新概念的反应速度。
(3)调整学习器的结构。该类方法的特点是动态调整分类器的内部结构,以适应概念漂移检测的要求。(www.daowen.com)
(4)第四种是各种方法的组合。
多分类器集成是机器学习的研究热点之一。国内外学者在利用集成学习策略实施概念漂移数据流学习方面已经做了许多探索,具体的研究内容主要分两个方面:
(1)利用集成学习策略对数据流实施分块学习;
(2)基于在线学习模型对整个数据流实施集成学习——所有基分类器采用相同的学习算法,它们各自的训练样本来自同一数据流。
利用集成学习策略对数据流实施分块学习,使用了滑动窗口技术。这类算法通常假定最近获得的训练样本与即将要采集的样本同分布。Street等提出了SEA算法,该算法根据一个预设的质量标准使用新分类器替代不必要的旧分类器而保持分类器总数不变而实现对新概念的学习。然而当概念漂移突然发生时,体现新概念的分类器不足以跟旧分类器相抗衡,因此在一段时间内不能识别新概念。为此有学者提出一些解决的办法,如根据最新采集的训练样本集计算各基分类器的权值;在集成分类器的基础上增加了一个能进行在线学习的分类器,以提高算法对概念漂移的反应速度;根据已训练基分类器和集成分类器在最新采集训练样本集上的分类性能来调整各样本对应的权值和各基分类器的权值;基于分类置信度的概念漂移检测方法,根据分类置信度实现分类器的选择集成,使得集成分类器能快速适应新概念;根据各基分类器在验证数据集上的输出结果与参考向量之间的角度来选择参与集成的分类器;提出一种基于双层窗口方法,该算法将滑动窗口分解成多个基本窗口,以基本窗口为单位进行概念漂移检测等。以上这些算法有一个共同点是——假定一个数据块中没有概念漂移,因此需要事先了解数据流的结构。还有学者基于在线学习模型对整个数据流实施集成学习的思路,提出了基于动态带权多数投票的学习算法,该算法能根据集成分类器的分类性能动态地增加或者删除基分类器。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。