3.3.3.1 数据流概念漂移
现实生活中产生的数据以数据流的形式出现,其中概念并不是稳定不变的,而是随时间改变的,例如天气预报,人们的穿衣习惯都会随季节不同而发生改变等。当某些数据产生环境因素发生变化时,新的数据的分布规律将发生变化,所产生的概念将会发生改变,而这时利用历史数据建立的数据模型或概念将不在适合对新数据分类或新事物的认识,旧模型旧概念就必须发生与时俱进的改变。称这种数据流中数据分布随时间发生改变,概念发生改变的现象为“概念漂移”。
在预测分析和机器学习的概念漂移表示目标变量的统计特性随着时间的推移,以不可预见的方式变化的现象。随着时间的推移,模型的预测精度将降低。
该术语的概念指的是要被预测的目标变量,更一般地说,它也可以指其他感兴趣的现象之外的目标的概念,但是在概念漂移的上下文中,术语通常指的是目标变量。
例子:在欺诈检测应用中,目标概念“欺诈”可能是一个二元属性,其值为“是”或“否”,指示给定的交易是否为欺诈。或者,在一个天气预测中的应用,可能有多个目标的概念,如温度、压力和湿度。
从概率论角度可以给出数据流概念漂移定义。
设联合概率P(x,y)在相邻时间段内发生改变,即Pt-1(x,y)≠Pt(x,y)。其中x为样本,y为类别标签。
在此基础上,联合概率可等价转换成
当P(x)改变而P(y/x)不变时,称为特征改变,又称缓漂移;当P(y/x)改变而P(x)不变时,称为条件改变,又称突漂移或实漂移。
概念漂移问题给机器学习带来了巨大的挑战。目前各种人工学习系统的构造算法在本质上都是基于一个静态学习环境而以尽量保证学习系统泛化能力为目标的一个寻优过程,所以现有各种机器学习算法本质上大部分不适应进行概念漂移数据流学习。这种不适应体现在:计算模型或者缺乏获取新知识的能力,或者不能保持原本学到的知识。
3.3.3.2 概念漂移数据流学习器的构建
对已有各种学习器进行调整使之适应概念漂移数据流学习是目前需要研究的问题。这些算法可分为两类:一类通过单学习器实现,另一类通过多学习器实现。(www.daowen.com)
(1)利用单学习器进行概念漂移数据流学习的方法
利用单学习器进行概念漂移数据流学习的方法有四种。
①选择训练样本——该类方法的主要思路是从开始到目前为止采集的训练样本中选择一部分最合适对未来数据实施机器学习的数据集,其主要做法有滑动窗口法、自适应滑动窗口调整法以及动态样本选择法;
②给训练样本赋以权值——该类方法的主要思路是对最新的训练样本赋以最大的权值,以提高对新概念的反应速度;
③调整学习器的结构——该类方法的特点是动态调整学习器的内部结构,以适应概念漂移检测的要求;
④第四种是各种方法的组合。
(2)多学习器集成进行概念漂移数据流学习的方法
多学习器集成是机器学习的研究热点之一。国内外学者在利用集成学习策略实施概念漂移数据流学习方面已经做了许多探索,具体的研究内容主要分两个方面:
①利用集成学习策略对数据流实施分块学习;
②基于在线学习模型对整个数据流实施集成学习——所有基于学习器采用相同的学习算法,它们各自的训练样本来自同一数据流。
利用集成学习策略对数据流实施分块学习,使用了滑动窗口技术。这类算法通常假定最近获得的训练样本与即将要采集的样本同分布。该算法在分类决策问题研究较多。然而当概念漂移突然发生时,体现新概念的分类器不足以跟旧分类器相抗衡,因此SEA在一段时间内不能识别新概念。基于在线学习模型对整个数据流实施集成学习的思路是基于学习器的性能动态的增加和减少学习器在在线分类中的作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。