理论教育 增量分类器的应用和优势

增量分类器的应用和优势

时间:2023-06-17 理论教育 版权反馈
【摘要】:按照树模型来划分,当前增量决策树算法研究可分为两个主要方向:第一类是采用贪婪算法重构决策树。这类方法将新样本加入决策树以后,需要重新确定分类路径上每个决策节点的决策属性,以确保该决策属性是适合该节点的。虽然具有很好的增量学习性能,但第二类方法不适合小样本数据流的应用。

增量分类器的应用和优势

传统的机器学习往往采用批量学习的方法,即所有的训练样本一次性学习完毕后,学习过程不再继续,但在实际应用中,训练样本空间的全部样本并不能一次全部得到,而往往是随着时间顺序得到。考虑到训练和预测的时空开销需求,能够在已有训练结果的基础上继续学习新样本,不断增强模型本身的识别能力,并且减少重复学习的时空开销的增量学习方法,得到了广泛的关注。增量学习目前没有严格的定义,但其主要特征包含两点,一个是能够将新样本加入已有的知识系统中,另一个是能够使一个基本的知识系统逐步演化为更加复杂的系统。增量学习包含很多方法,按照分类器的种类划分,有基于支持向量机的增量学习算法、基于近邻方法的增量学习算法,基于Bagging/Boosting的增量学习算法、基于决策树的增量学习算法以及基于贝叶斯网络的增量学习算法和基于RBF网络的增量学习算法等。

基于决策树的方法目前已被广泛用于增量学习,一是由于决策树本身简单、快速,决策树模型易于理解,通过决策树的工作过程可以直观理解问题的求解过程;二是由于决策树能够对广泛的问题给出准确的解。决策树通常将多维数据迭代划分为若干更小维数的数据进行处理,这种分治策略适用于诸多问题的求解;三是由于决策树的构造效率很高。(www.daowen.com)

按照树模型来划分,当前增量决策树算法研究可分为两个主要方向:第一类是采用贪婪算法重构决策树。例如P.E.Utgoff提出的ID5R算法,它允许通过修改决策树来增加新的训练实例,而无须重建决策树。这类方法将新样本加入决策树以后,需要重新确定分类路径上每个决策节点的决策属性,以确保该决策属性是适合该节点的。若选择的优属性不在当前决策节点上,则要将其从叶节点提升上来,并迭代地为其子树上所有决策节点确定优属性。由于每新加入一个样本都需要对树进行变换重构,因此当问题规模达到一定程度后,这类方法的计算时间开销非常大。第二类方法是通过维护一些必要的统计量来完成决策树的增量构造,例如Streaming Random Forest算法。这类方法采用概率统计量,主要用于确定当前叶节点是否需要分裂成为决策节点。新样本到达叶节点后不被存储,而是更新该叶节点上的统计信息,当有足够多的样本到达该节点后,根据统计信息可以判定是否需要将该叶节点分裂为决策节点。当叶节点分裂为决策节点后,统计信息会传递到后继子节点,决策节点仅保留最佳决策属性。这类方法无须存储训练样本,因而可耗费低时空开销来处理海量数据,但是只有当接收足够多的样本信息后,才能有充分的统计证据确定是否进行节点分裂。虽然具有很好的增量学习性能,但第二类方法不适合小样本数据流的应用。在实际应用中,小样本数据流的问题很普遍,例如在线视频跟踪问题。当前视频跟踪常作为分类问题进行解决,在线学习的分类器对于目标物体外观的改变和复杂的环境具有很好的适应性。增量学习分类器可以用于在线学习的应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈