理论教育 IARF分类器的基本原理

IARF分类器的基本原理

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:基于上述分析,本书作者建立一种适用于不平稳数据流分类的分类器,即建立增量式自适应随机森林分类器,简称IARF分类器,用于处理不平稳数据流,特别是大样本和小样本数据流的在线分类学习问题。下面是增量式自适应随机森林分类器设计的基本思想。我们建立的是集成分类器,降低每一个分类器的精度并不能影响决策树森林分类器的分类精度。

基于上述分析,本书作者建立一种适用于不平稳数据流分类的分类器,即建立增量式自适应随机森林分类器(Incremental adaptive random forests),简称IARF分类器,用于处理不平稳数据流,特别是大样本和小样本数据流的在线分类学习问题。下面是增量式自适应随机森林分类器设计的基本思想。

新到达的样本通过增量随机森林分类器将被存储到相应的叶节点,并通过信息增益率Gain Ratio(Ak,S)系数来确定是否对当前叶节点进行分裂扩展,在给定有限数量,甚至是少量样本的情况下,IARF算法能够快速高效地完成分类器的增量构造。

首先,介绍增量式自适应随机森林算法的动机和算法描述,再给出算法中重要的分裂阈值参数的相关定理及证明。

提出的IARF算法主要基于以下5点考虑:

(1)利用统计量进行增量学习的算法往往不存储样本,而是通过对海量数据进行相关的数据统计分析来获取分类器扩展的必要信息,统计完的样本即被丢弃不再使用,因此在处理小样本数据时,由于不能提供足够的统计信息而使增量学习失败。为此,我们考虑采用存储样本的方式进行增量学习,在后续增量学习过程中仍然能够重复利用历史信息,这样即便对于小样本数据流仍然能够进行稳定的增量学习。同时采用Least-Recent-Used替换策略来减少陈旧的样本,当样本的时间戳小于给定时刻,即被丢弃,减少存储空间负载过重的压力

(2)传统的基于单棵决策树的增量学习方法需要保证决策树上所有的决策属性是优的,而分类器集成(ensemble)的方法,则不需要每棵决策树上所有的决策属性是优的,因此利用集成方法可以避免每棵决策树的贪婪重构。同时单棵决策树存在过拟合问题,而集成方法则可以有效地避免此类问题,并能够减少偏差(bias)与方差(variance),同时还能够保持计算的高效性。因此,我们采用分类器集成的方法进行增量学习。(www.daowen.com)

(3)根据样本集合的混乱程度进行节点的分裂,既可以控制树的生长速度,又可以降低对数据噪声的敏感度。

(4)随着数据流的漂移,分类器中的每棵增量超树(每棵决策树称为增量超树)的过大,增加运算量,容易发生拟合过度的现象,同时分类精度也逐渐降低。为此作者在增量式自适应随机森林分类器设计中提出更新增量超树。

(5)增量式自适应随机森林分类器设计思想使单个决策树的学习算法准确率不高,所以本算法提出加权投票的分类规则,以提高分类算法精度。

基于统计理论,对单颗增量超树提出一个判断规则,建立一个判断增量超树的分类质量的统计评价指标,并给出阈值。当超过该阈值时,构建一个新的增量超树,即基于最近流过的窗口数据作为训练样本集合(具有反馈信息的数据),采用传统的自上而下的方式进行构造,并替换原增量超树。增量式自适应随机森林中的每棵决策树均不需要进行剪枝,但为防止叶节点过深,过度拟合,设定叶子节点条件,通过判断叶节点的类别纯度来确定是否对当前叶节点进行分裂扩展。我们建立的是集成分类器,降低每一个分类器的精度并不能影响决策树森林分类器的分类精度。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈