理论教育 增量随机森林分类器的应用与优化

增量随机森林分类器的应用与优化

时间:2023-06-17 理论教育 版权反馈
【摘要】:为解决概念漂移数据流的分类问题,本书作者提出增量随机森林分类器。相比Leo Breiman提出的随机森林分类算法难度更低,所需的存储空间更小。当然增量随机森林分类器也牺牲了一定的精度,对于稳定数据流的分类效果不如随机森林分类算法精度高。相对于单棵决策树而言,增量随机森林可以避免过拟合问题,稳定性好;增量随机森林保留了多值分类的特性,适合处理多值分类问题;增量随机森林方法对于数据噪声更稳定。

增量随机森林分类器的应用与优化

对于随机森林分类算法,所谓“随机”主要体现在建立单棵决策树时样本训练集选取是采取的随机放回抽样的方式,并且在树的每个节点处随机选择的v(v≤w)个特征属性按照节点不纯度最小的原则选择一个进行分支生长。

随机森林分类算法的不足是不适合于样本训练集较小的分类问题,同时不适合于概念漂移数据流的分类问题,同时每个节点需要分别对v(v≤w)个特征属性按照节点不纯度最小的原则选择一个进行分支生长,这无疑增加计算量。

为解决概念漂移数据流的分类问题,本书作者提出增量随机森林分类器(Incremental Random Forests,简称IRF分类器)。

建立IRF增量随机森林分类器的基本思想:

(1)给定训练集S;

(2)对w个输入特征属性进行随机排序,取N个随机属性序列,以此序列构建N个分类器的分裂属性顺序;(www.daowen.com)

(3)用给定训练集S,构建决策树,形成增量随机森林分类器。

设属性集为A{A1,A2,…,Aw},对于w个属性进行随机排序,取N个随机属性序列为构建N个分类器的分裂属性顺序。假设随机决策树森林分类器记为F(x),其中第i棵决策树记为fi(x),N为随机森林中所有决策树的数量,x为输入的待分类的样本,c(x)∈C={1,2,…,m}为x的类别标记值,fi(x)的输出为C中的某个值,作为单棵决策树对样本x类别的估计值,F(x)的输出为{fi(x),i∈(0,1,2,…,N)估计值的众数。

IRF分类器特点是小样本和大样本都适用,特别是对于数据流的分类更有效,具有较强的自适应性和较高的精度。相比Leo Breiman提出的随机森林分类算法难度更低,所需的存储空间更小。当然增量随机森林分类器也牺牲了一定的精度,对于稳定数据流的分类效果不如随机森林分类算法精度高。

相对于单棵决策树而言,增量随机森林可以避免过拟合问题,稳定性好;增量随机森林保留了多值分类的特性,适合处理多值分类问题;增量随机森林方法对于数据噪声更稳定。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈