【摘要】:如何对样本集合的纯度进行量化度量,常见的方法有3种:Enreopy,Gini系数以及Classification error等。Classification error=1-max{pj}.这3个量都需要测量样本集合中每个类别样本所占的比例pj(对任意的j都存在(0≤pj≤1)。例如,假设样本集合中共含3种类别的样本,每种类别样本的比例分别为0.3,0.4,0.3,当样本集合中各个类别的数量发生了变化,其比例分别变为0.4,0.2,0.4,则此时Gini系数的变化量为而Classification error的变化量则为0。
我们定义一个样本集合是纯的,当且仅当该样本集合中大部分元素为同一类样本;定义一个样本集合是不纯的,当且仅当该集合中包含了很多其他类别的样本。如何对样本集合的纯度进行量化度量,常见的方法有3种:Enreopy(也称为信息熵),Gini系数以及Classification error等。
(1)
(2)
(3)Classification error=1-max{pj}.
这3个量都需要测量样本集合中每个类别样本所占的比例pj(对任意的j都存在(0≤pj≤1)。
不论样本集合中样本的种类有多少,Gini系数均满足0≤1-≤1,但Entropy则不存在该性质。例如,假设样本集合中存在m个类别的样本(m>2),且每种类别的样本所占比例均为1/m,即pj=1/m,则(www.daowen.com)
相对于Classification error而言,Gini系数考虑了所有类别样本的比例关系,能够反映不同类别样本的比例变化,而Classificatin error只考虑了集合中比例大的样本,对各类别样本的比例变化有时不能够准确反映。
例如,假设样本集合中共含3种类别的样本,每种类别样本的比例分别为0.3,0.4,0.3,当样本集合中各个类别的数量发生了变化,其比例分别变为0.4,0.2,0.4,则此时Gini系数的变化量为
而Classification error的变化量则为0。
基于以上的比较和讨论,我们选择Gini系数作为本书作者算法中样本集合纯度的度量方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关增量式自适应大数据挖掘算法的文章