样本集合纯度度量方法的探讨
如何对样本集合的纯度进行量化度量,常见的方法有3种:Enreopy,Gini系数以及Classification error等。Classification error=1-max{pj}.这3个量都需要测量样本集合中每个类别样本所占的比例pj(对任意的j都存在(0≤pj≤1)。例如,假设样本集合中共含3种类别的样本,每种类别样本的比例分别为0.3,0.4,0.3,当样本集合中各个类别的数量发生了变化,其比例分别变为0.4,0.2,0.4,则此时Gini系数的变化量为而Classification error的变化量则为0。
理论教育
2023-06-17