样本集合纯度度量方法的探讨

更新时间：2025-10-14 理论教育 版权反馈

【摘要】：如何对样本集合的纯度进行量化度量，常见的方法有3种：Enreopy，Gini系数以及Classification error等。Classification error＝1－max｛pj｝.这3个量都需要测量样本集合中每个类别样本所占的比例pj（对任意的j都存在（0≤pj≤1）。例如，假设样本集合中共含3种类别的样本，每种类别样本的比例分别为0.3，0.4，0.3，当样本集合中各个类别的数量发生了变化，其比例分别变为0.4，0.2，0.4，则此时Gini系数的变化量为而Classification error的变化量则为0。

我们定义一个样本集合是纯的，当且仅当该样本集合中大部分元素为同一类样本；定义一个样本集合是不纯的，当且仅当该集合中包含了很多其他类别的样本。如何对样本集合的纯度进行量化度量，常见的方法有3种：Enreopy（也称为信息熵），Gini系数以及Classification error等。

（1）

（2）

（3）Classification error＝1－max｛pj｝.

这3个量都需要测量样本集合中每个类别样本所占的比例pj（对任意的j都存在（0≤pj≤1）。

不论样本集合中样本的种类有多少，Gini系数均满足0≤1－ pagenumber_ebook=113,pagenumber_book=102 ≤1，但Entropy则不存在该性质。例如，假设样本集合中存在m个类别的样本（m＞2），且每种类别的样本所占比例均为1／m，即pj＝1／m，则(https://www.daowen.com)

相对于Classification error而言，Gini系数考虑了所有类别样本的比例关系，能够反映不同类别样本的比例变化，而Classificatin error只考虑了集合中比例大的样本，对各类别样本的比例变化有时不能够准确反映。

例如，假设样本集合中共含3种类别的样本，每种类别样本的比例分别为0.3，0.4，0.3，当样本集合中各个类别的数量发生了变化，其比例分别变为0.4，0.2，0.4，则此时Gini系数的变化量为

而Classification error的变化量则为0。

基于以上的比较和讨论，我们选择Gini系数作为本书作者算法中样本集合纯度的度量方法。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

样本集合纯度度量方法的探讨

再考织物度量方法的补充探讨

度量项目风险的方法

酶纯度检定方法与要求

技术创新分工的度量方法优化

项目风险度量的常用方法和过程

空间关联度量的方法探究

样本设计优化方法

基于样本迁移的经典方法

相关推荐