理论教育 如何应用K-Means聚类算法:评估数据聚类趋势

如何应用K-Means聚类算法:评估数据聚类趋势

时间:2023-05-27 理论教育 版权反馈
【摘要】:K-Means是应用最广泛的聚类算法之一,它将数据点集划分为k个不相交的集群,每个聚类可以用其质心l来描述,质心l是聚类中数据点的平均值,每个簇至少包含一个对象,每个对象属于且仅属于一个簇。给定一组数据点,在应用任何聚类算法之前,我们需要评估数据是否具有聚类趋势。尽管在任何情况下,聚类算法都可以将数据划分为多个组,但将非结构化数据强制分为多个组可能会导致对底层数据组织的错误结论。

如何应用K-Means聚类算法:评估数据聚类趋势

我们采用聚类技术来检测智能大屏视频观看行为的典型时间模式,因为它本质上是一个无监督的任务。聚类的目的是将一组数据点自动分组成几个有意义的簇,使簇中的数据点彼此相似,但与其他簇中的数据点不同。K-Means是应用最广泛的聚类算法之一,它将数据点集划分为k个不相交的集群,每个聚类可以用其质心l来描述,质心l是聚类中数据点的平均值,每个簇至少包含一个对象,每个对象属于且仅属于一个簇。因此,质心可以被认为是群集中数据点的代表。我们把它当作一个典型的模式。通过最小化每个数据点与其所属簇的质心之间的平方欧氏距离之和,每个数据点被分配给其质心最靠近它的簇。生成新的变量,用来表示各数据点的分类情况,即。算法1显示了K-Means如何优化上述目标函数,其中收敛条件意味着群集赋值是稳定的或达到最大迭代次数。

给定一组数据点,在应用任何聚类算法之前,我们需要评估数据是否具有聚类趋势。尽管在任何情况下,聚类算法都可以将数据划分为多个组,但将非结构化数据强制分为多个组可能会导致对底层数据组织的错误结论。hopkins统计量是一种简单直观的聚类趋势度量方法,它将真实数据集与均匀分布在同一数据空间中的一组人工数据点进行比较。如果数据集排列在紧密的簇中,那么实际数据点到其最近的实际数据点的距离平均要比人工数据点到其最近的实际数据点的距离低得多,因此hopkins统计量将远远大于0.5。然而,如果数据集不比均匀分布的人工数据点聚类,则该值将大约为0.5。我们用空间中不同样本的人工数据点计算了10次霍普金斯统计,平均值为0.8955,标准偏差为0.0012。因此,我们的数据集具有明显的聚类趋势。(www.daowen.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈