理论教育 聚类分析挖掘含义的方法与应用

聚类分析挖掘含义的方法与应用

时间:2023-06-17 理论教育 版权反馈
【摘要】:因此,有时聚类分析也被称为非监督分类,相比之下,分类指的是监督分类,也就是使用一个由类标号已知的对象开发的模型,对新的、无标记的对象赋予一个类标号。不同的关于相似度的判断,就形成了不同的聚类算法。

聚类分析挖掘含义的方法与应用

聚类分析,在英文中是Cluster analysis,又译为群集分析。其作用,简单而言即是非监督式的将大量数据以相似度为基础形成集合。非监督式是聚类分析与分类和回归分析的区别所在,聚类不需要人为的输入标签,尽管某些聚类算法需要设定初始划分方法或者根据输入参数确定聚类集合个数,但在分析过程中,算法无须人为输入分类标准。因此,聚类分析在很多时候用于大型数据库的分类预处理,当然聚类分析也常作为独立分析数据的工具。在实际应用中,聚类问题与分类问题往往容易发生混淆。这两个问题是相关的,但是存在区别。聚类可以看作是一种分类,它用类(簇)标号创建数据对象的标记。然而,这些标号只能从数据中导出。因此,有时聚类分析也被称为非监督分类,相比之下,分类指的是监督分类,也就是使用一个由类标号已知的对象开发的模型,对新的、无标记的对象赋予一个类标号。

聚类分析是一种“物以类聚”的方法,将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,它是一种重要的人类行为。聚类的目的就是要将一组数据分组,而这种分组要基于以下原理:即满足最大的组内相似性和最小的组间相似性,使得不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。

传统聚类算法主要是针对静态数据库进行设计的,这类算法处理的数据多是存储在磁盘或其他存储介质中的静态数据,算法可以对这些数据进行随机操作,多次扫描,计算量往往都是很大的,I/O开销随着数据量的增多也会增大。(www.daowen.com)

不同的关于相似度的判断,就形成了不同的聚类算法。聚类算法的分类有很多,从时间上可以分为传统聚类算法和现代聚类算法;从子集元素可以分为软聚类和硬聚类;从对初始状态的处理可以分为结构性聚类和分散性聚类,基于其他标准亦有其他的分类方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈