5.1.3.1 聚类相似性的度量方法
聚类分析通常是通过计算对象之间的相似度来划分簇的,若使用x和y来表示两个样本,s(x,y)来表示他们之间的相似度,值越大表示两个样本越相似。但是在通常情况下,计算特征空间中的距离,以此作为样本间的相异度,距离越大则表示样本间的相似度较低,常用的距离计算方法有以下几种:
(1)明可夫斯基距离
假定x和y是相应的特征,n是特征的维数。x和y的明可夫斯基距离度量形式为
当r取不同的值时,上述距离度量公式演化为一些特殊的距离测度。
当r=1时,明可夫斯基距离演变为绝对值距离
当r=2时,明可夫斯基距离演变为欧式距离
(2)二次型距离
二次型距离测度形式为
式中,A是非负定矩阵。
当A取不同的值时,上述距离度量公式演化为一些特殊的距离测度:
当A为单位矩阵时,二次型距离演化为欧式距离;
当A为对角阵时,二次型距离演化为加权欧氏距离,即
当A为协方差矩阵时,二次型距离演变为马氏距离。
(3)余弦距离
余弦距离测度形式为
5.1.3.2 聚类算法性能的评估方法
聚类的潜在应用对聚类分析提出了各种不同的要求。一般可从以下几个方面评估聚类算法的性能。
(1)可伸缩性(www.daowen.com)
很多的聚类算法在处理小数据量的数据集合(比如数据对象小于200个)时具有很好的性能,但是在处理大规模数据集(比如包含几百万个数据对象)时则会表现出效率的严重降低,这严重限制了聚类算法的应用范围。
(2)处理不同类型属性的能力
对于很多算法,其处理的属性类型仅仅是针对数值类型的数据。但是在实际应用中,往往要求聚类算法拥有处理其他类型属性数据的能力。比如分类型/标称型,序数型,二元类型数据或者是这些数据类型的混合等。
(3)发现任意形状的聚类
许多聚类算法使用欧式距离或者曼哈坦距离作为数据对象相似程度的度量,并以此为依据确定聚类。很多基于这样的距离量度的算法趋向于发现具有相近密度和尺寸的球状簇。但一个数据簇有可能是任意形状的,所以提出能发现任意形状簇的算法是很重要的。
(4)用于决定输入参数的领域知识最小化
在聚类分析中,许多聚类算法要求用户输入一定的参数,比如希望得到簇的数目。有些算法的结果对于输入参数很敏感,通常参数难以确定,尤其是对于含有高维对象的数据集更是如此。
(5)对于输入记录的顺序不敏感
一些聚类算法对于输入数据的顺序是敏感的。比如,对于某一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果。研究和开发对数据输入顺序不敏感的算法具有重要的意义。
一个数据库可能含有很多数据维度或者属性。很多聚类算法擅长于处理低维度数据,一般仅涉及两到三维。通常最多是在三维的情况下能够很好地判断聚类的质量。对高维空间中的数据对象进行聚类是非常有挑战性的工作,尤其是考虑到这样的数据可能是高度偏斜,非常稀疏的。
(7)处理噪声数据的能力
在现实应用中的绝大多数数据都包含了孤立点,未知数据,空缺数据或者错误的数据。有些聚类算法对于这样的数据敏感,将会导致质量较低的聚类结果。
(8)基于约束的聚类
在实际应用中有可能需要在各种约束条件下进行聚类。既要找到满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务。
(9)可解释性和可用性
通常用户希望聚类结果是可解释的,可理解的和可用的,因此,应用目标如何影响聚类方法的选择也是一项重要的研究课题。
由于没有一种算法各方面性能都优良,都有各自的侧重,因此,在实际应用时应结合数据对象的特点,选择合适的聚类方法。某种情况下,可以多种算法组合。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。