聚类分析法及其常见方法

更新时间：2025-10-14 理论教育 版权反馈

【摘要】：聚类分析法便是无监督模式识别法的代表。常见的聚类分析方法有系统聚类法、最小生成树法、最短生成路径法和判别聚类的势函数法等。其中系统聚类法是在近红外光谱分析中应用较为广泛的一类聚类分析方法，其基本思想是首先定义样品之间和类与类之间的距离。上述8种聚类方法中，它们并类的原则和步骤是相同的，不同之处在于计算类与类间的距离时选用了不同的定义，从而有不同的递推公式。表2-2 系统聚类法统一公式参数表

模式识别方法是20世纪50年代早期提出的，60～80年代在各个学科得到广泛应用。到80年代，模式识别方法发展成为一种非常成熟的多元分析方法。

模式识别方法可分为有管理方法、无管理方法和显示方法等几类。有管理模式识别包括线性判别、逐步判别分析、KNN方法、SIMCA方法、神经网络等；无管理方法包括最小生成树、聚类分析等；显示方法包括变量-变量绘图、线性投影、非线性映射、脸谱法等。

在模式识别中是根据“物以类聚”的原则进行样品分类的，即性质或特征或变量相似的样品聚为一类。化学模式识别中常用相似系数（similarity coefficient）表示相似性。相似系数表示方法有许多形式，而“距离”（distance）便是相似性[或相异性（dissimilarity）]的量度。

设样品x_i和x_j（测量数据矩阵X中的两个行矢量）之间的距离为D（x_i，x_j），作为距离必须满足以下条件：

1）当x_i=x_j时，D（x_i，x_j）=0，即同一个样品距离为零；

2）x_i≠x_j时，D（x_i，x_j）＞0，即不同样品距离大于零；

3）D（x_i，x_j）=D（x_j，x_i），即距离没有方向性；

4）D（x_i，x_j）≤D（x_j，x_i）+D（x_k，x_j），即两点间直线距离最短，这里下角k表示第3个样品。

化学模式识别中常用的距离指标较多，比较主要的如下：

1.欧氏距离（Euclideandistance）

式中，p为变量数，如写成矢量形式有

在某些场合，对于不同的变量需给予不同的权重，则有加权欧氏距离（weightedEuclid- eandistance）：

标准欧氏距离（standardEuclideandistance）为

式中，s_k表示测量数据矩阵X中第k列的标准偏差：

实际上标准欧氏距离是预先将测量数据矩阵X标准化后所确定的矢量间的距离。

2.马氏距离（Mahalanobis distance）

式中，V为协方差矩阵，其元素v_lm为

马氏距离实际上可以看作一组样品的中心与某一目标之间的距离，该距离考虑了样品与样品之间的相关性。欧氏距离相等并不表示马氏距离也相等。

在样品很多的情况下，对预测样品进行模式识别时，人们通常事先并不知道样品内在的分类。其中无监督模式识别方法在未知训练集样品的类别的情况下，同样可以对样品进行分类识别。聚类分析法便是无监督模式识别法的代表。

常见的聚类分析方法有系统聚类法、最小生成树法、最短生成路径法和判别聚类的势函数法等。其中系统聚类法是在近红外光谱分析中应用较为广泛的一类聚类分析方法，其基本思想是首先定义样品之间和类与类之间的距离。在各自成类样品中，将距离最近的两类合并，重新计算新类与其他类之间的距离，并按最小距离归类，重复此过程，每次减少一类，直到所有的样品成为一类为止。其聚类过程用图表示，称为聚类图，如图2-6所示。