聚类分析(ClusterAnalysis)模型又称为群分析模型,是研究指标(或样品)分类问题的一种多元统计分析模型。对于指标的分类探讨称为R—型聚类分析,而对于样品的分类探讨则称为Q—型聚类分析。若研究区范围比较大,区内地质、水文地质条件比较复杂,且水质监测点数又比较多,宜应先采用Q—型聚类分析方法对水质样品进行分类,在此基础上再采用R—型聚类分析方法对水质指标进行分类,并以谱系图把所有指标间的亲疏关系加以表示。据此,并结合区内具体的地质及水文地质特征,可探讨水质的形成机理。
设有N 个水样,每个样品测得p 项指标(变量),这样就由N 个水样得到如下原始资料矩阵:
显然,对于第j 个水样xj可用矩阵式(5.4.1)中的第j 列描述,而对于第i个变量可用其中的第i 行描述。所以,任意两个水样Xj与Xk之间的相似性可以通过矩阵式(5.4.1)中的第j 列与第k 列的相似程度来刻画;任意两个变量xj与xk之间的相似性可以通过矩阵式(5.4.1)中的第j 行与第k 行的相似程度来刻画。
对于Q—型聚类分析,常用的有以下3 个分类统计量。
(1)距离系数:
式中:C 为取定的一个常数,旨在使dik的值在某个范围内变化。
这样,可得到如下距离系数矩阵:
其中:d11=d22,…,=dNN=0。若任意两个水样Xj与Xk之间的距离D 值越小,则表示这2个水样之间的相似程度越大;反之,D 值越大,之间的相似程度越小。
需要指出的是,当水质变量x1、…、xp彼此相关时,最好先采用因子分析方法找出几个正交因子,再用它们代替原始水质变量计算距离系数矩阵D。
(2)相似系数。把任意两个水样Xj、Xk视为p 维空间的两个向量,这两个向量的夹角余弦(即相似系数)用cosθjk来表示,即
这样,可得到如下相似系数矩阵:
其中:cosθ11=cosθ22,…,=cosθNN=1。若有cosθjk→1,说明两个水样Xj与Xk 之间的相似性密切;反之,若有cosθjk→0,说明之间的相似性很差。
(3)相关系数。第j 个水样与第k 个水样之间的相关系数可定义为
对于R—型聚类分析,也可采用与上述相似的分类统计量对P 个水质变量进行分类。(www.daowen.com)
需要指出的是,由于所研究的水质变量其单位和量纲可能不一,其大小差异亦可能达数量级。所以,应对原始数据作变换处理,以排除量纲的干扰。常用的方法有如下3 种。
(1)标准差标准化。将原始水质分析资料xij变换为
其中
经过变换以后,{x′ij}中的每一个变量的平均值为0,标准差为1。
(2)极差标准化。将原始水质分析资料xij变换为
经过变换以后,{x′ij}中的每一个变量的样本极差为1。
(3)极差正规化。将原始水质分析资料xij变换为
经过变换以后,{x′ij}的极差为1。
当采用上述方法求得分类统计量之后,据此可对水样(或水质变量)进行相似性聚类,从而形成谱系图。形成该图时应遵循如下4条原则。
1)若选出的一对样品(或变量)在已经分好的组中未出现过,可把它们形成一个新组。
2)若选出的一对样品(或变量)中,有一个出现在已经分好的组里,可把另外一个也加入到该组。
3)若选出的两个样品(或变量),它们分别出现在已经分好的两组中,可把这两个组连在一起。
4)若选出的两个样品(或变量)出现在同一组中,则不必再分组。如此反复进行,直至将所有的样品(或变量)都聚合分类完毕。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。