大坝水文地质研究成果：聚类分析模型

更新时间：2025-01-02 理论教育 版权反馈

【摘要】：聚类分析模型又称为群分析模型，是研究指标（或样品）分类问题的一种多元统计分析模型。对于指标的分类探讨称为R—型聚类分析，而对于样品的分类探讨则称为Q—型聚类分析。对于Q—型聚类分析，常用的有以下3 个分类统计量。第j 个水样与第k 个水样之间的相关系数可定义为对于R—型聚类分析，也可采用与上述相似的分类统计量对P 个水质变量进行分类。

聚类分析（ClusterAnalysis）模型又称为群分析模型，是研究指标（或样品）分类问题的一种多元统计分析模型。对于指标的分类探讨称为R—型聚类分析，而对于样品的分类探讨则称为Q—型聚类分析。若研究区范围比较大，区内地质、水文地质条件比较复杂，且水质监测点数又比较多，宜应先采用Q—型聚类分析方法对水质样品进行分类，在此基础上再采用R—型聚类分析方法对水质指标进行分类，并以谱系图把所有指标间的亲疏关系加以表示。据此，并结合区内具体的地质及水文地质特征，可探讨水质的形成机理。

设有N 个水样，每个样品测得p 项指标（变量），这样就由N 个水样得到如下原始资料矩阵：

显然，对于第j 个水样xj可用矩阵式（5.4.1）中的第j 列描述，而对于第i个变量可用其中的第i 行描述。所以，任意两个水样Xj与Xk之间的相似性可以通过矩阵式（5.4.1）中的第j 列与第k 列的相似程度来刻画；任意两个变量xj与xk之间的相似性可以通过矩阵式（5.4.1）中的第j 行与第k 行的相似程度来刻画。

对于Q—型聚类分析，常用的有以下3 个分类统计量。

（1）距离系数：

式中：C 为取定的一个常数，旨在使dik的值在某个范围内变化。

这样，可得到如下距离系数矩阵：

其中：d11＝d22，…，＝dNN＝0。若任意两个水样Xj与Xk之间的距离D 值越小，则表示这2个水样之间的相似程度越大；反之，D 值越大，之间的相似程度越小。

需要指出的是，当水质变量x1、…、xp彼此相关时，最好先采用因子分析方法找出几个正交因子，再用它们代替原始水质变量计算距离系数矩阵D。

（2）相似系数。把任意两个水样Xj、Xk视为p 维空间的两个向量，这两个向量的夹角余弦（即相似系数）用cosθjk来表示，即

这样，可得到如下相似系数矩阵：

其中：cosθ11＝cosθ22，…，＝cosθNN＝1。若有cosθjk→1，说明两个水样Xj与Xk 之间的相似性密切；反之，若有cosθjk→0，说明之间的相似性很差。

（3）相关系数。第j 个水样与第k 个水样之间的相关系数可定义为

对于R—型聚类分析，也可采用与上述相似的分类统计量对P 个水质变量进行分类。(www.daowen.com)

需要指出的是，由于所研究的水质变量其单位和量纲可能不一，其大小差异亦可能达数量级。所以，应对原始数据作变换处理，以排除量纲的干扰。常用的方法有如下3 种。

（1）标准差标准化。将原始水质分析资料xij变换为

其中

经过变换以后，｛x′ij｝中的每一个变量的平均值为0，标准差为1。

（2）极差标准化。将原始水质分析资料xij变换为

经过变换以后，｛x′ij｝中的每一个变量的样本极差为1。

（3）极差正规化。将原始水质分析资料xij变换为

经过变换以后，｛x′ij｝的极差为1。

当采用上述方法求得分类统计量之后，据此可对水样（或水质变量）进行相似性聚类，从而形成谱系图。形成该图时应遵循如下4条原则。

1）若选出的一对样品（或变量）在已经分好的组中未出现过，可把它们形成一个新组。

2）若选出的一对样品（或变量）中，有一个出现在已经分好的组里，可把另外一个也加入到该组。

3）若选出的两个样品（或变量），它们分别出现在已经分好的两组中，可把这两个组连在一起。

4）若选出的两个样品（或变量）出现在同一组中，则不必再分组。如此反复进行，直至将所有的样品（或变量）都聚合分类完毕。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关大坝环境水文地质研究的文章

大坝水文地质研究成果：聚类分析模型

如何撰写2025年学生军训迟到的检讨书

2025年学生迟到早读反思的写作指导

如何撰写2025年新学期学生军训迟到的检讨书

如何撰写2025年年度迟到检讨书

2025年高中生早晨迟到反思该如何写

如何撰写2025年军训迟到的检讨书

如何撰写2025年早读迟到的检讨书

2025年员工关于上班迟到的反思与改进计划

相关推荐