聚类的方法有多重,最常用的是就是系统聚类,根据聚类过程不同,又分为凝聚法和分解法[7]。系统聚类分析中关键问题是描述个案和个案、个案和类以及类与类之间的远近关系,这就需要确定聚类的方法。包括组间平均链锁法(Between-Groups Linkage)定义了个案与类之间的组间平均链锁距离,该距离为个案与属于该类中的每个个案距离的平均值;组内平均链锁法(Within-Group Linkage)定义了个案与类之间的组内平均链锁距离,该距离为个案与属于该类中的每个个案间的距离和类内的每个个案间距离的平均值;最近相邻法(Nearest Neighbor)也称最短路法,该方法定义了个案与类之间的最近相邻距离,该距离为个案与该类中个案的最近距离值;最远相邻法(Furthest Neighbor)定义了个案与类之间的最远相邻距离,该距离为个案与该类中个案的最远距离值。重心聚类法(Centroid Clustering)也称质心聚类法或矩心聚类法,要求与个案的欧氏距离平方距离一起使用,该方法定义了重心距离,即计算该个案与类的重心之间的欧氏距离;中位数聚类法(Median Clustering)定义了个案与类之间的距离,即采用最近相邻距离和最远相邻距离之间的中间距离,作为个案与类的距离;离差平方和法(Ward’s Method)该方法是Ward根据方差分析原理总结出的聚类方法,所以也称Ward方法,先将n个个体各自成一类,然后每次减少一类,随着类与类之间的不断聚合,类内的离差平方和必然不断增大,选择使离差平方和增加最小的两类合并,直到所有的个体归为一类为止。无论哪种方法,其聚类原则都是近似的聚为一类,即距离最近或最相似的聚为一类。本文选取系统聚类法中的离差平方和法进行聚类分析。相比已有的多指标面板数据的聚类分析,该聚类思路操作较为简单,操作性强,较为全面地反映了面板数据的时序和截面特征,度量标准采用区间平方Euclidean距离。
离差平方和算法的具体原理为:设将n个样品分成k类,G1,G2,…,Gk,用X(t)i表示Gt中的第i个样品(注意X(t)i是p维向量),nt表示Gt中的样品个数,X(t)是Gt的重心,则Gt中样品的离差平方和为:
k个类的类内离差平方和为:(www.daowen.com)
粗看离差平方和法与其他方法有较大的差异,但是如果将Gp与Gq的距离定义为:
其中,Gr=Gp∪Gq,就可使离差平方和法和其他系统聚类方法统一起来,且可以证明离差平方和法合并类的距离为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。