理论教育 聚类分析概述-信息分析导论

聚类分析概述-信息分析导论

时间:2023-10-30 理论教育 版权反馈
【摘要】:表3.6数据矩阵聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数。聚类分析并不是直观地使用独立的变量去得到指定的输出。在进行聚类分析以前,对总体到底有几个类并不知道;聚类分析中具体的计算方法很多,不同问题下的数据对象应该采取哪种方法需要根据计算和分析进行不断地探索和调整。

聚类分析概述-信息分析导论

人类有一种本能的分类倾向,能够根据相似的特征而对事物进行分组。人类的大脑在处理一个复杂的问题时,往往首先对被认识的对象进行分类,通过将问题分解为大量的小问题而使问题容易解决。举一个简单直观的例子,当人们利用电脑组织信息的时候,会事先建立不同的文件夹,并利用分类能力将不同的信息存放在不同的文件夹中。通过分类对信息进行组织,极大地提高了信息的检索和利用效率。但是,尽管分类是人类的本能,且人类具有较强的基于综合分析的分类能力,面对错综复杂的现实世界,面对庞大的变量和数据量,人们还是会感到束手无策。随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高,只凭经验或专业知识对研究对象进行定性分类,已远远落后于人们在处理问题时的需求。为了进行确切的分类,为了揭示客观事物内在本质的分类规律,数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的拓展和深入,在数值分类学中又形成了聚类分析这一分支,聚类分析日益成为多元数据分析的重要组成部分。

聚类是把一组个体按照相似性归成若干个类别,即物以类聚。其目的是使得属于同一类别的个体之间的距离尽可能地小,而不同类别上的个体间的距离尽可能地大。表3.6是多元数据形成的数据矩阵。在表中,共有n个样品即x1,x2,…,xn,p个指标(变量),聚类分析有两种类型:按样品聚类或按变量聚类。

表3.6 数据矩阵

(www.daowen.com)

聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数。距离或相似系数代表样品或变量之间的相似程度。例如,在分层聚类中,按相似程度的大小,将样品或变量逐一归类,关系密切的样品或变量聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的样品或变量聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲疏关系的谱系图,再对谱系图进行分析,并按照要求对样品或变量进行分类。

聚类分析并不是直观地使用独立的变量去得到指定的输出。在进行聚类分析以前,对总体到底有几个类并不知道;聚类分析中具体的计算方法很多,不同问题下的数据对象应该采取哪种方法需要根据计算和分析进行不断地探索和调整。在计算机等技术协助下,聚类分析看起来只是简单地将所有的数据提交给系统并让其“魔术”般地将数据进行整齐的堆积,但事实上,聚类分析是一个复杂的过程,它具有完备的理论基础,旨在寻求现实世界中客观的分类规律。本节介绍分层聚类法与快速聚类法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈