理论教育 聚类分析:对象自动分组,智慧旅游导论

聚类分析:对象自动分组,智慧旅游导论

时间:2023-11-23 理论教育 版权反馈
【摘要】:聚类用于实现将对象自动分组的一种方法。聚类分析是根据给定一组对象的描述信息,发现具有共同特性的对象构成簇。根据聚类形成的簇的特点,也可以将聚类效果进行分类。如果属于各个簇的对象之间没有交集,即ci∩cj=,这类聚类通常称为划分型聚类。如果簇之间只具有包含关系,如ci包含于cj,那么簇之间具有层次关系,这种聚类称为层次型聚类。UCk,则为部分聚类,通常那些未被分到任意一个簇中的对象为孤立点。

聚类分析:对象自动分组,智慧旅游导论

世界万物之间通常存在各种共性,因此发现共性将对象进行自动分组有着很多的应用。聚类(Clustering)用于实现将对象自动分组的一种方法。

聚类具有广泛的应用。在商业中通过收集客户的个人资料以及消费行为方面的数据,可以利用聚类技术实现客户的自动分群,将客户划分成具有不同特征的群体,不仅可以更好地了解客户特点,更重要的是便于开展产品的营销活动。聚类分析是根据给定一组对象的描述信息,发现具有共同特性的对象构成簇(Cluster)。其基本原则是:属于同一个簇的对象的相似度很高,而属于不同簇的对象的相似度很低;簇内相似度越高、簇间相似度越低,聚类效果越好,这是衡量聚类效果的标准之一。

图11-10 层次型聚类示意

假设数据集D由n个对象的信息构成:D={oi=(xi1,xi2,…,xim),i=1,2,…,n},其中,每个对象由m个属性描述,属性集合A={A1,A2,…,Am},xij是第i个对象第j个属性的取值。常见的聚类问题是,给定D以及要聚类的簇的个数k,输出k个簇的组成,即每个簇包含哪些对象。设簇的集合为C={C1,C2,…,Ck},其中C={oi1,oi2,…,oij}。由于簇的构成通常依赖于簇的个数k,而k的取值的选择具有一定的困难性,因此,也有些聚类方法不需要此参数。此时,通常需要设计一定的聚类效果的度量方法,输出具有最优度量的聚类结果,常用的度量方法有轮廓系数法。根据聚类形成的簇的特点,也可以将聚类效果进行分类。如果属于各个簇的对象之间没有交集,即ci∩cj=ø,这类聚类通常称为划分型聚类。如果簇之间只具有包含关系,如ci包含于cj,那么簇之间具有层次关系,这种聚类称为层次型聚类。如图11-10所示的簇之间的关系用树状图表示,是层次型聚类的一个示意图。如果簇之间只具有重叠关系,即ci∩cj≠ø,此时称为重叠聚类。现实世界中有些对象可以同时属于多个簇。根据数据集D与簇之间的关系,可以将聚类分为完全聚类和部分聚类。如果D=C1UC2U…UCk,即所有对象都被分配到簇中,则为完全聚类;否则,若D<C1UC2U…UCk,则为部分聚类,通常那些未被分到任意一个簇中的对象为孤立点。

聚类技术的效果依赖于对象之间相似度的衡量方法以及聚类效果的衡量方法,常见的聚类方法有划分法、层次法、基于密度的方法、基于模型的方法等。(www.daowen.com)

划分法通常是将数据集进行划分,即将每个对象分到各个簇中,以达到优化某种聚类效果度量的目的。典型的划分聚类方法包括k均值(k-means)、K中心点(k-medoids)等方法。

层次法将对象聚成的簇间具有层次关系,通常分为两种,凝聚层次聚类和分裂层次聚类。凝聚层次分类从单个对象开始,首先将每个单个对象看作一个簇,不断合并最相似的簇得到更大的簇。分裂型则刚好相反,从包含所有对象的一个簇开始不断分裂簇。典型的层次聚类算法包括Diana、Agnes、BIRCH、ROCK、CAMELEON等。

基于密度的方法基于对象之间的相邻关系和对象密度进行聚类,便于发现具有不规则形状的簇。典型的基于密度的聚类算法包括DBSCAN、OPTICS、DenClue等。

基于模型的方法假设每个簇中的对象都符合事先假设的模型,典型的基于模型的聚类算法包括EM、SOM、COBWEB等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈