理论教育 数据挖掘的功能及应用

数据挖掘的功能及应用

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:2)关联分析关联分析就是从给定的数据集中发现频繁出现的项集模式知识。关联分析广泛应用于市场营销、事务分析等应用领域。对异类数据的分析处理通常就称为异类挖掘。而偏离检测就是从数据已有或期望值中找出某些关键测度的显著变化。这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析。对新数据或测试数据能够有效确定其可靠程度。

1)概念描述:定性与对比

获得概念描述的方法主要有以下两种:

(1)利用更为广义的属性,对所分析数据进行概要总结;其中被分析的数据称为目标数据集。

(2)对两类所分析的数据特点进行对比,并对对比结果给出概要性总结,而这两类被分析的数据集分别被称为目标数据集和对比数据集。

2)关联分析

关联分析就是从给定的数据集中发现频繁出现的项集模式知识(又称为关联规则,association rules)。关联分析广泛应用于市场营销事务分析等应用领域。

3)分类与预测

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类挖掘所获的分类模型主要的表示方法有:分类规则(IF-THEN)、决策树(decision trees)、数学公式(mathematical formulae)和神经网络

一般使用预测来表示对连续数值的预测,而使用分类来表示对有限离散值的预测。

4)聚类分析

与分类预测方法明显不同之处在于,后者学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法,而聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。聚类分析属于无教师监督学习方法。

5)异类分析(www.daowen.com)

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类。对异类数据的分析处理通常就称为异类挖掘。

数据中的异类可以利用数理统计方法分析获得,即利用已知数据所获得的概率统计分布模型,或利用相似度计算所获得的相似数据对象分布,分析确认异类数据。而偏离检测就是从数据已有或期望值中找出某些关键测度的显著变化。

6)演化分析

对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析(其中又包括:时序数据分析,序列或周期模式匹配,以及基于相似性的数据分析等)。

7)数据挖掘结果的评估

评估一个作为挖掘目标或结果的模式(知识)是否有意义,通常依据以下四条标准:

(1)易于为用户所理解。

(2)对新数据或测试数据能够有效确定其可靠程度。

(3)具有潜在的应用价值。

(4)新颖或新奇的程度。一个有价值的模式就是知识。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈