基于数据挖掘的信息分析方法有很多种,可分为五大类,即分类分析、预估分析、聚类分析、关联分析和预测分析。需要注意的是,不同方法的应用领域不同,在实际工作中应根据应用场景和目的的不同,选择适当的数据挖掘方法。
(1)分类分析。
通过分类分析,从历史数据中“训练”出初步的分类模型,并支持新增数据的分类工作。常用的数据分类方法有:Bayes分类方法、决策树方法、基于规则的方法(AQ、C45 rules和RIPPER等算法)、支持向量机、神经网络方法、粗糙集方法等。
(2)聚类分析。
分类与聚类分析之间的不同在于分组的数目。在分类中,分组的数目是事先确定的,分类的目的是把一条新的观测分配到其中的某一个分组。但是,聚类分析中的分组的数目是事先未知的,由聚类分析结构决定。聚类分析的主要算法有层次聚类(如单一连接法、完全连接法、平均连接法、Ward's方法和重心法等)、密度聚类(如K近邻方法、统一核密度方法等)和分割聚类(如K均值方法、Wong's Hydride聚类方法等)。
(3)关联分析。
在数据挖掘中,关联分析的动机可以有多种,包括发现数据之间的关联,判断数据之间的关联的强弱程度、分析数据之间关联的变化过程。关联分析可以分为三种:(www.daowen.com)
①关联发现:关联发现的目的是发现数据之间存在的各种、多层次的关联关系,常用算法有Apriori算法、FP-Growth算法等。
②序列模式分析:序列模式分析的目的是在一个序列数据集中发现频繁的序列,常用的算法有GSP(Generalized Sequential Pattern,通用序列模式)算法、PrefixSpan算法等。
③时间序列分析:时间序列分析的目的是按照时间间隔相同的方式将数据排列成数值序列,在此基础上,发现数据的变化特征、发展趋势和演化规律。常见的时间序列模型有:自回归(Auto Regression,AR)模型、移动平均(Moving Average,MA)模型、指数平滑(Exponential Smoothing,ES)模型、自回归移动平均(Auto-Regressive Moving Average,ARMA)模型、自回归综合移动平均(Auto-Regressive Integrated Moving Average,ARIMA)模型等。
(4)预测分析。
预测分析主要用于根据已知的数据集,预测一个或一组未知的量。预测分析的方法有线性回归、非线性回归和多元回归等。值得一提的是,从理论角度看,数据挖掘技术中有两类预测建模任务,一类是分类,用于预测离散的目标变量(分类操作可以理解为预测分类编号);另一类是回归,用于预测连续的目标变量。这两项任务的目标都是训练出一个预测模型,使目标变量预测值与实际值之间的误差最小化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。