理论教育 分类在数据挖掘中的应用

分类在数据挖掘中的应用

时间:2023-06-14 理论教育 版权反馈
【摘要】:与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值,两者常表现为决策树的形式,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。这样的数据集一般在数据挖掘中被称为训练集,顾名思义,分类预测的规则就是通过这个数据集训练出来的。

分类在数据挖掘中的应用

(一)分类的含义

分类是找出数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据项映射到某个给定的类别。分类是大数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点看,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标志,通过学习可以形成表达数据对象与类标志间对应的知识,这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。从这个意义上说,大数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预测未来数据的归类。

分类挖掘所获得的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有分类规则、决策树、数学公式、神经网络粗糙集等。

(二)分类的过程

分类(Classification)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。

(三)分类的特点

分类和回归都可用于预测,两者的目的都是从历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值,两者常表现为决策树的形式,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。(www.daowen.com)

另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大、有的有空缺值、有的分布稀疏、有的字段或属性间相关性强、有的属性是离散的而有的是连续值或混合式的。

(四)分类的用途

分类在客户管理、医疗诊断、信用卡的信用分级、图像模式识别领域具有广泛的应用。例如,分类应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会

(五)“二分”问题的实现

有一种很特殊的分类问题,那就是“二分”问题,显而易见,“二分”问题意味着预测的分类结果只有两个类:如是/否、好/坏、高/低……这类问题也称为0/1问题。之所以说它很特殊,主要是因为解决这类问题时,只需关注预测属于其中一类的概率即可,因为两个类的概率可以互相推导。如预测X=1的概率为P(X=1),那么X=0的概率P(X=0)=1-P(X=1)。这一点是非常重要的。

可能很多人已经在关心数据挖掘方法是怎么预测P(X=1)这个问题了,其实并不难。解决这类问题的一个大前提就是通过历史数据的收集,已经明确知道了某些用户的分类结果,如已经收集到了10 000个用户的分类结果,其中7000个是属于“1”这类,3000个属于“0”这类。伴随着收集到分类结果的同时,还收集了这10 000个用户的若干特征(指标、变量)。这样的数据集一般在数据挖掘中被称为训练集,顾名思义,分类预测的规则就是通过这个数据集训练出来的。训练的大概思路是这样的:对所有已经收集到的特征/变量分别进行分析,寻找与目标0/1变量相关的特征/变量,然后归纳出P(X=1)与筛选出来的相关特征/变量之间的关系(不同方法归纳出来的关系的表达方式是各不相同的,如回归的方法是通过函数关系式、决策树方法是通过规则集)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈