理论教育 分类数据挖掘的意义

分类数据挖掘的意义

时间:2023-06-17 理论教育 版权反馈
【摘要】:分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。分类技术适用于预测或描述二元或标称类型的数据集,不适用于序数分类。分类问题可以定义如下:给定一个数据集,所给定的数据集称为训练数据集。为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理。其目的是消除或减少数据噪声,处理空缺值。相关性分析的目的就是删除这些不相关或冗余的属性。

分类数据挖掘的意义

分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。分类技术适用于预测或描述二元或标称类型的数据集,不适用于序数分类。分类和回归都可以用于预测,和回归方法不同的是,分类的输出是离散的类别值,而回归的输出是连续或有序。

分类问题可以定义如下:给定一个数据集,所给定的数据集称为训练数据集。训练数据集由一组数据库元组(常称作训练样本、实例或对象)构成,每个训练样本是一个由属性值或特征值组成的特征向量,而且每个训练样本还有一个类标号属性。一个具体的样本形式可为x={x1,x2,…,xp:c};其中xk表示属性Ak值,c表示类标号。给定的训练数据集用来建立一个分类函数(也称作分类模型或分类器),所建立的分类器用来预测数据库中类标号未知的数据元组的类别。

构造模型的过程一般分为训练和测试两个阶段。在构造模型之前,要求将数据集随机地分为训练数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元组来构造模型,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来定义。训练数据集中的单个元组也称作训练样本,由于提供了每个训练样本的类标号,该阶段也称为有指导的学习,通常模型用分类规则、判定树或数学公式的形式提供。在测试阶段,使用测试数据集来评估模型的分类准确率,如果认为模型的准确率可以接受,就可以用该模型对其他的数据元组进行分类。一般来说,测试阶段的代价远远低于训练阶段。

为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理。(www.daowen.com)

(1)数据清理。其目的是消除或减少数据噪声,处理空缺值。

(2)相关性分析。由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。

(3)数据变换。数据可以概化到较高层概念。比如,连续值属性“收入”的数值可以概化为离散值:低,中,高。又比如,标称值属性“市”可概化到高层概念“省”。此外,数据也可以规范化,规范化将给定属性的值按比例缩放,落入较小的区间,比如[0,1]等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈