分类(classification)问题是数据挖掘领域研究的历史最为悠长,也是研究的较为透彻的问题。在数据挖掘领域,分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。其中映射关系的生成以及映射关系的应用就是数据挖掘分类方法主要的研究内容。这里的映射关系就是我们常说的分类函数或分类模型(分类器),映射关系的应用就对应于我们使用分类器将数据集中的数据项划分到给定类别中的某一个类别的过程。
举一个简单的例子,我们人是怎么区分一个人是男性和女性的问题就是一个分类的问题。在我们的大脑中早就建立了男人和女人的模型,每当我们遇到一个陌生人的时候,我们的大脑就获取了这个人的特征信息,通过大脑中的模型去将这个人归类到男性或者女性的类别中(当然人的大脑神经系统处理这个问题时的流程往往比我们这里叙述的复杂得多)。但是我们大脑中的模型是怎么建立的,很显然不是生来就有。我们大脑建立模型的过程都是从过去的经验中总结积累出来的,并在实践过程中不断地修正或扩充。
我们就可以从上面的例子中得出分类的研究意义是——从历史的特征数据中推导出特定对象的描述模型,用来对未来数据的预测和分析。到目前为止,基于各种思想和理论基础的分类算法已提出很多,算法的实际应用也已趋于成熟,用这些算法来对平衡数据集分类一般都能获得很好的泛化性能。这些成熟分类器的设计都是基于数据集类分布大致平衡这一假设的,但是用这些方法直接对类非平衡分布数据集进行分类,往往取得较差的分类效果。与类平衡数据集分类方法不同,对类非平衡数据集分类的目标可以描述为获取一个分类器,使得其能在不严重影响多数类实例分类准确率的基础上,尽可能正确分类少数类实例。(www.daowen.com)
实践证明,没有一种分类算法对所有的数据类型和定义域都优于其他分类算法,每种相对较优的算法都有它具体的应用环境。另外,概念漂移问题给机器学习带来了巨大的挑战。目前各种机器学习系统的构造算法在本质上都是基于一个静态学习环境而以尽量保证学习系统泛化能力为目标的一个寻优过程,所以现有各种机器学习算法本质上都不适应进行概念漂移数据流学习。目前,包含了概念漂移数据流分类的研究动向是对概念漂移数据流分类中的类别不平衡学习、重复概念学习及半监督学习和主动学习等问题的研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。