理论教育 粗糙集:将知识划分为概念的分类能力

粗糙集:将知识划分为概念的分类能力

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。在粗糙集理论中,知识被认为是一种分类能力,其核心是利用等价关系对对象集合进行划分。粗糙集理论所有的概念和计算都是以不可区分关系为基础的,通过引入上近似集和下近似集,在集合运算上定义,这通常称为粗糙集理论的代数观。

(一)发展背景

自然科学、社会科学和工程技术的很多领域中,都不同程度地涉及对不确定因素和对不完备信息的处理。从实际系统中采集到的数据常常包含着噪声,不够精确甚至不完整。采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想。反之,如果正视它对这些信息进行合适地处理,常常有助于相关实际系统问题的解决。

多年来,研究人员一直在努力寻找科学地处理不完整性和不确定性的有效途径。模糊集和基于概率方法的证据理论是处理不确定信息的两种方法,已应用于一些实际领域。但这些方法有时需要一些数据的附加信息或先验知识,如模糊隶属函数、基本概率指派函数和有关统计概率分布等,而这些信息有时并不容易得到。

1982年,波兰数学家Z.Pawlak发表了经典论文“Rough Sets”,意味着粗糙集理论的诞生。Z.Pawlak提出的粗糙集理论——它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确(Inaccuracy),不一致(Inconsistent)、不完整(Incomplete)等各种不完备的信息,还可以对数据进行分析和推理;从中发现隐含的知识,揭示潜在的规律。

(二)粗糙集的含义

粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。

该理论与其他处理不确定和不精确问题理论最显著的区别是:它无须提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的。由于这个理论未能包含处理不精确或不确定原始数据的机制。所以这个理论与概率论模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。

粗糙集是一种处理不精确、不确定和不完全数据的新的数学方法,它可以通过对数据的分析和推理发现隐含的知识、揭示潜在的规律。在粗糙集理论中,知识被认为是一种分类能力,其核心是利用等价关系对对象集合进行划分。

(三)粗糙集的原理

粗糙集理论的基本框架可归纳为:以不可区分关系划分论域的知识,形成知识表达系统,引入上、下近似逼近所描述对象,并考查属性的重要性,从而删除冗余属性简化知识表达空间、挖掘规则。

粗糙集理论的主要概念有:不可区分关系、上近似与下近似、约简与核、相对约简与相对核信息系统与决策表。

属性约简是粗糙集应用于数据挖掘的核心概念之一。通过约简的计算,粗糙集可以用于特征约简或特征提取,属性关联分析。粗糙集是计算密集的,已经被证明求取所有约简和最小约简的问题都是NP-hard的。计算属性约简类似于机器学习中的最小属性子集选择问题,高效的约简算法是粗糙集理论应用于数据挖掘与知识发现领域的基础。

粗糙集合和普通集合的概念有本质的区别,粗糙集中的成员关系、集合的等价关系都与集合的不可区分关系表达的论域知识有关,一个元素是否属于一个集合不是有其客观性决定的,而是取决于知识。所以,粗糙集的特性都不是绝对的,与对事物的了解程度有关。从某种意义上来讲,粗糙集方法可以被看作是对经典集合理论的拓展。

粗糙集理论所有的概念和计算都是以不可区分关系为基础的,通过引入上近似集和下近似集,在集合运算上定义,这通常称为粗糙集理论的代数观。另外,也有一些学者从信息论的角度对粗糙集理论进行研究,以信息熵为基础提出了相应的粗糙集理论的信息观。在协调的决策表中粗糙集理论的代数观和信息观是等价的,而在不协调的决策表中代数观和信息观是不等价的。(www.daowen.com)

(四)粗糙集的特点

粗糙集最主要的特点是:它无须提供对知识或数据的主观评价,仅根据观测数据就能达到删除冗余信息,比较不完备知识的程度(即粗糙度),界定属性间的依赖性和重要性的目的。粗糙集理论提出知识的约简方法,是在保留基本知识(信息)同时保证对象的分类能力不变的基础上,消除重复、冗余的属性和属性值,实现对知识的压缩和再提炼。其操作步骤为:(1)通过对条件属性的约简,即从决策表中消去某些列;(2)消去重复的行和属性的冗余值。

(五)粗糙集在数据挖掘中的应用

粗糙集理论在数据挖掘中的应用相当广泛,涉及的领域有医疗研究、市场分析商业风险预测、气象学、语音识别、工程设计等。在众多的数据挖掘系统中,粗糙集理论的作用主要集中在以下几个方面。

1.数据约简

粗糙集理论可提供有效方法用于对信息系统中的数据进行约简。在数据挖掘系统的预处理阶段,通过粗集理论删除数据中的冗余信息(属性、对象以及属性值等),可大大提高系统的运算速度。

2.规则抽取

与其他方法(如神经网络)相比,使用粗糙集理论生成规则是相对简单和直接的。信息系统中的每一个对象即对应一条规则,粗糙集方法生成规则的一般步骤为:首先,得到条件属性的一个约简,删去冗余属性;其次,删去每个规则的冗余属性值;最后,对剩余规则进行合并。

3.增量算法

面对数据挖掘中的大规模、高维数据,寻找有效的增量算法是一个研究热点

4.与其他方法的融合

粗糙集理论与其他方法如神经网络、遗传算法、模糊数学、决策树等相结合可以发挥各自的优势,大大增强数据挖掘的效率

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈