粗糙集(Rough Set)理论是由波兰华沙理工大学Pawlak教授于20世纪80年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。目前,粗糙集理论已经在机器学习、决策分析、过程控制、模式识别与数据挖掘等方面得到了成功的应用。
粗糙集理论具有一些独特的观点。这些观点使得粗糙集特别适合于进行数据分析。
(1)知识的粒度性。粗糙集理论认为知识的粒度性是造成使用已有知识不能精确地表示某些概念的原因。通过引入不可区分关系作为粗糙集理论的基础,并在此基础上定义了上下近似等概念,粗糙集理论能够有效地逼近这些概念。
(2)新型成员关系。和模糊集合需要指定成员隶属度不同,粗糙集的成员是客观计算的,只和已知数据有关,从而避免了主观因素的影响。
采用粗糙集理论作为研究知识发现的工具具有许多优点。粗糙集理论将知识定义为不可区分关系的一个族集,这使得知识具有了一种清晰的数学意义,并可使用数学方法进行处理。粗糙集理论能够分析隐藏在数据中的事实而不需要关于数据的任何附加信息。
在信息系统中,对象由一组属性集表示。如果某些对象在考虑的属性集上取值完全相同,则这些对象在这一组属性上不能相互区分。不可区分关系的概念是粗糙集理论的基石,它揭示出论域知识的颗粒状结构。
定义6.1:一个信息系统是一个序对S=(U,A),其中:
(1)U是对象的非空有限集合。
(2)A是属性的非空有限集合。
(3)对于每一个a∈A,有一个映射a,a:U→Va,这里Va称为a的值集。
决策表可以根据信息系统定义如下:
定义6.2:设S=(U,A)是一个信息系统,A=C∪D,C∪D=φ,C称为条件属性集,D称为决策属性集。具有条件属性和决策属性的信息系统称为决策表。决策属性。
表6-3表示一个决策表的例子,其中U={1,2,3,4},A={A,B,C,D},其中D为
表6-3 一个决策表的例子
在信息系统中,对象由一组属性集表示。如果某些对象在考虑的属性集上取值完全相同,则这些对象在这一组属性上不能相互区分。不可区分关系的概念是粗糙集理论的基石,它揭示出论域知识的颗粒状结构。
定义6.3:每一个属性子集P⊆A决定了一个二元不可区分关系IND(P):
显然,IND(P)是集合U上的一个等价关系,且
(www.daowen.com)
如果(x,y)∈IND(P),则称x和y是P不可区分的。例如:表6-3中对象1和对象2关于决策d1是不可区分的。
关系IND(P),P⊆A,决定了U的一个划分,我们用U/IND(P)来表示。U/IND(P)中的任何元素称为一个等价类或信息粒度,用[x]IND(P)表示包含元素x的关系IND(P)的等价类。
对任意一个概念(或集合)X,当集合X能表示成基本等价类组成的并集时,称集合X是可以精确定义的;否则,集合X只能通过近似的方法来定义。
定义6.4:集合X关于P的下近似定义为
实际上是由那些根据已有知识判断肯定属于X的对象所组成的最大集合,也称为X的正区域,记作POSP(X)。
定义6.5:集合X关于P的上近似定义为:
是由那些根据已有知识判断可能属于X的对象所组成的最小集合。
定义6.6:集合X关于P的边界区域定义为:
如果BNP(X)=φ,则称X关于P是清晰的;反之,如果BNP(X)≠φ,则称X为关于P的粗糙集(见图6-13)。
图6-13 粗糙集概念的示意图
定义6.7:由那些根据已有知识判断肯定不属于X的对象所组成的集合,也称为X的负区域,记作NEGP(X)。
显然∪NEGP(X)=U。
在粗糙集理论中,集合的不精确性是由于边界区域的存在而引起的。集合的边界区域越大,其精确性则越低。
粗糙集理论提供了一整套比较成熟的在样本数据集中寻找和发现数据属性之间关系的方法。近年来,粗糙集理论在机器学习、决策分析、过程控制、模式识别与数据挖掘等方面已得到成功应用。
粗糙集理论的核心内容是属性重要性的度量和属性简约。属性重要性的度量可以分析数据中不同因素的重要程度,过去一般用专家知识对重要性高的属性赋予较大的权重,这必须依赖人的先验知识。而采用粗糙集理论的方法进行度量,可以不需要人为的先验因素,而是直接从论域中的样例发现各个属性的重要性的大小。因此,基于粗糙集理论提取出的规则集,能更好地描述从有限样本中反映出来的属性之间关系的本质特征。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。