(一)数据挖掘
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含其内的、人们事先所不知的,但又是有潜在价值的信息和知识的过程。几点说明如下。
①数据挖掘涉及数据融合、数据分析和决策支持等内容。
②数据源必须是真实的、大量的、含有噪声的、用户感兴趣的数据。
③发现的知识要可接受、可理解、可运用,并不要求发现放之四海而皆准的知识,仅支持特定的问题。
④数据是知识的源泉,将概念、规则、模式、规律和约束等视为知识,这就好像从矿石中
采矿或淘金一样,从数据中获取知识。
⑤原始数据可以是结构化数据,如关系型数据库中的数据等,也可以是非结构化数据,如文本、图形和图像等,还可以是半结构化数据,如网页等。
⑥挖掘知识的方法可以是数学的方法,也可以是非数学的方法;可以是演绎的方法,也可以是归纳的方法。
⑦挖掘的知识具有应用的价值,可以用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。
⑧数据挖掘是一门交叉学科,将人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在需求推动下,不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的知识融合后,形成新的研究热点。
数据的挖掘首先是搜集数据,数据越丰富越好,数据量越大越好,只有获得足够的高质量的数据,才能获得确定的判断,才能产生认知模型,这是量变到质变的过程。由此产生经验,经验的积累就能产生有价值的判断。认知模型是渐进发展的模型,当认识深入以后,将产生更加抽象的模型与许多猜想,通过猜想再扩展模型,从而达到深度学习和深度挖掘。
(二)数据挖掘分类(www.daowen.com)
数据挖掘可以分为两类:直接数据挖掘和间接数据挖掘。
(1)直接数据挖掘
直接数据挖掘的目标是利用可用的数据建立一个模型,利用这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。分类、估值、预测属于直接数据挖掘。
(2)间接数据挖掘
间接数据挖掘目标中没有选出某一具体的变量,用模型进行描述,而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚类、描述和可视化以及复杂数据类型挖掘属于间接数据挖掘。
(三)数据挖掘技术
数据挖掘技术是数据挖掘方法的集合,数据挖掘方法众多。根据挖掘任务可将数据挖掘技术分为预测模型发现、聚类分析、分类与回归、关联分析、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现、离群点检测等。根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。根据挖掘方法可分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别和非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
数据挖掘应用了来自其他一些领域的思想与算法,主要包括如下内容。
②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
其他一些领域的技术也起到重要的支撑作用,需要数据库系统提供有效的存储、索引和查询处理支持。高性能计算技术、并行计算技术、分布式技术也能帮助处理数据,当数据不能集中到一起处理时更是至关重要。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。