数据挖掘是一个多学科交叉的研究与应用领域:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识系统、知识获取、信息检索、高性能计算以及可视化计算等广泛的领域。
随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们积累的数据越来越多,如何有效利用这一丰富数据的海洋为人类服务,业已成为广大信息技术工作者所关注的焦点之一。激增的数据背后隐藏着许多重要而有用的信息,人们希望能够对其进行更高层次的分析,以便更好地利用它们。与日趋成熟的数据管理技术和软件工具相比,人们所依赖的传统的数据分析工具功能,已无法有效地为决策者提供其决策支持所需要的相关知识,由于缺乏挖掘数据背后的知识的手段,而形成了“数据爆炸但知识贫乏”的现象。为有效解决这一问题,自20世纪80年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源,以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。
数据挖掘经历了以下发展过程:
20世纪60年代及之前:数据收集与数据库创建阶段,主要用于基础文件处理;
70年代:数据库管理系统阶段,主要研究网络和关系数据库系统、数据建模工具、索引和数据组织技术、查询语言和查询处理、用户界面与优化方法、在线事务处理等;
80年代中期:先进数据库系统的开发与应用阶段,主要进行先进数据模型(扩展关系、面向对象、对象关系)、面向应用(空间、时间、多媒体、知识库)等的研究;
80年代后期至21世纪初:数据仓库和数据挖掘蓬勃兴起,主要对先进数据模型(扩展关系、面向对象、对象关系)、面向应用(空间、时间、多媒体、知识库)等的研究。
数据挖掘(Data Mining,DM)是20世纪90年代在信息技术领域开始迅速兴起的数据智能分析技术,由于其所具有的广阔应用前景而备受关注,作为数据库与数据仓库研究与应用中的一个新兴的富有前途领域,数据挖掘可以从数据库,或数据仓库,以及其他各种数据库的大量各种类型数据中,自动抽取或发现出有用的模式知识。
数据挖掘简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义性描述。
数据挖掘,又称数据库中的知识发现(Knowledge Discovery from Database,KDD),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘的全过程描述如图8-1所示。
数据挖掘的主要步骤有:
(1)数据预处理,包括:(www.daowen.com)
2011年至今:大数据时代,大数据挖掘成为研究热点和新的挑战。
图8-1 数据挖掘的全过程
数据清洗。清除数据噪声和与挖掘主题明显无关的数据。
数据集成。将来自多数据源中的相关数据组合到一起。
数据转换。将数据转换为易于进行数据挖掘的数据存储形式。
数据消减。缩小所挖掘数据的规模,但却不影响最终的结果。包括:数据立方合计、维数消减、数据压缩、数据块消减、离散化与概念层次生成等。
(2)数据填充。针对不完备信息系统,对缺失值进行填充。
(3)数据挖掘。利用智能方法挖掘数据模式或规律知识。
(4)模式评估。根据一定评估标准,从挖掘结果筛选出有意义的模式知识。
(5)知识表示。利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。