(一)数据挖掘对象
数据挖掘对象是指用于挖掘知识的数据来源,主要的挖掘对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库、NoSQL数据库以及Internet等。这里主要介绍下述几种。
1.文本挖掘
文本挖掘是将不同的文档进行比较之后,进行文档重要性和相关性排列,整理出文档的模式和趋势。文本挖掘的处理过程包括对大量文档集的内容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、文本关联等。其中不仅需要进行结构化和非结构化文档数据的处理,而且还需要处理复杂的语义关系。对于非结构化数据的挖掘存在两种解决方法:一种是开发新的非结构化数据挖掘算法;另一种是将非结构化数据转变成结构化数据,利用已有的数据挖掘算法进行挖掘,这是目前广泛应用的方法。
2.Web挖掘
Web挖掘是指从与WWW有关联的资源及行为中获取有用的模式和隐含的信息。Web中含有大量信息和超链接信息、Web页面的访问和使用信息,是进行Web挖掘的重要资源。Web挖掘包括以下三方面。
(1)在文档内容或文档描述中获取知识的过程,称之为Web内容挖掘。
(2)从WWW的组织结构及链接关系中推导知识,称之为Web结构挖掘。
(3)从Web的访问记录中抽取感兴趣的模式,即Web使用记录的挖掘。
3.多媒体数据的挖掘
多媒体数据类型包括图像、视频、音频时空数据和超文本等,隐藏了大量的有价值的知识。多媒体数据的挖掘是综合分析大量多媒体数据的视听特性与语义,利用多媒体的时间、空间、视觉特性、视听对象以及运动特性,挖掘出具有一定价值的、能够理解的知识模式,找出实践的趋势以及关联性。
4.时空数据挖掘
时空数据挖掘是指从海量、高维、高噪声和非线性的时空数据中提取隐含的、人们事先不知的、潜在的有用信息及知识的过程。时间维度和空间维度的存在增加了时空数据挖掘的复杂性。通常将时空数据挖掘分为时空模式发现、时空聚类、时空异常检测、时空预测和分类等。
(二)数据挖掘过程
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,虽然数据挖掘的过程随着不同领域的应用而有所区别,但一般认为有问题定义、数据准备、规律寻找和规律表示4个步骤,如图6-2所示。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是用用户可理解的方式,如可视化方式,表示已找出的规律。
图6-2 数据挖掘过程
数据挖掘更详细的步骤如下。
1.定义问题,确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见性的。
2.数据准备
数据准备包括数据的选择、数据的预处理和数据的转换。
(1)数据的选择
在大型数据库和数据仓库目标中提取数据挖掘的目标数据集,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(www.daowen.com)
(2)数据的预处理
研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
(3)数据的转换
将数据转换成一个分析模型。该分析模型是针对挖掘算法建立的。
建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
3.数据挖掘
根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
4.结果分析
对数据挖掘的结果进行解释和评价,转换成能够最终被用户理解的知识。对所得到的经过转换的数据进行挖掘,除了选择合适的挖掘算法外,其余一切工作都能自动地完成。
5.知识的运用
将分析所得到的知识集成到业务信息系统的组织结构中,实现知识的应用。
(三)数据挖掘工作量
数据挖掘是一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并利用这些信息做出决策或丰富知识。
在数据挖掘中,被研究的业务对象驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的根据。当然,整个过程中还会存在步骤间的反馈。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。图6-3给出了各步骤在整个过程中的工作量之比。从图中可以看出,60%的时间用在数据准备上,这说明数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%。
图6-3 数据挖掘过程工作量比例
数据挖掘过程的分步实现需要不同专长的人员,大体可以分为以下三类。
1.业务分析人员
要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。
2.数据分析人员
精通数据分析技术,并对统计学有较熟练地掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。
3.数据管理人员
精通数据管理技术,并从数据库或数据仓库中收集数据。
可见,数据挖掘涉及较多领域的知识,需要多领域专家合作完成,数据挖掘过程是需要反复进行的过程,不断地逼近事物的本质,不断地优化问题的解决方案。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。