理论教育 数据挖掘中的关键问题

数据挖掘中的关键问题

时间:2023-06-14 理论教育 版权反馈
【摘要】:数据挖掘与OLAP截然不同,数据挖掘用在产生假设,OLAP则用于查证假设。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。在利用数据挖掘出来的结论采取行动之前,也需要验证一下如果采取这样的行动会带来什么样的影响,那么OLAP工具能回答这些问题。数据挖掘常能够挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系。

数据挖掘中的关键问题

(一)数据挖掘与数据分析的区别

数据挖掘与传统的数据分析,如查询、报表、联机应用分析等的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知性、有效性和可实用性三个最基本的特征。

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了婴儿使用的尿不湿和啤酒之间的惊人联系。

(二)数据挖掘和数据仓库

要将庞大的数据转换成有用的信息,必须先有效率地收集信息。简单地说,数据仓库就是搜集来自其他系统的有用数据,存放在一个整合的存储区内。所以数据仓库就是一个经过处理整合,且容量特别大的关系型数据库,用以存储决策支持系统所需的数据,供决策支持或数据分析使用。

数据仓库本身是一个非常大的数据库,它存储着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据仓库中,而决策者则利用这些数据做决策,但是,这个转换及整合数据的过程是建立一个数据仓库。因为将作业中的数据转换成有用的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有:整合性数据、详细和汇总性的数据、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用数据挖掘的最大目的。换句话说,数据仓库应先行建立完成,数据挖掘才能有效率地进行,因为数据仓库本身所含数据是干净(不会有错误的数据掺杂其中)、完备且经过整合的。因此两者关系或许可解读为数据挖掘是从巨大数据仓库中找出有用信息的一种过程与技术。

通常,要先把数据从数据仓库中传送到数据挖掘库或数据集市中进行数据挖掘,如图6-4与图6-5所示。但是,从数据仓库中直接进行数据挖掘的优点是数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理,在做数据挖掘时就没必要再清理一次,而且所有的数据不一致的问题都已经解决。

图6-4 数据挖掘库从数据仓库中导出

图6-5 数据挖掘库从事务数据库中得出

数据挖掘库可以是数据仓库的一个逻辑子集,而不必是物理上独立的数据库。如果数据仓库的计算资源已经很紧张,那最好还是建立一个单独的数据挖掘库。当然,为了数据挖掘也不必非得建立一个数据仓库,也就是说,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,需要较大的投入和较长的时间才能完成。如果只是为了数据挖掘,也可以把一个或几个事务数据库导入到一个只读的数据库中,然后进行数据挖掘。

(三)数据挖掘和OLAP的比较

OLAP(Online Analyical Process)是指由数据库所链接出来的在线分析处理。OLAP是决策支持领域的一部分。数据挖掘与OLAP截然不同,数据挖掘用在产生假设,OLAP则用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立,而数据挖掘则是用来帮助使用者产生假设。所以在使用OLAP或其他Query的工具时,使用者是自己在做探索,但数据挖掘是用工具系统在帮助做探索。

如果分析工程师想找到导致贷款拖欠的原因,可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证这个假设。如果这个假设没有被证实,可以去查看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到需要的结果或放弃。也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到结论。OLAP分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用OLAP分析验证这些假设将是一件非常困难的事情。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。在本质上这是一个归纳的过程:例如,一个用数据挖掘工具的分析师需要找到引起贷款拖欠的风险因素,数据挖掘工具可能帮助找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或尝试过的其他因素,如年龄等。数据挖掘与OLAP具有互补性。在利用数据挖掘出来的结论采取行动之前,也需要验证一下如果采取这样的行动会带来什么样的影响,那么OLAP工具能回答这些问题。而且在知识发现的早期阶段,OLAP工具还有其他用途,如探索数据,找到对一个问题比较重要的变量,发现异常数据和互相影响的变量。这能更好地理解数据,加快知识发现的过程。(www.daowen.com)

数据挖掘常能够挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系。利用数据挖掘可以自动找出数据模型与关系的特性,OLAP可以和数据挖掘互补。

(四)数据挖掘和人工智能

人工智能和统计分析的目标都是模式发现和预测,但数据挖掘不是为了替代传统的统计分析技术,而是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度令人满意,但却对使用者的要求很高。随着计算机系统计算能力的不断增强,可以利用强大的计算能力,在足够多的数据支持下,应用计算智能,几乎不用人的参与即可自动完成许多有价值的功能。

数据挖掘利用了统计和人工智能技术的应用程序,封装这些高度复杂的技术,不用人的参与掌握这些技术也能完成同样的功能,这样可使人们将更多的精力专注于需要解决的问题。

(五)数据挖掘和统计分析

统计学通过机器学习来影响数据挖掘,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。相对传统统计分析而言,数据挖掘有下列几项特性。

(1)数据挖掘处理大量实际数据,无须过多专业的统计背景去使用数据挖掘的工具。

(2)数据分析趋势是从大型数据库抓取所需数据并使用专用分析软件,数据挖掘的工具更符合企业需求。

(3)从理论的基础点来看,数据挖掘和统计分析在应用上存在差别,数据挖掘的目的是方便企业终端用户使用,而非用于统计学检测。

(六)Web挖掘和数据挖掘的区别

Web挖掘是指网络数据挖掘。从堆积如山的由网络所获得的数据中找出让网站运作更有效率的操作因素。Web挖掘不只限于一般的日志文件分析,除了计算网页浏览率以及访客人次外,还有网络上的零售、财务服务、通信服务、政府机关、医疗咨询、远距教学等,只要由网络联结出的数据库大而完整,即可进行离线的分析与Web挖掘,或可整合离线及在线的数据库,实施更大规模的模型预测与推算。Web挖掘具有以下特性。

(1)数据收集容易。

(2)以交互式个人化服务。

(3)可整合外部来源数据。

利用数据挖掘技术建立更深入的数据剖析,并架构精准的预测模式,呈现真正智能型、个人化的网络服务是Web挖掘的方向。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈