理论教育 数据挖掘的应用及优势

数据挖掘的应用及优势

时间:2023-06-28 理论教育 版权反馈
【摘要】:数据挖掘主要能帮助我们做如下事情:1.分类分类是数据挖掘领域研究的历史最为悠长,也是研究的最为透彻的一个问题。数据挖掘中最常见的一类问题就是关联分析,如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,通过关联分析挖掘隐藏在数据间的相互关系。数据挖掘中的聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。数据挖掘与建模之间的关系。

数据挖掘的应用及优势

数据挖掘是对观测到的数据集合进行分析的过程,帮助我们发现未知的信息,正如我们不知道购买诺贝尔文学奖获得者莫言的书籍红高粱家族》的读者是否会购买《透明的红萝卜》这本书一样,我们需要寻找购买关联的概率,以便于决定是否给读者推荐这本书。

数据挖掘主要能帮助我们做如下事情:

1.分类

分类(Classification)是数据挖掘领域研究的历史最为悠长,也是研究的最为透彻的一个问题。分类帮助我们找到客观事物之间的类别区分,举一个简单的例子,我们怎么区分男性和女性问题就属于一个分类问题。

如果给分类下个定义:分类就是对一个新的客观事物特征进行描述,然后把客观事物的观察值分配到事先确定的类别之中。用数学模型模式就是从一个数据集到一组预先定义的、非交叠的类别的映射过程。这里的映射关系就是分类函数或分类模型(分类器),映射关系的应用就是对应于使用分类器将数据集中的数据项划分到给定类别中的某一个类别的过程。

2.预测

预测(prediction)是对未发生的事件提前预测其发生的可能性概率。从前因推知后果,此为根据经验预测。数据挖掘中的预测是根据数据,依靠训练数据建立的先验模型,然后在此基础和前提下的预测。

任何预测都是有前提的,就像“专家”们的预测也是有前提和模型的。

3.关联

关联(Association Rules)。现实生活中事物之间往往是有关联的,就像沃尔玛“啤酒与尿布”的故事,发现啤酒与尿布之间的关系,“购物车”分析发现购买商品之间的关联,以便于联合营销推广。

数据挖掘中最常见的一类问题就是关联分析,如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,通过关联分析挖掘隐藏在数据间的相互关系。

4.聚类

聚类(Clustering)。首先要明确一点,聚类和分类不同,聚类是事先不知道有多少类,分类事先知道分多少类。聚类是无监督的一个学习过程。

数据挖掘中的聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析是在相似的基础上收集数据来进行分类。

数据挖掘与建模之间的关系。在大数据时代,最重要的应用就是智能化自主决策,整个应用的系统化过程,涉及数据信息的获取、共享、整合、分析、建模和分发等方面,而在这之中,数据挖掘中数据模型的开发将会作为整个智能化的中枢,变得日益重要。信息化发展过程如图4-9所示。

978-7-111-44579-1-Chapter04-9.jpg

图4-9 信息化发展过程

建模属于数据挖掘层级中的一个层级,基于企业对数据的使用需求情况,数据挖掘层级可以分为以下四个层级,即报表级应用、分析级应用、模型级应用和智能决策系统。

(1)报表级应用

报表级应用的重点是回顾历史,它主要是利用数据对企业历史上的经营情况进行回顾和总结,并且定期或不定期地生成报表。通过这些报表可以回答某段时间内某个领域发生了什么事情,有多少次,多大数量等问题。同时这些报表兼具一定的查询功能。报表级应用可以进一步细分为常规报表(BI)和即席查询两部分。

(2)分析级应用

分析级应用的重点是关注现在,它主要是根据业务需要,对数据从不同维度进行展开和比较,可通过一些复杂的分析(频次分析、相关分析等)进一步发现问题出现的原因,并可以根据业务需求设定一定的警戒值,起到提醒和警示作用。报表级可以进一步细分为多维分析(OLAP)、预警提醒和统计分析。

(3)模型级应用

模型级应用的重点是预测未来,它主要是基于历史数据,开发各种预测模型,对客户和业务未来发展作出预测,进一步设计和优化策略方案,实现企业未来效益的最优化。即回答了“未来会怎么样?如何做才是最优?”的问题。模型级可以进一步细分为预测建模和策略设计优化。

(4)智能决策系统

智能决策系统通过对模型策略的应用,可以对信息以可视化的图形、趋势线、友好的界面展现数据背后的可视化信息,从而帮助管理层实时作出决策,把握机遇。

SAS公司的SAS/EM模块是数据挖掘不错的工具,一些成熟的模型与分析技术得到广泛的应用,如相关分析、LOGISTIC逻辑回归、因子分析、生存分析、聚类分析、判别分析方差分析、神经网络决策树等在业界已经得到广泛的应用。

数据挖掘建模,简而言之,就是通过模型开发的方法,从海量的数据中筛选出有用的信息和规律,以实现对目标的准确刻画。通常我们分析基于的数据是普适和海量的,数据的普适性决定了对于某一特定的分析目标,必然存在庞杂的不相关或不敏感信息,通常数据的价值密度同数据总量的大小成反比,例如,在一部连续不断监视的视频之中,可能提供对于某案件侦破有用的仅仅是一两秒的信息。另外,海量的数据已经成为当前这个时代的数据大爆炸的标志,现在的商业活动,从某种程度上可以说就是一场发生在数据海洋上的较量,而对于那些走向深蓝的企业,谁能更加高效和准确地把握其中有效信息,谁就将在这场较量中把握更多的筹码。

数据模型作为对现实世界的抽象,通过一系列科学、标准的建模过程,可以有效地对数据特征进行抽象,获取关键信息和指标。目前,数据模型被广泛应用于金融电子商务电信等行业,其中在信用卡行业应用颇具代表性。对于商业应用而言,最复杂的模型不一定是最好的,特别是由于企业对于风险的敏感,现实多采用经过时间考验的相对成熟的建模方法,建模的过程更加强调业务和模型的有效融合,因此,脱离对业务的理解,所开发的模型往往是有失偏颇的。另外,现实应用中多采用模型结果可理解性较好的方法。

数据模型开发的哲学基础是历史的可重复性,即认为事件存在内在的、相对稳定的规律性。在某种程度上,这种规律性主要源于人们的思维方式和行为习惯在某一时期内的稳定性,而人们的社会和经济活动则是这些思维活动的衍生。历史的可重复性使得商业模型的开发成为了可能,并保证了其在未来一段时间内的有效性,然而社会的快速发展和一些突发事件的发生,往往会强烈影响数据开发的哲学基础,因此数据模型并不是万能的,在开发之前需要对应用场景进行深入分析,对于某些重复性欠缺的领域应该寻求其他的解决方案。另外,模型开发实施一段时间,可能由于环境的改变,模型的性能会逐渐发生改变,此时,便需要重新评估校准,甚至开发新的模型。

不同于工程领域的仿真模型以精确性为目的,商业领域所用到的数学模型更多地体现对客户在统计层面的区分情况,即排序性。强调排序性并不是认为精确性并不重要,主要是因为在社会学领域,影响某一事件的因素往往是非常复杂的,要想精确地刻画一件事往往是徒劳的,与某一目标的绝对值不同,相对分布往往表现得更稳定。另外,从业务执行层面来看,模型使用的最终目的通常是实现对客群的细分,对不同的细分群使用不同的营销策略和管理方案。因此,权衡来看一个排序性很好的模型往往更加现实并能满足业务的需要。

数据挖掘模型开发基于的思想基础是经验的可重现,也即通过对历史上的样本数据集,进行模型训练,获得模型函数,然后对新样本进行预测,通常都是基于历史学习的判别分类方法。

常见的分类模型有:判别分析法、回归分析法、决策树方法、数学规划方法、神经网络方法、最近邻方法和组合预测方法等。其中,判别分析法和回归分析法最终主要生成一个评分卡,依据分值对客户进行排序分类,其他一些模型虽并不生成一个评分卡,但共同之处都是对客户进行细分。在商业应用中常用到的是贝叶斯定律的LOGISTIC回归方法。(www.daowen.com)

大数据的相关分析如下:

(1)相关分析

相关分析是研究变量之间相互关系的密切程度和相互联系方式的重要方法,对于描述随机现象的变量,它们之间的关系具有某种不确定性,通过相关分析研究实际事物与现象之间的关系。

相关分析是为了检验分析变量之间是否存在某种联系,以及变量之间联系的密切程度,其联系的密切程度通过相关系数衡量。

相关的函数关系是一种严格的依存关系,这种关系可以用y=fx)的方程来表现。

相关的密切程度关系系数分为正负号,分别表示正相关负相关。其R值取值范围在[0,1]绝对值之间。其值大小反映两变量之间相关的密切程度,见表4-1。

表4-1 变量之间相关系数R的强度说明

978-7-111-44579-1-Chapter04-10.jpg

(2)LOGISTIC逻辑回归

LOGISTIC逻辑回归过程是一个二值响应回归过程,也就是分析的变量分类只有两个值0和1或次序变量的关系。打个比方,相对于信用卡开卡这个事件而言,申请信用卡开卡的客户要么开卡,要么拒绝开卡,只有这两种情况发生。LOGISTIC逻辑回归属于一种特殊的回归过程,用时要根据需求来定。如果此事件分析变量具有二值类型,只有两种结果,就可以选择LOGISTIC逻辑回归模型进行分析。数据挖掘中二值事件的情况经常用到逻辑回归模型。

(3)因子分析

因子分析在心理学、社会学、医学和经济学等学科中有广泛的应用。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的、但又无法直接测量到的隐性变量(Latent Variable,Latent Factor)。比如,如果要测量通货膨胀的原因,是内部行政手段干预调控的直接原因还是其他原因,这里,通货膨胀与其他经济指标是无法直接用一个测度(比如一个问题)测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地把握。换句话说,这些变量无法直接测量。可以直接测量的可能只是它所反映的一个表征(Manifest),或者是它的一部分。在这里,表征与部分是两个不同的概念。表征是由这个隐性变量直接决定的。隐性变量是因,而表征是果,比如,通货膨胀是货币发行过度的一个主要决定因素。

从显性的变量中得到因子,需要借助因子分析的方法,一类是探索性因子分析,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。主成分分析是其中的典型方法。验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然尚且不知道具体的系数。

(4)生存分析

生存分析是研究生存现象和响应时间数据及其统计规律的一门学科,其目的是描述生存时间的分布以及它与其他变量的关系。生存分析的响应变量是生存时间,与其有关的自变量是与生存时间有关的其他变量,其中自变量可以是离散的,如性别、身高、民族等;也可以是连续变量,如温度、身高和年龄等。

(5)聚类分析

聚类分析是研究事物分类的一种统计方法,将物理或抽象对象的集合分组成为由类似的对象组成的多类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用于描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中,根据数据特征进行的分类研究。

(6)判别分析

判别分析(Discriminant Analysis)是由fisher于1936年提出的,是一种进行统计鉴别和分组的技术手段。判别分析是根据已知样本的分类以及所测的指标,筛选出能够提供较多信息的指标,从而建立判别方程,使其错判率最小。根据判别方程,将未知分类的样本指标带入判别方程,从而判断它属于哪个总体。

基本思想:根据已知类别的样本所提供的信息,总结出分类的规律性,建立判别公式和判别准则,根据判别函数判别新样本所属类型,是判别个体所属群体的一种统计方法。

(7)方差分析

方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。事物往往有许多因素互相制约又互相依存,方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和。经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。

方差分析通常应用在自变量与因变量的相关关系研究中,是看某个因素对因变量是否有显著性的影响,主要分析各效应的显著性。

(8)决策树(分类树)方法(Decision or Classifica-tion Trees)

分类树方法最后不是生成一个评分卡,而是将消费者分成不同的组,在组内各样本的违约概率尽量相等,而违约概率在组之间的差异则尽可能大。其特点是,能更有效地处理特征变量之间存在相互作用的情形,而且即使有些特征变量存在一定的数据缺失,该方法也能适用,另外,分类树方法可以通过人为设置节点从而实现业务经验的嵌入,建模速度快,适合于精确性要求较低的领域。分类树方法也有一些缺陷,如某些低端节点所包含的样本可能太少,从而使得在这些节点中所作的统计推断不可靠。

(9)神经网络(Neural Network)

神经网络是一种模仿人脑信息加工过程的智能化信息处理技术,具有大规模并行处理、自学习、自组织自适应等能力,能独立处理复杂的非线性问题,不限于严格的前提假设条件。该方法常应用于风险管理中,能够较好地忠实于客观实际,对噪声和缺失数据有较强的忍耐能力。

Chen&Titterington(1994)认为,神经网络方法实际上可以被看做一种非线性回归。该方法可能存在过度拟合的问题。Davis(1992)也比较过神经网络与其他方法,认为神经网络能很好地处理数据结构不太清楚的情况,但其训练样本时间较长。此外,其可解释性较差也受到质疑。

神经网络与判别分析最大的差异在于神经网络具有学习能力,因此对于无法以线性模型来区别群组的问题,神经网络最能发挥其特长与优势。判别分析是一种“白盒”技术,具有较强的透明度,模型中变量的系数都具有一定的经济学含义,代表了指标的重要性程度,可以比较各变量对模型贡献的大小。而神经网络是一种“黑盒”技术,它可以根据新的样本不断地调整模型,适用于样本分布不断变化的情况。根据以往的研究,虽然神经网络方法能很好地处理那些数据结构不太清楚的情况,且短期预测的准确性稍胜判别分析方法,但由于其工作随机性较强,为了得到一个较好的神经网络结构,需要人为地调试,而且其样本训练时间较长,非常耗费人力和时间,使得神经网络在计算效率、可解释性、适应性、稳定性、操作简单性方面逊于判别分析方法。此外,神经网络在分类不当的情况下错判比例较高,可能造成对模型的解释性不强。

神经网络的优点是预测精度较高。其缺点:一是稳健性不够好,当用保留样本进行预测时,精度下降较多;二是模型的解释性不强,建模过程基本上是一个“黑盒”;三是它主要用于分类,即将申请人分成“好客户”和“坏客户”,而不能像判别分析那样产生线性评分卡。判别分析方法的主要优点是其稳健性较好、模型的可解释性较强、可以产生一个线性评分卡;缺点则是其预测精度比神经网络差。

在大数据时代,通过数据挖掘、模型建设、数据分析、智能化系统应用可以让我们快速地了解数据背后的信息价值,帮助企业了解现状、管理决策,进行相关因素分析以把握未来发展的方向,掌握数据背后隐藏的数据信息。数据淘金的时代将是未来的主流,数据分析人才在未来几年需求量将大增,尤其是复合型人才将是未来各行业急需的人才。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈