理论教育 数据挖掘的核心任务

数据挖掘的核心任务

时间:2023-06-17 理论教育 版权反馈
【摘要】:数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

数据挖掘的核心任务

数据挖掘的主要任务是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

3.2.1.1 分类问题

分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值。

举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说“我猜这个人是个上海人”,那么这个问题就属于分类问题;如果你对朋友说“我猜这个人的年龄在30岁左右”,那么这个问题就属于后面要说到的预测问题。

商业案例中,分类问题可谓是最多的,如给你一个客户的相关信息,预测一下他未来一段时间是否会离网,信用度是好/一般/差,是否会使用你的某个产品,将来是否会成为你的高/中/低价值的客户,是否会响应你的某个促销活动等。

有一种很特殊的分类问题,那就是“二分”问题,显而易见,“二分”问题意味着预测的分类结果只有两类,如是/否、好/坏、高/低等。这类问题也称为0/1问题。之所以说它很特殊,主要是因为解决这类问题时,我们只需关注预测属于其中一类的概率即可,因为两类的概率可以互相推导。如预测x=1的概率为p(x=1),那么x=0的概率p(x=0)=1-p(x=1),这一点是非常重要的。

可能很多人已经在关心数据挖掘方法是怎么预测p(x=1)这个问题的了,其实并不难。解决这类问题的一个大前提就是通过历史数据的收集,已经明确知道了某些用户的分类结果,如已经收集到了10 000个用户的分类结果,其中7 000个是属于“1”这类;3 000个属于“0”这类。伴随着收集到分类结果的同时,还收集了这10 000个用户的若干特征(指标、变量)。这样的数据集一般在数据挖掘中被称为训练集,顾名思义,分类预测的规则就是通过这个数据集训练出来的。训练的大概思路是这样的,对所有已经收集到的特征/变量分别进行分析,寻找与目标0/1变量相关的特征/变量,然后归纳出p(x=1)与筛选出来的相关特征/变量之间的关系(不同方法归纳出来的关系的表达方式是各不相同的,如回归的方法是通过函数关系式,决策树方法是通过规则集)。

3.2.1.2 聚类问题

聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以群分”,故得名聚类。

聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个类的主要特征是……”实际上这是一个聚类问题,但是在表达上容易让我们误解为这是个分类问题。分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。

聚类问题在商业案例中也是非常常见的,例如需要选择若干个指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。(www.daowen.com)

聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是几何距离;最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

3.2.1.3 关联问题

说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例。也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

关联分析要解决的主要问题是一群用户购买了很多产品之后,哪些产品同时购买的概率比较高,买了A产品的同时买哪个产品的概率比较高。可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”。

如果在研究的问题中,一个用户购买的所有产品假定是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性。如果假定一个用户购买产品的时间是不同的,而且分析时需要突出时间先后上的关联,如先买了什么,然后又买什么,那么这类问题称之为序列问题,它是关联问题的一种特殊情况。从某种意义上来说,序列问题也可以按照关联问题来操作。

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10 000个人购买了产品,其中购买A产品的人是1 000个,购买B产品的人是2 000个,A、B同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10 000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1 000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2 000/10 000=20%,那么提升度=80%/20%=4。

2.3.1.4 预测、时序模式及偏差分析

预测(predication)是指利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

时序模式(Time-series pattern)是指通过时间序列搜索出的重复发生率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

偏差分析又称为挣得值分析法或偏差分析法。挣得值分析法是在工程项目实施中使用较多的一种方法,是对项目进度和费用进行综合控制的一种有效方法。在偏差中包括很多非常有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找检查结果与参照之间的差别。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈