信息处理是通过使用适当的处理方法从目标数据集中抽取满足问题识别和问题理解的有用信息的过程。针对不同的处理目标,支持信息处理的方法很多,如规则归纳、基于案例推理、神经网络、遗传算法、贝叶斯网络、模糊集理论、粗糙集方法、统计分析、数据库技术等。这些方法可以概括为四个大的类别:统计学方法、人工智能方法、数据库技术以及可视化技术。选择什么方法取决于问题本身以及决策者的要求。因此,在实际应用中信息处理往往是多种方法的集成应用。
本节主要介绍信息处理的统计学方法。
1)多元数据的相关分析
多元数据是指含有多个随机变量(对应信息处理中的属性)的一组数据,多元数据的相关分析就是找出随机变量之间的相关关系。
社会经济现象之间存在着大量的相互联系、相互依赖、相互制约的数量关系。这种关系可分为两种类型。一类是函数关系,它反映着现象之间严格的依存关系,也称确定性的依存关系。在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之对应。
另一类是相关关系,在这种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。例如,批量生产的某产品产量与相对应的单位产品成本,某些商品价格的升降与消费者需求的变化,就存在着这样的相关关系。
(1)多元数据的数字特征及相关矩阵
设(x1,x2,…,xp)T是p元总体,从中取得样本数据:
(x11,x12,…,x1p)T
(x21,x22,…,x2p)T
︙
(xn1,xn2,…,xnp)T
第i个观测数据记为:称为样品,这样可以用矩阵X来表示样本数据
xi=(xn1,xn2,…,xnp)T,i=1,2,…,n
X=[x1,x2,…,xn]
X是p×n的矩阵,它的n个列即是n个样品x1,x2,…,xn。观测矩阵X的p个行分别是n个变量x1,x2,…,xp在n次实验中所取的值,记为:
x(j)=(x1j,x2j,…,xpj)T,j=1,2,…,p
因而有:
①第j行x(j)的均值:,j=1,2,…,p。
②第j行x(j)的方差:,j=1,2,…,p。
③x(j),x(k)的协方差:。
显然,有sjk=,j=1,2,…,p
称是样本数据的均值向量。
称:是样本数据的协方差矩阵。
则有:
均值向量与协方差矩阵S是p元样本数据的重要数字特征。表示p元样本数据的集中位置,而S的对角线元素分别是各个变量观测值的方差,非对角线元素则是变量观测值的协方差。
④x(j)与x(k)的相关系数:
rjj是无量纲的量,而且总有。
称:是观测数据的相关矩阵。
相关矩阵R是p元观测数据的最重要数字特征,它刻画了变量之间线性联系的密切程度。R往往是多元数据分析的出发点。从S和R的表达式分析,S和R总是“非负定”的,在实际应用中,S和R常常是正定的。
(2)总体的数字特征及相关矩阵
设p元总体X=(x1,x2,…,xp)T。令μi=E(xi),i=1,2,…,p,
则μ=(μ1,μ2,…,μp)T称为总体均值向量。
总体的协方差矩阵为:Σ=E[(X-μ)(X-μ)T]=(σjk)p∗p
其中σjk=E[(Xj-μj)(Xk-μk)T],特别地,当j=k时,σjj=σj2
记:总体的分量Xj,Xk的相关系数为:
总有:pjj=1,,则总体的相关矩阵为:
协方差矩阵Σ和相关矩阵p总是“非负定”的。而在多元数据分析中,样本数据的均值向量、协方差矩阵S及相关矩阵R分别是总体的均值向量μ、协方差矩阵及相关矩阵的估计,即当n充分大时,有μ≈,Σ≈S,p≈R。
2)多元数据的聚类分析
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
(1)样本间的相似性度量
聚类通常按照对象间的相似性进行分组,因此如何描述对象间相似性是聚类的重要问题。数据的类型不同,相似性的含义也不同。例如,对数值型数据而言,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度;而对分类型数据来说,两个对象的相似度是与它们取值相同的属性的个数有关。
设有n个对象的多元观测数据:
xi=(xi1,xi2,…,xip)T,i=1,2,…,n
这时每个对象可以看作p元空间的一个点,n个对象组成p元空间的n个点。于是,可以用各点之间距离来衡量样本之间相似度。设d(xi,xj)是对象xi,xj之间的距离,一般要求d(xi,xj)满足:
①d(xi,xj)≥0,且d(xi,xj)=0,当且仅当xi=xj;
②d(xi,xj)=d(xj,xi);
③d(xi,xj)≤d(xi,xk)+d(xk,xi)。
在实际分析中,有时定义的距离并不满足③。以下是在聚类分析中常用的距离:
①欧氏(Euclidean)距离:
②绝对距离:
③Minkowski距离:
显然,当m=1时就是绝对距离,这时需要对对象数据进行标准化处理,然后用标准化数据计算距离。
④马氏(Mahalanobis)距离:
d(xi,xj)=[(xi-xj)TS-1(xi-xj)]1/m
其中S是由样本x1,x2,…,xn计算得到的协方差矩阵
(2)谱系聚类法
聚类一般涉及两个阶段的搜索算法,即先搜索可能的类的个数,再对给定的类,寻找出最佳的聚类结果。但是,类的个数的确定往往非常困难,普遍的做法是采用某种寻优准则,如AIC准则、BIC准则、MDL准则、MML准则、熵准则等。
谱系聚类法的目的是根据给定的数据集产生一个层次结构。其基本过程是:开始每个对象各成一类,然后相继将两个最近的类合并为一个新的类,直到所有的对象成为一个总类,从而得到一个按相似性大小聚集而成的一个谱系图。
类间的相似性可以通过类间的距离来衡量。而类间距离有多种定义方式,一般根据用户的应用目标确定,常用的有最短距离、最长距离、类平均距离和重心距离等。
在谱系聚类法里,用i,j分别表示对象xi,xj;用dij表示对象x1与x2之间的距离。设GP为一个类,它包含np个对象x1,x2,…,xnp。则其均值:称为类GP的重心。于是:
①最短距离:DPq=min{dij:i∈GP,j∈Gq}
②最长距离:DPq=max{dij:i∈GP,j∈Gq}
③重心距离:
④类平均距离:
即用两类中所有两两对象之间的距离或平方距离的评价作为两类之间的距离。
以下是谱系聚类法的基本步骤:
①n个样本开始时作为n个类,计算两两之间的距离,构成一个对称的距离矩阵:
此时,类间的距离就是对象间的距离。
②选择Dn中的非对角线上的最小元素,设这个最小元素是Dpq,这时,Dp={xq}。将Dp,Dq合并成一个新的类Gr={Gp,Gq}。并在Dn中消去Gp,Gq所对应的行和列,并加入由新类Gr与剩下的其他未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵Dn-1,它是一个n-1阶方阵。
③从Di-1(i=n,n-1,…,2)出发重复步骤②,运用同样的方法得到Di-2,…直到n个样本聚为一个大类为止。
谱系聚类法的优点是聚类比较准确,实施过程简单;缺点是不具有良好的可伸缩性,某一步一旦执行就不能更改,不能够修正错误的决策;另外聚类需要循环的次数较多,当对象数据数目较多时计算量较大。
(3)模型聚类法
基于模型的方法(Model-Based Methods)给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。
设:类Ci的数据点x出现的概率为πp并具有参数为θp的概率密度函数pi(x,θi)(i=1,2,…,k),则这个数据集的每个数据点都有混合密度函数:
数据集的对数似然函数为:
通过以上公式,求出参数θ和πi的较大似然法估计和,然后,将每个数据点xi划入到使得后验概率成比例的类Ci,形成最后的聚类结果:
此方法的优点是,聚类问题可以通过实行有效的统计推断的方法来解决,尤其是即便类的个数未知,也可以利用贝叶斯分析方法对其进行估计,这就提供了一个自动确定类个数的可行途径。通常将类密度pi(xj,θi)选为多元正态的,其中,θi由均值和协差阵参数构成。
在信息处理中,聚类方法既可以用作一个单独的工具研究数据的结构信息;也可以用于其他算法(如判别分析)的预处理环节。目前,研究的问题主要包括:构建适合用于大数据的有效聚类方法,考察聚类方法的可伸缩性,建立能够处理复杂数据类和高维问题的聚类方法,对数值数据、类型数据和混合数据研究有效的聚类方法等。
3)多元数据的判别分析(www.daowen.com)
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。
当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。
(1)判别分析的问题描述
设有k个总体G1,G2,…,Gk,它们都是p元总体,其数量指标是:X=(X1,X2,…,Xp)T
设:总体Gi的分布函数是Fi(x)=(x1,x2,…,xp),i=1,2,…,k,通常是连续型总体。对于任一新对象x=(x1,x2,…,xp)T,判别它属于哪一个总体。常见的情况是k=2。
判别分析从训练样本中提取出各总体的信息,构造一定的判别准则,判断新的对象属于哪个总体,并要求判别准则在一定条件下(与目标相关)是最优的。例如,错判的概率最小或者错判的损失率最小等。不同的判别准则形成不同的判别方法,在此,我们介绍其中的两种方法:距离判别法和贝叶斯判别法。
(2)距离判别法
距离判别法是通过计算待测点到各个分类的距离,再根据计算出距离的大小,判别待测点属于那个分类。但是距离的计算是通过马氏距离进行计算的,而不是我们平常几何中用的欧式距离。
在这里,讨论两个总体的距离判断,分别讨论两个总体协方差阵相同和协方差阵不同的情况。
设:总体X1和X2的均值向量分别为μ1和μ2,协方差分别为Σ1和Σ2,给定一个样本点x,要判断x来自哪一个总体。
其思路为,分别计算样本点离两个样本的中心点的距离,然后比较两个距离的大小,从而判断其分类。具体来看:
①两个总体协方差阵相同。
判别函数为:w(x)=(x-)TΣ-1(μ1-μ2)
判别准则为:R1={x|w(x)≥0},R2={x|w(x)<0}
②两个总体协方差阵不同。
判别函数为:
判别准则为:R1={x|w(x)≥0},R2={x|w(x)<0}
(3)朴素贝叶斯判别法
朴素贝叶斯分类判别法是一个简单有效的分类模型。其算法基本原理:假设di为一任意样本,它的特征为(a1,a2,…,am),其中ai表示该样本中出现的第i个特征项。预定义的样本类别为C={c1,c2,…,ck}。假设在给定的条件下,特征项之间都是相互独立的,不存在任何依赖关系。则根据Naive Bayes算法,样本di与已知各类的条件概率P(ci|dj)定义为:
因为P(di)对计算结果没有影响,所以可以忽略,而得到:
其中,P(ci)和P(ak|ci)可以通过如下的公式来估计:
式中,Ni表示类ci中的样本数目,Nki为特征项ak在ci中出现的频率总数。
对样本dj进行分类,就是按以上公式计算所有样本类在给定dj情况下的概率,概率值最大的那个类就是dj所在的类,即
4)多元数据的回归分析
所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析有很广泛的应用,例如实验数据的一般处理、经验公式的求得、因素分析、产品质量的控制、气象及地震预报、自动控制中数学模型的制订等。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫作一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫作多元回归分析。根据自变量的个数,可以是一元回归,也可以是多元回归。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。根据所研究问题的性质,可以是线性回归,也可以是非线性回归。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。进行回归分析需要建立描述变量间相关关系的回归方程。
多元回归分析是研究多个变量之间关系的回归分析方法,按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称“一对多”回归分析)及多个因变量对多个自变量的回归分析(简称“多对多”回归分析)。
(1)线性回归模型
①线性回归模型及其矩阵表示。
设:Y是一个可观测的随机变量,其受到p-1个非随机因素X1,X2,…,Xp-1和随机误差的影响,则称:
Y=f(X1,X2,…,Xp-1)+ε
为回归模型,其中ε是均值为零、方差σ2>0的不可观测的随机变量,称为误差项。若f(X1,X2,…,Xp-1)是X1,X2,…,Xp-1的线性表示形式,即
Y=β0+β1X1+β2X2+…+βp-1Xp-1+ε
则此回归模型称为线性回归模型,线性回归模型是应用最为广泛的回归模型。在上述模型中,β1,β2,…,βp-1为未知参量,为了确定这些参量,可以进行n(n≥p)次独立观测,获得n组样本数据
记为:
其中:ε1,ε2,…,εn相互独立且服从N(0,σ2)分布,则线性回归模型可以写成如下矩阵形式:
Y=Xβ+ε
②β的最小二乘估计。
如果Y与X1,X2,…,Xp-1满足线性回归模型,则ε应该是比较小的,因此选择β使得误差项的平方和:
达到最小。为此,分别对β0,β1,β2,…,βp-1求偏导,并令其等于0,得到
上式写成矩阵形式有:XTXβ=XTY,此方程称为正规方程。
若X是列满秩的,即rank(XTX)=rank(X)=p,则(XTX)-1存在。解正规方程可得到的最小二乘估计为:
这时可将线性回归模型近似表示为:
此方程称为线性回归方程。利用它,可由自变量X1,X2,…,Xp-1的观测值求出因变量Y的估计值。记为:
称:为残差向量,其中H=X(XTX)-1XT为n阶对称幂等矩阵I为n阶单位矩阵。称:为残差平方和。
由于E(Y)=X且(I-H)X=0,则
eTe=[Y-E(Y)]T(I-H)[Y-E(Y)]
利用矩阵的迹可以证明:
(2)回归方法的选取
在现实应用中,许多问题往往涉及大量的自变量,当确定选用线性回归模型后,一个重要的问题就是自变量的选取问题。因为在回归分析中,一方面为了获得更为完备的信息,总是希望模型中尽可能地包含更多的自变量;而另一方面,考虑到过多的自变量所带来的计算困难、观测困难和解释困难,又希望回归方程中包含尽可能少但却是重要的自变量。为了解决这一矛盾,可以按照一定的准则选取对因变量影响较为显著的自变量建立一个既合理又方便计算的回归模型,这就是回归方程的选取问题。
①穷举法。
穷举法就是从所有可能的回归方程中按照一定的原则选取最优的一个或者几个。设x1,x2,…,xM是所有M个自变量,以所给的这些自变量和因变量的观测数据为基础,对任何p(1≤p≤M+1)拟合包含所有p-1个自变量的所有可能的线性回归模型共有C个,这样对于一切p(1≤p≤M+1)就需要拟合个线性回归模型,再按照一定的准则从中选取最优的或者比较优的模型。选取的准则有很多,如复相关系数准则、Cp准则以及预报平方和准则等。
以下介绍其中的预报平方和准则:
对于给定的某p-1个自变量,如x1,x2,…,xp-1,在数据中删除第i组观测值xi1,xi2,…,xip-1,yi后,利用这p-1个自变量及Y的其余n-1组观测值拟合线性回归模型,并利用拟合的回归方程对yi作预报,若记此预报值为,则预报误差为:
依次取i=1,2,…,n,则得到n个预报误差d1,d2,…,dn。如果包含这p-1个自变量的回归模型对所给数据拟合较好,则di(i=1,2,…,n)的绝对值比较小。令:
则选取使得PRESSp达到最小或接近最小的回归方程为最优回归方程。实际上,di的计算结果可以由下式完成:
其中,ei是用全部n组数据拟合包含指定的p-1个自变量的线性回归模型而得到的第i个残差,即:
hii是矩阵H的主对角线上的第i个元素,因此,对于指定的p-1个自变量,只需拟合一个回归模型即可求得所有的di,得到:
这样就得到了用PRESSp选择最优回归方程的准则:对于所有的2M个回归方程,分别计算其PRESSp值,选取其达到或者接近最小的回归方程为最优方程。
②逐步回归法。
穷举法属于NP问题的求解,计算难度较大,可以借助于启发式的逐步回归方法加以解决。所谓启发式,是从某一起点开始,按照一定的启发式规则搜索路径,并逐步获得一个“最优”的回归方程。其基本步骤是:依次拟合一系列回归方程,后一个方程是在前一个方程的基础上增加或减少一个自变量,自变量的增加或减少依赖于某个给定的准则,该准则能够最大限度地反映自变量变化对因变量的影响,即确定自变量对因变量的重要程度。
设模型中已有l-1个自变量,记此自变量的集合为A,从模型中移去一个自变量或者增加一个新的自变量xk时,其残差平方和的变化为:
上式为增加一个自变量xk时的情况;
上式为减少一个已有自变量xk的情况。
其中SSE(A)表示含有A个自变量的回归模型的残差平方和,即:
称F为偏F检验计量。偏F检验计量反映了自变量的变化对因变量的影响程度,可以作为逐步回归法的启发变量,当增加一个自变量使得F值很大时,表明误差平方和显著减小,则此自变量对因变量的影响是显著的,应该将该自变量加入模型,否则则不加入;当删除一个自变量使得F很小时,表明误差平方和没有明显增加,则此自变量对于因变量的影响不显著,可以将该自变量从模型中删除,否则仍然应该保留。对F值是否显著的衡量一般由经验给定一个阈值α。
下面给出逐步回归法的算法:
①对每一个xk(1≤k≤M),拟合仅包含xk的回归模型,对于每个k计算偏F检验计量,并求出最大Fmax,若Fmax>α,则将其对应的自变量加入模型;否则,算法结束。这时认为所有的自变量对因变量的影响均不显著。
②若模型包含的自变量集合为A,则逐一将剩余的自变量逐个加入到A中构造新的模型,计算偏F检验计量,并求出最大Fmax,若Fmax<α,则将其对应的自变量加入模型。
③若模型包含的自变量集合为A,则逐个删除最后一次加入到A中的自变量构造新的模型,计算偏F检验计量,并求出最小Fmin,若Fmin<α,则将其对应的自变量删除。
重复②③两步,直到没有自变量能够加入模型,同时已经在模型中的自变量均不能够被删除,选择过程结束,所形成的最终模型即为最优的。
(3)Logistic回归模型
在实际应用中,人们常常需要解决的一类问题是,某一随机事件A发生的概率与某些因素间的关系,如未来24小时降雨的概率与某些气象因素的关系,产品次品率与原材料质量和加工因素之间的关系等,Logistic回归模型即是描述和分析这类问题的统计分析方法。
设x=(x1,x2,…,xp-1)T是影响某事件A发生的概率的因素向量,以π(x)表示相应的概率,若π(x)与x存在某种依赖关系,则可用下列函数关系进行描述:
π(x)=f(x1,x2,…,xp-1)
由于π(x)的取值在0到1之间,必须对f(x1,x2,…,xp-1)进行约束,使其取值也在0到1之间,或者等价地对π(x)加以变换,使得π(x)在0到1之间变化时该函数的值域为(-∞,+∞),这样可以取f(x1,x2,…,xp-1)为线性函数、多项式函数等常用函数,通常对π(x)采用如下形式变换:
这时L(π(x))的值域为(-∞,+∞),令:
L(π(x))=f(x1,x2,…,xp-1)
则:
此即Logistic回归模型。在实际应用中,f(x1,x2,…,xp-1)的选择非常灵活,但应用最广泛的一种形式是取x1,x2,…,xp-1的线性函数,即:
这时有
这就是线性Logistic回归模型,简称Logistic模型。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。