理论教育 简介:Logistic回归模型

简介:Logistic回归模型

时间:2023-05-31 理论教育 版权反馈
【摘要】:Logistic回归模型是一种针对离散事件进行数据挖掘的建模方法。Logistic回归方法基于数据的抽样,可以筛选出对事件发生与否影响较为显著的因素,同时剔除不显著的因素,并能为每个显著的因素产生回归系数。然而,Logistic回归模型要求自变量之间是相互独立的,自变量之间存在的多重共线性,会增大估计参数的误差,甚至使模型的拟合产生错误的结果。因此,在进行Logistic回归时,需要对自变量进行多重共线性检验。

简介:Logistic回归模型

Logistic回归模型是一种针对离散事件进行数据挖掘的建模方法(林金霞和郭旭东,2006)。离散事件是指模型中的被解释变量是不连续的,如是、否,同意、反对、弃权等分类变量。此时,需要一种模型可以预测某一个案属于某个分类的可能性。Logistic回归模型对于这种问题的数据挖掘具有强大的处理能力(林金霞和郭旭东,2006)。与线性回归不同,Logistic回归是一种非线性模型,普遍采用的参数估计方法是极大似然估计(李雪平,等,2005)。Logistic回归方法基于数据的抽样,可以筛选出对事件发生与否影响较为显著的因素,同时剔除不显著的因素,并能为每个显著的因素产生回归系数(刘瑞,等,2009)。

Logistic回归模型的基本原理如下(陈平,2008):

假设决策空间中,自变量X=(x1,x2,…,xn),因变量为y,y值域为{0,1},

则P(y=1|X)表示在X情况下,事件Y发生的条件概率,使用Logistic函数为连接函数,于是Y的Logistic回归模型为:

其中,α和β为待估参数向量。(www.daowen.com)

于是,事件Y发生的概率可以解释为一个由因变量X构成的非线性函数:

Logistic回归模型预测能力通过得到最大似然估计的表格来评价,它包括回归系数、回归系数估计的标准差、回归系数估计的Wald统计量和回归系数估计的显著性水平。正的回归系数值表示解释变量每增加一个单位值时发生比会相应增加,相反,当回归系数为负值时说明增加一个单位值时发生比会相应减少。Wald统计量表示在模型中每个解释变量的相对权重,用来评价每个解释变量对事件预测的贡献度(刘瑞,等,2009)。

Logistic回归模型的主要优点包括(金如锋,2011;杨志雄和袁岱菁,2011):不要求样本满足正态分布和方差齐性、可以处理自变量对因变量的非线性效应、回归系数的可解释性等。因此,Logistic回归模型被广泛应用于疾病诊断(陈都,等,2011)、风险预警与预测(谢赤,等,2014;邵良杉和赵琳琳,2015)、信用评价(外力·依米提,2015;史小康和常志勇,2015)、行为分析(刘燕和纪晓岚,2014)等领域。取得了丰富的研究成果。

然而,Logistic回归模型要求自变量之间是相互独立的,自变量之间存在的多重共线性,会增大估计参数的误差,甚至使模型的拟合产生错误的结果。因此,在进行Logistic回归时,需要对自变量进行多重共线性检验(Maekelburger &Kabst,2012)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈