在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U 与电阻R、电流I 之间的关系为U=IR,如果已知这三个变量中的任意两个,则另一个就可精确求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,其表现形式也具有某种程度的不确定性.
具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题.
①从一组观察数据出发,确定这些变量之间的回归方程.
②对回归方程进行假设检验.
③利用回归方程进行预测和控制.
回归方程最简单的也最完善的一种情况,就是线性回归方程.对于许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如Matlab、SAS 等都有非常有效的线性回归方面的计算程序,使用者只要把数据按程序要求输入计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便.
我们先考虑两个变量的情形.设随机变量y 与x 之间存在着某种相关关系.这里x 是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值x1,x2,…,xn,故可将它看成普通变量,称为自变量.产量y 是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况.
由x 可以在一定程度上决定y,但由x 的值不能准确地确定y 的值.为了研究它们的这种关系,我们对(x,y)进行一系列观测,得到一个容量为n 的样本(x 取一组不完全相同的值):(x1,y1),(x2,y2),…,(xn,yn)其中yi 是x=xi 处对随机变量y 观察的结果.每对(xi,yi)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图,如图10.1所示.
图10.1
由图10.1(a)可看出散点大致围绕一条直线散布,而图10.1(b)中的散点大致围绕一条抛物线散布,这就是变量间统计规律性的一种表现.
如果图中的点像图10.1(a)中那样呈直线状,则表明y 与x 之间有线性相关关系,我们可建立数学模型
(www.daowen.com)
来描述它们之间的关系.因为x 不能严格地确定y,故带有一误差项ε,假设ε~N(0,σ2),相当于对y 作这样的正态假设,对于x 的每一个值有y~N(a+bx,σ2),其中未知数a,b,σ2 不依赖于x.上式称为一元线性回归模型(univariable linear regression model).
在上式中,a,b,σ2 是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的x,方程
称为y 关于x 的线性回归方程或回归方程,其图形称为回归直线.其方程式是否真正描述了变量y 与x 客观存在的关系,还需进一步检验.
实际问题中,随机变量y 有时与多个普通变量x1,x2,…,xp(p >1)有关,可类似地建立数学模型
其中b0,b1,…,bp,σ2 都是与x1,x2,…,xp 无关的未知参数.此式称为多元线性回归模型,和前面一个自变量的情形一样,进行n 次独立观测,得样本
有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为,从而得到多元线性回归方程
同理,此式是否真正描述了变量y 与x1,x2,…,xp 客观存在的关系,还需进一步检验.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。