理论教育 核密度分布方法对非正态变量数据的分析

核密度分布方法对非正态变量数据的分析

时间:2023-06-11 理论教育 版权反馈
【摘要】:当变量数据非正态分布时,该假设非常有用,由于它只使用可得的观测变量,与前两个假设不具有普遍性关联。后文核密度分布方法思路符合排列(组合)假设,对所得数据重新组合后进行分析。见附录图4.2,说明两条曲线附和得较好,数据呈近似服从正态分布。变量数据被假定为来自未知方差的正态分布。

核密度分布方法对非正态变量数据的分析

为更好地理解空间计量模型构造,在建模之前需要分析全国层面的区域数据特征。安瑟琳(1992)提出Moran I和Geary c指数的三个前提假设:正态分布、随机分布、排列组合(permutation)。通过排列组合假设,可计算标准化的Z值,基于参考分布的均值和标准方差。当变量数据非正态分布时,该假设非常有用,由于它只使用可得的观测变量,与前两个假设不具有普遍性关联。后文核密度分布方法思路符合排列(组合)假设,对所得数据重新组合后进行分析。

(一)数据随机正态分布检验

1.概率图:用Matlab包中normplot函数做图,正态分布函数是一条S形曲线(正态概率图上描绘的一条直线)。见附录图4.2,说明两条曲线附和得较好,数据呈近似服从正态分布。

2.分位数图:qqplot(x)绘出样本x的分位数—正态分布的理论分位数图。结果显示,中间的“+”线近似地在一直线上,因此可以认为x非来自其他分布。

3.频数分布图:用histfit做频率直方图,见附录图4.3,与正态分布的密度函数附和比较好,也说明数据呈近似服从正态分布。

K基本上符合标准正态分布,t分布拟合程度最高,L不符合标准正态分布,其Weibull分布拟合程度最高。另外给出非参数分布,即核密度分布情况。用Matlab中t检验函数,ttest(A),结果都是H=1,表明零假设在5%的水平被拒绝。变量数据被假定为来自未知方差的正态分布。

(二)多变量正态分布比选(www.daowen.com)

多变量正态概率图显示,非国有固定投资占比(K)和非国有从业人员占比(L),最符合标准正态分布特征。如表4.6所示,将对数分布、Weibull等多种分布进行比较,精确的检验结果是t分布,故明确模型分析时不采用一般最小二乘法,基本知道变量分布情况后,拟采用非参数估计和极大似然法进行估计。

表4.6 多变量分布分析结果

(三)数据平稳性检验

PP检验(Phillips,Perron,1988)通过非参数方法可全部剔除干扰项自相关对检验所带来的影响(检验式中不包括被解释变量的滞后项)和避免自由度损失降低检验效力。本节平稳性检验为后文空间自回归模型做准备,采用Matlab中pptest函数依次检验三种模型TS、ARD、AR,输出结果均是h=1,显示拒绝存在单位根的原假设H0:(存在一单位根),得出数据平稳性的结论。三种模型PP检验结果都是:reph=1.1.1,故非国有从业占比(L)序列是平稳序列。

(四)数据变异程度

分年度计算各指标变量的方差、标准差和变异系数,见附录图4.4,数据变异程度从大到小基本呈现FDI、EX、Pri、Dep、K、L的排序,其中非国有从业占比(L)和非国有固定投资占比(K)的变异程度逐年单调缩小。FDI和Dep的变异程度在2001年之后开始缩小,FDI在2007年之后又扩大;Dep则在2005年之后略扩大,且历年数据波动幅度最小。Pri和EX变异程度先缩小然后再增加,变化也开始于2001年前后,且EX的年变异程度较大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈