核密度分布方法对非正态变量数据的分析

更新时间：2025-10-14 理论教育 版权反馈

【摘要】：当变量数据非正态分布时，该假设非常有用，由于它只使用可得的观测变量，与前两个假设不具有普遍性关联。后文核密度分布方法思路符合排列（组合）假设，对所得数据重新组合后进行分析。见附录图4.2，说明两条曲线附和得较好，数据呈近似服从正态分布。变量数据被假定为来自未知方差的正态分布。

为更好地理解空间计量模型构造，在建模之前需要分析全国层面的区域数据特征。安瑟琳（1992）提出Moran I和Geary c指数的三个前提假设：正态分布、随机分布、排列组合（permutation）。通过排列组合假设，可计算标准化的Z值，基于参考分布的均值和标准方差。当变量数据非正态分布时，该假设非常有用，由于它只使用可得的观测变量，与前两个假设不具有普遍性关联。后文核密度分布方法思路符合排列（组合）假设，对所得数据重新组合后进行分析。

（一）数据随机正态分布检验

1.概率图：用Matlab包中normplot函数做图，正态分布函数是一条S形曲线（正态概率图上描绘的一条直线）。见附录图4.2，说明两条曲线附和得较好，数据呈近似服从正态分布。

2.分位数图：qqplot（x）绘出样本x的分位数—正态分布的理论分位数图。结果显示，中间的“＋”线近似地在一直线上，因此可以认为x非来自其他分布。

3.频数分布图：用histfit做频率直方图，见附录图4.3，与正态分布的密度函数附和比较好，也说明数据呈近似服从正态分布。

K基本上符合标准正态分布，t分布拟合程度最高，L不符合标准正态分布，其Weibull分布拟合程度最高。另外给出非参数分布，即核密度分布情况。用Matlab中t检验函数，ttest（A），结果都是H＝1，表明零假设在5％的水平被拒绝。变量数据被假定为来自未知方差的正态分布。

（二）多变量正态分布比选(https://www.daowen.com)

多变量正态概率图显示，非国有固定投资占比（K）和非国有从业人员占比（L），最符合标准正态分布特征。如表4.6所示，将对数分布、Weibull等多种分布进行比较，精确的检验结果是t分布，故明确模型分析时不采用一般最小二乘法，基本知道变量分布情况后，拟采用非参数估计和极大似然法进行估计。

表4.6　多变量分布分析结果

（三）数据平稳性检验

PP检验（Phillips，Perron，1988）通过非参数方法可全部剔除干扰项自相关对检验所带来的影响（检验式中不包括被解释变量的滞后项）和避免自由度损失降低检验效力。本节平稳性检验为后文空间自回归模型做准备，采用Matlab中pptest函数依次检验三种模型TS、ARD、AR，输出结果均是h＝1，显示拒绝存在单位根的原假设H0：（存在一单位根），得出数据平稳性的结论。三种模型PP检验结果都是：reph＝1.1.1，故非国有从业占比（L）序列是平稳序列。

（四）数据变异程度

分年度计算各指标变量的方差、标准差和变异系数，见附录图4.4，数据变异程度从大到小基本呈现FDI、EX、Pri、Dep、K、L的排序，其中非国有从业占比（L）和非国有固定投资占比（K）的变异程度逐年单调缩小。FDI和Dep的变异程度在2026年之后开始缩小，FDI在2026年之后又扩大；Dep则在2026年之后略扩大，且历年数据波动幅度最小。Pri和EX变异程度先缩小然后再增加，变化也开始于2026年前后，且EX的年变异程度较大。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

核密度分布方法对非正态变量数据的分析

核密度替换方法在成分数据回归中的应用

非合作分布式协同滤波的性能分析

非合作分布式协同滤波的优化方法

速度非定常强度与湍流强度的分布与分析

分析速度非定常强度和湍流强度分布

非平衡面板数据回归结果及分析

数值算例分析：正态分布对需求分布形式的影响验

大数据对信息分析的影响

相关推荐