对于原始的水质资料系列进行验证,是建立模型进行数值模拟和量化分析的一项重要的前期工作。该项工作既需要对水质资料的精度进行检验,如采用常规的基于阴、阳离子平衡理论的方法进行检验等;又需要对水质资料系列的分布特征进行检验等(Robert等,1987)。
通过定期地进行水质取样化验得到的资料系列,实际上是一个多变量系列。其中,每一个变量都是具有离散型分布的、统计意义上涨落的物理量,因而是一个随机变量。要完整地掌握一个随机变量,必须了解其取各种可能值的概率,即需要了解随机变量的概率分布及其统计特征。科尔莫戈罗夫斯米尔诺夫(Kolmogorov Smirnov)检验(简称K—S检验)是关于分布函数检验的一种重要方法,其主要用途是判断抽样数据Sx =(x1,x2,…,xN)的累计分布函数是否为P(x)(Jiane等,1987)。
首先由Sx 求出累计分布:SN =n(x)/N,其中,n(x)是样本Sx 中小于x的抽样点的个数。定义统计量D
由科尔莫戈罗夫定理可得:若Z>0,则
在式(5.2.1)中,统计量D 实质上定义了用累计分布P(x)来拟合样本Sx 的母体的累计分布函数的最大距离。而由式(5.2.2)可计算出Sx 的累计分布为P(x)的显著性参数Prob;当Prob 很小时,表明拟合Sx 的累计分布是不适合的。这就是K—S检验的基本思想。K—S检验首先按式(5.2.1)求出统计量D,但并不直接用式(5.2.2)来估计其显著性,而是采用如下经验公式来计算显著性Prob
K—S检验通常适用于离散随机变量的检验,对于一些小样本变量的分布,有着x2检验所不能起的作用。具体检验过程如下:首先,将原始资料进行标准化处理;然后把所有的资料以累计的形式表达;最后计算实际分布和理论分布之间的最大绝对差值。将这一绝对差值和K—S的理论分布临界值进行比较,若K—S最大绝对差值小于K—S的临界值,则认为理论模型是可以接受的;否则,不可以接受。
在随机分布形式的检验中,绝大多数变量原始数据服从或近似服从0截尾的正态分布,且拟合得较好,显著水平较大。少数变量在剔除极个别离群值后服从0截尾的正态分布。
设随机变量有N 个观测值:(x1,x2,…,xN),在已知其分布形式后,还必须求得其特征值,才能完全清楚随机变量的分布特征(Robert等,1987)。
常用的统计特征量有:
(1)均值x(XM)(www.daowen.com)
均值反映了一批数据的集中趋势。
(2)方差S2 或均方差σ(STD)
(3)变异系数Cv (离散系数或相对标准差)
变异系数反映了数据的离散程度,它可以评价数据分布的稳定性。
根据式(5.2.5)求得的值是以子样的均值作为母体均值的估计量,这种估计量难免存在误差。在实际工作中,往往需要知道这些估计量的精确程度及可靠程度。区间估计就是用区间而不是用定值来估计母体参数所在的范围,并指出母体参数在区间内的概率大小。
式中:ε为任意给定的小正数。
因此,被估计量x 的范围为
根据概率论,在大子样(n≥30)的情况下,无论母体服从什么分布,参数x 的子样都近似地服从标准正态分布,即有
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。