由于分层抽样的抽样误差仅和各层内的差异有关,分层的目的也正是为了降低层内各单元间的差异。在正常情况下,总体方差是一定的,分层数越多,层间方差就会越大,层内方差也就会越小,分层抽样的效果就会越好。因此,在样本单元数确定和不增加调查费用的条件下,尽量多地分层是可取的。但这并不意味着分层数可以无限增多,因为当层数达到一定数量时,估计量方差下降的速度就变得很慢,这时再增加层数的意义就不大。另一个原因是分层越细,工作量就越大,费用也不能不增加。当层数达到一定量时,再分层的费用会大幅度上升,这与所提高的精度相比可能会得不偿失,这时也不应再增加层数。同时,层数还受制于样本容量的大小,由于每层中至少要选出两个抽样单元,以计算方差的无偏估计量,层的数目不应大于总样本容量的一半。由此可见,层数应该有所限制,并非越多越好。
一般可以把层数由L个往上增加所产生的效应用(1-R2)+R2/L2来表示。其中,R2/L2是估计量方差中受分层影响的部分,与分层标志和调查标志之间的关系相对应,随层数的平方增大而降低,1-R2部分则与分层标志无关,不受层数增加的影响。在中等数目的分层中,估计量的方差就可以逼近这个水平。例如,令R=0.8,则当L=6时,方差可降低到0.018+0.36=0.378,当L=12时,方差只降低到0.004+0.36=0.364。
对于按自然标志分层的总体,自然层数通常就是理想和有效的层数,这种分层轮廓清晰,层次分明,既与实际情况相符又能体现性质差异,并且基本上是现成的,可直接应用。有时,自然分层也可以层内有层,可供再分层之用。(www.daowen.com)
若按数量标志分层,且层界较难确定时,则可采用现代多元统计分析方法中的聚类判别法来确定层界和层数。但要注意以下几个问题:一是聚类判别法要与定性分析相结合,避免因数量上的小距离把不同性质的单元归为一类;二要与传统统计分组法相结合,灵活分层,不拘泥于其数量框架;三要具备一定的现代化数据处理设备。有学者认为,按单一数量标志分层时,有3~10个层就足够了,更有理论研究表明,对于一个分层变量,层数一般选择L=6。
总之,分层数多少的确定应遵循三条原则:首先,层数的多少要符合社会经济现象的实际情况,避免背离实际而人为地确定;其次,层数的多少应与体现总体内性质差异的要求一致,不能因层数的不合理而掩盖性质上的差异;再次,层数的多少要能最大限度地满足提高抽样精度的要求。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。