理论教育 等距抽样与统计学中的机械抽样

等距抽样与统计学中的机械抽样

时间:2023-08-04 理论教育 版权反馈
【摘要】:等距抽样又称机械抽样。这是因为,等距抽样抽取的样本单位比简单随机抽样抽取的样本单位在全及总体中分布更均匀。等距抽样均为不重复抽样。等距抽样的优缺点。需要指出的是,等距抽样的前提是总体中个体的排列相对于研究的变量来说是随机的,即不存在与研究变量相关的规则分布。无关标志排队等距抽样,指排队标志与调查内容没有直接关系。为了克服这一不足,实践中产生了对称等距抽样。

等距抽样与统计学中的机械抽样

1.等距抽样的含义

(1)等距抽样的概念。等距抽样又称机械抽样。它是先将总体单位按一定标志排列起来,而后按一定顺序和一定距离来抽取样本单位的抽样方式。抽样距离的确定是由总体单位数和样本单位数决定的,它们的关系是抽样距离k=总体单位数N/样本单位数n。第一个样本单位确定后,其他样本单位就可以确定了,相邻的两个样本单位的距离固定为k。

【例5-15】 从某高校一年级10 000 名学生中抽取50 名学生进行调查,则抽样距离为k=10 000/50=200。即每隔200 人(号)抽取1 人进行调查。

一般地讲,等距抽样比简单随机抽样更能保证样本具有较高的代表性。这是因为,等距抽样抽取的样本单位比简单随机抽样抽取的样本单位在全及总体中分布更均匀。而按有关标志排队比按无关标志排队抽取的样本更有代表性。等距抽样均为不重复抽样。

(2)等距抽样的优缺点。

等距抽样的优点:在事先没有总体单元名录的情况下,也可以用。此时,我们可以使用并构造一个概念抽样框(只需要单元的排列顺序),每隔k 个单位抽一个单元直到总体的末尾。这种方法的缺点:只有抽样完成后才知道实际样本量n;与简单随机抽样一样,不需要辅助的抽样框信息;与简单随机抽样相比,样本的分布较好(这还取决于抽样间隔及名录是如何排列的);与简单随机抽样一样,估计值容易计算。

等距抽样的缺点:如果抽样间距正好碰上总体变化的某种未知的周期性,就会得到一个“差的”系统样本,从而影响抽样精度;由于不使用抽样框中的辅助信息,抽样策略的效率不高;在使用概念框时,不能预先知道最终样本量;抽样方差没有一个无偏的估计量;在总体大小N 不能被样本量n 整除且不使用圆形抽样法时,会得到样本量不同的样本。

需要指出的是,等距抽样的前提是总体中个体的排列相对于研究的变量来说是随机的,即不存在与研究变量相关的规则分布。排除下列两种情况:

①个体的排列有次序的先后、等级上高低的情况。

②总体名单中,个体的排列与抽样间隔有相对应的周期分布。

2.等距抽样的种类

(1)无关标志排队等距抽样。无关标志排队等距抽样,指排队标志与调查内容没有直接关系。例如,对大学生调查,将大学生的学号顺序排队;产品质量检查按产品生产的时间先后顺序排队,每隔一定时间或每生产一定数量的产品就抽取一单位(或一定时间)产品。

按无关标志排队的结果,以所要调查的标志来看,总体单位的排列顺序仍是随机的,其抽样起点可以随机确定,其抽样效果类似简单随机抽样,因此抽样误差的计算同简单随机抽样。

若抽样随机起点为r(1≤r≤k),则各样本单位为:

第1 个抽中单位:r

第2 个抽中单位:r +k

第3 个抽中单位:r +2k

第4 个抽中单位:r +3k

第i 个抽中单位:r +(i-1)k

如从某高校大一10 000 名学生中要抽取50 名学生进行调查,现按学号顺序排队抽取样本单位,就是按无关标志排队。若随机起点为50,则抽取200 名学生的学号分别为

第1 个抽中学生学号:50

第2 个抽中学生学号:50 +200=250

第3 个抽中学生学号:50 +2 ×200=450

第4 个抽中学生学号:50 +3 ×200=650

(2)有关标志排队等距抽样。所谓有关标志排队就是指排队标志与调查内容有密切关系。

例如,农产品产量抽样调查将全部播种面积按当年预计亩产或近三年平均亩产排队;职工家计调查按职工工资水平排队,这些都是按有关标志排队。由于排队标志与调查内容有密切关系,排队后,从所要调查的标志来看,总体单位也大致呈按标志值大小的顺序排列。如某高校要从大一10 000 名学生中抽取50 名学生进行调查,以了解学生入学成绩情况,现按学生入学成绩高低顺序排队,就是按有关标志排队。

一般而论,有关标志排队等距抽样的抽样起点一般不宜随机确定。否则,若在第一个抽样距离内随机地抽取一个标志值较小(或较大)的单位作为抽样起点,整个样本势必出现偏低(或偏高)的系统偏差。故抽样起点的确定,一般采用以下两种方法:(www.daowen.com)

①半距起点等距抽样(中点等距抽样)。即以抽样距离(k)的一半(k/2)为抽样起点,以后每间隔k 个单位抽一个单位。由于单位标志值大致呈大小顺序排列,所以中点标志值最能代表各部分的一般水平(特别当各单位标志值呈线性趋势顺序时,中心位的样本比任何随机位置的样本更有代表性),故利用这种方法抽取的样本抽样误差比任何方式都更小。但这种方法大大限制了抽样的随机性,且只能抽出一个样本。为了克服这一不足,实践中产生了对称等距抽样。

第1 个抽中单位:k/2

第2 个抽中单位:k/2 +k

第3 个抽中单位:k/2 +2k

第4 个抽中单位:k/2 +3k

第i 个抽中单位:k/2 +(i-1)k

【例5-16】 如某高校大一10 000 名学生中要抽取50 名学生进行调查,以了解学生入学成绩情况,现按学生入学成绩高低顺序排队。若半距起点为200/2=100,则半距起点等距抽样抽取200 名学生的名次顺序号分别为:

第1 个抽中名次顺序号:100

第2 个抽中名次顺序号:100 +200=300

第3 个抽中名次顺序号:100 +2 ×200=500

第4 个抽中名次顺序号:100 +3 ×200=700

②对称等距抽样。指在第一个抽样距离内随机地确定抽样起点r(1≤r≤k),然后以组界[k,2k,…,(n-1)k]为对称点两两对称地抽取样本单位,各样本单位位置可这样确定:

第n 个抽样单位位置=(n-1)k +r(当n 为奇数时)

或第n 个抽样单位位置=nk-r(当n 为偶数时)

如图5-2 所示,符号表示样本单位的位置。

图5-2 对称等距抽样的样本单位所在位置

【例5-17】 某高校大一10 000 名学生中要抽取50 名学生进行调查,以了解学生入学成绩情况,现按学生入学成绩高低顺序排队。若随机起点为80,则对称等距抽样抽取200名学生的名次顺序号分别为:

第1 个抽中名次顺序号:(n-1)k +r=(1-1)×200 +80=80

第2 个抽中名次顺序号:nk-r=2 ×200-80=320

第3 个抽中名次顺序号:(n-1)k +r=(3-1)×200 +80=480

第4 个抽中名次顺序号:nk-r=4 ×200-80=720

第5 个抽中名次顺序号:(n-1)k +r=(5-1)×200 +80=880

第6 个抽中名次顺序号:nk-r=6 ×200-80=1 180

由上可见,在第一组(第(n-1)k 个单位)内,r 标志值虽然偏小,但第二个样本单位标志值必然偏大。反之,若第一个样本单位标志值偏大,则第二个样本单位标志值必然偏小。以此类推,从整体来看,样本必然能有较好的代表性,同时能保证抽样的随机性,根据排队结果可以抽出n 个样本。

有关标志排队等距抽样相当于分层较多且各层单位数相等、每层只抽一个调查单位的分层抽样,故抽样效果类似分层抽样。其抽样误差的计算公式同等比例分层抽样。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈