(一)总体
在统计研究中,将由在一些基本属性方面性质相同的大量个别事物所组成的整体称之为统计总体,简称总体。通常,将构成总体的、无法再细分的个体称之为总体单元,简称单元。总体具有同质性、大量性、差异性的特征。总体根据所含单元数量的多少可以分成有限总体和无限总体。如果总体中所包含单元的数目为有限个,则该总体就是有限总体,反之是无限总体。
抽样调查中的总体又有目标总体与抽样总体。目标总体也可简称为总体,是指所要研究观测对象的全体,或者说是希望从中获取信息的全体,它是具有同一性质的许多单元的集合。在研究中,定义目标总体是重要的,通常也是困难的。比如在政治选举投票中,目标总体应该是所有有权投票的成年人?还是登记的投票者?还是在最近一次选举中所有投过票的人?目标总体的选择将会对统计结果产生深远的影响。
抽样总体是有可能被抽取到的所有观测单元的集合,即从中抽取样本的总体。在理想的调查中,抽样总体与目标总体应该是一致的,但这种完全一致很少能够实现。对人的调查中,抽样总体经常小于目标总体,这是因为并不是所有目标总体中的人都包括在抽样框里(关于抽样单元的名录),而且有一些被抽中的人并不接受调查。例如,电话调查中,并非所有家庭都有电话,因此可能的被调查者组成的目标总体中有一些人无法与抽样框中的电话号码相关联,并且在一些有电话的家庭中,居民没有包括在调查范围内,因此不符合调查的条件。而且抽样框中一些符合调查条件的人,因为联系不到或者拒绝接受调查,或者因为生病无法接受调查,因此最终也没有给予回答(如图1-2)。
图1-2 目标总体与抽样总体的关系
(二)抽样单元
在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元。一个总体无论其所含单位数目是否有限,但总可以划分为有限个抽样单元。因此,从总体所含抽样单元数目有限的角度看,抽样调查中的所有总体均为有限总体。抽样单元又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是构成总体的每一个总体单元,也可以称之为基本单元。在一项全国性的调查中,如果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等;在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。
(三)抽样框
抽样框是指抽样前为便于抽样工作的组织,在可能条件下编制的用来进行抽样、记录或表明总体所有抽样单元的框架。通常,抽样框是关于抽样单元的名录,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。在与时间有关的调查中,也可以按时间先后顺序排列总体中的单元,这样得到的抽样框称为时序抽样框。例如,对于电话调查,抽样框可能是调查城市中所有居民电话号码的名单;对于入户调查,抽样框可能是所有街道地址的名录;对于农业调查,抽样框则可能是所有农田的名录或者是有农田地区的地图。
抽样框是设计实施一个抽样方案所必备的基础资料,一旦某个单元被抽中,也需要依据抽样框在实际中找到这个单元,从而实施调查。编制抽样框是一个实际而重要的问题,必须要认真对待。一般而言,如果总体中的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单就是一个完备的抽样框。在完备的抽样框中,每个元素必须且只能与一个号码对应。但是,在实际中,完备的抽样框是很少见的,可能不得不使用一些有严重缺陷的抽样框,而又必须研究这些缺陷并加以补救,在这一过程中,可以充分体现抽样的艺术性。
常见的抽样框问题可以概括为四种基本类型:一是缺失一些元素,即抽样框涵盖不完全;二是多个元素对应一个号码;三是空白(一些号码没有与之对应的元素)或存在异类元素;四是重复号码,即一个元素对应多个号码。
当抽样框存在缺陷时,应尽量设法避免这些缺陷:如果已知由这些问题引起的误差比其他原因产生的误差小,并且纠正起来又花费太大的话,可以忽略不管,但在描述样本时应对此加以说明;重新定义总体以适应抽样框;改正整个总体清单,即找出全部缺失元素、清除所有的空白和异类元素、删掉重复号码。当上述方法不能有效利用时,就应该采取其他一些补救措施来抵消抽样框中存在的缺陷。
(四)样本
样本是由从总体中所抽选出来的若干个抽样单元组成的集合体,是总体的一个子集。抽样前,样本是一个n维随机变量,是样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。
样本是总体的缩影,是总体的代表。抽样效果的优劣,依赖于样本对总体是否有充分的代表性。一个完美的样本就应该是总体的一个规模缩小的版本,但反应的是整个总体的所有特征。当然,对于复杂的总体并不存在这样一个完美的样本(即使这样的样本存在,如果对整个总体进行测量,我们也不知道它是否完美),但是,一个优良的样本应该尽可能地再现总体中我们感兴趣的特征,每个入样单元都能表现已知数量总体单元的特征,在这种意义上样本才是有代表性的。样本的代表性越强,用样本指标对总体全面特征的推断就越精确,推断的误差就越小;反之,如果样本的代表性越弱,推断的误差就越大,推断结果就越不可靠。要增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面:
(1)总体内部的差异程度。若总体内部各单元的变量值水平比较集中,即平均离散程度(标准差)很小,从中任意抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强;反之,如果变量值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必将影响样本的代表性。
(2)抽样单元数的多少(或称样本容量的大小)。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一定可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益。
(3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样或重复抽样,它是在总体N个单元中随机抽取n个单元时,每次抽取一个单元进行记录后又放回原来的总体,参加下一个单元的抽取,即下一个单元仍然在原来的全部抽样单元中抽取,以此类推,直到抽足所需单元数为止,因而同一个抽样单元有被重复抽中的可能。不放回抽样也称为不重置抽样或不重复抽样,它是在每次抽取一个新的单元之前,将已抽中的单元不再放回原来的总体,下一个单元的抽取在剩余的抽样单元中进行,以此类推,直到抽足所需单元数为止,因而每个抽样单元最多只能被抽中一次,不可能重复被抽中。
放回抽样与不放回抽样相比,不放回抽样的样本代表性优于放回抽样。因为放回抽样中,有些单元有被重复抽取的可能,从而使样本单元数在总体中的散布面缩小,样本的代表性减弱,故在实际工作中常采用不放回抽样。有鉴于此,在本书以后内容中,如没有特别的声明,则一般只涉及不放回抽样。理解了不放回抽样的方法及有关内容,也就容易理解和掌握放回抽样的方法。
以上三种影响因素中,差异程度的大小是由事物内部和外部联系决定的,是客观性的因素,人们只能认识了解,不能改变。抽样单元数的多少和抽样方法是人们可以选择和控制的,为主观因素,只要掌握和控制了这两个因素,在一定程度上,人们也就能控制样本的代表性,以期达到抽样数目尽可能小,使估计和推断结论达到预定的精确程度和可靠程度的要求。另外,等概率抽样与不等概率抽样相比,以不等概率抽样的样本代表性较等概率抽样为好。
(五)样本容量与样本可能数目
样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小,简称样本量。总体中所含抽样单元个数称为总体容量,样本容量与总体容量之比为抽样比,用f表示,即f=n/N。
样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。用Q表示。
当N和n一定时,Q的多少与抽样方法有关,其计算方法如表1-1所示。
表1-1 不同抽样方法和条件下样本可能数目
(www.daowen.com)
正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。
(六)参数与统计量
在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。设总体单元数为N,各单元的标志值为Y1,Y2,…,YN。常见的总体参数主要有:
(1)总体总值Y:也称总体总量。如某地区粮食总产量。其数学表达式为
(2)总体均值:也称总体平均数。如某地区粮食平均亩产。其数学表达式为
(3)总体比例P:是总体中具有某种特性的单元数目所占比重。如产品的合格率。
其中,Yi是示性变量,当第i个单元具有某种特征时,Yi=1,否则Yi=0。
(4)总体比率R:是总体中两个不同指标的总值或均值的比值。如总收入与总支出之比。
其中,Y,X表示总体中两个指标的总值;,表示总体中两个指标的均值。
当总体范围确定后,总体参数就是客观存在的,但是未知,需要通过抽样调查,根据抽样调查结果对总体参数进行推断。
在抽样调查中,利用调查所得的样本数据构造统计量,对总体目标进行估计。设样本单元数为n,各单元的标志值为y1,y2,…,yn。简单随机抽样中与总体参数相对应的统计量有:
(1)样本总值
(2)样本均值
(3)样本比例
其中,yi是示性变量,当样本第i个单元具有某种特征时,yi=1,否则yi=0。
(4)样本比率
其中,y,x表示样本中两个指标的总值;,表示样本中两个指标的均值。
统计量是样本的函数,是随机变量,其结果取决于抽样设计和被选入样本的总体基本单元的特定组合。统计量的真正价值并不在于自身的结果数值,而是在于提供有关总体参数的信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。