理论教育 中国大学生成长报告:抽样设计和样本规模

中国大学生成长报告:抽样设计和样本规模

时间:2023-11-30 理论教育 版权反馈
【摘要】:利用北京市教委提供的2006级和2008级在校学生学籍数据库作为抽样框,本调查抽取的样本规模为5 100名学生。

中国大学生成长报告:抽样设计和样本规模

一、抽样设计

在理论上,“首都大学生成长追踪调查”的研究总体为北京市行政范围内所有教育部直属、其他中央部委或北京市所属非民办大学中的全日制本科生,但在调查执行中,为了在保证样本代表性的同时尽可能节约成本,调查总体确定为2006年和2008年秋季入学的本科生,即2006级和2008级学生。利用北京市教委提供的2006级和2008级在校学生学籍数据库作为抽样框,本调查抽取的样本规模为5 100名学生。

本调查采用分层、多阶段、概率与规模成比例(PPS)抽样,各阶段的抽样单位为:

第一阶段:以大学作为初级抽样单位。

第二阶段:以专业为二级抽样单位。

第三阶段:以学生为最终抽样单位。

根据各学校的行政隶属关系以及是否列入211工程名单,将符合调查条件的北京高校分成6层,其中,北京大学、中国人民大学和清华大学三所大学单独分层。

课题组在北京市委教育工委的支持下,从北京市教委获得符合调查条件的北京高校名单,以及各高校内全日制一年级和三年级本科生学籍数据,以大学作为PSU(初级抽样单元)构成调查总体,具体划分为6个抽样框--

抽样框1:北京大学

抽样框2:中国人民大学

抽样框3:清华大学

抽样框4:所有教育部直属或者其他部委所属的211大学

抽样框5:所有教育部直属或者其他部委所属的非211大学

抽样框6:所有北京市属的大学

各抽样框全日制一年级和三年级本科生总体的人数如表1-1所示:

表1-1 各抽样框总体

img1

由于调查的结果主要是估计各种比例数据以及比例数据之间的比较,所以在调查样本量的确定上是以估计简单随机抽样的总体比例p时的样本量为基础。在95%的置信度下按抽样绝对误差不超过3%的要求进行计算,需要抽取样本量:

img2

这里d为抽样绝对误差取0.03,uα在置信度为0.95时为1.96,p(1-p)最大取0.25。由于采用多阶段的复杂抽样,设计效应deff一般会在1.5和2之间,这里把deff定为2,因此需要的样本量为2 000个。(www.daowen.com)

综合考虑精度、费用、实地调查实施的可行性、应答率等因素,结合以往若干社会调查的经验,以及总体划分为6个抽样框等情况,我们把样本量确定为5 100人。这个样本量不仅能满足对总体的估计,而且也能满足对各抽样框子总体的估计,所以是比较合适的样本量。

采用多阶段抽样方案,在单独分层的清华、北大、人大三所大学(抽样框1,2和3)中采用二阶段PPS抽样抽取样本,以专业及学生分别作为初级、最终抽样单位。

初级抽样单位:每所大学各抽取25个专业。

最终抽样单位:每个专业抽取20个学生。

在其他抽样框(抽样框4,5和6)中,根据各层的学生数目,大致成比例抽取学校数目。

初级抽样单位:在抽样框4抽取6所大学,在抽样框5抽取2所大学,在抽样框6抽取4所大学。

二级抽样单位:每所大学抽取15个专业。

最终抽样单位:每个专业抽取20个学生。

对应于多阶段抽样方案,样本在各抽样框中的具体分配数目如表1-2所示:

表1-2 样本在各抽样框中的分配

img3

另外,关于抽样,作补充说明如下:

(1)在学校抽取过程中,先按照该抽样框内大学在2008年的大学排名进行排序,隐含抽样框内大学的进一步细分层,然后采取PPS抽样法,使得同一抽样框内所抽中的大学尽量分散在不同的层次上;

(2)所选取的样本不仅能满足对总体的估计,而且能满足对抽样框各自子总体的估计。当进行全部大学的总体估计时,将根据设计的各抽样框样本的抽取概率对样本进行加权处理,确保各抽样框样本对总体的代表性。

根据上述设计,课题组共抽取三套样本。入样的大学及其样本量如表1-3所示。课题组综合考虑各方面因素,最终决定执行第三套方案。

表1-3 抽样结果

img4

续前表

img5

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈