1.分配数列的概念
分配数列又称分布数列或次数分布,是指在数据分组的基础上,将各组组别、频数或频率依次排列而形成的数列。其示例如表3-5所示。
表3-5 某地区工业企业规模分布情况
很显然,分配数列由两个要素构成:一个是总体按某标志所分的组;另一个是次数(频数)或比率(频率)。在分配数列中,分布在各组的总体单位数叫作次数,又称频数,通常用符号f表示;各组次数(频数)与总次数(总频数)之比叫作比率(频率),用表示。在分配数列中,各组次数之和等于总次数,与之相对应,各组频率之和等于1或100%。
分配数列在统计研究中具有重要意义,它是数据整理结果的重要表现形式,是数据分析的一种重要方法,它反映了所研究总体中所有的单位数在各组内的分布状态和总体的分布特征,为进一步研究总体的构成、计算统计指标提供了方便。
2.分配数列的种类
根据分组标志,分配数列可分为品质数列和变量数列。
(1)品质数列
品质数列就是按照品质标志分组所编制的分配数列,分析总体中不同属性的单位分布情况。其示例如表3-6所示。
表3-6 2019年我国人口性别构成情况
(2)变量数列
变量数列就是按照数量标志分组而编制的分配数列。它是一种区分事物数量差别的分配数列,反映了总体在一定时间上的量变状态或量变过程,并从这种量的差别来反映事物质的差别。变量数列按其各组变量值的表现形式分为单项式变量数列和组距式变量数列两种类型。
1)单项式变量数列。单项式变量数列是把每个变量值作为一组并按一定顺序排列而编制的变量数列,简称单项数列。单项数列一般在按离散型变量分组且变量值的个数较少、变量值变动幅度较小时采用。其示例如表3-7所示。
表3-7 某小区居民家庭拥有汽车情况
但是,如果离散型变量的变量值变动很大,项数又很多,且采用简单分组,就势必会造成所分组数太多,各组又没有几个单位,各组次数过于分散,从而失去分组的意义。例如,将全国所有城市人口进行分组,由于各城市人口数差别很大,故城市人口相同的情况几乎是不存在的,全国所有城市的数量又非常多,这种情况就不适合编制单项数列。
2)组距式变量数列。组距式变量数列是以变量值的一定范围为一组并按一定顺序排列而编制的变量数列,简称组距数列,示例如表3-8所示。组距数列应用于连续变量分组或变动幅度较大、变量值较多的离散型变量分组的情况。
表3-8 某地区商业企业销售收入情况
编制组距数列会使资料的真实性受到一些损害。例如在统计研究中,假定人数在各组内部分布都是均匀的,这显然与客观资料的真实情况是矛盾的。在组距数列中,组限、组距、组数和组中值等要素会影响各组次数分布,现将几个基本概念分述如下。
组限:在组距数列中,各组界限的变量值称为组限。其中,每组中最小的变量值称为下限,最大的变量值称为上限。例如表3-8中,80、90、100、110、120均为各组的组限;在“80~90”这一组中,80为该组的下限,90为该组的上限。若各组的上限与下限都齐全,则称该组为闭口组;若一组内只有上限没有下限或只有下限没有上限,则称此组为开口组。开口组一般使用“××以上”或“××以下”的形式来表示。
组距:组距是各组的最大变量值与最小变量值之差,即组距=上限-下限,组距表示各组标志值变动的范围。例如,在表3-8中,“80~90”这一组的组距=90-80=10(万元)。
根据各组组距是否相等,组距数列又可进一步分为等距数列和异距数列。等距数列是指各组的组距都相等的变量数列,也就是说,各组标志值的变动都限于相同的范围,它适用于标志值的变动比较均匀的情况,也适用于现象性质差异的变动比较均匀的情况,如表3-8所示。异距数列是指各组组距不相等的变量数列,它常在数据变动不均匀或者为了特定的研究目的时采用。其示例如表3-9所示。
表3-9 2019年我国人口年龄构成情况
在编制组距数列时,是编制等距数列还是异距数列,要根据研究目的和数据本身的特点决定,异距数列有时更能说明数据的本质特征。
组数:组数是指数列分组的数目。在所研究的总体一定的情况下,组数的多少和组距的大小是紧密联系的。一般地,组数与组距呈反比例关系。在对相同数据进行分组时,组距越大,组数越少;组距越小,组数就越多。在确定组数与组距时,原则上应力求符合数据的实际情况,能够将总体分布的特点反映出来。如果组数太多、组距过小,则会使分组资料烦琐、庞杂,难以显现总体内部的特征和分布规律;如果组数太少、组距过大,则可能会失去分组的意义,达不到正确反映客观事实的目的。在确定组数和组距时,应注意保证各组都能有足够的单位数,组数既不能太多,也不宜太少,应以能充分、准确体现数据的分布特征为宜。
组中值:组中值是各组上、下限之间的中点数值。组距数列是按变量的一段区间来分组的,分布在各组的实际变量值已被变量值变动的范围取代,因此,在统计分析时,往往用组中值来反映各组实际变量值的一般水平,即用各组变量值平均水平的数值来代表。其假定条件是:只有当变量值在各组内呈均匀分布或在组距中点值两侧呈对称分布时,组中值代表组内变量值的一般水平才具有较高代表性。组中值的计算公式为
这是组中值的定义公式,适用于对闭口组组中值的计算。但是在统计实践中,常遇到开口组的情形,开口组组中值的计算公式为
3.变量数列的编制
在编制变量数列时,应根据统计研究的目的和统计资料的分布情况来确定变量数列的形式。前面介绍了变量数列分为单项式数列与组距数列,如果离散变量的变动范围不大,且出现的次数又不多,则宜编制单项式数列;如果变量的变动范围比较大,且出现的次数又比较多,不可能一一分组,则宜编制组距数列。
(1)单项式数列的编制
编制单项式数列就是把所有变量值按大小顺序排列,再将各组单位数汇总后填入各组相应的次数栏中。单项式数列的适用范围较小,实际应用也较少。应用示例如表3-10所示。
(2)组距数列的编制
组距数列的编制过程如下:
1)将原始数据按大小顺序排列,为确定全距、组距、组数做准备。只有将原始数据按大小顺序排列后,才能看出变量值分布的集中趋势和分布特点。
2)确定全距。确定全距主要是确定变量值变动的范围和变动幅度。
全距=最大变量值-最小变量值
3)确定组数和组距。组距的大小和组数的多少,是互为条件和互相制约的。对一个具体的分组对象而言,其全距一定时,组距大,则组数少;组距小,则组数多。那么,在组距数列中,究竟分多少个组,组距多大为好呢?美国学者斯特杰斯提出了一种确定组数和组距的公式,称为斯特杰斯经验公式,即
式中,n表示组数;N表示总体单位数;d表示组距;R表示全距,即最大变量值与最小变量值之差。
在应用上述公式时,必须满足两个条件:一是数据的分布接近正态分布;二是数据的特性适合作等距分组。上述公式仅供参考使用,切不可生搬硬套。实际分组时采用组数的多少和组距的大小应视所掌握资料的性质而定。
在实际工作中,一般是先确定组距,再根据全距和组距确定组数。在确定组距时,首先要考虑是采用等距数列还是异距数列。一般在变量值变动比较均匀或情况比较稳定时采用等距数列;在变量值分布不均匀或变量值变异范围很大时采用异距数列。总之,组数、组距的确定应以能够充分显示数据的分布特点为目的。
4)确定组限。在确定组限时一般要考虑以下几点:
第一,最小组的下限应小于或等于最小变量值,最大组的上限应大于或等于最大变量值。如果数据分布较集中,不存在极端值,则适宜采用闭口组;如果数据分布较分散,并且存在极端变量值,则适宜采用开口组。(www.daowen.com)
第二,对于连续型变量,划分组限时相邻组的组限必须重合。即相邻两组中,前一组的上限数值与后一组的下限数值重叠。对于重叠在组限上的变量值,一般按“上限不在内”原则进行处理。例如,职工工资分为2 000元以下、2 000~3 000元、3 000~4 000元、4 000~5 000元、5 000元以上五组,3 000元既是第二组的上限,又是第三组的下限,遵循“上限不在内”原则,应把工资为3 000元的职工归到职工工资为“3 000~4 000元”这一组。
第三,对于离散变量,划分组限时相邻组的组限一般要间断,即前一组的上限与后一组的下限这两变量紧密相连但不重叠。例如,工业企业按职工人数分组时,各组的组限可以表示为100人以下、100~499人、500~999人、1 000~2 999人、3 000人以上。但是,在实际工作中,为了保证不重复、不遗漏总体单位,对于离散变量也常常采用重叠组限的方法表示。
第四,为方便计算,组限应尽可能取5或10的整倍数。
第五,计算频数与频率,编制变量数列。明确了全距、组距、组数和组限以后,就可以将各组变量值按大小顺序排列,并将各总体单位按照其变量值大小分配到各组,最后汇总各组单位数,并排列在相对应的次数栏中,有时还应根据需要计算各组的频率,并列入表中,这样组距数列的编制就完成了。
下面举例说明组距数列的编制过程。
【例3-1】以下为某单位30名职工的月工资额(单位:元),请根据资料编制组距数列。
2 120 1 680 2 200 1 820 2 180 1 820 2 220 2 140 1 980 1 880 2 380
1 740 2 360 1 940 2 060 2 120 1 700 2 120 2 020 2 100 1 920 2 100
2 140 2 420 2 100 1 900 2 120 2 560 2 220 2 020
1)将原始资料按大小顺序排列。上述资料比较分散零乱,看不出内在特征,现将这些数据按从小到大的顺序重新排列,使它序列化,即
1 680 1 700 1 740 1 820 1 820 1 880 1 900 1 920 1 940 1 980 2 020
2 020 2 060 2 100 2 100 2 100 2 120 2 120 2 120 2 120 2 140 2 140
2 180 2 200 2 220 2 220 2 360 2 380 2 420 2 560
2)确定全距。最小值为1 680元,最大值为2 560元,因此
全距=2 560-1 680=880(元)
3)确定组数和组距。从资料看,变量值个数较多,所以首先可以肯定本资料不宜编制单项数列,而要编制组距数列。编制组距数列就必须确定组距和组数,因为月工资额主要集中在2 000~2 200元,故可将组距先确定为200元,则组数为4.4(880÷200=4.4),取整为5,因此分为五组。
4)编制组距数列,如表3-11所示。
表3-11 某单位职工月工资额情况
通过对总体各单位分组而形成的组距数列,显示了各单位标志值在各组间的分布状况,从而使杂乱无章的原始数据显示出一定的规律性。从表3-11可以看出,月工资额在2 000~2 200元的职工占全部职工人数的43.3%,而月工资额较低或较高的职工所占比例较小,表现出近似“两头小,中间大”的钟形分布特征,这也是统计分布的一种常态。
4.累计频数与累计频率
在次数分布的基础上,将各组的频数或频率依次累加以后所形成的分布就叫作累计频数分布,它能够反映截止到某组的累计的频数或频率的多少。各组频数依次累加之和叫作累计频数;各组频率累加之和叫作累计频率。累计频数或累计频率有向下累计和向上累计两种形式。其中,向下累计是从变量值高的组向变量值低的组逐组累计频数或频率,每组的累计频数或累计频率表示大于该组下限值的频数或频率共有多少;向上累计是从变量值低的组向变量值高的组逐组累计频数或频率,每组的累计频数或累计频率表示小于该组上限值的频数或频率共有多少。现以【例3-1】来说明累计频数和累计频率的计算,结果如表3-12所示。
表3-12 某单位职工月工资额情况(累计频数和累计频率的计算)
累计频数和累计频率可以更简便地概括总体各单位的分布特征。例如,表3-12中第三组的向上累计频数和向上累计频率分别为23人和76.6%,表示月工资额低于2 200元的职工有23人,占职工总数的76.6%;第三组的向下累计频数和向下累计频率分别为20人和66.7%,表示月工资额高于2 000元的职工有20人,占职工总数的66.7%。
5.频数分布的特征
社会经济现象性质的不同,使得各种统计总体有不同的频数分布,从而形成各种不同类型的分布特征。概括起来,各种不同性质的社会经济现象的频数分布类型主要有钟形分布、U形分布和J形分布三种。
(1)钟形分布
钟形分布的特征是“两头小、中间大”,即靠近中间的变量值分布的频数多,靠近两端的变量值分布的频数少,其分布曲线图宛如一口古钟。
钟形分布的种类很多,如果频数分配是完全对称的,则称为对称分布或正态分布。正态分布是实际生活中最重要、最常见的分布,许多现象(如商品市场价格、农作物平均产量、零件公差等)总体的分布都趋于正态分布;如果频数分配并不是完全对称的,则称为非对称分布或偏态分布,通常有右偏分布和左偏分布两种。钟形分布示例如图3-1所示。
图3-1 钟形分布
(a)正态分布;(b)右偏分布;(c)左偏分布
钟形分布在社会经济现象中最为常见,也最符合人们认识问题的习惯。例如,一个班级的学生考试成绩,差的和好的总是少数,居于中游者人数最多;再如,农作物单位面积产量的分布、机械零件公差的分布等,基本上都表现为钟形分布的分布特征。了解这些分布状态,将有助于我们进一步认识事物的本质及其发展变化的规律性。
(2)U形分布
U形分布的特征是“两头大,中间小”,即接近两端的变量值分布的频数多,接近中间的变量值分布的频数少,绘成曲线图,像英文字母“U”,如图3-2所示。
图3-2 U形分布
有些社会经济现象的分布表现为U形分布,如人口不同年龄死亡率的分布。据科学分析,在人口总体中,0~4岁死亡率最高,5岁起死亡率开始下降,10~14岁达到最低,15岁起死亡率又缓慢上升,50岁后死亡率显著增快,60岁以上又达到最高,其分布趋于U形分布。
(3)J形分布
J形分布有正J形分布和反J形分布两种类型。正J形分布是频数随着变量值的增大而增多,反J形分布是频数随着变量值的增大而减少,如图3-3所示。例如,投资额按利润率大小分布,一般呈正J形分布;人口总体按年龄大小分布,一般呈反J形分布。
图3-3 J形分布
(a)正J形分布;(b)反J形分布
数据分组(教学视频)
分配数列(教学视频)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。