对于通过收集得到的数据,虽然经过审核、排序等整理手段给予了处理,但由于数据庞杂,还不能直接进入对数据的描述和分析阶段。在此之前,有必要对数据进行分组处理,以反映数据分布的特征及规律。从一定意义上说,数据整理的中心任务就是分组和编制频数分布。本节就数据分组展开讨论。
2.2.3.1 数据分组的意义
所谓分组,就是按照分组标志将研究的问题分成若干个组成部分。对于非数值型数据就是依据属性的不同将其划分成若干组,对于数值型数据就是依据数值的不同将数据划分为若干组。分组后,要使组内的差异尽可能小,而组与组之间则有明显差异,从而使大量无序、混沌的数据变为有序、层次分明、显示总体数量特征的资料。因为,任何总体内部单位之间都是既有共性,又存在着差异性,分组便是以这种共性与差异性的对立统一为基础的最基本的整理方法,它对于自然科学和社会科学的研究都是必不可少的。
在社会经济统计研究中,数据分组的作用在于划分现象的类型、研究总体的结构和现象之间的依存关系。
2.2.3.2 数据分组标志
在进行分组时,最关键的问题是如何选择分组的标志和确定各组的界限。
分组标志,就是将数据划分为不同组别的标准或依据。一般说来,人们研究的问题总是具有多种特征,如何根据研究问题的需要,选择恰当的标志作为分组标志问题总是具有多种特征,如何根据研究问题的需要,选择恰当的标志作为分组标志,既取决于对被研究对象认识的深刻程度,又取决于研究者自身的修养和经验。对于同一资料,若采用的分组标志不同,就可能得出相异甚至相反的结论。分组的基本原则是按照不同的标志分组,体现组内的同质性和组间的差别性。分组标志有品质标志和数量标志两种。
(1)按品质标志分组
按品质标志分组就是按事物的品质特征进行分组。例如,人口总体按性别分为男、女两组;企业总体按所有制分为国有、集体、合营、个体等组。
按品质标志分组,在确定其分组界限时,有的比较简单,有的却很复杂。有些在理论上容易区分,但在实际社会经济生活上却难以辨别。例如,人口按城乡分组,居民一般分为城市和农村两组,但因目前还存在有些既具备城市形态又具备农村形态的地区,分组时就需慎重考虑。其他如部门分类、职业分类也都存在同样问题。因此,在实际工作中,为了便利和统一,联合国及各个国家都制订有适合一般情况的标准分类目录,如我国就有《国民经济行业分类目录》《工业部门分类目录》《商品目录》等。
(2)按数量标志分组(www.daowen.com)
按数量标志分组就是按事物的数量特征进行分组。如企业按工人数、产值、产量等标志进行分组;居民家庭按子女人数分组,可分为0人(无子女)、1人、2人、3人等。按数量标志分组,不仅可以反映事物数量上的差别,有时通过事物的数量差异也可区分事物的性质。例如人口按年龄分组:男性为0~6岁、7~17岁、18~59岁、60岁以上;女性为0~6岁、7~17岁、18~54岁、55岁以上,这是由于国家对男女职工规定退休年龄的不同而有所差别。因此,正确选择决定事物性质差别的数量界限,是按数量标志分组中的一个关键问题。
2.2.3.3 数据分组体系
分组标志可以是一个,也可以是几个。有时为了从不同侧面反映总体的特征,就必须运用几个标志对总体进行分组,以形成一个完整的体系,这就是数据分组体系。数据分组体系有以下两种不同的形式:
(1)平行分组体系
将数据按照一个标志进行分组,就称为简单分组。将同一总体的几个简单分组按某一规则排列起来就构成一个平行分组体系。例如,分别按性别、专业、年级对大学生进行分组,这些简单分组排列起来,就是平行分组体系如表2.1所示。
表2.1 大学生进行平行分组体系
(2)复合分组体系
将数据同时按两个或两个以上的标志层叠起来分组,就称为复合分组。由复合分组形成的分组系列就称为复合分组体系。例如,对工业企业先按所有制分组,在此基础上,再按规模进行复合分组,就形成一个复合分组体系如图2.1所示。
图2.1 复合分组体系
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。