理论教育 频数分布:研究单位按标志分组的分布数列

频数分布:研究单位按标志分组的分布数列

时间:2023-06-17 理论教育 版权反馈
【摘要】:频数分布的定义是:将研究的所有单位按某一标志分组,形成总体中各单位数在各组间的分布,又称为分布数列。该频数分布的构造方法与定类尺度相同。

频数分布:研究单位按标志分组的分布数列

频数分布是在分组的基础上形成的。频数是落入各组的单位数,也可称为次数,用符号f表示;各组频数占总频数的比重称为频率,用v表示。

频数分布的定义是:将研究的所有单位按某一标志分组,形成总体中各单位数在各组间的分布,又称为分布数列。

根据分组标志的特征不同,分布数列可分为属性分布数列和变量分布数列两种。

2.2.4.1 属性分布数列

属性分布数列是指按品质标志分组所形成的分布数列,简称品质数列。品质数列就是非数值型数据所形成的频数分布。例如,按性别、品牌分组形成的频数分布就是属性数列或品质数列。根据第1章内容,品质标志又可分成定类尺度与定序尺度两种,所以属性分布数列包含以下两种:

(1)定类尺度的频数分布

定类尺度也称列名尺度,它是指分组(或类)排列是依据客观事物的品质标志进行的,且各组(或类)是并列的平行关系。定类尺度的频数分布其分组标志(各分组名称)是反映类别的定类数据。

(2)定序尺度的频数分布

定序尺度的频数分布其分组标志是定序数据。该频数分布的构造方法与定类尺度相同。

2.2.4.2 变量数列

(1)变量数列的种类

变量数列是指按数量标志分组形成的分布数列,它可以包含定距尺度和定比尺度分组所形成的频数分布,即数值型数据频数分布。

对于属性数列来讲,如果分组标志选择得好、分组标准定得恰当,则事物的差异就表现得比较准确,数据中各组如何划分就较易解决。另外,属性分布数列一般也比较稳定,通常能准确地反映数据分布的特征。对于变量数列来讲,其组数和各组界限等的确定,往往可能出现因人的主观认识而异的情况,也就是说,即使按同一数量标志分组,也可能出现不同频数分布。

变量数列按照用以分组的变量值的表现形式不同,可以分为单项式变量数列和组距式变量数列两种。

①单项式变量数列

它是指数列中每个组的变量值都只有一个,即一个变量值代表一组。单项式变量数列一般适宜数据为离散型变量的情况,而且要求变量值变异幅度不太大时采用。

②组距式变量数列

它是指将全部变量值依次划分为若干个区间,并将每一区间的变量值作为一组,称组距式变量数列,简称为组距式数列。组距式数列适用于连续变量,或离散变量值个数较多、变化范围较大的情况下采用。组距式变量数列在实践中应用更为普遍。

(2)组距式变量数列的编制

以下列资料为例,说明组距式数列的编制过程。

如某公司经理为了了解普通雇员的薪酬情况,委托人事部门抽查了50名普通雇员的周薪,数据见表2.2。

上述原始资料比较分散零乱,不易直接看出其薪酬分布的特征。若将这些数据按由小到大的顺序排列,就可得到表2.3。

表2.2 50名雇员的周薪原始数据(单位:元)(www.daowen.com)

表2.3 50名雇员的周薪按大小顺序数据排列表(单位:元)

组距式数列编制的具体步骤如下:a.确定组数;b.确定组距;c.确定组限(各组间的界限);d.计算组中值;e.频数计量。

①确定组数

分组的组数没有严格的规定,主要取决于观测的数据有多少。如果观测数据很多,那么分组的组数也应该多一点。同时,组数还与数据分布的形态有关。如果数据的集中程度较高,那么分组的组数可以少一些。很多情况下是凭经验或者是反复试分组才可确定组数。这里,介绍由美国学者斯特杰斯(H.S.Sturges)创造的关于确定组数和组距的经验公式

式中,k为组数,N为总体单位数。

②确定组距

组距为每一组的间隔,可以用两个相邻组的下限之差表示。在分组时,组距的计算公式为

式中,R为全距,即变量最大值与变量最小值之差。

③确定组限

组限是指每一组的两端值,一个组的最小值称为下限,用L表示,一个组的最大值称为上限,用U表示。一般说来,组限必须涵盖所有的变量值,即第一组的下限应小于或等于所研究数据的最小值,而最后一组的上限要大于或等于数据中的最大值。

从理论上讲,组限的确定,一个是要满足原始数据的特征,另一个是应使一项数据只能分在其中的某一组,不能在其他组中重复出现。对于离散性变量,其变量值都是整数,变量值之间有明显的界线,因而,组的上下限可用肯定性的数值表示,组限非常清楚。

④计算组中值

组中值是上限和下限之间的中间数值,它是代表各组标志值平均水平的数值。计算闭口组(组限齐全)组中值,应为公式

开口组的组中值的确定,一般以其邻近组的组距为准,其计算公式为使用组中值代表组内数据,有一个必要的假设条件,即各组数据在组内呈均匀分布或在组中值两侧呈对称分布。如实际数据的分布不符合这一假定,用组中值作为组数据的代表值会有一定的误差。

⑤频数计量及分布

频数的计量就是统计出每一组的单位数为多少。为了统计分析的需要,有时我们需要观察某一数值以下或以上的频数或频率之和,回答这样的问题就得计算累计频数或累计频率。

累计频数或累计频率按其累计方式不同可分为向上累计和向下累计。

无论是数值型数据频数分布还是非数值型数据频数分布,同样能清晰地描绘数据变动的特征,使枯燥的数据变得生动,加大了数据的信息含量。尽管如此,我们也得承认频数分布会导致一些详细信息的缺失,也就是说,把数据整理成频数分布会丢失某些具体的信息,这些并未影响频数分布的应用价值,频数分布的优势足以抵消它的缺陷。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈