理论教育 集中趋势的测量方法

集中趋势的测量方法

时间:2023-06-17 理论教育 版权反馈
【摘要】:比如定类尺度是四种数据类型中层次最低的数据,其集中趋势的测量方法也适用于定序、定距和定比数据,但定序、定距及定比数据集中趋势的测量方法却不能用于定类尺度。但若选择定序尺度最适宜的集中趋势的测量方法应首选中位数。

集中趋势的测量方法

集中趋势是数据描述性分析的重要内容。原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据分布的基本特征,但缺乏对数据分布特征的综合测量,集中趋势测量是综合度量数据分布特征的一种重要统计方法。集中趋势是一组数据的中心值。

数据集中趋势的测定方法有许多,本节从数据类型的角度分别介绍。一般说来低层次数据集中趋势的测量方法同样适用于高层次数据,而高层次数据集中趋势的测量方法不适宜低层次数据。比如定类尺度是四种数据类型中层次最低的数据,其集中趋势的测量方法也适用于定序、定距和定比数据,但定序、定距及定比数据集中趋势的测量方法却不能用于定类尺度。

2.3.2.1 非数值型数据集中趋势测量

非数值型数据集中趋势测量分为定类尺度和定序尺度。

(1)定类尺度(分类数据)

定类尺度集中趋势的测量方法是众数。

众数是指一组数据中频数最大的变量值,一般用M表示。众数的计算通常以分组为基础,首先找到频数(频率)最大的组,该频数(频率)对应的变量值则为众数。

如要了解某高校观看世界杯足球赛男女大学生人数,得到资料如表2.4。

表2.4 某高校观看世界杯足球赛男女大学生人数

性别是分类尺度,属于非数值型数据,其变量的取值为男、女。在例子中我们看到所调查的6820人中,观看世界杯足球赛的男大学生为5200人,女大学生只有1620人。男生的观看人数比女生多了3580人,男生组是频数最大组。根据众数的定义,可知观看足球赛大学生性别的众数是男生,即M=男生。观看世界杯足球赛大学生性别众数。

(2)定序尺度(顺序数据)

定序尺度集中趋势的测量方法有中位数与众数。

中位数是一组数据按顺序排列,处于中间位置的变量值,一般用Me表示。中位数将全部数据分成两个相等的部分,每部分各占数据个数的50%,使得一部分数据比中位数大,一部分数据比中位数小。

定序尺度的计量层次比定类尺度高一个等级,所以,除用中位数测量定序尺度的集中趋势外,也可用众数。但若选择定序尺度最适宜的集中趋势的测量方法应首选中位数。

2.3.2.2 数值型数据集中趋势测量

在实际工作中,我们面对的数据除了非数值型数据以外,其中的绝大多数是数值型数据。我们知道作为数值型数据的两种类型,定距尺度与定比尺度虽有区别,但却属于同一层次,因此,两种尺度集中趋势的测量方法均相同。

数值型数据集中趋势的测量方法有平均数、几何平均数、众数和中位数四种。

(1)平均数

平均数是一组数据求和,然后除以数据的个数,也可简称为均值。

平均数在统计学中具有重要的地位,是集中趋势最主要的测度值。它主要适用于数值型数据,无论是定距还是定比尺度,不适用于定类数据与定序数据。根据掌握的资料不同,平均数有不同的计算形式和计算公式。

①简单平均数

简单平均数是根据未分组的原始数据计算的平均数。

Ⅰ.总体平均数。总体平均数反映的是总体分布的集中趋势。在总体范围不大的情况下,一些研究会涉及总体均值,它的计算包含了一个总体的全部数据。比如,如果我们说某校所有学生的数学平均分数为70分,这个分数就是总体均值。当从该校随机抽出100名学生,计算100人数学的平均分则不是总体均值。总体均值的计算公式为:

式中,为总体均值,N为总体容量,Xi为变量值。

Ⅱ.样本平均数。当我们从总体中抽取一个样本以获取总体某一方面的信息,例如,质量检验部门要确保所生产的日光灯寿命达到许可的范围,不可能对每一支日光灯都进行检测,可能抽一个包含50支日光灯管的样本。然后计算50支日光灯的平均使用寿命,以估计生产的所有日光灯的平均使用寿命。这里的50支日光灯的平均寿命就是样本均值,全部日光灯的平均寿命则是总体均值。样本均值的计算公式为:

式中,为样本均值,n为样本容量,xi为变量值。

例如,已知某总体由100个数据构成,其中今从100个数据中随机抽取4个数据,4个数据分别为60、50、36和70。

②加权平均数

加权平均数是根据分组数据计算的平均值。当分组后每组的频数不等,这时就要以频数或频率为权数,计算加权平均数。

设有k组变量值,Xi表示单项数列的变量值或组距数列的组中值,fi表示各组频数,则总体加权平均数计算公式:

同理,样本加权平均数计算公式:

加权平均数除了用频数加权外,还可以采用频率为权数。

加权平均数的大小不仅受各组变量值大小的影响,而且还受各组频数或频率大小的影响,这里频数或频率起着权数的作用。如果某一组权数大,说明该组数量较多,那么该组数据的大小对平均数的影响就越大,反之则越小。另外,频率的计算必须以频数为基础。

③加权平均数变形

加权平均数在实际应用过程中,有时由于受掌握的资料所限,不能直接采用总体加权平均数计算公式和样本加权平均数计算公式计算,这就需要把加权平均数变形。比如,在分析问题时掌握的是各组总值数据,缺少各组频数资料。以商业调查中计算商品平均价格为例,已知商品销售额和价格,缺少商品的销售量,在这种受掌握资料所限的情况下,则可将加权平均数变形。

设mi=xifi为各组总值,当fi未知时,将其代入样本加权平均数计算公式,加权平均数的变形公式为

④平均数的数学性质

平均数有以下两个重要的数学性质。

Ⅰ.各个变量值与平均数离差之和等于0,即

简单平均数:

平均数的这两个数学性质说明,平均数是代表值,它采取取长补短的方法,与各个变量值的和等于0。

Ⅱ.各个变量值与平均数的离差平方之和为最小值,即

简单平均数:

平均数的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。

(2)几何平均数

几何平均数是n个变量值连乘积的n次方根,一般用G表示。几何平均数的应用条件有一定的要求,通常是对速度或比率求均值时采用,而且要求n个速度或比率连乘积要等于总速度或总比率。

几何平均数根据资料不同,其计算分为简单几何平均数与加权几何平均数两种方法。

我们知道算术平均数体现纯粹数字上的关系,而根号称为几何平均数,这个体现了一个几何关系,即过一个圆的直径上任意一点做垂线,直径被分开的两部分为a,b,那么那个垂线在圆内的一半长度就是如图2.2。

图2.2 几何平均数

其中AB=2R,AO=a,OB=b,CO=OD=

这就是它的几何意思,也是称之为几何平均数的原因。

计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是对比率、指数等进行平均以及计算平均发展速度。

其中样本数据非负,主要用于对数正态分布

①简单几何平均数

简单几何平均数的计算公式为

式中,G为几何平均数,xi为变量值,n为变量值个数。

例如,某企业生产一种产品,要经过3个连续作业的车间,各车间的产品合格率分别为95.8%、95%和93%。

产品合格率属于结构相对数,同时3个车间合格率的乘积等于该产品的总合格率。用公式(2.3.6)计算,可得产品平均合格率为

②加权几何平均数

加权几何平均数的计算公式为

例如,某人一笔款项存入银行10年,年利率分别是:有2年为6%,3年为5%,5年为3%。

由于按复利计息,各年的利息是以上一年的本利和为基础计算的,因此,应先将各年的利率换算成年本利率(1+年利率)再进行计算。因为各年的年本利率的连乘积等于总的本利率,在此基础上减1,就得到平均年利率。用加权几何平均数公式,可得平均年本利率为

平均年利率G-1=104.193%-1=4.193%。

(3)众数

前面在定类数据集中趋势的测量中已经介绍过众数,众数对定类和定序数据的描述尤为有用。基于计量尺度向下兼容的性质,众数的应用不仅限于非数值型数据,对于层次更高的数值型数据也同样适用。

由前面的知识我们知道,众数的计算通常要以分组为基础。作为数值型数据分组以后形成两种数列:其一是单项变量数列,其二是组距变量数列。根据变量数列不同,确定众数可采用不同的方法。

①单项变量数列

由单项变量数列确定众数与非数值型数据方法相同,只需找到频数或频率最高的组,该组对应的数据即是众数。

②组距变量数列

由组距变量数列确定众数,首先根据频数或频率最大原则确定众数所在组,然后需运用相关计算公式确定众数,这是因为组距变量数列每一组的数据是一段区间,不同于单项变量数列每一组只有一个值。为了把众数从该区间求出,可通过比例插值法近似得出。

众数的计算公式,根据众数所在组的上下限不同,分为下限与上限两种。下面给出的是众数下限计算公式:

式中,L为众数组的下限,d1为众数组频数与前一组频数之差,d2为众数组频数与后一组频数之差,h为众数组的组距。(www.daowen.com)

例如,某百货公司所属商店年销售额资料如表2.5所示。

表2.5 百货公司所属商店年销售额资

众数下限为

(4)中位数

中位数除不能用于度量定类数据集中趋势外,对于定序数据和数值型数据都适宜。

数值型数据计算中位数分以下两种情况:

①由未分组资料确定中位数

所研究的数据尚未分组计算中位数的方法是:先将研究全部数据按数值大小排序,然后根据50%原理确定中位数位置,与中位数位置对应的数据就是中位数。

未分组数据确定中位数位置公式为

当研究的全部数据n是奇数时,中位数是处于中间位置的数据。当研究的数据个数n为偶数,中位数是处于中间位置上两个数据的平均数。

例如,某房地产开发商在2006年8月份出售的5套商品房的总价分别是:65万元、110万元、105万元、80万元和90万元,求价格中位数。

先将5个数据按大小排序:65万元、80万元、90万元、105万元和110万余。运用公式可得中位数位置为

则第3个数据是中位数,即

Me=90万元

再如,6名质量检查工程师的年薪由低到高的顺序如下:35000元、40000元、40000元、49000元、50000元、50000元,计算中位数。

根据中位数计算的要求,运用公式确定中位数位置,可得中位数位置为

由此可知,中位数处于第3个数据与第4个数据的中间,取两者的平均数即为中位数,即

注意:在变量值的个数为偶数时,中位数可能不是所给变量值中的任何值,但它仍旧描述了所有数据一半与另一半的数目界限。比如44500元描述的是:6人中有3名质量检查工程师的年薪高于44500元,有3人则低于44500元。

②分组资料确定中位数

数值型数据分组以后形成了变量数列,由于变量数列中的数据已经排序,所以分组资料计算中位数的关键一步是确定中位数的位置。无论是单项变量数列,还是组距变量数列,运用中位数的50%原理,中位数的位置公式是

根据变量数列的类型不同,中位数有不同的确定方法。

第一种方法是单项变量数列确定中位数法。

单项变量数列计算中位数的方法与定序数据(未分组资料)完全相同。首先按照中位数位置确定公式,计算出中位数的位置,然后运用向上累计频数找出中位数所在组,最后确定中位数。

例如,已知下面表中的资料。

表2.6 某车间日产零件数与人数

根据公式可得中位数位置为即中位数处于第15名工人与第16名工人的中间,取两者的平均日产量即为中位数,即

第二种方法是组距变量数列确定中位数法。

组距变量数列计算中位数比单项变量数列复杂。同单项变量数列不同,运用公式

求出中位数所在组,该组对应的变量值不是唯一的一个值,而是一段区间。在假定中位数组内数据均匀分布的前提下,利用下列公式计算中位数的近似值为

式中,L为中位数所在组的下限,Sm-1为中位数所在组前一组的累计频数和,fm为中位数所在组的频数,h为中位数所在组的组距。

例如,根据表2.7的数据,计算中位数。

表2.7 按年销售额对商店分组统计表

续表

按公式确定中位数的位置即第150家商店的年销售额是中位数。运用向上累计得知,第150家商店应该包含在177中,故中位数在第3组,该组的变量值介于70~80万元之间,中位数应在此区间内。

根据资料已知可得中位数

(5)平均数、中位数及众数之间的区别与联系

①平均数、众数和中位数的特点。

平均数作为一组数据的代表,是就数值型数据计算的,并且利用了全部数据的信息,具有优良的数学性质,在实际中应用的最为广泛,特别是在进行统计推断时有重要的作用。其主要缺点是易受极端值的影响,对偏态分布其代表性较差。

众数是一组数据的位置代表值,在频数分布图上,最高峰所对应的数即为众数。众数不受极端数据的影响,而且求法方便。但众数在某些情况下可能不存在,也可能出现两个或两个以上的众数。

中位数也是一组数据的位置代表值,它位于依序排列的一组数据的中间位置,不受极端数据的影响。

对于非数值型,定类数据通常是计算众数,定序数据通常可以计算众数、中位数。对于数值型数据,同样可以计算众数和中位数,还可以计算平均数。平均数、中位数和众数所表达的集中趋势的含义不同,作为集中趋势的度量究竟哪一个的代表性要强一些,不能一概而论,这还需要考虑数据的分布情况。如用平均数作为集中趋势的度量,要求变量值之间变化差异不大,当变量值之间差异较大时,可以考虑使用中位数或众数。

②平均数、中位数和众数相同点。

平均数、中位数和众数相同之处主要表现在以下几个方面:都是来描述数据集中趋势的统计量;都可用来反映数据的一般水平;都可用来作为一组数据的代表。

③平均数、中位数和众数不同之点。

平均数、中位数和众数不同之处主要表现在以下几个方面:

Ⅰ.含义不同

平均数是一组数据的总和除以这组数据个数所得到的商叫这组数据的平均数。

中位数是将一组数据按大小顺序排列,处在最中间位置的一个数或最中间的两个数的平均数叫作这组数据的中位数。

众数是在一组数据中出现次数最多的数叫作这组数据的众数。

Ⅱ.求法不同

平均数是用所有数据相加的总和除以数据的个数,与每一个数的大小都有关系。

中位数是将数据按照从小到大或从大到小的顺序排列,如果数据个数是奇数,则处于最中间位置的数就是这组数据的中位数,如果数据的个数是偶数,则中间两个数据的平均数是这组数据的中位数,它只要简单的计算。

众数是一组数据中出现次数最多的那个数,不必计算就可求出。

Ⅲ.个数不同

在一组数据中,平均数和中位数都具有唯一性,但众数有时不具有唯一性。在一组数据中,可能不止一个众数,也可能没有众数。

Ⅳ.呈现形式不同

平均数是一个“虚拟”的数,是通过计算得到的,它不是数据中的原始数据,它可能与原数据中的某一个相同,也可能与原数据中的任何一个都不同。

中位数是一个不完全“虚拟”的数。当一组数据个数是奇数时,它就是该组数据排序后最中间的那个数据,是这组数据中真实存在的一个数据;但在数据个数为偶数的情况下,中位数是最中间两个数据的平均数,只有当中间的两个数相同时,它才与这组数据中的两个或两个以上数据相同,是数据中的一个真实的数,如果正中间的两个数不同,此时的中位数就是一个“虚拟”的数。

众数是一组数据中出现次数最多的原数据,它是真实存在的。但当一组数据中的每一个数据都出现相同次数时,这组数据就没有众数了。

Ⅴ.代表不同

平均数反映了一组数据的平均大小,常用来代表数据的总体“平均水平”。

中位数像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“中等水平”。

众数反映了出现次数最多的数据,用来代表一组数据的“多数水平”或“集中趋势”。

这三个统计量虽然有所不同,但都可以反映一组数据的集中趋势,都可以作为一组数据一般水平的代表。

Ⅵ.特点不同

平均数与每一个数据都有关,其中任何数据的变动都会相应引起平均数的变动。主要缺点是易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低。

中位数与数据的排列位置有关,某些数据的变动对它没有影响;它是一组数据中间位置上的代表值,不受数据极端值的影响。

众数与数据出现的次数有关,着眼于对各数据出现的频率的考察,其大小只与这组数据中的部分数据有关,不受极端值的影响,其缺点是具有不唯一性,一组数据中可能会有一个众数,也可能会有多个或没有。

Ⅶ.作用不同

平均数是统计中最常用的数据代表值,比较可靠和稳定,因为它与每一个数据都有关,反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等。

中位数作为一组数据的代表,可靠性比较差,因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适。

众数作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比较适合。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈