理论教育 使用直方图来展示样本数据的特征

使用直方图来展示样本数据的特征

时间:2023-06-09 理论教育 版权反馈
【摘要】:直方图是从总体中随机抽取样本,将从样本中获得的数据进行整理后,用一系列等宽的矩形来表示数据。在直方图的空白区域,记上有关数据的资料,如收集数据的时间、数据个数n、平均值x、标准差s,等等。平均值远左离(或右离)直方图的中间值,频数自左至右减少(或增加),直方图不对称。靠近直方图中间值的频数较少,两侧各有一个“峰”。在标准型的直方图的一侧有一个“小岛”。

使用直方图来展示样本数据的特征

直方图是从总体中随机抽取样本,将从样本中获得的数据进行整理后,用一系列等宽的矩形来表示数据。宽度表示数据范围的间隔,高度表示在给定间隔内数据的数目,变化的高度表示数据的分布情况。通过对数据分布形态和与公差的相对位置的研究,可以掌握过程的波动情况(见图10-3)。借助直方图可以对资料中心值或分布状况一目了然。

图10-3 某种形态的直方图

1.直方图的绘制步骤

(1)收集数据,数据个数一般为50个以上,最少不得少于30个。

(2)求极差R。在原始数据中找出最大值和最小值,计算二者的差值,就是极差。

(3)确定分组的组数和组距。一批数据究竟分多少组,通常根据数据个数的多少而定,可参考表10-6。分组时,若组数取得太多,每组内出现的数据个数很少,甚至为零,作出的直方图过于分散或呈现锯齿状;若组数取得很少,则数据会集中在少数组内,而掩盖了数据的差异。所以分组组数取得太多或太少都不合适。分组组数K确定后,组距h也就确定了,即h=R/K=(xmax—xmin)/K。

表10-6 常见直方图分组组数

续表

(4)确定各组界限。为避免数据落在组界值的末位数,可取测量值单位的1/2,即测量值的最小位数的1/2。分组界限应能把最大值和最小值包括在内。在决定组界限时,可先从第一组起,一般参考下面的公式确定:

第一组的上下界限值为xmin±(h/2)。由于第一组的界限值向下移动了半个组距,所以实际组数比一开始选定的组数多一组,从而防止最大值落到组界之外。

第一组的上界限值就是第二组的下界限值,加上组距就是第二组的上界限值,也就是第三组的下界限值……依此类推,可定出各组的组界。

为了计算的需要,往往要决定各组的中心值。每组的上下界限相加除以2,所得数据即为组中值。组中值为各组数据的代表值。

(5)制作频数分布表。将测得的原始数据分别归入相应的组中,统计各组的数据个数,即频数fi,各组频数填好后检查一下其总数是否与数据总个数相符,避免重复或遗漏。

(6)画直方图。以横坐标表示质量特性,纵坐标为频数(或频率),在横轴上标明各组组界,以组距为底,频数为高,画出一系列的直方柱,就成了直方图。(www.daowen.com)

(7)在直方图的空白区域,记上有关数据的资料,如收集数据的时间、数据个数n、平均值x、标准差s,等等。

2.直方图的常见类型

一般电子商务物流服务质量特性值的分布大多为正态分布,从中获得的数据的直方图具有中间高、两边低、左右基本对称的特点。但实际问题中还会出现其他形状的直方图,根据直方图的形状,可以对总体进行初步分析。

下面介绍直方图的几种类型(见图10-4)。

(1)正态型。又名标准型或对称型。数据的平均值与最大值和最小值的中间值相同或接近,平均值附近的数据的频数最多,频数在中间值向两边缓慢下降,以平均值左右对称。这种形状也是最常见的。

(2)锯齿型。作频数分布表时,如分组过多,会出现此种形状。另外,当测量方法有问题或读错测量数据时,也会出现这种形状。

(3)偏峰型。数据的平均值位于中间值的左侧(或右侧),从左至右(或从右至左),数据分布的频数增加后突然减少,形状不对称。当下限(或上限)受到公差等因素限制时,由于心理因素,往往会出现这种形状。

(4)陡壁型。平均值远左离(或右离)直方图的中间值,频数自左至右减少(或增加),直方图不对称。当工序能力不足,为找出符合要求的产品经过全数检查,或过程中存在自动反馈调整时,常出现这种形状。

(5)平顶型。当几种平均值不同的分布混在一起,或过程中某种要素缓慢劣化时,常出现这种形状。

(6)双峰型。靠近直方图中间值的频数较少,两侧各有一个“峰”。当有两种平均值相差大的分布混在一起时,常出现这种形状。

(7)孤岛型。在标准型的直方图的一侧有一个“小岛”。出现这种情况是夹杂了其他分布的少量数据,比如工序异常、测量错误或混有另一分布的少量数据。

当观察到直方图不是正态型的形状时,需要及时研究,发现问题,采取措施,改进质量。

图10-4 常见的直方图形态

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈