理论教育 在对数据进行数量分组时,要注意以下问题

在对数据进行数量分组时,要注意以下问题

时间:2023-06-03 理论教育 版权反馈
【摘要】:但对连续变量进行分组则不太容易,特别是要区分组与组之间的界限时,很容易出错,不能正确反映事物的性质和本来面目。要注意处理好一些具体的分组技术问题1)组距之间不要出现间断现象。在什么情况下采用等距组距数列,什么情况采用异距组距数列,只是一个分组的形式问题,形式要服从内容。因此,在进行组距分组时,采用何种组距,要以能划分出事物的质的区别为指导原则。而当数量分布不均匀时,则可考虑异距组距数列。

在对数据进行数量分组时,要注意以下问题

一般来讲,数量分组比较麻烦,容易出错和不易划分,特别是在按一定数量进行组距分组时,最容易出错,下面加以详细介绍。

在对数据进行分组时,首先要清楚数量的性质,数量有连续变量和离散变量,如果是对离散变量进行分组,比较好分,不容易出错,因为离散变量大多是整数,如轿车的乘坐人数、客车的载客数、载货车变速器的档位数等。但对连续变量进行分组则不太容易,特别是要区分组与组之间的界限时,很容易出错,不能正确反映事物的性质和本来面目。

在对数据进行数量分组时,要注意以下问题:

(1)要正确划分组距的数量界限

正确划分组距的数量界限,关键是要能区分事物的不同性质,即找出关键的数量点,也就是量变到质变的数量点。比如,水升温至100℃就开始沸腾,0℃以下就开始结冰,100℃、0℃都是关键的数量点。在载货车中,当GVW>14t,即车辆总重量大于14t时,就称为重型载货车;当6t<GVW≤14t,就称为中型载货车,当1.8t<GVW≤6t,就称为轻型载货车,当GVW≤1.8t时,就称为微型载货车,1.8t、6t、14t都是数量关键点。在轿车中,一般把排量小于等于1.6L的称为经济型轿车,排量为1.6L就是一个区分事物性质的数量点。以上事例是比较明显的数量关键点。在实际市场调研分组中,还有很多不明显的数量关键点,需要进行一定的研究和分析后才能确认。例如,在研究汽车的销售价格时,价格区间按多少金额来确定呢?这时就要考虑用户对价格的敏感额度,通过市场调研可知,售价为30万元左右的载货车,用户对其价格敏感额度一般为10%左右,即2万~3万元。而5万元左右的微型货车,用户价格敏感额可能在售价的3%即1000元左右。又如,汽车厂家在市场调研中经常要对用户的收入进行分组,如果是载货车用户,该如何确定用户的收入区间,是按年收入1万元一个区间,还是2万元一个区间,或是5万元一个区间?如是轿车用户,年收入又将如何划分,是3万元一个区间,还是5万元一个区间?这些都不是轻易就能决定的,需要认真研究。一旦找到了关键的数量点,就能很好地确定划分事物不同性质的组,对企业来说,就意味着可以将决策建立在正确的基础上。以上面的用户收入划分为例,如果一家汽车企业要开发经济型的轿车,则目标用户一定是经济型收入的用户。定位准确了,就能很好地研究经济型收入用户的需求特征,开发出符合用户需求的经济型轿车。如果在收入划分上出现错误,则很有可能研究的经济型收入用户特征不正确,那么,在此基础上开发出来的经济型轿车就极有可能出问题,不符合用户的需求。

(2)要注意处理好一些具体的分组技术问题

1)组距之间不要出现间断现象。在对连续变量划分组距时,市场调研公司或企业自己设计问卷时,经常出现如下所示组距有间断的现象,而且其表示方式多种多样:

示例1:

用户按收入分组:

①2万元以下

②2万~3.9999万元

③4万~5.9999万元

④6万~7.9999万元

⑤8万~9.9999万元

⑥10万元以上

示例2:

请问您目前家庭平均每月的总收入是下列哪一组呢(请包括奖金、补贴股息和红利等各种收入)?

4500元以下

4500元(包含4500)~4999元

5000元(包含5000)~5999元

6000元(包含6000)~6999元

7000元(包含7000)~7999元

8000元(包含8000)~8999元

9000元(包含9000)~9999元

10000元以上(包含10000元)

上述分组都存在数量上不完整的现象。许多调研公司的研究人员认为这样分组可以避免出错,但实际上是不规范的。举一个极端的例子,在示例1中,如出现39999.5元,应划入哪一组呢?在上述分组中,没有哪个组有这个数量范围。正确的分组还是应遵循统计学的要求。如下所示:

用户按收入分组:

①2万元以下

②2万~4万元

③4万~6万元

④6万~8万元

⑤8万~10万元

⑥10万元以上

按上述分组方式,如果收入为4万元,则应归入2万~4万元这一组,还是归入4万~6万元这一组呢?统计学中有个规定,即上组限不计在内。如果收入为4万元,则归入4万~6万元这一组。调查人员与用户并不是统计专业人员,他们不一定知道可以这样分。解决这个问题,一是靠培训,二是可以在每道题后面加上一个注,如下所示:

用户按收入分组:

①2万元以下(不含2万元)

②2万~4万元(不含4万元)

③4万~6万元(不含6万元)

④6万~8万元(不含8万元)

⑤8万~10万元(不含10万元)

⑥10万元以上

虽然这样比较烦琐,但却很规范,也不易出错。

在上述分组中,以第二组2万~4万元(不含4万元)为例,2万元是该组的下限,4万元是该组的上限。

2)要正确划分组距。在进行数量分组时,有两种组距可以选择,一种是等距组距数列,另一种是异距组距数列。所谓等距组距数列,是指组与组之间的数量间隔是相等的;而异距组距数列,组与组之间的数量间隔不一定都相等。什么情况下采用等距组距数列,什么情况下采用异距组距数列,这是企业和调研公司研究人员在划分组距时比较不太容易掌握的一个方面,虽然看上去很简单,但做得不好,就容易出错。

在什么情况下采用等距组距数列,什么情况采用异距组距数列,只是一个分组的形式问题,形式要服从内容。在进行分组时,最重要的是要划分出事物的质的区别。因此,在进行组距分组时,采用何种组距,要以能划分出事物的质的区别为指导原则。

在具体分组时,可这样来考虑,当事物的数量分布很均匀时,可考虑等距组距数列。而当数量分布不均匀时,则可考虑异距组距数列。

此外,在对数据分组时,经常不能完全封闭第一组和最后一组的上下限,这时就会出现开口组的现象。所谓开口组,就是当组距数列的第一组缺下限值、最后一组缺上限值时,就是一个开口组。如上述所示的按收入分组的第一组2万元以下,就缺下限,最后一组10万元以上,就缺上限。

3)计算组数、组距与组中值。对原始数据进行分组,分多少组合适,一般没有定论,要视具体情况而定,很多情况下经验很重要。但总的原则是要通过分组,把事物的数量分布特征与规律呈现出来,因此,组数既不能太少也不能太多。组数太少,数据分布就会过于集中;组数太多,数据分布就会过于分散,都不利于数量分布特征和规律的呈现。在具体组数方面,一般为5组到15组较合适,但这也只是一般性的参考。下面举例说明。

中重型载货车用户一般都比较重视发动机功率的大小。商用车企业的商品规划人员在对载货车市场进行研究时,一般也喜欢用发动机功率大小来分组,那么,怎么正确划分发动机功率的不同组呢?表14-1是某年的一部分牵引车发动机功率和对应上牌注册车辆数的原始数据。

从表14-1中可看出,在一些重要的马力段(图中有黄色标注部分),其对应上牌注册车辆的数量都较其他马力段多。没有截取的数据也呈现相同的情况。观察这些数据,可看出其共同特点尾数接近0或5。在实践中,这些马力段是重要的数量分界线,因此,可将这些重要的马力段作为数量界限进行分组。具体分组如下所示:

①260马力以下

②260~280马力

③280~300马力

④300~320马力

⑤320~340马力

⑥340~360马力

⑦360~380马力

⑧380~400马力

⑨400马力以上

14-1 牵引车发动机功率和对应上牌注册车辆数

978-7-111-49364-8-Part02-15.jpg

在分组时,组距(即一个组的上下限之差)也可根据所调查的原始数据中的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)/组数

用这个方法算出来的组距,也只是为分组提供一个参考。

确定组距后,就可以计算组中值了。在组距数列中,组中值是后面计算诸多统计分析指标不可缺少的。组中值是每一组的下限和上限之间的中点值,即

组中值=(下限值+上限值)/2

之所以这样计算组中值,是有一个前提条件的,即假定在组距数列中,各组数据是均匀分布的。如果实际数列分布不均匀,则组中值作为一个代表值就会有一定的偏差。

4)交叉分组。

①两两交叉分组。所谓交叉分组,是指将调查得来的原始数据按需要研究的变量进行分组。

在分析大量调查得来的原始数据时,交叉分组是一个非常重要的基础技能,许多重要的分析发现都有赖于是否能很好和正确地进行交叉分组。(www.daowen.com)

在实际数据分组处理时,由于没有掌握正确的交叉分组方法,很多市场调查研究人员或多或少在此都有些迷茫,他们大多数会根据自己的认识和市场研究的要求,进行一些重要的交叉分组,但也会遗漏许多重要的分组,而这些被遗漏的重要分组可能恰恰隐藏着市场的一些重要结论和发现。

如何掌握正确的交叉分组方法,从而保证不遗漏重要的分组呢?首先,要确定进行交叉分组时有多少需要研究的有相互联系的变量,之后便可以大致知道要进行哪些交叉分组,同时还可以通过排列组合计算出需要进行多少交叉分组。然后,在此基础上,确定哪些分组是企业需要的,哪些是不需要的。下面举例说明。

假定对某一地区做了一个经济型轿车市场基本情况的调查,得到了有关该地区不同轿车厂家品牌,轿车发动机排量,轿车变速器形式,轿车所有者的性别、年龄、职业、收入以及对所购轿车品牌的满意度的数据,对这些数据可以进行多次多重交叉分组分析。若要保证不遗漏重要的分组,应按以下流程进行:

首先,要确定交叉分组的变量数有多少。就这次调查来说,共有轿车厂家品牌,轿车发动机排量,轿车变速器形式,轿车所有者的性别、年龄、职业、收入以及对所购轿车品牌的满意度共8个变量(实际调查远不止这些)。在进行交叉分组时,变量数越多,交叉分组的组数就越多。如果再考虑多重分组,分组数就会成倍增长。

其次,在进行交叉分组时,首先要进行的是两两交叉,即两个变量交叉分组。把两两交叉分组的可能性都列出来。怎么列呢,最好的办法是建立一个Excel表格,把要分组的变量分别在纵向、横向上列出来,见表14-2。

14-2 两两交叉分列表

978-7-111-49364-8-Part02-16.jpg

在理论上,两个变量两两交叉分组,共有8×8=64组,把重复的分组去掉,还有28个交叉分组。分别如下:

①性别—年龄

②性别—职业

③性别—收入

④性别—轿车品牌

⑤性别—发动机排量

⑥性别—变速器形式

⑦性别—满意度

⑧年龄—职业

⑨年龄—收入

⑩年龄—轿车品牌

(11)年龄—发动机排量

(12)年龄—变速器形式

(13)年龄—满意度

(14)职业—收入

(15)职业—轿车品牌

(16)职业—发动机排量

(17)职业—变速器形式

(18)职业—满意度

(19)收入—轿车品牌

(20)收入—发动机排量

(21)收入—变速器形式

(22)收入—满意度

(23)轿车品牌—发动机排量

(24)轿车品牌—变速器形式

(25)轿车品牌—满意度

(26)发动机排量—变速器形式

(27)发动机排量—满意度

(28)变速器形式—满意度

在此基础上,就可以作进一步的分析,看这些两两交叉分组哪些是本次研究所需要的,哪些不是。显然,有些交叉分组,如性别—年龄、性别—职业、性别—收入、年龄—职业、年龄—收入、职业—收入,可以作为研究的背景材料,但不需要作详细深入的分析。有些交叉分组可能没有太大的意义,如职业—轿车品牌、职业—发动机排量、职业—变速器形式、职业—满意度、轿车品牌—发动机排量、轿车品牌—变速器形式、发动机排量—变速器形式、发动机排量—满意度、变速器形式—满意度等。当然,这些分组是否真的没用,有时还要依赖统计检验。

把不需要和意义不大的交叉分组取掉后,余下的就是有意义的交叉分组,需要对这些交叉分组重点分析。这些分组如下:

④性别—轿车品牌

⑤性别—发动机排量

⑥性别—变速器形式

⑦性别—满意度

⑩年龄—轿车品牌

(11)年龄—发动机排量

(12)年龄—变速器形式

(13)年龄—满意度

(19)收入—轿车品牌

(20)收入—发动机排量

(21)收入—变速器形式

(22)收入—满意度

(25)轿车品牌—满意度

②多重交叉分组。多重交叉分组可分为三种情况,一是在纵列上对两个或两个以上的变量实现多次分组,而在横行上只有一个因变量;二是在纵列上只对一个变量进行分组,而在横行上有两个或两个以上的因变量分组;三是纵横两个方向都对两个或两个以上的变量进行分组。第一种情况,仍以上述经济型轿车为例,如先按性别将经济型轿车购买者分为男性和女性两组,然后,在男女两组中再按年龄分成若干组。纵列分组完成后,就可以和横列上的其他变量进行交叉分组了。示例见表14-3。

14-3 经济型轿车购买者分组

978-7-111-49364-8-Part02-17.jpg

与两两变量交叉分组不同的是,横列上的变量数减少了两个。另外,对角线上不存在同一变量两两交叉的情况。其余分析同两两变量,鉴于篇幅,此处就不赘述了。

交叉分组应用是辛普森悖论的一个例子。

企业在应用交叉分组时,要特别小心。因为一个综合分组的结论可能并不能反映其具体的组成情况。下面是一个海外调研的示例。某商用车公司对出口海外一个国家的中重型货车用户进行了市场调研,图14-1为用户购车时起决定作用的因素。

978-7-111-49364-8-Part02-18.jpg

图14-1 用户购买中重型货车时的影响因素

从图14-1可以看出,用户购车时,价格是最主要的决定因素,无论是重型货车牵引、重型货车自卸、重型货车载货还是中型货车载货,价格的影响力都是排在第一位的。其次才是品牌、发动机动力、耐久性等指标。这个结论在数据上是没有任何错误的,但它就一定是正确的吗,用户购车时真的只看重价格吗?再看一下分品牌的情况:

图14-2是重型牵引车分品牌的情况。

图14-2中的数据表明,价格并不是所有牵引车用户在购车时最看重的因素。对于购买沃尔沃牵引车的用户,决定他们购车的最主要因素是沃尔沃货车的舒适性、耐久性和品牌,而不是价格。

图14-3为重型自卸车分品牌的情况。

重型自卸车出现同样的现象,从总体上看,似乎用户购车时都最看重价格,但分品牌后就发现,购买奔驰自卸车的用户,价格并不是他们最看重的因素,他们最看重的因素是奔驰品牌的耐用性。

978-7-111-49364-8-Part02-19.jpg

图14-2 重型牵引车分品牌的情况

978-7-111-49364-8-Part02-20.jpg

图14-3 重型自卸车分品牌情况

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈