统计数据是对客观现象的信息进行计量的结果。数据按照不同的标准,可以划分为不同的类型。
(一)按照测量尺度的不同,数据可分为四类:分类数据、顺序数据、间隔数据和比率数据
分类数据是按照研究对象的某种属性将其划分为若干类别的数据,例如,按照性别可将人口分为男性和女性;按照区域将大陆划分为东部、中部和西部等;按照基金投资对象的不同将基金分为股票型基金、债券型基金、混合型基金、货币型基金和指数型基金等。
分类数据的特点:一是分类数据只作事物类别的区分,各事物之间是并列关系,事物类别之间的顺序可以改变;二是分类数据对事物分类时必须遵循穷尽和互斥原则。穷尽是指全部分类中,必须保证每一个个体都能归属于某一类别,不要出现遗漏;互斥是指每一个个体只能归属一个类别,不能在其他类别中重复出现;三是对分类数据进行分析的统计量主要是频数或频率。例如,将人口按性别分为男性和女性时,分别计算男性和女性的数据是频数或是男性与女性在总人口中的比重(频率);四是有时为了统计处理,人们往往将不同类型的事物赋予不同的数字,如“1”表示男性,“0”表示女性。但是这些数字仅仅是不同类别的代号,不代表真正的值,不能比较数值的大小或进行运算。
顺序数据是测量事物之间等级差别或顺序差别的这类数据。它不仅能将不同的事物分为不同的类别,还可以确定这些类别的优劣或者顺序。例如,高校教师职称从低到高分别为助教、讲师、副教授和教授,还可以分别编号为1、2、3、4;考试成绩等级从低到高为不及格、及格、中等、良好和优秀,还可以分别编号为1、2、3、4、5。
顺序数据的特点:一是顺序数据的不同类别存在顺序性差异,因此能进行比较和排序,但这种差异无法准确计量,只能说明哪一类比另一类高,却不能具体说明高多少;二是对顺序数据进行分析的统计量,除了频数、频率之外,还有累计频数、累计频率。例如,对学生考试成绩按照等级分类后,不仅可以计算各类等级的人数和比重,还可以计算良好以上或者以下等级的学生人数(累计频数)和比重(累计频率)。
间隔数据是对事物绝对差异进行测度的一类数据。间隔数据具有确定的计量单位。例如,温度用“℃”来计量。
间隔数据的特点:间隔数据不仅能区分事物的类别、进行比较和排序,还能精确地计量出两个数字之间的差距。间隔数据之间的每一间隔是相等的,可以进行加减,但不能进行乘除运算。温度是典型的间隔数据,可以计算20℃比10℃高10℃,但不能说20℃是10℃的2倍;二是没有绝对的零点,间隔数据中的“0”仅代表0水平,而不能代表“没有”。例如,某天的温度为0℃,不代表没有温度。
比率数据是测度事物绝对和相对差距的一类数据。大多数数据都属于比率数据。例如,年龄、销售量、价格等。(www.daowen.com)
比率数据的特点:一是除了对事物的分类、排序、比较大小、计算差距之外,还可以计算两个数据的比率。例如,商品A的价格是10元,商品B的价格是20元,既可以计算20元比10元高10元,也可以计算20元是10元的2倍;二是具有绝对零点。比率数据中的“0”代表没有,如,月收入为0便是没有收入。
从上述分类数据、顺序数据、间隔数据直至比率数据,对事物的测量是逐步递进的。高层次数据具有低层次的数据的特点。同时,按照这四类数据的特点,可以将前两类归结为定性数据,理由是这两类数据反映了事物的品质特征;后两类数据归结为定量数据,理由是这两类数据反映的是事物的数量特征。
(二)按照数据来源的渠道不同,数据可分为两类:原始数据和现有数据
原始数据是为了解决特定问题而专门调查、观察和实验收集的数据资料,现有数据是已经收集到的、不应与当前问题有直接关联的数据资料,亦称“二手数据”。
原始数据需要调查人员亲自进行实地调查,耗时长、费用也高;现有数据的收集只涉及搜集、整理等过程,相对较为简单,费用低,速度也快。
(三)按照被描述的现象与时间的关系,可以将数据分为时间序列数据、截面数据和面板数据
时间序列数据是指同一总体在同一空间不同时间的数据,例如,中国2000~2017年的GDP数据;截面数据是指同一总体在同一时间不同空间下的数据,例如,2017年全国31个省、直辖市的GDP数据;面板数据是时间数据和截面数据综合起来的一种数据。它具有时间和空间两个维度,例如,2000~2017年全国31个省、直辖市的GDP数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。