在系统调查中我们曾收集了大量的数据载体(如报表、统计表文件格式等)和数据调查表,这些原始资料基本上是由每个调查人员按组织结构或业务过程收集的,它们往往只是局部反映了某项管理业务对数据的需求和现有的数据管理状况。对于这些数据资料必须加以汇总、整理和分析,使之协调一致,为以后在分布数据库内各子系统充分调用和共享数据资料奠定基础。
(一)数据汇总
数据汇总是一项较为繁杂的工作,为使数据汇总顺利进行,通常将它分为如下几步:
(1)将系统调查中所收集到的数据资料,按业务过程进行分类编码,按处理过程的顺序排放在一起。
(2)按业务过程自顶向下地对数据项进行整理。例如,对于成本管理业务,应从最终成本报表开始,检查报表中每一栏数据的来源,然后检查该数据来源的来源……一直查到最终原始统计数据或原始单据。
(3)将所有原始数据和最终输出数据分类整理出来。原始数据是以后确定关系数据库基本表的主要内容,而最终输出数据则是反映管理业务所需求的主要数据指标。这两类数据对于后续工作来说是非常重要的,所以将它们单独列出来。
(二)数据分析
数据汇总只是从某项业务的角度对数据进行了分类整理,还不能确定收集数据的具体形式以及整体数据的完备程度、一致程度和无冗余程度。因此,还需要对这些数据作进一步的分析。
1.数据正确性分析
数据正确性分析的目的是进一步确定系统中整个数据的完备程度、一致性程度及无冗余程度,其分析工具可借用U/C矩阵来进行。(www.daowen.com)
U/C矩阵是通过一个普通的二维表来分析汇总数据。通常将表的纵坐标栏定义为数据类,横坐标栏定义为业务过程,数据与业务过程之间的关系通过使用(U,use)和建立(C,creat)来表示。
利用U/C矩阵进行数据分析的基本原则是“数据守恒原理”,即每个数据有且只有一个产生源,每个数据至少有一个或多个使用源。具体落实到表5—2中可概括为以下三点:
(1)每列只有一个C,即每个数据只能有一个产生源。如果没有C,则可能是数据收集时有错。如果有多个C,则有两种可能性:其一是数据汇总有错,误将其他几处引用数据的地方认为是数据源;其二,数据栏是一大类数据的总称,如果是这样,应将其细分,这样就保证了数据的一致性。
(2)每列至少有一个U,即每个数据至少为一种业务提供服务。如果没有U,则一定是调查数据或建立U/C矩阵时有误。这样就保证了数据的完整性。
(3)不能有空行和空列。如果出现空行或空列,则可能是下列情况:数据项或业务过程的划分出现冗余;在调查或建立U/C矩阵过程中漏掉了它们之间的数据关系;现有系统中业务分工或数据设置不合理。这样保证了数据的无冗余性。
表5—2 数据的U/C矩阵
2.数据项特征分析
其主要目的是进一步确定每个数据项的类型、长度、取值范围、数据量、使用频率、存储和保留的时间周期等。这是以后设计数据存储结构时所需的必要信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。