理论教育 数据集中与标准化:解决行业数据孤岛问题

数据集中与标准化:解决行业数据孤岛问题

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:在“数据集中与标准化”这一层级中,要实现的是数据的集中管理与相互融合。因而,这一阶段的工作并不只是“数据集中”和“数据标准化”两件事情,需要做的内容包括以下几点。在行业内,经常把每一个包含了大量数据、却又与其他系统无任何连通的数据系统称之为“数据孤岛”。在大多数实体行业中,一个企业内部也不同程度地存在数据孤岛问题。

在“数据集中与标准化”这一层级中,要实现的是数据的集中管理与相互融合。如图5-11所示,通过以身份证信息为唯一标志,铁路部门和公安部门打破数据壁垒,让数据能够真正发挥作用。

图5-11 数据集中与标准化——解决关联、填平数据沟壑

如果把数据比作企业运营的血液,那么要做的就是打通所有的血管,让血液自由地流动。因而,这一阶段的工作并不只是“数据集中”和“数据标准化”两件事情,需要做的内容包括以下几点。

(一)数据清理

这个步骤解决的问题是将系统采集到的内容转化为人类能够理解的数据内容,主要有两个方面:一是清理原始数据,使之完整、干净无杂质;二是将采集到的一些编码信息转化为人能看懂的文字、数字等数据。

(二)数据逻辑和数据结构的搭建(www.daowen.com)

每个系统中的数据描述都只是企业业务流程中的一部分,因此需要梳理业务流程、按照业务流程找到各个系统之间数据的衔接点,从而实现多领域数据的关联。

第一步,根据业务逻辑,需要将数据分别划分为多少类?每一类的字段、纬度、统计周期等都是什么样的?每一类数据需要多少层汇总?……这些问题首先将数据从采集的清单分离出来,成为一个个数据体系。

第二步,在考虑数据关联逻辑方面,需要考虑三个方面。

①关联使用的“主键”需要在各个系统中实现统一,即在各个相关的系统中,对于同一内容的同一主键是相同的。例如:在电信系统中,用户ID是个人在所有相关系统中可以唯一标志用户的主键,而非手机号码。

②各个系统中数据的时间颗粒度统一才能保证主键关联的有效使用,例如表格A是每日最新数据,表格B是每日数据,则使用时就要在时间上进行限制:表格A 中的日期——表格B中最大日期,而且在这种情况下,无法查到A表中的历史数据。

③各类数据在业务上存在相互制约、相互影响的关系,这种关系也要在多系统的数据关联中体现出来,例如营销活动中的活动商品数量受到库存商品数量的限制,在营销活动执行过程中,每增加一单活动商品销售量,库存商品数就要进行相应的减少,若不做相应的触发变更,多系统数据融合也会意义大减。

这里要特别强调一下数据关联的意义。在行业内,经常把每一个包含了大量数据、却又与其他系统无任何连通的数据系统称之为“数据孤岛”。在大多数实体行业中,一个企业内部也不同程度地存在数据孤岛问题。有些数据孤岛本身因为包含的数据内容较多,足以支撑一定的数据分析应用的建设;但是有些数据孤岛中的数据若想发挥价值,就必须实现与其他系统数据的有效融合,即数据关联。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈