什么是数据分类?
数据分类是以业务特征对数据进行归类和划分,一般用层级列表的方式展现数据内容,数据分类是概念模型的体现。数据分类可以促进业务人员和技术人员之间的沟通,指导数据的分布和流转。
什么是主题域?
主题域是从较高层级上对业务的抽象和归纳,从概念层面对系统的全面描述,主题域主要考虑业务扩展性,主题域划定后,较少变更。
主题域下的数据分类是什么?
分析数据的非功能特性,未来架构的数据分类从较细维度进行划分,保证已有的数据分类较少变化。当有新业务扩展时,可以增加新的数据分类。
一、数据分类的指导原则和非功能属性
1᥊数据分类的指导原则
对业务数据进行主题域及主题域下的划分,需要遵循如下几个原则:业务驱动性、完整性原则,分类通用性、互斥性原则,非功能属性一致性原则,排除衍生数据原则,分类关联性、可理解性原则等内容,如图3-3所示。
图3-3 数据分类需要遵循的原则
(1)业务驱动性、完整性原则
信息项的设立从业务特性出发,不考虑技术及落地实现。数据分类做到全面、完整,保证对业务的完整覆盖。
(2)分类通用性、互斥性原则
数据分类尽可能支持业务多变性,力求以最少改动支持业务变更,数据分类相互之间不能包含相同数据内容。
(3)非功能属性一致性原则
数据分类包含的所有信息项对应的非功能属性应该一致。
(4)排除衍生数据原则
分类信息不包括衍生数据。
(5)分类关联性、可理解性原则
数据分类,同一类下数据项应有关联性。分类应做到定义清晰、无二义性。
2᥊数据分类的非功能性属性
针对主题域下的数据分类,需要从变动频率、变动量、变动模式、数据量大小、格式、共享性等各个维度进行分析。数据分类的非功能属性对于数据分布的设计具有重要的参考意义。如图3-4所示,数据分类的非功能性属性主要包括数据量大小、格式、共享性、变动频率、变动量、变动模式等内容。
图3-4 数据分类的非功能性属性
(1)数据量大小
数据量大小可以分为大、中、小三类。划分的方法根据实际需求不断调整。例如,10亿条记录以上的,数据量为大;1亿~10亿条之间的,数据量为中;1亿条记录以下的,数据量为小。
(2)格式
数据的格式有结构化数据、半结构化数据和非结构化数据。所谓结构化数据是以二维表格形式进行逻辑表达存储的数据。半结构化数据包括一些文本文件、文档。非结构化数据包括图片、图像和音频/视频信息等。(www.daowen.com)
(3)共享性
数据共享性可以分为较高、一般、较低。例如,一些主体信息在各个业务模块共享的需求较高。对于一些特定业务领域的数据,共享性要求较低。
(4)变动频率
变动频率可以分成极少、偶尔和固定周期。例如,我们可以把固定不变的或者年变动率非常低的,如姓名、身份证信息和组织机构号等信息归为变动频率极少发生变化的一类。
从业务角度出发,数据存在变动的可能,而且变动时间不可预知。例如,地址信息和电话信息等内容,这些信息归到变动频率偶尔发生变化的一类。对于一些数据按照固定周期变更,如还款、扣收等内容,可以归为变动频率在固定周期内发生变化的一类。
(5)变动量
以年或者月为基础对数据的变动量进行估值。
(6)变动模式
变动模式分成增加、更新和删除模式。增加是以新增方式产生数据,如业务交易类信息。更新是数据存在更新的可能,如企业规模、联系方式等。
二、数据分类举例
对于数据分类,我们以金融逻辑模型为例进行说明:
参考Teradata金融业逻辑数据模型,分成当事人和当事人角色、产品、协议、事件、地域、金融资产。
(1)当事人和当事人角色
银行所服务的对象和感兴趣进行分析的对象,如个人或公司客户、雇员等信息。
(2)产品
(3)协议
金融机构与当事人之间针对某种特定产品或者服务而签订的合约关系,如客户和银行签订的合同等内容。
(4)事件
记录与银行相关的活动的详细情况。可以由客户发起,也可以由银行发起。
(5)地域
观察和分析的区域,包括传统的地址信息。
(6)金融资产
可以包括客户的资产(负债)信息。
金融数据模型如图3-5所示,是指当事人之间针对某种特定产品或者服务而签订的协议关系,协议内容被加工成产品,事件的发生基于协议内容,协议自动触发事件。
图3-5 金融数据模型
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。