数据分布主要包括业务分布和系统分布。数据分布可以分析业务和系统之间各个环节的创建、修改和删除关系,同时可以分析应用系统中数据结构和系统各个模块之间的关系。
其中业务对数据的处理主要包括数据的采集、加工和对外服务三种类型的业务处理。因此,在设计数据架构时,根据业务对数据的处理特点,规划设计合理的数据分布,以满足相关业务的需求。
在规划数据分布时,需要考虑合适的技术方案来满足以下需求:
1)明确不同位置之间的数据定位和数据流向。
2)保证对海量数据的快速加载和不同数据库之间数据的快速增量迁移。
3)保证海量数据的快速产品加工。
4)应该适应数据采集的多样化、产品加工的多样化和对外服务配置化等特点。
5)可以适应数据的纠错更新机制。
数据架构框架包含数据采集层、数据加工层和应用服务层,如图4-13所示。
图4-13 数据架构框架详细描述
下面对数据采集层、数据加工层和应用服务层进行详细描述。
(1)数据采集层
数据采集层主要包括数据源和统一数据采集平台。统一数据采集平台的目的是统一数据采集,包括定期全量、增量的采集。
(2)数据加工层
数据加工层包括数据处理平台、产品生产平台、数据仓库、评级系统、归档数据及应用。
数据处理平台一般是批量、实时地对增量数据或者全量数据进行处理,这种方式可以依赖一些主流的关系型数据库和大型平台来实现。
产品生产平台主要是针对数据类的产品进行生产,一般要求系统可以处理海量数据和复杂的数据,要求高并发和7×24小时不停机。这种方式可以依赖于大型的平台。
数据仓库以存储历史数据为主,用于对历史数据的分析,支持灵活分析和查询。数据仓库应该有海量数据处理能力、线性扩展能力和高可用性。
评级系统是金融行业的一个应用系统,主要用于对客户的评分。
归档数据是对归档数据的存储,原则上存储历史的原始数据。
应用主要包括评分、分析报表、客户服务、风险预警和一些自定义产品等内容。
(3)应用服务层
应用服务层包括管理驾驶舱、固定报表、OLAP分析、数据挖掘、应用查询等内容。
综上所示,该数据架构框架基本满足了业务需求。统一数据采集平台从数据源中采集数据,经过数据处理平台,可以实时、批量地将增量数据或者全量数据分发到产品生产平台、数据仓库、评级系统中,对于一些历史数据也可以放到归档数据中。最后在数据加工层对数据进行加工处理,满足应用的需求。
针对金融行业信息化总体建设的任务需要,可以对数据架构做进一步修改和优化,如图4-14所示。
图4-14 对数据架构的修改和优化
下面对各个层次进行详细说明。
(1)数据源
数据源主要以结构化数据和非结构化数据为主,定义数据采集的来源、内容、格式和采集方式等。
(2)内容管理
内容管理主要为半结构化和非结构化数据提供捕获、管理和存储等方面的服务,也就是非结构化数据的结构化处理。
(3)数据交换平台
数据交换平台主要为外部数据交换和内部数据交换提供支持。
(4)数据仓库
数据仓库是根据业务需求,对历史数据进行整合、轻度汇总和加工,提供分析的功能。(www.daowen.com)
(5)主数据
主数据主要对身份信息进行识别和整合。
(6)加载库
加载库主要提供对源数据进行校验的功能。
(7)基础数据
基础数据主要获取校验通过的数据,作为后续加工的唯一可信数据源。
(8)查询库
查询库主要存储查询类应用的信息。
(9)应用
应用主要提供对外查询服务。
未来数据架构的主要内容包括数据源、内容管理、数据交换、数据仓库和应用,如图4-15所示。
图4-15 未来数据架构的主要内容
(1)数据源
结合业务特点和数据特征,对源数据层进行规划,同时需要充分考虑灵活性和可扩展性的要求。如图4-16所示,数据源层提供需要的源数据,可以描述从哪里、以什么样的方式和渠道加载到系统中。采集数据分为结构化数据和非结构化数据,非结构化数据主要来自互联网,结构化数据主要来自金融机构和公共部门。
图4-16 数据源的特点
(2)内容管理
内容管理是指对内部多种格式的信息资源进行组织、分类和管理的过程。内容管理作为一种应用软件,管理和访问各种非结构化数据,包括各种音频、视频、图像等信息。内容管理处理的信息对象比传统的关系型数据库管理系统处理的数据范围更加广泛,包括文字、多媒体、网页、广告和文档等。
内容管理重点解决非结构化数据和半结构化数据的采集和管理问题。然后将这些数据集成到信息系统中。
(3)数据交换
数据交换层满足数据架构各个层次之间的协作要求,承载着外部和内部的数据交换。一般来说,数据交换层包括数据抽取和订阅、质量检查、数据转换和数据加载等几个方面,如图4-17所示。
图4-17 数据交换层
其中抽取/订阅是从数据源层、数据临时区中获取增量或者全量数据,然后分发到各个加工库或者应用库。
数据质量保证数据质量检查、清洗后,数据可以满足基本的质量要求。
公共数据转换是经过数据质量清洗后的数据进行业务和技术规则转换。
数据加载/发布将生成数据文件,然后加载到数据库中。
(4)数据仓库
数据仓库主要提供面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合,它主要用于对决策分析的支持。
根据业务要求,在数据架构规划中设置数据加工层,同时在数据加工层中设置数据仓库。数据仓库一般以基础数据整合和汇总数据加工为主。
数据仓库整合全局的信息,包括基础数据层、汇总加工层和集市层。
数据仓库中的数据包含历史信息,记录了从过去某一时间点到目前各个阶段的信息。一般来说,数据仓库的数据不做删除和更新处理。通过这些信息,可以为企业的发展历程和未来趋势做出分析和预测。
数据仓库存储的粒度比较细,存储的历史周期长,可以在基于数据整合的基础上创建各种应用。
(5)应用
主要存储产品数据,并对外提供查询服务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。