数据架构是企业架构的重要组成部分,帮助金融行业有效地分配、部署和使用数据,实现数据的合理组织和有效共享,从而保证数据在各个系统之间的一致性、完整性和有效性。
我们可以把传统金融行业某系统的数据架构分成以下几个部分:源数据层、内容管理、数据交换层、数据基础层、数据加工层和应用层,如图12-12所示。其中,源数据层提供产品加工和对外服务的所有数据。内容管理主要提供对非结构化数据存储、访问和管理的能力。数据交换层担负着系统内部各个数据库之间的数据交换任务。数据基础层进行格式校验及逻辑校验,形成唯一可信的数据源。数据加工层的数据来源为数据基础层,并将加工处理的数据提供给应用层。应用层可以包括查询类应用和分析类产品应用。
图12-12 传统金融行业某系统的数据架构
1.源数据层
源数据层提供产品加工和对外服务的所有数据。源数据层应该满足灵活和自动化的要求。它的特点主要包括以下几个方面:
1)需要描述源数据层采集哪些数据、数据源的类型和采集方式等内容。例如,数据源可以包括Excel、数据库和通过网络爬虫得到的数据等。
2)需要描述数据源的内容格式,如结构化数据和非结构化数据。
3)需要描述数据源的频率特征。
举例来说,源数据层的主要特点见表12-1。
表12-1 源数据层的主要特点
●数据来源可以包括政府部门、互联网、商业银行和手工录入的数据等。
●数据源的格式包括结构化数据、半结构化数据和非结构化数据。
●数据采集方式包括接口方式、非接口方式、网络爬虫方式和FTP方式等。
其中对于接口方式,它主要是保证数据源端的数据质量,但是对于开发、调试、测试和技术方面的要求较高。对于非接口方式,特点是前期投入较少,对于技术方面要求不高,但是数据质量不能保证,对于人工的依赖较强。对于网络爬虫的采集方式,是从公网上获取非结构化数据,但收集的数据量较大,而单个数据的价值很低,投入的人力和技术也很大。对于FTP方式,是指通过大批量非结构化数据的上传进行采集,但是数据安全度较低,比较适合非结构化数据的上传。
2.内容管理
除了从相关机构采集结构化的数据外,还可以从互联网或者其他渠道采集各种非结构化的数据。采集的非结构化数据包括:互联网信息、社交网络信息或者其他渠道提供的非结构化数据,如图12-13所示。
一般来说,我们可以通过网络爬虫等技术收集各种非结构化数据,通过内容管理存储非结构化数据,建立非结构化数据的元数据信息,这些元数据信息可以存储在Hadoop平台中。其中非结构化元数据可能包括信息标签、摘要、索引和日志等。然后,在此基础上,与结构化数据进行关联,以供分析使用。这种方式实现了非结构化数据与结构化数据的整合,以供后续加工和使用,如图12-14所示。
图12-13 内容管理
图12-14 非结构化数据与结构化数据的整合
3.数据交换层
(1)数据交换层的任务和功能
数据交换层承担着数据库之间的数据交换任务,同时也承担着外部文件和数据库之间的交换任务。数据交换层中的内部交换如图12-15所示。
图12-15 数据交换层中的内部交换
数据交换层中的外部交换如图12-16所示。
图12-16 数据交换层中的外部交换
数据交换层具备数据抽取、质量检查、数据转换、数据加载四大功能,如图12-17所示。
1)数据抽取。数据抽取是从源数据层获取数据,它可以实时或者定期地获取增量数据,通过数据库连接的方式,也可以通过文件交换的方式进行数据抽取,抽取的范围可以是结构化数据和非结构化数据。
2)质量检查。经过质量检查(见图12-18),对数据进行清洗、取舍和去重,生成清洗后的数据文件,满足数据质量的基本要求。数据交换层的主要工作就是进行质量检查。不合格的文件是没有通过质量验证的数据。质量检查的内容包括数据的类型、格式和长度等内容。
图12-17 数据交换层功能
3)数据转换。数据转换的功能是对数据质量清洗后的数据按照业务规则进行转换。
4)数据加载。数据加载的功能是创建可导入的文件,然后批量或者单条记录地导入到系统中。
图12-18 质量检查
(2)数据交换层的功能描述
1)数据交换层主要是数据交换的场所,它承担了各个层次之间的交换任务。
2)数据交换层支持外部交换的校验过程。
如图12-19所示,逻辑校验主要是缓冲区与加载区的数据进行关联校验,经过格式校验和逻辑校验之后,将数据加载到加载区中。
图12-19 校验过程
3)数据交换层承担着内部系统和外部系统的数据交换任务。
如图12-20所示,对于主数据来说,可以将唯一身份信息通过数据交换层传输给外部系统。对于数据仓库来说,可以将质量检查结果通过数据交换层传输给外部系统。对于查询库来说,可以将查询记录通过数据交换层传输给外部系统。
图12-20 数据交换层支持内部系统和外部系统之间的数据交换
总之,数据交换层支持系统内部系统和外部系统之间的数据交换。
4)数据交换层支持系统内部的数据在各个数据库之间的流转。
5)数据交换层的订阅发布模式可以实现一源多目标的数据更新,如图12-21所示,当数据源发出一份数据文件后,根据订阅配置信息,将该数据文件传输到指定位置,然后根据不同的转换规则,把数据加载到不同的目标库中。
图12-21 数据交换层的订阅发布模式
6)数据在传输过程中不进行任何加工的动作,如图12-22所示。同时确保数据传输与加工能够以流水线作业的方式进行,同时细化作业任务,分析作业任务之间的依赖关系,如图12-23所示。
图12-22 数据在传输过程中不进行加工的动作
图12-23 数据传输与加工以流水线作业的方式进行(www.daowen.com)
4.数据基础层
数据基础层是对抽取的数据进行格式校验和逻辑校验,它作为系统唯一可信的数据源数据基础层包含三个部分:临时加载区、基础库和非结构化数据,如图12-24所示。
图12-24 数据基础层
临时加载区作为校验数据进入系统的唯一途径,主要包括缓冲区和加载区。缓冲区是为数据交换设置的临时区域,为后续的逻辑校验做准备。而加载区主要完成格式校验和逻辑校验功能,如图12-25所示。
基础库存储的是系统唯一可信的数据源,存储的期限根据业务需求而定。它主要存储校验通过的数据。
5.数据加工层
数据加工层的数据来源于数据基础层的基础库,然后将加工处理后的数据提供给应用层。数据加工层包括查询库、主数据和数据仓库,如图12-26所示。
图12-25 临时加载区
图12-26 数据加工层
图12-27 数据加工层的流程
(1)查询库
对于查询库来说,要求时效性高。基础库将数据导出成增量文件,加载到查询库中。
(2)主数据
主数据主要描述商业银行核心的信息,例如对于身份信息识别和归并的整合,尤其是当商业银行从以“账户为中心”向以“以客户为中心”转变的时候。对于客户身份信息的整合是非常重要的。主数据将整合后的结果再提供给数据仓库使用。
对于身份信息整合来说,可以按照时间的先后顺序进行覆盖,或者采用全部保留的方式。对于疑似身份信息的整合,有可能需要经过人工判断。
主数据也可以存储商业银行的客户关联信息。
(3)数据仓库
数据仓库一般包括基础数据层、汇总数据层和库内集市层。数据仓库有以下两个特性,如图12-28所示。
图12-28 数据仓库的特性
1)数据仓库整合系统全局的共享信息。
可以收集、清洗、转换和存储各种操作型的数据源。
2)数据仓库中的数据包含历史数据。
它记录了系统从过去某一时间点到目前各个阶段的信息,通过对这些信息的分析,可以为企业的发展状况和未来趋势做出分析预测。其中数据仓库的数据包括基础库的数据、查询库的数据和主数据整合后的身份信息数据。
●数据仓库基础数据层的特点
数据仓库基础数据层的数据是按照模型进行组织的。基础数据层的数据作为汇总层或者库内集市的数据源。基础数据层的数据一般不做删除。
●数据仓库汇总数据层的特点
数据仓库汇总数据层主要是对基础数据层的数据进行轻度汇总,目的是减少共性的加工。
汇总数据层的建设是随着需求的增加而不断扩展的,对于汇总数据层的处理也是以创建中间表为主,目的是为后续数据加工使用做准备的,同时提高了数据仓库的性能。
●库内集市层的特点
一般来说,数据集市层是根据应用需求而形成的数据集合,它支撑了各个部门的业务应用。每个部门都可以根据各自的需求,在集市上进行定义和维护。
数据集市可以分成分析类集市、研发类集市和管理类集市,如图12-29所示。
图12-29 数据集市
●分析类集市
分析类集市是通过数据挖掘的方法帮助企业提高业务运营效率,发现企业内部的规律和发展趋势。分析类集市可以包括文本分析、模拟分析、预测分析和可视化分析等,见表12-2。
表12-2 分析类集市
●研发类集市
研发类集市是支撑各个业务部门的应用系统,主要用于支持研究分析类的工作,同时研发类集市也可以支持临时的抽数功能。
●管理类集市
管理类集市是指为了提高运营管理而进行的整合分析。管理类集市包括:管理驾驶舱、固定报表、OLAP分析、KPI等,见表12-3。
表12-3 管理类集市
其中基础数据库和数据仓库基础层的区别:
1)在组织形式上,基础库是贴数据源的数据,时效性较高,支持对基础产品的加工,为数据仓库提供数据源。
2)数据仓库基础层是按照第三范式的方式进行存储,时效性较低。数据仓库基础层支持汇总加工,同时支持高级分析。
6.应用层
应用层包括查询类应用、分析类应用和管理类应用。应用层的数据可以批量加载,负责对外提供服务,同时查询记录可以回流到数据仓库的基础层,以支持分析类应用和管理类应用。
主数据的身份整合信息回流到数据仓库基础层,以支持分析类应用和管理类应用。
应用层的数据流转如图12-30所示。
查询类应用时效性较高,一些产品快照信息和查询记录可以返回给数据仓库。通过对产品数据的读写分离,可以最大限度地提高产品查询效率。
图12-30 应用层的数据流转
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。