理论教育 大数据集成管理的优化之路

大数据集成管理的优化之路

时间:2023-06-06 理论教育 版权反馈
【摘要】:资源目录系统构建统一的目录对注册的元数据进行集中管理,并按需将目录、元数据发布到共享交换平台,为各中心用户提供整个基础数据库的资源服务信息,提供一体化资源信息服务。

大数据集成管理的优化之路

1.大数据集成管理方案

(1)分建共享的建设与运维模式

“分建共享、协同服务”是基于面向服务的思路,用服务共享来代替数据共享,最大限度地保护数据所有方的利益和对数据的自主权。具体是,拥有数据资源的北京市、天津市、河北省各单位,按照统一的数据标准将自己的数据整合处理、建库管理,构建基础数据库的分中心数据库,并按照统一的规范发布成为标准服务。由基础数据库主节点通过资源目录构建,将这些多源分布式数据资源集成为统一规范的“一站式”服务。用户通过主节点时,可以无缝地访问来自各分中心共享的核心数据资源。而与此同时,各节点完全掌控对自己数据体的控制权,并可即时进行维护、更新,确保服务的质量。基础数据库采用这一“分建共享”模式来解决由于条块分割管理模式造成的地理信息共享困难的问题,消除“数据孤岛”的弊端。

(2)分布式组织管理与一体化应用服务相结合的技术架构

基于数据资源管理体制现状,参考SOA架构(面向服务的架构)和空间云计算技术,采用分布式管理节点和服务节点部署整体技术架构。在纵向上,包括基础数据库主中心节点、分中心节点,分别提供基于不同对象的成果服务。其中,主中心节点与分中心节点从存储上共享基础数据库物理存储资源,分中心节点通过云管理平台的池化资源管理来申请分配相应的存储空间,主中心节点通过资源目录管理来构建基础数据库资源体系,实现基础数据库资源的统一管理和共享服务。

通过技术改造将分散的数据资源集中或分布式存储在统一管理的存储设备之中,达到数据资源在同一网络环境下,数据资源能被分布式存储、统一管理,共享统一存储备份设备。再通过数据库管理平台的升级把数据资源基于数据库管理逻辑集成管理,将用于不同格式的数据资源,采用数据库编目或数据入库方式统一存储,共享数据库管理系统。实现分布式存储、集中管理的数据运维模式。

集成管理是将数据实体在各应用数据库系统中分类管理,同时将各应用数据库系统中所管理的数据资源的元数据通过统一的注册接口注册到资源目录系统中,并可以与数据库联动更新已注册的元数据。资源目录系统构建统一的目录对注册的元数据进行集中管理,并按需将目录、元数据发布到共享交换平台,为各中心用户提供整个基础数据库的资源服务信息,提供一体化资源信息服务。

(3)统一认证的资源注册与用户管理

基于分布式存储、一体化管理及应用服务模式,将对基础数据库用户的认证及资源的注册管理提出更高的要求,采用统一认证的资源注册和用户管理模式可以实现管理对象的数据模型统一、数据安全管理机制统一、运维管理用户认证统一、系统组织管理模式统一。通过多级服务注册实现对基础数据库资源注册及用户管理的权威认证。

各分中心负责本中心所辖区域网络内服务的分级注册、服务状态监控、服务组合,并向上级服务注册中心汇集注册信息。对用户的管理采用分布注册、集中认证和分布授权的方式,实现单点登录。

2.大数据集成管理关键技术

(1)基于扁平化混合索引体系的地理大数据统一访问技术

面向异构且海量的不同类型数据,如何提高检索效率,是必须要面对的问题。传统的单一空间或者属性索引仅仅能对特定类型的数据进行优化。未来为了提高多种类型的检索效率,可采用混合索引体系来应对所有可能的查询。

B+-tree[1]:索引属性,包括时间,可以是单列或多列复合;

R-tree:索引空间数据

Bitmap:索引全文数据,为每一个关键字建立Bitmap索引;

如果查询涉及多种类型,则针对每一类型,采用各自索引,最后通过join得到最终结果。

这种索引体系将实现于高效Key-Value数据库之中,通过Key来代替指针,即对树形结构进行扁平化改造,实验表明,其存取效率很高,在MongoDB的实验中,R-tree的扁平化实现比其自身的2dsphere索引在效率方面高出将近10倍。

在扁平化混合索引体系的支撑下,将设计开发统一访问接口,以屏蔽中央数据库中各数据库系统(关系数据库,非关系数据库,分布式文件存储等)各自的存取方法,据此采用三阶段策略,即粗筛—精查—连接,来查询处理各类数据请求:首先在相应元数据和扁平化索引的支持下,快速定位出候选集;然后检查候选对象,过滤掉不符合要求的记录;最后连接不同索引支持下的结果,得到最终结果。

(2)基于多层次“摘要”机制的多源异构地理大数据接入技术

如何从已有多源、异构、海量空间数据资源中快速、便捷地发现和访问可用资源,提高空间数据资源的发现率、共享度、利用率,是当前地理基础数据库建设面临的最突出的问题之一。一种被普遍理解和认同的模式是利用元数据的标准化来统一管理分散的数据资源,并通过网络实现数据共享与服务。(www.daowen.com)

本关键技术将空间数据资源(包括空间数据和空间信息系统)的接入、集成与共享看作是一种针对数据源的摘要(取其摘录要点之意),并认为元数据摘要的粒度过粗,而数据体摘要的粒度过细,在这两个摘要层次之间还存在着其他摘要层次,即从元数据(metadata)、采样(sampling)、统计(statistics)、过滤(filtering)和语义(semantics)共五个层次来考虑空间数据资源的摘要模型。

元数据摘要能够使用户很清晰地了解和认识数据资源的名称、内容、用途、覆盖范围等基本属性;统计摘要描述数据的集中趋势、离散程度以及数据分布等统计特征;采样摘要描述数据的采样类型、方法及其他采样信息;过滤摘要描述数据过滤方法及结果描述;语义摘要描述数据所对应的现实世界中的事物所代表的概念的含义。空间数据资源摘要模型从不同维度描述观测数据资源的不同视图,方便用户从多个层次观看和理解数据资源,如图4-10所示。

图4-10 空间数据资源摘要模型

空间数据资源摘要模型聚集了元数据摘要、统计摘要、采样摘要、过滤摘要、语义摘要五个抽象类,以及摘要总体信息一个实体类。数据摘要总体信息包括数据摘要的版本、创建时间、更新时间、联系信息及部署信息等必要信息。

通过以“摘要”机制接入多源异构的海量空间数据资源的摘要信息,用户可以在多个层次上对各行业的空间数据源进行集成共享,不必陷入数据泥潭,可更好地理解数据资源,从而有针对性地接入对于综合应用来说更有价值的数据资源。较之传统的元数据或数据体集成共享,摘要模型不仅支持更多可用的信息层,而且提供更为丰富多样的信息项。

在空间数据资源摘要模型的支撑下,可接入多种类型和不同层次的空间数据资源,可以是离线数据、空间信息系统,也可以是传感器在线监测数据和空间信息服务,如图4-11所示。通过适配件,这些异构接口可统一挂接在可扩展的适配槽中,从而以一致的接口将多源异构的空间数据资源接入到基础数据库之中,并具备高度的灵活性和扩展性。

3.大数据集成管理支撑体系

京津冀协同发展基础数据库管理系统提供基础的数据存储模型,并提供基础数据模型入库、更新等接口、各数据调用组织管理模块和编目管理模块,实现数据资源的管理。

图4-11 多种类型数据接入示意图

京津冀协同发展基础数据库管理系统定位于面向京津冀协同发展基础数据库的综合地理信息数据管理,旨在解决单一数据库管理无法满足的综合性数据管理需求。它在应用开发框架之上,构建一个满足海量、多源、异构数据的集成化管理平台,实现数据的分布存储、集中管理。通过综合数据管理系统实现应用系统集成管理,打破各独立数据库之间数据存储的壁垒。通过业务数据库管理系统实现实体数据的管理,并通过资源目录对全中心数据资源进行元数据的统一管理,为数据资源共享发布和分发服务提供支撑。具体能力如下。

(1)基于统一的目录管理,实现面向不同层级的资源目录

综合数据管理基础平台实现对地理信息综合数据的编目管理,同时在此基础上,各数据库应用系统针对自己的业务需求可以实现面向应用的编目管理。

(2)建立统一的数据存储模型

数据的存储由京津冀协同发展基础数据库管理系统基于统一的数据存储模型集中管理,各数据库应用系统基于基础平台的存储模型实现数据入库,并由基础平台完成数据实体存储。

(3)支持数据关系的建立与应用

由统一的数据存储模型和数据集中管理实现应用数据库系统管理数据的关联关系的建立。基础平台支持数据的统计分析、支持数据的增删改查、实现生命周期的管理并支持时态数据管理;应用数据库系统扩展实现面向应用的数据统计分析和数据管理。

(4)实现多源数据库资源注册

应用数据库系统通过资源注册,向资源目录系统注册数据资源的元数据,实现数据资源的集中管理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈