1.数据整合改造原则
(1)数据完整性原则
从汇集数据到核心资源数据库的数据整合处理过程中,对汇集数据内容进行统一组织、整理,在充分保证数据结构严谨、不重复存储数据内容的前提下,不出现有效信息丢失等问题。
(2)概念一致性原则
核心资源数据库中的数据内容符合统一的编码体系,核心资源数据库的要素内容等概念保持逻辑一致。各行业要素之间同专题要素不能存在矛盾,核心资源数据库整合成果的各要素概念保持一致。核心资源数据库中各专题使用的同一时相的空间基础地理数据应该套合一致。
(3)数据结构严谨性原则
核心资源数据库的数据模型设计严谨,便于数据管理和应用。核心资源数据库数据整合过程中,要建立一个完整的数据逻辑模型,包括要素类的划分和逻辑库的划分。为保证核心资源数据库的逻辑模型正确,存在关联关系的数据,需要建立严谨的、正确的关联关系。比如,水文观测的信息,需要与水文站点的点位信息进行关联。
(4)信息冗余度最小化原则
核心资源数据库的内容要在保证数据内容完整性的前提下,最大限度地降低数据的冗余度。在整合处理中对不同数据来源中的公共要素进行一致性处理,将公共要素保留一套,降低数据的冗余度。同时,兼顾专题的实际应用,对于相关程度比较高的要素,可以采取必要的重复存储策略。
2.数据整合改造流程
为提高数据利用效率,在处理不同行业数据时,可参考不同行业的数据整合标准,减少数据整合工作量。通过人机交互与人工甄别两种方式完成数据资源整合工作。基于真实的数据情况及来源数据与模型之间的对照关系,对汇集数据按照相关数据标准及要求进行转换与处理,保障统一数据库模型下数据抽取与整合工作的顺利开展。基于数据整合自动化处理软件,采用人机交互的方式,开展不同数据资源的标准化整合处理工作,提高数据整合效率及准确度。在数据整合过程中,可能会出现不可避免的失误,导致数据成果不符合用户单位成果数据的需求,因此在数据成果提交验收前,需要对成果数据按照数据成果需求进行详细的成果质检,形成标准化数据资源,供数据挖掘分析及服务应用。
数据资源整合处理流程包括数据搜集与分析、数据预处理、关联关系构建、数据质量控制、数据入库等几个方面。详细整合处理流程如图4-6所示。
图4-6 数据资源整合处理流程
(1)数据搜集与分析
对不同类型数据资源进行搜集,并对搜集的待整合对象的属性内容进行确认,包括数据属性字段项是否满足业务需要,字段内容是否有缺失,并进行数据的时效性分析,进行空间数据的一致性检查、拓扑检查,判断属性同空间元素是否对应等。
(2)数据预处理
汇集数据来源广、种类多,需要按照目标数据规范进行预处理,借助自动化整合处理软件进行人机交互处理,包括格式转换处理、坐标转换处理、空间化处理、自动ETL转换等预处理操作。
(3)关联关系构建
对不同来源的数据进行关系梳理,并构建数据源与目标数据模型的对照映射关系,判断是否涵盖目标对象数据模型中涉及的全部属性内容,并建立对应关系,明确数据抽取原则及优先级排序。
(4)数据质量控制
对预处理后的数据进行整体质量控制,最终保证基础信息整合结果的准确无误。具体内容如下。
——数据完整性:检查整合前后的数据是否有丢失。
——数据一致性:检查各层是否有重复的要素,结构是否一致。
——数据准确性:检查各要素的关系是否合理、有无矛盾等方面。
(5)数据入库
利用数据入库工具,将通过数据质量检查的数据入库到基础数据库中,数据入库时可采用多个终端并行、批量入库。
3.数据质量控制措施与核查机制
(1)质量控制目标
数据资源整合的质量控制目标是保障多源数据汇集后,在整合处理及后续分析利用过程中数据质量可控,数据处理方法准确,数据入库成果结构完整,性能优异,符合模型要求,数据质量满足应用及挖掘分析的需求。
通过对搜集与分析过程、数据处理过程、数据入库及数据库等多方面的质量控制,保证数据内容正确、逻辑关系一致、业务关系正确、处理过程合理、入库成果完整、成果数据库运行良好,进而支撑对大数据资源的高效组织、快速检索、深度挖掘、广泛应用的能力。
(2)质量控制流程
对数据资源整合工作的质量控制并非一次性的工作,而是一个不断循环往复,迭代推进的过程。
开展数据资源的搜集与梳理、各类数据源的分析与处理,数据整合与入库,形成大数据资源信息数据库,并针对该数据库进行测试。数据资源整合处理的每个环节都制定科学、合理的质量控制计划,采用多种控制方法和手段,得出质量控制结果。若结果合格,则表示该环节的成果质量控制是有效合理的;若结果不合格,则提出反馈意见,重新进行该环节的质量控制工作,直至合格。质量控制流程如图4-7所示。
图4-7 数据资源整合质量控制流程
(3)质量检查内容
数据资源整合处理质量检查包括各数据源对象的基础信息检查。从数据类型上可划分为统计型数据、矢量数据以及影像数据三大类,其具体的质量检查内容如下。
1)统计型数据检查
——数据完整性,对象的基础属性信息数据必须完整,不能有缺失的情况,即验证数据库实体的每个属性都有明确的值,不存在“空”或“未知”的属性。
——数据唯一性,对象的基础属性数据满足唯一性约束的数据,即验证一个表中的一组属性的值是唯一的。
——数据相关性,对于数据库中的某些实体,它们的存在可能要依赖于其他的实体,但在数据库中并没有定义这些实体的参照完整性,而靠应用程序或其他手段来保证,需要在数据质量评估时进行检查。
——数据一致性,同一个实体的一些属性可能在多个实体(可能在不同的系统)中出现,那么这些表所描述的同一实体的属性的值必须是一致的。
——数据有效性,满足域和数据有效范围定义,即实体属性的值要在用户定义的有效范围之内。
——数据可理解性,对于数据的解释和理解必须准确无误,不应有概念模糊的情况。
——数据正确性,所有的数据都应该是正确和准确的,即数据库中的实体必须与现实世界中对应的对象一致。(www.daowen.com)
2)矢量数据检查
矢量数据检查包括所有汇集对象的空间矢量数据属性、图形、逻辑一致性检查等内容。具体包含图层数据完整性检查、数学基础检查、属性数据结构符合性检查、属性数据值符合性检查、属性值正确性检查、逻辑一致性检查、图形拓扑关系检查、微短线、微小面、悬挂点、悬挂线检查等内容。
——图层数据完整性检查,检查图层数据是否完整,即图层数据中是否全部包含相关规定中要求的必选图层。
——数学基础检查,检查矢量数据坐标系统是否采用规定的经纬度坐标。
——属性数据结构符合性检查,检查图层名称、图层中属性字段数量和属性字段名称、类型、长度、小数位数是否符合相关补充规定要求。所有图层不得扩充或缺少字段。数据结构严格与相关补充规定保持一致。
——属性数据值符合性检查,检查属性字段的值是否符合相关行业标准规定的值域范围。
——图形拓扑关系检查,分为单图层拓扑检查和多图层拓扑检查,具体检查内容如下。
①单图层拓扑检查:
——图层内要素是否相互重叠;
——线图层内要素是否自相交;
——线图层内要素是否存在悬挂线;
——线层要素不能相交;
——面图层内要素是否自相交;
——面图层内要素是否有缝隙;
——面层内要素是否闭合;
——面要素弧段是否相互重叠、是否自相交、是否有悬挂线。
②多图层拓扑检查:
——面层要素弧段和线层要素是否重叠;
——图层是否超过行政区层范围。
除了一些全覆盖整个行政区划范围的图层数据与行政区划的外边界保持一致外,还有一些图层空间范围并未覆盖整个行政区划范围,但是要求其要素不能超过行政区划范围。
3)影像数据检查
——数据外观:数据清单应与要求内容一致,数据组成应与清单完全一致,标识、说明应与实际内容完全符合。
——文件命名:文件命名必须符合标准规定,包括数据压缩包、各级图像产品文件、产品描述文件等。
——数据格式:影像数据文件应为GeoTiff格式,缩略图文件应为JPEG格式,辅助信息文件应为XML格式。
——空间参考:平面坐标系采用2000国家大地坐标系。对于标准景和地形图分幅的遥感影像,1∶100万以下的小比例尺采用兰勃特等角圆锥投影,其他采用高斯-克吕格投影6度分带。
——元数据要求:遥感影像数据的各元数据项的类型、格式、内容、描述应符合标准要求。
——完整性要求:影像文件、缩略图文件、辅助信息文件齐全,分幅的数据和分幅标准一致,不存在图幅缺失的情况。
——辐射精度:作为成果的影像数据,要保证灰度均匀、纹理清晰、层次丰富、反差适中、色调一致,对于镶嵌生成的影像数据,镶嵌后的影像不应存在较明显镶嵌线。
——几何精度:影像数据的定位精度和几何分辨率要和数据自身的属性(元数据)一致,达到产品规范中规定的精度,其误差在项目规定的可接受误差范围之内。
——云量:根据云覆盖区域面积占整幅图像的百分比统计云量。各分中心云量分级标准不同,所以使用面积百分比(%)标识。一般要求小于5%或者无云。
(4)数据资源成果质量检查
所有经过检查并完成相应修改的数据资源成果需形成相应的《质量检查表》和《质检问题记录单》,并将相应的表单汇总形成质量检查记录的报告文件,与数据成果一起作为成果归档留存。
4.大数据资源整合关键技术
(1)数据自动整合技术
数据资源整合是一项非常复杂的数据整合处理过程。根据用户设定的一系列规则,可以重新定义数据的结构及组织方式,以生成新的数据。从本质上讲,可以指定输入数据和输出数据之间的映射关系。
整合规则是对数据整合改造要素的抽象,是独立于数据内容,能操作和计算的一个最小单元。通过整合规则的逻辑组合,可以完成一个复杂的数据整合改造任务。
整合项是可以直接用于整合改造的最小整合改造单位,是整合规则或者整合规则逻辑组合的一个特定实例,定义了数据来源、数据目标以及整合方法。在一个整合项中,目标和源是一对一的关系。源可以是物理存储的一个对象,也可以是多个对象构造成的一个视图。整合源的构造工作在方案构建工作外实现。
整合方案包含整合对象的数据库信息以及整合项集合。在同一个方案中,任意两个整合项中的数据来源和数据目标不能同时相同。即:一个目标的不同数据可以来自不同的源;相同的源可以向不同的目标提供数据;一个源到一个目标的整合不存在多种整合方法。
一个整合方案中,所有整合项的源属于同一个数据库;所有整合的目标属于同一个数据库。
(2)数据质量控制技术
根据数据整合标准,制定质量检查方案,检查内容包括从原始资料到成果数据,对数据的结构完整性、业务逻辑一致性、属性精度等内容进行充分检查。同时,软件也对数据的组织结构、数据命名等按照数据成果标准进行检查,确保最终成果质量。
质检规则是对检查对象、检查参数以及检查方法的一种抽象和封装,它执行一个特定的元素级检查操作。质检规则库是在方法库的基础上建立的质量检查中最基本的规则的集合,规则库中主要包括数据基本要求检查、属性精度检查、逻辑一致性检查、附件质量检查等检查中涉及的一般检查规则。用户在实际应用时,可以根据这些规则建立不同的检查模型,实现自动化检查。
数据的质量检测依托于制定的检查方案,质检方案是在数据模型、质检规则以及评价模型的基础上建立的,质检规则对应检查内容。根据数据质检要求,通过进行数据模板设计、模型设计、质检规则设计来形成质检方案。
基于质检方案,借助计算机人工智能技术加以分析判断,并通过质检方法库提供的各种检查方法自动完成大部分的数据质量检查任务。对于自动检查项目,可设置多个数据的批量自动检查,多个检查任务进行自动的批量检查,并存储相关检查结果,输出检查结果报告。
通过对检查结果的统计,按照相关规定和标准对质检目标数据进行分类、分级及质量评价。结合成果质量评价指标,对检查结果进行统计和评价打分。
针对一些难以完全应用自动检查的内容,采用人机交互检查方式。通过合理的业务流程组织,将其拆分成多个步骤,最大限度地提供计算机辅助,并在人机交互检查过程中提供方便快捷的交互检查工作、错误标识工具等快速完成错误的定位及标记,以提高作业效率和错误检出率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。