理论教育 深度分析:挖掘服务的实际应用

深度分析:挖掘服务的实际应用

时间:2023-06-06 理论教育 版权反馈
【摘要】:图4-15分析挖掘服务模式由图4-15可看出,当用户向系统提交分析挖掘需求后,系统会根据需求调用分析挖掘模型库以及所需要的数据,自动分配到具备一定存储和计算能力的工作空间中进行计算,将生成的结果可视化成专题图表和报告反馈给用户。

深度分析:挖掘服务的实际应用

1.分析挖掘服务模式

分析挖掘服务利用已有的基础模型库和业务模型库,驱动相关数据资源,为用户提供具备数据资源分析处理能力的分析挖掘服务。其服务模式如图4-15所示。

图4-15 分析挖掘服务模式

由图4-15可看出,当用户向系统提交分析挖掘需求后,系统会根据需求调用分析挖掘模型库以及所需要的数据,自动分配到具备一定存储和计算能力的工作空间中进行计算,将生成的结果可视化成专题图表和报告反馈给用户。

2.分析挖掘系统建设

分析挖掘系统综合利用云计算、大数据、地理统计、空间分析技术,将传统的统计分析技术与Hadoop(一种分布式处理框架)相结合,提供多元统计、动态分析、数据挖掘、趋势预测和可视化展示。

(1)总体框架

分析挖掘系统采用分布式集群架构,以共享文件系统为支撑,实现以数据驱动的任务生成模式,实现业务模型库的自动化运行,并通过分布式环境实现对计算资源和存储资源的动态分配和高效利用。分析挖掘系统技术架构如图4-16所示。

图4-16 分析挖掘系统技术架构

(2)分析挖掘模型库管理

分析挖掘模型库管理是分析挖掘服务运行的能力基础,主要负责分析挖掘模型的分配及管理,实现模型注册、流程配置、产品配置等相关能力,具体包含以下功能。

——定义模型接口规范,包括模型组成、基本信息(名称/类型/功能说明等)、参数列表、输入输出、版本信息等。

——负责各种类型模型的验证、审核、归类、注册、管理、配置,支持模型程序安装包在集群环境中的快速安装部署。

——可以实现模型的查看、浏览、统计(使用情况统计)、分发(导入导出)、更新等,可以实现模型的版本管理。

(3)分布式任务管理

分布式任务管理主要负责接收外部系统发送的任务(主要针对外部任务),进行语义解析和转换处理,同时也支持直接创建任务的能力。通过任务分析,根据资源配置情况判断任务运行基础,自动选取业务流程,生成分析挖掘计划单。将分析处理计划单下达给分析处理调度子系统,并进行任务汇总分析和任务跟踪闭环。具体包含以下功能。

——定义外部系统“任务接口”,包括任务内容定义和接口开发规范等,其中任务内容定义包含任务发送方信息、任务类型、处理分析内容、时间要求等。

——接收外部分析挖掘任务,进行语义解析,转换为系统标准任务单,支持自动选取或手工辅助选取业务流程。通过任务分析,判断任务有效性,预估任务执行时间,确定优先级,并通过接口反馈给外部系统。

——支持通过本系统直接创建任务,通过任务分析,预估任务执行时间,确定优先级。

——其中任务分析是负责任务的合法性、有效性的判定,如通过数据管理系统数据查询接口查询任务运行所需的基础数据是否存在,所需存储节点和存储空间是否够用,可分配有效计算资源是否满足时间要求等。

——将合法有效任务生成分析挖掘计划单,并下达给分析处理调度子系统。

——通过任务调度模块实施反馈的分析挖掘计划执行情况,进行任务汇总分析和任务跟踪闭环。对于外部系统的任务接口,能实时反馈任务运行状态。(www.daowen.com)

——负责实现任务信息按照任务来源、任务状态的分类展示,展示任务状态信息、进度信息、执行情况、运行日志等,支持任务运行状态的图形化界面展示,支持基于来源、类型、时间的任务检索,支持客户端的任务控制(任务暂停/恢复/重新执行/停止等)。

——支持基于任务的原始数据、过程数据、结果数据的快速检索、可视化和下载。

3.分析挖掘模型库建设

使用大数据分析工具挖掘有价值的数据是一件较复杂的工作,除了前期大量的数据整理、清洗、变换、规约等预处理工作提高数据质量之外,还需要根据具体分析业务需要,建立大量的大数据分析模型。根据分析模型的复杂程度以及数据量大小的现状,可将分析模型分为分析挖掘基础模型、分析挖掘业务模型两种类型。

(1)基础模型库

基础模型库具体内容见表4-1。

表4-1 基础模型库

续表4-1

(2)业务模型库

业务模型库具体内容见表4-2。

表4-2 业务模型库

4.分析挖掘服务关键技术

(1)高性能计算技术

为了满足大数据的可视化和分析挖掘需求,实现大规模数据的高性能计算,基于Hadoop及相关技术搭建云计算平台,利用Map Reduce分布式计算模型实现高性能的批处理计算,并在整个基础计算框架上衍生出了针对海量空间数据的属性数据查询统计、矢量数据查询统计、空间分析与挖掘的并行处理工具集。基于分布式海量矢量数据并行处理框架,矢量数据并行处理工作流程如下。

将业务数据库组织存储的矢量数据(Oracle Spatial)、文件形式存储的矢量数据(如MDB、SHP、FGDB)和属性数据(如Oracle、MDB,XLS),利用Sqoop或系统提供的Map Reduce ETL工具,通过执行分布式并行导入任务,将数据按照指定的组织方式迁移至HDFS(Hadoop的一个分布式文件系统)。

系统提供基于Map Reduce的索引构建工具,执行分布式索引构建任务,创建海量矢量数据分布式空间索引,索引按相应的组织格式存储在HDFS上。针对HDFS上的属性数据,构建外部数据仓库,并利用Shark SQL执行属性复杂查询、统计;对于实时性要求高的属性查询(如元数据库检索),将属性数据迁移至HBase分布式数据库,利用Phoenix在HBase基础上执行类SQL的简单属性查询。

针对HDFS上的空间数据,利用已部署的Map Reduce并行处理模型,在Hadoop YARN(一种新的Hadoop资源管理器)分布式计算环境中,执行空间分析、空间统计、空间数据处理等并行任务,处理结果分别写入HDFS或者指定存储设备。在YARN框架下,并行计算任务将产生监控计算进度、计算资源使用情况、任务运行异常等日志,利用日志监控工具,对日志进行监控、分析、统计。

(2)大数据可视化技术

一是多视图整合。通过专业的统计数据分析系统设计方法,厘清海量数据指标与维度,按主题、成体系呈现复杂数据背后的联系;将多个视图整合,展示同一数据在不同维度下呈现的数据背后的规律,帮助用户从不同角度分析数据、缩小答案的范围、展示数据的不同影响。具备显示结果的形象化和使用过程的互动性,便于用户及时捕捉其关注的数据信息。

二是实时化交互联动。将数据图片转化为数据查询,每一项数据在不同维度指标下实时的交互联动,展示数据在不同角度的走势、比例、关系,帮助使用者识别趋势,发现数据背后的知识与规律。除了原有的饼状图、柱形图、热图、地理信息图等数据展现方式,还可以通过图像的颜色、亮度、大小、形状、运动趋势等多种方式在一系列图形中对数据进行分析,帮助用户通过交互,挖掘数据之间的关联。并支持数据的上钻下探、多维并行分析,利用数据推动决策

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈