理论教育 统一数据平台的体系结构设计

统一数据平台的体系结构设计

时间:2023-06-18 理论教育 版权反馈
【摘要】:云服务平台拥有良好的体系架构,这是支撑输变电设备健康管理的基础条件。图2-1云服务平台的体系结构数据存储实现输变电设备相关状态数据的存储和管理。数据清洗对不同来源的数据进行重新审查和校验,以删除重复信息、纠正存在的错误,并保证数据的一致性;数据转换使来自不同数据库的数据能以统一形式在统一数据平台中进行存储。将Hive与HBase进行整合,共同用于大数据的处理,可以减少开发过程,提高开发效率。

统一数据平台的体系结构设计

云服务平台拥有良好的体系架构,这是支撑输变电设备健康管理的基础条件。输变电设备的分散性和动态性的特征,决定了云服务平台是一个开放的系统,其体系结构也是开放的和可扩展的。借鉴云计算和云存储系统的典型体系结构,结合输变电设备健康状态管理的实际需求,构建的云服务平台的体系结构如图2-1所示。

云服务平台架构中,以输变电设备的状态数据为主线,将分布在不同区域、不同设备的异构状态数据进行统一管理,以输变电设备全寿命周期管理为目标进行任务的开发,以实现输变电设备资产的智能化运维。

系统从各业务系统采集数据,数据处理后分类存储至分布式实时库、分布式缓存、分布式存储及分布式数据,向数据计算提供数据支撑,同时建立数据服务模块处理业务数据,并在此基础上建立业务及功能。各部分具体的功能及作用如下:

(1)数据采集主要实现输变电设备全寿命周期状态数据的获取,通过读取已有各类信息系统中设备状态相关的数据,如PMS中的设备台账信息,红外检测信息管理系统中的设备红外检测信息,变压器在线监测系统中的油中溶解气体信息等。对于可以直接连接数据库的信息系统,读取系统的数据库,将获取到的数据进行解析存储;对于无法直接连接数据库的信息系统,则通过对数据文件的解析获取设备状态相关的数据;对于各类检测试验设备,通过智能移动终端实现设备试验数据的自动上传,如红外测温仪的温度信息,直阻测试仪的回路电阻值等;对于出厂试验、交接试验等部分纸质历史状态信息则通过规范化转为电子档形式后进行批量读取。

图2-1 云服务平台的体系结构

(2)数据存储实现输变电设备相关状态数据的存储和管理。数据存储库主要分为分布式缓存库、分布式实时库、分布式存储库、关系库。分布式缓存库存储实时数据,分布式实时库存储历史数据,分布式存储库存储图片、文件等数据,关系库存储参数数据。

(3)数据预处理主要完成数据的清洗与转换。数据清洗对不同来源的数据进行重新审查和校验,以删除重复信息、纠正存在的错误,并保证数据的一致性;数据转换使来自不同数据库的数据能以统一形式在统一数据平台中进行存储。

(4)数据计算完成对设备状态数据的处理和各功能的实现。对于实时性要求比较高的功能,如健康状态的评价、故障的诊断等,采用Spark与Storm共同协作完成数据计算。(www.daowen.com)

Spark能更好地适用于数据挖掘与机器学习等需要迭代MapReduce算法。Spark将中间结果保存在内存中而不是将其写入磁盘,可用于实时计算,如:对设备检测的数据文件解析,对健康状态的评价。

Storm可用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户,能实时地处理小数据块的分析计算,根据设备上传后的数据情况对设备故障进行诊断,判断故障的类型并给出几套可行的处理方案。

(5)数据服务完成对状态数据的管理、查询、统计和可视化展示。其能根据需要订制查询项目、查询范围和显示方式,可提供按站查询、按设备查询、按电压等级查询等多种查询方法,可提供柱状图、饼图、曲线图等多种显示方式。

Solr 是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API(应用程序接口)。用户可以通过HTTP(超文本传输协议)请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。不同类型的设备所存储的数据表各有不同,通过使用Solr能快速地查询到对应的设备,获取到设备信息,大大降低查询所需的时间。

(6)功能应用主要实现设备状态的评价、故障的诊断等高级应用功能,可根据国网导则,提供多种形式的评价结果并直观地加以显示。

输变电设备状态数据描述方式多样,存在着结构化数据、半结构化数据和非结构化数据需要进行处理。对于结构化数据,虽然现在出现了各种各样的数据库类型,但通常的处理方式仍是采用关系型数据知识库进行处理;对于半结构化和非结构化的知识,Hadoop框架提供了很好的解决方案

Hadoop分布式文件系统(HDFS)是建立在大型集群上可靠存储大数据的文件系统,是分布式计算的存储基石。基于HFDS 的Hive 和HBase 能够很好地支持大数据的存储。具体来说,使用Hive 可以通过类SQL 语句快速实现MapReduce 统计,十分适合数据仓库统计分析。HBase是分布式的基于列存储的非关系型数据库,它的查询效率很高,主要用于查询和展示结果;Hive是分布式的关系型数据仓库,主要用来并行处理大量数据。将Hive与HBase进行整合,共同用于大数据的处理,可以减少开发过程,提高开发效率。使用HBase 存储大数据,同时使用Hive提供的SQL查询语言,可以十分方便地实现大数据的存储和分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈