理论教育 大数据在生态环境中的应用探究

大数据在生态环境中的应用探究

时间:2023-06-16 理论教育 版权反馈
【摘要】:大数据技术的出现,正好适应了生态环境保护问题的发展现状。建设生态环境大数据决策分析应用系统是生态文明建设的需要,是促进社会可持续发展的必要之举。图4-5某地区数据中心重点污染源自动监控大数据分析是生态环境大数据分析应用示范平台的一个应用模块。

大数据在生态环境中的应用探究

随着经济的持续发展,我国的生态环境保护问题变得越发复杂。生态环境的保护问题,具有复杂性和时变性,涉及多部门、多地区和多领域,需要处理海量的各类数据,这为问题的解决增加了不小的难度。大数据技术的出现,正好适应了生态环境保护问题的发展现状。建设生态环境大数据决策分析应用系统是生态文明建设的需要,是促进社会可持续发展的必要之举。

本案例以某地区环保数据中心建立的生态环境大数据分析应用示范平台为例,如图4-5所示。以大数据的思维建立数据质量评估模型,对流数据、结构化数据、半结构化及非结构化进行挖掘,实现对在线监控数据的质量评估和自动监控系统问题的深度分析,帮助环保部门实现污染源的精细化管理。

图4-5 某地区数据中心

重点污染源自动监控大数据分析是生态环境大数据分析应用示范平台的一个应用模块。

1.流数据存储及分析

为了对自动监控数据的质量进行分析,采集了自动监控实时数据(分钟数据),接入平台的自动监控企业超过450家,每天分析的实时数据量超过400万条。大量连续产生的实序数据如何处理和分析,是关键技术难点。本案例采用了openPlant云平台来进行流数据的存储及分析,如图4-6所示。

openPlant云平台是针对物联网及大数据分析应用特点,设计研发的海量流数据采集、存储、分析、展示于一体的国产基础软件。具备高稳定性、高可靠性、高扩展性和高性能处理能力外,同时具有独特安全认证机制,能够保障国家信息安全

图4-6 openPlant云平台

流数据的处理流程如图4-7所示:

图4-7 流数据处理流程

2.非结构化数据分析和挖掘

在实际环保管理活动中,除了有大量的关系型数据和流数据,还有大量待分析挖掘的非结构化数据,包括以WORD、EXCEL,PDF、图片、音频、视频等形式记录的数据。这些数据不仅提取困难,产生周期、频率也存在不确定性,与其他数据之间看似没有明显的关系,用传统的分析手段很难产生实际的价值。对自动监控系统的各类WORD,EXCEL格式的检查报告进行了处理,对自动监控系统现场检查结果进行了深度挖掘。

平台对非结构化数据的处理主要分为两个部分,一是提供一种类似全文索引的功能,二是提供了现场检查问题的关键词提取的功能。

全文索引技术是一项用来检索存储在计算机系统中的文本信息的技术。利用全文索引技术,可以极大地提高从海量的信息中检索所需要的信息的效率。(www.daowen.com)

平台预先将非结构化数据进行处理,将数据进行清洗、转换、分类、分组处理,存储在特定的文件中,同时支持数据的实时更新,当用户检索的时候,首先会进行分词处理、剔除助词、语气词等没有实际含义的词,然后会从特定的文件中读取数据,最后将与此对应的文件展示出来,以此提高检索效率,并且提供在线下载。

3.功能成果

坚持以应用为导向,围绕重点污染源自动监控数据的质量分析展开建设,建设重点污染源自动监控数据质量评估体系,包括:数据质量预警功能、数据质量评估体系管理功能、数据质量得分查询功能、数据质量状况分析功能、数据质量改善分析功能;建设重点污染源自动监控数据分析应用,包括:现场检查问题字符云功能、现场检查问题分布功能、现场检查问题分析功能、污染物排放情况自助分析功能,如图4-8所示。

图4-8 重点污染源自动监控数据质量评估体系

(1)数据质量预警。通过重点污染源自动监控大数据分析平台的数据质量分析模型,可以自动对自动监控数据的异常情况进行识别并预警。该功能详细展示出现数据质量问题的企业名称、指标名称、开始结束时间、发生频率、质量问题描述等信息,并可以通过趋势分析功能,对报警时段的数据趋势进行查询,实现了企业在线监控数据质量的精细化监控。并预留与移动执法系统对接的接口

(2)数据质量评估体系管理及现状分析。在线监控数据经过质量分析后,根据数据质量评估模型,对每个企业的数据质量进行综合评分,并以盟市维度、行业维度进行汇总,以表格、图表、地图等多种可视化的方式,展现内蒙古自治区重点污染源自动监控数据的质量现状。评估模型可根据系统运行结果进行调整。

(3)数据质量改善分析。在数据质量改善分析功能中,以盟市、行业、企业的横向比较和各个维度的纵向比较得出数据质量的变化趋势以及需要改善的方向和管理目标。

(4)现场检查问题分析。通过对“自动监控系统现场检查报告”“工况监控报告”“数据传输有效率报告”“自动监控报告”等WORD和EXCEL格式的报告进行分析,提取自动监控系统热点问题,分别以盟市、行业、企业、时间为维度,进行频率分析、聚类分析,通过词频字符云、词频分布与数据关联、问题分类挖掘的形式展现分析结果,为自动监控系统的管理对象、管理政策调整提供数据支持。

(5)自助查询。针对全区在线监控废气排放企业及废水排放企业,采用自助式报表工具,实现最终用户对主题对象多维度全方位的自助式查询分析。

4.应用效果

生态环境大数据平台中关于重点污染源自动监控大数据的应用,对全区重点污染物的排放情况进行了统计分析,结合在线监控数据质量的评估结果、现场检查报告及工况报告的监察问题分析,让管理部门能掌握全区重点污染源排放情况的全貌。

(1)制定了科学的数据质量预警规则,建立了灵活可配的重点污染源(非电力)自动监控数据质量评估体系,对企业违规违法行为进行预警,支撑了环境监察执法从被动响应向主动查究转变,从全面监察执法到重点监察执法进行转变,实现了排污企业的差别化、精准化和精细化管理。

(2)通过设定语义编码条件、自动编码、热词提取、关联分析、聚类分析对自动监控系统现场检查等多种报告中出现的问题进行提取,利用全文索引技术,提高从海量的信息中检索所需要的信息的效率,为自动监控系统的市场准入、运维规范及打击企业造假提供数据支撑。

(3)采用自助式报表工具,实现了最终用户对主题对象多维度全方位的自助式查询分析,支持数据表格、图表等多种格式的分析结果导出。

大数据蕴含大信息,大信息提炼大知识,大知识将在更高的层面、更广的视角、更大的范围帮助用户提高洞察力、提升决策力,为环保管理创造前所未有的重大价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈