随着云计算技术的出现和计算能力的不断提高,人们从数据中提取价值的能力也逐渐在提高。此外,由于越来越多的人、设备和传感器通过网络连接起来,产生、传送、分析和分享数据的能力也得到彻底变革。数据在类型、深度与广度等方面都在飞速增长着,给当前的数据管理和数据分析技术带来了重大挑战。
为了从大数据中挖掘出更多的信息,需要应对大数据在容量、数据多样性、处理速度和价值挖掘四个方面的挑战,而云计算技术是大数据技术体系的基石。大数据与云计算发展关系密切,大数据技术是计算技术的延伸和发展。大数据技术涵盖了从数据的海量存储和处理到应用的多方面技术,包括异构数据源融合、海量分布式文件系统、NoSQL数据库、并行计算框架、实时流数据处理以及数据挖掘、商业智能和数据可视化等。
一个典型的大数据处理系统主要包括数据源、数据采集、数据存储、数据处理和分析应用等,其技术体系如图7.9所示。
图7.9 大数据技术体系
由于大数据的多样性和海量性与物联网数据的特点一致,数据采集并不是大数据特有的技术,大数据时代在数据存储、数据处理、数据挖掘以及数据可视化展示等方面的关键技术如下。
1.数据存储
大数据在数据存储问题上,除了传统的结构化数据,大数据面临的更多的是非结构化数据和半结构化数据存储需求。非结构化数据主要采用分布式文件系统或对象存储系统进行存储,如开源的HDFS(Hadhoop Distributed File System)、Lustre、GlusterFS和Ceph等分布式文件系统可以扩展至10PB级甚至100PB级。半结构化数据主要使用NoSQL数据库存放,结构化数据仍然可以存放在关系型数据库中。
2.数据处理
数据仓库是处理传统企业结构化数据的主要手段,其在大数据时代产生了三个变化:一是数据量由TB级增长至PB级,并仍在继续增加;二是分析复杂性,由常规分析向深度分析转变,当前企业已不仅仅满足于对现有数据的静态分析和监测,更希望对未来趋势有更多的分析和预测,以此来增强企业竞争力;三是硬件平台,传统数据库大多是基于小型机等硬件构建,在数据量快速增长的情况下,成本会急剧增加,大数据时代的并行仓库更多是转向通用X86服务器构建。
为应对海量非结构化和半结构化处理的要求,以MapReduce模型为代表的开源Hadoop平台几乎成为非(半)结构化数据处理的事实标准。Hadoop的本质是提供了一种针对大规模数据密集型应用的编程范式,使人们摆脱对于底层分布和并行的操作。(www.daowen.com)
3.数据挖掘
大数据时代数据挖掘主要包括并行数据挖掘、搜索引擎技术、推荐引擎技术和社交网络分析等。
1)挖掘过程包括预处理、模式提取、验证和部署四个步骤,对于数据和业务目标的充分理解是做好数据挖掘的前提,需要借助MapReduce计算架构和HDFS完成算法的并行化和数据的分布式处理。
2)搜索引擎技术可以帮助用户在海量数据中迅速定位到需要的信息,需要借助MapReduce计算架构和HDFS完成文档的存储和倒排索引的生成。
3)推荐引擎技术帮助用户在海量信息中自动获得个性化的服务或内容。
4)社交网络分析是从对象之间的关系出发,用新思路分析新问题,提供对交互式数据的挖掘方法和工具。
4.数据可视化展示
数据可视化是指借助图形画的手段,解释隐藏在数据背后的模式与数据之间的关系。在大数据时代,如何从海量的数据中找到有用的信息,以直观、清晰、有效的形式展现出来,已经成为一大挑战。
目前数据可视化已经提出很多方法,这些方法根据其可视化原理的不同可划分为基于集合的技术、面向像素的技术、基于图标的技术、基于层次的技术和分布式技术。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。