理论教育 大规模数据存储在智能建设中的应用

大规模数据存储在智能建设中的应用

时间:2023-08-13 理论教育 版权反馈
【摘要】:图4-2-2Hbase 架构 Fig.4-2-2Hbase structure图4-2-3云计算架构 Fig.4-2-3Cloud computing structure第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统,以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

大规模数据存储在智能建设中的应用

为了应对数据处理压力,过去10年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外(Altibase,Timesten),其他的技术创新和产品都是面向数据分析的,而且是大数据分析的。

这类新的分析型数据库产品的共性主要是:架构基于大规模分布式计算(MPP);硬件基于×86PC服务器;存储基于服务器自带的本地硬盘操作系统主要是Linux;拥有极高的横向扩展能力(scale out)和内在的故障容错能力,以及数据高可用保障机制;能大大降低每TB数据的处理成本,为“大数据”处理提供技术和性价比支撑。

图4-2-1 HDFS架构
Fig.4-2-1 HDFS structure

总的来看,数据处理技术进入了一个新的创新和发展高潮,机会很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动着技术的创新,并为此创造了很多机会。在大数据面前,越来越多的用户愿意尝试新技术和新产品,不那么保守了。因为大家开始清晰地看到传统技术的瓶颈,选择新的技术才有可能解决他们面临的新问题。现在的总体趋势是在数据量快速增长、多类数据分析并存的需求压力下,数据处理技术朝着细分方向发展,过去30年一种平台满足所有应用需求的时代已经过去。我们必须开始根据应用需求和数据量选择最适合的产品和技术来支撑应用。世界数据处理市场格局正在发生革命性的变化,传统数据库(OldSQL)一统天下变成了OldSQL+NewSQL+NoSQL+其他新技术(流、实时、内存等)共同支撑多类应用的局面。在大数据时代,需要的是数据驱动最优平台和产品的选择。

最典型的大数据存储技术路线主要有三种:

第一种是采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。(www.daowen.com)

这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。

第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景。例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。

图4-2-2 Hbase 架构
Fig.4-2-2 Hbase structure

图4-2-3 云计算架构
Fig.4-2-3 Cloud computing structure

第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统,以及为数据查询、处理、分析用途而特别预先安装及优化软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈