理论教育 下面介绍几种大数据分析的工具

下面介绍几种大数据分析的工具

时间:2023-06-14 理论教育 版权反馈
【摘要】:下面介绍几种大数据分析的工具。(二)Biglnsights和BigCIoudIBM推出了InfoSphere BigI云版本的InfoSphere Biglnsights,使组织内的任何用户都可以做大数据分析。PDW 使用了大规模并行处理来支持高扩展性,并可以帮助客户扩展部署数百TB级别数据的分析解决方案。Aster Data为Teradata带来了大数据分析市场商,加之收购Aprimo所获得的整合营销管理能力,以及不断加大的核心数据仓库业务投资力度,将为Teradata的未来发展注入强劲动能。

下面介绍几种大数据分析的工具

下面介绍几种大数据分析的工具。

(一)EMC Greenplum统一分析平台

EMC Greenplum统一分析平台(UAP)是一个单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析。EMC Greenplum统一分析平台包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus。

EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和Greenplum HD节点。DCA提供了一个共享的指挥中心界面,管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。随着Hadoop平台日趋成熟,分析功能将迅速增强。

(二)Biglnsights和BigCIoud

IBM推出了InfoSphere BigI云版本的InfoSphere Biglnsights,使组织内的任何用户都可以做大数据分析。云上的Biglnsights软件可以分析数据库里的结构化数据和非结构化数据,使决策者能够迅速将洞察转化为行动。

(三)Informatica 9.1

HParser支持灵活高效地处理Hadoop中的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop中,以便充分利用所有这些处理功能。

(四)Vertica数据分析平台

惠普发布的Vertica 5.0是能提供高效数据存储和快速查询的列存储数据库实时分析平台,该数据库还支持大规模并行处理。惠普随即推出了基于x86硬件的HP Vertica。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户分析处理的数据达到PB级。惠普展示了一款Vertica Analytics Appliance设备,它是惠普融合基础架构中的一款全集成技术栈。

(五)Oracle Big Data Appliance

甲骨文的Big Data Appliance集成系统包括Cloudera的Hadoop系统管理软件和支持服务Apache Hadoop和Cloudera Manager。甲骨文把Big Data Appliance看作包括Exadata、Exalogic和Exalytics In.Memory Machine的建造系统。Oracle大数据机是一个软、硬件集成系统,该大数据机采用Oracle Linux操作系统,并配备Oracle NoSQL数据库社区版本和Oracle HotSpot Java虚拟机。Big Data Appliance为全架构产品,每个架构864GB存储,216个CPU内核,648TB RAW存储,每秒40GB的In,ifiniBand链接。

(六)微软PDW

2011年初,微软发布了SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库)。PDW 使用了大规模并行处理来支持高扩展性,并可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。该连接器是双向的,可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。微软现在已推出基于Azure云平台的测试版Hadoop服务,将推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本的一部分。

(七)亚马逊弹性MapRed uce

亚马逊在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),亚马逊对Hadoop的需求和应用了如指掌。弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。这种云面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。除了数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。用户还可以提取结果文件,以便在数据库、微软Excel或Tableau等工具中使用。(www.daowen.com)

(八)Aster Data

Teradata是企业级数据仓库(EDW)的领导者,在数据库分析领域不断推陈出新。为了发展结构化数据、半结构化数据和大部分非结构化数据领域,该公司要收购Aster Data。它是一家提供SQL-MapReduce框架的公司。Teradata宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法。Aster Data是高级分析和管理各种非结构化数据领域的市场领导者和开拓者。Aster Data为Teradata带来了大数据分析市场商,加之收购Aprimo所获得的整合营销管理(Integrated Marketing Management)能力,以及不断加大的核心数据仓库业务投资力度,将为Teradata的未来发展注入强劲动能。

(九)Google Dremel数据分析系统

Dremel是Google的交互式数据分析系统。可以构建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间,Dremel将处理时间缩短到秒级的时间,可以作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,获得了很大的成功。随着Itadoop的流行,大规模的数据分析系统已经越来越普及。数据分析师需要一个能将数据运转的交互式系统,就可以非常方便快捷地浏览数据,建立分析模型。Dremel系统的主要特点如下。

1.Dremel是一个大规模系统

对于一个PB级别的数据集,将任务缩短到秒级,无疑需要大量的并发。磁盘的顺序读速度约100MB/s,那么在1s内处理1TB数据,表明至少需要有1万个磁盘的并发读。利用廉价机器可以完成强大功能,但是机器越多,出问题概率越大,因此集群规模大,需要有足够的容错考虑,保证整个分析的速度不被集群中的个别慢节点影响。

2.Dremel是MapReduce模型的交互式查询功能的补充

与MapReduce一样,Dremel也需要和数据运行在一起,将计算移动到数据上面。所以它需要GFS文件系统作为存储层。在设计之初,Dremel并不是MapReduce的替代品,它只是可以执行分析非常快,在使用时,常常用它来处理MapReduce的结果集或者用来建立分析原型。

3.Dremel的数据模型是嵌套

互联网数据常常是非关系型的。Dremel还需要有一个灵活的数据模型,这个数据模型至关重要。Dremel支持一个嵌套的数据模型,类似于JSON。而传统的关系模型,由于不可避免地有大量的JOIN操作,在处理如此大规模的数据的时候,往往有心无力。

4.Dremel中的数据是用列式存储的

使用列式存储,分析的时候,可以只扫描需要的那部分数据,减少CPU和磁盘的访问量。同时列式存储是可压缩的,使用压缩,可以综合CPU和磁盘,发挥最大的效能。对于关系型数据,如果使用列式存储,都很有经验。但是对于嵌套的结构,Dremel也可以用列存储,非常值得我们学习。

5.Dremel结合了Web搜索和并行DBMS的技术

首先,利用了Web搜索中的查询树的概念,将一个相对巨大复杂的查询分割成较小较简单的查询。其次,与并行DBMS类似,Dremel可以提供一个SQL-1ike的接口,就像Hive和Pig那样。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈