理论教育 大数据分析平台:特性、接口及功能

大数据分析平台:特性、接口及功能

时间:2023-06-14 理论教育 版权反馈
【摘要】:大数据分析平台应该具备如下主要特性。一个关键的大数据分析平台还应该可以接入与兼容不同的开发工具,实现数据分析的图形化,并且可以在时间、地理空间等维度进行查询,接收各种不同的数据源,能够使用各种不同的工具进行分析。在大数据处理平台上,可以提供数据清洗、数据分析、数据挖掘、数据可视化的一系列大数据分析功能。Storm可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据。

大数据分析平台:特性、接口及功能

大数据分析平台应该具备如下主要特性。

(1)可以快速迭代开发,不断更新功能;

(2)存储所有数据,包括结构性数据、非结构形式、半结构性数据;

(3)可以进行各种分析;

(4)不但专业人员可以使用,而且业务人员也可以使用。

一个关键的大数据分析平台还应该可以接入与兼容不同的开发工具,实现数据分析的图形化,并且可以在时间、地理空间等维度进行查询,接收各种不同的数据源,能够使用各种不同的工具进行分析。

在大数据处理平台上,可以提供数据清洗、数据分析、数据挖掘、数据可视化的一系列大数据分析功能。

1.Hadoop分布式计算平台(www.daowen.com)

Hadoop是一个能够让用户轻松架设和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,主要有高可靠性、高扩展性、高效性、高容错性的优点。Hadoop带有用Java语言编写的框架,因此运行在Linux平台上。Hadoop上的应用程序也可以使用C++等其他语言编写。

2.Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据。Storm支持许多种编程语言。

Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式远程调用协议。

3.Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。Apache Drill实现了Google's Dremel。该项目将会创建出开源版本的谷歌Dremel Hadoop工具,而Drill将有助于Hadoop用户实现更快查询海量数据集的目的。Drill项目实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等。通过开发Apache Drill开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈