大数据分析平台应该具备如下主要特性。
(1)可以快速迭代开发,不断更新功能;
(2)存储所有数据,包括结构性数据、非结构形式、半结构性数据;
(3)可以进行各种分析;
(4)不但专业人员可以使用,而且业务人员也可以使用。
一个关键的大数据分析平台还应该可以接入与兼容不同的开发工具,实现数据分析的图形化,并且可以在时间、地理空间等维度进行查询,接收各种不同的数据源,能够使用各种不同的工具进行分析。
在大数据处理平台上,可以提供数据清洗、数据分析、数据挖掘、数据可视化的一系列大数据分析功能。
1.Hadoop分布式计算平台(www.daowen.com)
Hadoop是一个能够让用户轻松架设和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,主要有高可靠性、高扩展性、高效性、高容错性的优点。Hadoop带有用Java语言编写的框架,因此运行在Linux平台上。Hadoop上的应用程序也可以使用C++等其他语言编写。
2.Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据。Storm支持许多种编程语言。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式远程调用协议。
3.Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。Apache Drill实现了Google's Dremel。该项目将会创建出开源版本的谷歌Dremel Hadoop工具,而Drill将有助于Hadoop用户实现更快查询海量数据集的目的。Drill项目实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等。通过开发Apache Drill开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。