Hadoop技术是推动大数据应用的引擎,用于收集、共享和分析来自网络的大量结构化、半结构化和非结构化数据。应用Hadoop技术之前需要做一些技术准备。利用一定的时间确定需要处理的数据路线图,认真研究Hadoop技术如何与网络的其他部分相配合,开发一个明确的分类学模型。Hadoop开源框架的发展历程的描述如图2-3所示。
图2-3 Hadoop开源框架的出现历程
(一)Hadoop框架
Hadoop是一个开源框架,它实现了MapReduce分布算法,用以查询在互联网上的分布数据。在MapReduce算法中,Map的功能是将查询操作和数据集分解成组件,Reduce的功能是在查询中映射的组件可以被同时处理(即归约),从而可以快速地返回结果。
(二)Hadoop的主要特点
1.方便
Hadoop运行在由多机构成的大型集群上,或者云计算平台等云计算服务上。适用于运行大型分布式程序。
2.健壮(www.daowen.com)
如果架构硬件频繁地出现故障,那么Hadoop可以处理大多数此类故障,进而可以胜任更严苛的工作。
3.横向可扩展
Hadoop通过增加集群节点,可以线性地横向扩展以处理更大的数据集。
4.简单
Hadoop允许用户快速编写出高效的并行代码,进而可以廉价地建立Hadoop集群。如图2-4所示的是用户与Hadoop集群的交互解释说明。一个Hadoop集群拥有许多并行的计算机,用以存储与处理大数据。客户端计算机发送作业到集群云并获得结果,实现了以计算为中心到以数据为中心的转变。
图2-4 用户Hadoop集群云的交互解释说明
Hadoop集群云是指在同一地点用网络互联的一组通用机器。数据存储与处理都发生在这些机器云中,不同的用户可以从独立的客户端提交计算作业到Hadoop集群云,这些客户端可以是远离Hadoop集群云的个人计算机。但是分布式系统的构建存在多种形式,并不仅如图2-4所示。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。