理论教育 分布式计算的基本原理和应用场景

分布式计算的基本原理和应用场景

时间:2023-06-11 理论教育 版权反馈
【摘要】:目前比较流行的分布式离线数据并行计算框架包括以下几个。除了以上所述的分布式系统外,还有谷歌的Dremel系统、Yale的HadoopDB等,这些分布式计算系统基本上都是以MR为原理构造的。

分布式计算的基本原理和应用场景

由于交通运输物流领域的数据规模大,增长快,不仅需要离线分析还需要实时分析,这就决定了交通运输物流领域大数据平台需要强大的实时以及离线分析能力,以对交通领域数据进行分析处理。基于大数据平台的交通运输物流资讯分类、交通运输物流热点词等都需要大数据平台的分布式计算及分析能力,要达到这些目标必须选择一个具有高性能的用于海量数据处理的分布式计算框架

目前比较流行的分布式离线数据并行计算框架包括以下几个。

1.MapReduce

MapReduce是最为常见和流行的一个分布式计算框架,Hadoop是其开源实现之一,已经得到了极为广泛的应用。MapReduce是一个用于海量数据处理的编程模型,它简化了复杂的数据处理计算过程,将数据处理过程分为map阶段和reduce阶段,MapReduce是完全基于数据划分的角度来构建并行计算模型的,具有很好的容错能力。

2.Pregel(www.daowen.com)

Pregel是谷歌发明的一种分布式计算框架,其优势是可以更为高效地完成一些适合于抽象为图算法的应用,Giraph是一个比较好的开源实现。

3.Dryad和Scope

这两个都是微软研究院推出的MR类的项目,Dryad是一个更为通用的计算框架,支持有向无环图类型数据流的并行计算;而Scope有点类似于Hive,是将某种类似于SQL的脚本语言编译成可以在底层分布式平台上计算的任务。但是这两个项目因为不开源,所以资料也不多,也没有开源项目那样的社区支持。

除了以上所述的分布式系统外,还有谷歌的Dremel系统、Yale的HadoopDB等,这些分布式计算系统基本上都是以MR为原理构造的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈