理论教育 分布式与集群:大数据框架中的关键概念与应用

分布式与集群:大数据框架中的关键概念与应用

时间:2023-06-14 理论教育 版权反馈
【摘要】:在大数据尤其是Hadoop 框架中,经常提到分布式和集群,接下来将会对两者的概念和关系进行介绍。分布式系统是一组计算机通过网络相互连接传递消息与通信后并协调它们的行为而形成的系统。与单一服务实体相比较,集群具有可扩展性和高可用性。集群主要分为高性能集群、高可用集群和负载均衡集群。在实际生产环境下,通常会采用分布式加集群的方案。

分布式与集群:大数据框架中的关键概念与应用

在大数据尤其是Hadoop 框架中,经常提到分布式和集群,接下来将会对两者的概念和关系进行介绍。

分布式系统是一组计算机通过网络相互连接传递消息与通信后并协调它们的行为而形成的系统。在分布式中各组件之间彼此进行交互以实现一个共同的目标,把需要进行大量计算的任务分成小块,由多台计算机分别计算,再上传运算结果后,最后将结果统一合并得出结论。

集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理,用以提供比单一服务实体更具扩展性与可用性的服务平台。简单的说,集群是将计算机集中在一起,实现同一业务,提高效率

从用户的角度来看,一个集群就象是一个服务实体,但事实上集群由一组服务实体组成。与单一服务实体相比较,集群具有可扩展性和高可用性。可扩展性是指集群中的节点可以动态的加入或删除,这个过程不影响整个集群的运行。高可用性是集群中同样的服务可以由多个节点提供,如果一个节点执行任务失败,另一个节点会接替失败的节点继续执行该任务。(www.daowen.com)

集群主要分为高性能集群、高可用集群和负载均衡集群。高性能集群类利于超算,能够提供单个计算机所不能提供的强大的计算能力。高可用集群使集群的整体服务尽可能可用,如果高可用性集群中的主节点发生了故障,主节点的工作将由次节点代替,因为次节点通常是主节点的镜像,不影响用户的正常使用。负载均衡集群可以在计算机集群中尽可能平均地分摊处理负载,并且可以实现处理负载在节点之间的动态分配,以实现负载均衡。

分布式是以缩短单个任务的执行时间来提升效率的,分布式将一个任务分摊到不同的节点共同完成,这几个节点是协同工作的,存在互相依赖的关系,其中一个节点挂掉有可能使得其他节点都不能工作。集群则是通过提高单位时间内执行的任务数来提升效率,集群中的多个节点执行相同的任务,互不干扰。在实际生产环境下,通常会采用分布式加集群的方案。比如:广州的一个用户向网易邮箱上传一个文件,对于用户而言,不在乎后台是几台服务器,分布在哪里,只要能完成邮箱文件上传工作即可。从后台角度来说,网易邮箱有多个服务器构成,如上海、广州均有服务器,上海服务器处理上海周边用户请求,广州服务器处理广州周边用户请求,最终都实现全部地区用户可上传文件的任务,所以从这个角度来看是分布式的。另一方面,广州的服务器有多台,同时处理广州来的请求,有一台挂掉了对整体业务无影响,所以从这个角度看是集群。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈