大数据存储方案随着大数据计算的发展已经历时将近10年,有的已经被广泛应用,有的则是被不断地完善中。以下列举若干比较著名的大数据存储方案及其优缺点。
(一)HDFS
大数据计算最为代表性的就是Google在2004年提出的MapReduce框架和相应的GFS存储系统。2008年Yahoo的工程师根据MapReduce的框架推出了开源的Hadoop项目,作为一个大数据处理典型开源实现,如今Hadoop项目已经被广泛应用于各大互联网企业的数据中心,并且正努力从一个开源项目走向商业化应用产品。而HDFS(Hadoop Distributed File System)就是支持Hadoop计算框架的分布式大数据存储系统,它具有大数据存储系统几项重要特性,具有很高的容错性、可扩展性和高并发性,并且基于廉价存储服务器设备,是目前最为流行的大数据存储系统。但是它还有许多方面需要进一步完善,例如目前HDFS自身不能与POSIX文件系统兼容,用户需要通过其自定义的接口对数据进行读写管理,增加了各种数据存储之间交换的开发成本;又如目前HDFS为了到达高容错性,在数据中心中推荐及实际操作的副本数目设置为3,也就意味着用户的任意1份数据都会被复制3份保存在存储系统中,这样造成存储系统保存的数据量远大于实际用户需要的存储量,相比传统的RAID存储空间效率要低很多。
(二)Tachyon(www.daowen.com)
来自于美国加州大学伯克利分校的AMPLab的Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,其吞吐量要比HDFS高300多倍。Tachyon都是在内存中处理缓存文件,并且让不同的作业任务或查询语句以及分布式计算框架都能以内存的速度来访问缓存文件。由于Tachyon是建立在内存基础上的分布式大数据文件系统,所以其高吞吐量也是HDFS不能够媲美的。当然截至目前T'achyon也只是0.2alpha发行版,其稳定性和鲁棒性还有待检验。
(三)其他
Quantcast File Syste(QFS)是一个高性能、容错、分布式的开源大数据文件系统,其开发是为HDFS提供另一种选择,但是其读写性能可以高于HDFS,并能比HDFS节省50%存储空间。Ceph是基于POSIX的没有单点故障的PB级分布式文件系统,从而使得数据能容错和无缝地复制,Ceph的客户端已经合并到Linux内核2.6.34中;GlusterFS是一个可以横向扩展的支持PB级的数据量开源存储方案。Gluster FS通过TCP/IP或者InfiniBand RDMA方式将分布到不同服务器上的存储资源汇集成一个大的网络并行文件系统,使用单一全局命名空间管理数据。Gluster存储服务支持NFS、CIFS、HTTP、FTP以及Gluster自身协议,完全与POSIX标准兼容。现有应用程序不需要做任何修改或使用专用API,就可以对Gluster中的数据进行访问。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。