理论教育 大数据存储管理中的存储介质异构性和数据分片问题

大数据存储管理中的存储介质异构性和数据分片问题

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:基于新型存储的大数据存储管理与传统的数据库系统有着较大的差别,最主要的一点在于大数据环境下数据存储通常是分布式、分层的,而传统数据库系统中的数据以集中存储为主。因此,面向新型存储的大数据存储管理面临着存储介质异构性、数据分片、存储分配等问题。所有的数据页都存储在PCM中,只有当DRAM发生页面置换或者需要访问新的页面时系统才存取PCM。

大数据存储通常采用分布式异构存储策略,但传统的分布式存储策略通常采用基于副本的方式。引入了多样化的新型存储介质后,需要设计新的数据分配算法,使数据分布在合适的新型存储介质上,从而加快数据的访问性能。

异构存储系统的特点在于采用了所谓的日志缓存(buffered logging)技术将主数据放置在性能最好的存储系统上,而将副本以及数据更新日志放置在成本较低的存储上,既降低了成本,又保证了性能,如Ramcloud。

持久化策略是指将数据写入持久存储介质的策略,NoSQL数据库系统中引入闪存之后,由于闪存具有的异地更新特性,往往需要设计新的持久化策略。为了有效减少闪存异地更新和垃圾回收对持久化性能的影响,可采用“隐形Trim”机制优化持久化策略,即通过将闪存存储层作为“黑盒”,使用基于性能、块大小等参数的演化推理机制找到最理想的工作负载模式,最终实现系统在闪存上的读写性能优化。例如,RethinkDB是一个针对SSD优化的分布式NoSQL数据库系统。(www.daowen.com)

基于新型存储的大数据存储管理与传统的数据库系统有着较大的差别,最主要的一点在于大数据环境下数据存储通常是分布式、分层的,而传统数据库系统中的数据以集中存储为主。因此,面向新型存储的大数据存储管理面临着存储介质异构性、数据分片、存储分配等问题。虽然NoSQL在Web领域得到了广泛应用,但能否作为大数据管理的统一平台还有待进一步研究。

针对PCM存储策略的优化和混合存储:在DRAM/PCM混合主存的硬件驱动的页面置换策略。该策略依赖一个内存控制器(Memory Controller,MC)来监控内存页面的使用频率和写密集程度。MC在DRAM和PCM之间进行页面迁移,保证性能攸关的页面和频繁写的页面保存在DRAM中,而性能不太敏感以及很少写的页面存储在PCM中。将DRAM设计为CPU和PCM之间的缓冲区。所有的数据页都存储在PCM中,只有当DRAM发生页面置换或者需要访问新的页面时系统才存取PCM。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈