随着互联网的不断扩张和云计算技术的进一步推广,海量的数据在个人、企业、研究机构等源源不断地产生。这些数据为日常生活提供了便利,信息网站可以推送用户定制的新闻,购物网站可以预先提供用户想买的物品,并随时随地分享。但是,如何有效、快速、可靠地存取日益增长的海量数据成了关键的问题。
传统的存储解决方案能提供数据的可靠性和绝对的安全性,但是面对海量的数据及其各种不同的需求,传统的解决方案日益面临越来越多的困难,比如数据量的指数级增长对不断扩容的存储空间提出要求、实时分析海量的数据对存储计算能力提出要求。
(一)要求更快响应速度
例如,个人用户在网站选购自己感兴趣的货物,网站则根据用户的购买或者浏览网页行为实时进行相关广告的推荐,这需要应用的实时反馈;电子商务网站的数据分析师根据购物者在当季搜索较为热门的关键词,为商家提供推荐的货物关键字,面对每日上亿的访问记录要求机器学习算法在几天内给出较为准确的推荐,否则就丢失了其时效性;出租车行驶在城市的道路上,通过GPS反馈的信息及监控设备实施路况信息,大数据处理系统需要不断地给出较为便捷路径的选择。这些都要求大数据的应用层以最快的速度、最高的带宽从存储介质中获得相关海量的数据。
另外,海量数据存储管理系统与传统的数据库管理系统,或者基于磁带的备份系统之间也在发生数据交换。虽然这种交换实时性不高,可以离线完成,但是,由于数据规模的庞大,较低的数据传输带宽也会降低数据传输的效率,而造成数据迁移瓶颈。因此,大数据的存储与处理的速度或带宽是其性能上的重要指标。(www.daowen.com)
(二)来源和类型更加多样化
所谓多样化,一是指数据结构化程度,二是指存储格式,三是指存储介质多样性。对于传统的数据库,其存储的数据都是结构化数据,格式规整。相反,大数据来源于日志、历史数据、用户行为记录等,少部分是结构化数据,而更多的是半结构化或者非结构化数据,这也正是传统数据库存储技术无法适应大数据存储的重要原因之一。
所谓存储格式,也正是由于其数据来源不同、应用算法繁多、数据结构化程度不同,其格式才多种多样。例如,有的是以文本文件格式存储,有的则是网页文件,有的是一些被序列化后的比特流文件等。
所谓存储介质多样性,是指硬件的兼容,大数据应用需要满足不同的响应速度需求,因此其数据管理提倡分层管理机制。例如,较为实时或者流数据的响应,可以直接从内存或者Flash(SSD)中存取;离线的批处理,可以建立在带有多块磁盘的存储服务器上;有的可以存放在传统的SAN或者NAS网络存储设备上,而备份数据甚至可以存放在磁带机上。因此,大数据的存储或者处理系统,必须对多种数据及软硬件平台有较好的兼容性,以适应各种应用算法或者数据提取转换与加载(ETL)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。