数据无处不在,手机通话记录、商店的RFID标签、物流公司的快递产生的数据、银行的交易数据、出租车的运行轨迹、生活中如此众多的数据记录,凸显现实世界的数据变化。IDC的统计表明,到2020年,全球以电子形式存储的数量将达到35ZB(1ZB=100万PB),是2009年存储量的40倍。其中企业数据以55%的速度在逐年增长。
(一)传统的数据存储管理不能满足发展要求
企业的决策者往往根据自己的直觉和经验来规划企业未来的发展战略,而不是依托于具体的数据。利用数据可以获得有价值的线索,使决策者看到数据分析的重要性。然而从大数据中抽取数据样本、挖掘数据、形成报表的过程看似简单,但是实际困难较大,涉及企业IT系统的各方面,例如企业的数据中心、数据存储、数据管理等多个环节。因此,传统的数据存储管理已经不能满足大数据的发展要求。
(二)大数据存储管理面临的挑战
电信、金融、零售等行业希望通过大数据的分析手段来帮助做出理性的决策。特别是电信和金融行业表现更为突出,市场数据没有办法与用户消费数据打通。面临的第一个问题就是海量数据存储的问题。大多数企业正在建设自己的数据中心,来满足大规模的数据量的产生,但是随着数据的进一步增多,很多数据的查询和分析性能急剧下降,有的数据中心甚至出现了无法响应的状况,为企业的业务带来了很大损失。
应该考虑数据管理策略对数据进行有效的保护问题,而且在需要时,可使数据随时转变成价值。只有数据与适合的存储系统相匹配,制定出管理数据的战略,才能低成本、高可靠性、高效益地应对大量数据。对于企业来说,面临大数据首先解决的问题就是成本和时间效应问题。为了不错过商机,存储数据管理可以自动删除磁盘和重复数据、备份和归档,使企业的关键数据存在不同的区域,然后按照特定的业务需求,对数据进行提取、操作和分析,并形成企业所需要的目标数据。
(三)大数据数据管理的意义
计算机从文字、图像、视频等数据中解析出共性之处,从互联网浩瀚的数据中收获知识,洞察信息。而数据分析建立在数据管理基础之上。通过交易平台就可以看到整体交易额的下滑趋势,进而预测到下一年的金融危机的爆发。领军企业与其他企业之间最大的显著差别在于新数据类型的引入。那些没有引入新的分析技术和新的数据类型的企业,不太可能成为其行业的领军者。
企业的发展战略与大数据的管理密切相关。信息是企业的财富,如果企业对大数据的管理适当,利用好大数据,并服务于企业发展战略,一定能做出明智的决策。现阶段的难点在于,企业分析的数据仅仅是企业标准化结构数据中的很小一部分,企业未来的数据管理之路还很漫长。
(四)大数据的数据管理技术
在大数据管理技术中,有6种数据管理技术普遍被关注,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL技术、移动数据库技术。其中分布式存储与计算最受关注,数据管理新技术被关注的程度如图4-5所示。
图4-5 数据管理新技术
分布式存储与计算成为最受关注的数据管理新技术,比例达到29.86%,其次是内存数据库技术,占到23.30%。云数据库排名第三,比例为16.29%。此外,列式数据库技术、NoSQL也获得较多关注。从调查结果来看,以Hadoop为代表的分布式存储与计算已成为大数据的关键技术。以SAP HANA为代表的内存数据库技术和以SQL Azure为代表的云数据库技术,也将成为占据重要地位的数据管理创新平台。(www.daowen.com)
分布式存储与计算架构可以使大量数据以一种可靠、高效、可伸缩的方式进行处理。因为以并行的方式工作,所以数据处理速度相对较快,且成本较低,Hadoop和NoSQL都属于分布式存储技术。
内存数据库技术可以作为单独的数据库使用,还能为应用程序提供即时的响应和高吞吐量,SAP HANA是该技术的典型代表。
列式数据库的特点是可以更好地应对海量关系数据中列的查询,占用更少的存储空间,这也是构建数据仓库的理想架构之一。
云数据库可以不受任何部署环境的局限,随意地进行拓展,进而为客户提供适宜其需求的虚拟容量,并实现自助式资源调配和自助式使用计量。SQL Server可以提供类似的服务。
NoSQL数据库适用于庞大的数据量、极端的查询量和模式演化。企业可以通过NoSQL得到高可扩展性、高可用性、低成本、可预见的弹性和架构灵活性的优势。甲骨文在2011年推出Oracle NoSQL数据库。
移动数据库技术是适应移动计算的产物。随着智能移动终端的普及,对移动数据实时处理和管理要求的不断提高,移动数据库具有平台的移动性、频繁的断接性、网络条件的多样性、网络通信的非对称性、系统的高伸缩性和低可靠性以及电源能力的有限性等,受到业界重视。
(五)大数据的有效管理
由于数据已经处于核心位置,许多业务已经开始以数据为中心,重新审视业务系统,希望以此获取大数据带来的价值。但大数据并不是将数据送入仓库就可以了,相反需要更加精细化的手段管理,才能够做到有效运营数据,具体措施如下。
(1)考虑大数据的安全;
(2)重新考虑数据解释、分析和预测的能力;
(3)建立以数据为导向的数据驱动业务的工作模式;
(4)解决流程与数据的矛盾,将流程与数据分离;
(5)业务构建以应用为中心转向以数据为中心。
面对不同的数据库和分析环境,企业横向和纵向的扩展能力非常重要。具有简便易行的横向扩展功能是Hadoop迅速应用的原因。其关键在于利用低成本的服务器集群进行大规模并行处理,比其他的数据管理方式需要更少的专业技能,从而降低了对人员的要求,能够更经济地实现平滑扩展。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。