虽然目前大数据没有明确的定义,但是我们每天都在产生海量的数据,数据将我们“包围”起来,我们正在进入到“大数据时代”。根据Gartner的定义,大数据的特征具体涵盖了称为4 V的内容:数据量大(Volume)、实时性强(Velocity)、商业价值(Value)、数据多样化(Variety),如图5-5所示。
对大数据关注也是因为它蕴藏巨大的商业价值。在有些资料和文档中,将大数据的特征定义为3 V特性,包括数据量大、数据多样化以及数据产生频率、更新频率高。在这里我们主要讨论大数据的4 V特性。
数据量大:例如,互联网、物联网每天都在产生大量的数据,数据量持续以前所未有的速度增加。数据量大是大数据相关的重要特征之一。
实时性强:主要是指数据产生的速度快,数据变化的频度可以到毫秒级。举例来说,我们每天都通过传感器或者监控视频产生新的数据,数据以比从前更快的速度产生、获取和分析。特别是订单、微博、监控视频、传感器、支付等每时每刻都在不停地产生数据。
图5-5 大数据的4V特性
数据多样化:多样化是指数据类型的复杂性和数据种类的繁多,用来描述不同类型的数据和数据源。随着传感器和一些智能设备的发展,数据呈现了爆炸性的增长态势,包括如电子表格、声音、图片、视频、文本、微博、传感器数据、点击流、日志文件、手机呼叫、地图GPS等内容。
商业价值:通过对大数据的挖掘和分析,可以发掘出巨大的商业价值。
我们总结来说,大数据的定义就是通过快速采集、挖掘和分析,从大数据量、多样化的数据中获取价值。形象地说,大数据就是沙里淘金的过程。
对于传统的数据仓库技术和大数据处理,它们之间最大的区别就是数据仓库更多地是对过去事物的分析,而大数据主要分析我们即将面对的问题,也就是预测和分析未来的情况,具有更高的价值。
对于大数据来说,有结构化数据、半结构化数据和非结构化数据三种类型。
1)结构化数据:主要存在于关系型数据库,在过去几十年里一直是主流的应用。
2)半结构化数据:包括类似于电子邮件、文字处理文件以及网上新闻等内容。
3)非结构化数据:包括社交网络、物联网、移动计算和各种传感器产生的各种信息,可以有音频、视频和图片等内容。目前超过80%的数据属于非结构化数据。
大数据对于系统的需求主要包含了高性能、高存储、可扩展和低延迟等几个特性。高性能是指可以高并发地对海量数据进行读写,同时依靠并行处理,快速响应查询、分析。高存储是指对海量数据的存储。可扩展是支持可扩展性。低延迟是指能够快速响应。
下面详细介绍大数据的几个特点:(www.daowen.com)
(1)数据量大
大数据应该有多大呢?
举例来说,1999年,美国沃尔玛公司的数据仓库容量是100 TB,2012年,Facebook每天的数据量超过500 TB。目前,互联网上一天的内容就可以刻满1.68亿张左右的DVD,发出的社区帖子在200万个以上。
截止2012年,数据量已经从TB级跃升到PB级、EB级甚至ZB级。2008年全球产生的数据量为0.49ZB,2009年产生的数据量达0.8ZB,2010年产生的数据量是1.2ZB,2011年的数据量已经达到1.82ZB。目前全世界数据的年增长量达到50%左右。又如,2000年美国新墨西哥州数字巡天望远镜启用几周后,搜集的数据量就已经超过了天文学历史上的数据总和。这一切都意味着每两年全世界的数据总量就会增加一倍。
据IBM公司2012年研究报告,在整个人类文明产生的全部数据中,有大约90%的数据是过去两年内产生的。到2020年,全世界产生的数据量可能会达到今天的44倍左右。
(2)实时性强
大数据作为感知世界的“仪表盘”,它的增长速度很快,数据变化与处理的频度可以到毫秒级,例如各种订单、支付、监控等,每天不停地产生着数据,同时对海量数据进行及时分析。对于某些应用来说,要求在几秒钟之内得出答案,否则就错过了最佳时机。这种实时性强的特点也是区别于传统数据仓库和商业智能技术的关键特征之一。
实时性强的原因是数据创建的快速性。目前数据是以传统系统不可能达到的速度在获取、产生和分析。例如,各种的股票实时分析、实时动态的传感数据、各种的交通路况信息、每一秒中淘宝平均成交178笔订单等。这种数据产生的速度,已经完全超乎了人们的想象。
(3)商业价值
价值密度低是大数据的一个典型特征。犹如淘金的过程,虽然大多数都是沙子,但是这些沙子中仍然存在着宝贵的黄金,我们需要做的就是将大多数的沙粒去除和清洗掉,将黄金提取出来,如图5-6所示。同样对于大数据来说,多数的数据是低价值的,例如影响天气因素的数据很多,但是每一条单独的信息都是价值很低的,只有将这些信息汇总和综合到一起,才能具备对天气预测的能力。
图5-6 价值密度低
(4)数据多样化
对于大数据来说,数据种类繁多,80%以上的数据来自于半结构化数据和非结构化数据,如文档、视频、电子邮件等。
随着传感器、智能设备技术的发展,数据的类型呈现多样化的态势,包括文本、微博、音频、视频、传感器数据、日志文件、手机呼叫、地震勘探、气象云图、卫星遥感、物联网、环保监测、舆情监控、地图GPS和各种的点击流等。将这些不同类型的数据进行交叉分析,是大数据的核心技术之一。特别是语义分析和各种地理位置信息技术都会在大数据时代得到广泛应用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。