理论教育 大数据的特点及其应用价值

大数据的特点及其应用价值

时间:2023-05-27 理论教育 版权反馈
【摘要】:所以大数据的价值密度低是指相对于特定的应用来说的,信息有效与否是相对的,数据的价值也是相对的,对于某些应用是无效的信息而对于另外一些应用却有可能至关重要。大数据的4V特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性,以及对数据进行专业化处理并最终获得有价值信息的能力。

大数据的特点及其应用价值

当前,较为统一的认识是来自互联网数据中心(IDC)对大数据的定义,包含四个基本特征:规模性(Volume),多样性(Variety),高速性(Velocity),价值性(Value),即所谓的4V特性。

一是数据规模大,据Tech Web报道:一天之中,互联网产生的全部内容可以刻满1.68亿张碟;发出的邮件有2940亿封之多,相当于美国两年的纸质信件数量;发出的社区帖子达200万个,相当于《时代》杂志770年的文字量;1.72亿人登录Facebook,耗费的时间总计47亿分钟,上传2.5亿张图片,如果都打印出来相当于80座埃菲尔铁塔的高度。

二是数据种类多,数据的多样性体现在三个方面。首先,数据来源多,分为社交网络、搜索引擎传感器数据、通话记录、位置信息等;其次,数据类型多,分为文本、音频、视频、光谱、图片等;再次,数据格式多,分为结构化数据和非结构化数据,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,这些多样性的数据对数据的处理能力提出了更高的要求。如何像处理结构化数据那样,方便、快捷地处理非结构化数据,是信息产业一直以来努力的方向之一。

三是高速性,一方面指数据不断更新,增长的速度快;另一方面要求数据访问、处理、交付等速度快。每一天的每一分钟里,从网络购物、打电话、上网冲浪到访问社交网站都会产生大量的新数据。一幅名为“数据永不眠”的图片让读者了解到数据的增长速度到底有多快。一分钟内,谷歌(Google)收到超过四百万次搜索请求;E-mail用户发送超过2亿封电子邮件;腾讯微信用户发送超过1000万条信息;Facebook用户分享超过200万条内容;Apple用户下载应用超过4万次;Instagram用户发送新图超过20万张;Amazon购物网站完成超过8万美元的网络销售额。随着数据呈爆炸的形式增长,新数据的不断涌现,人们对于数据处理的速度提出了更高的要求。数据处理的时效性高,才能使得大量的数据得到有效的利用。如果数据并未得到有效的处理,就没有了其存在的价值。此外,随着移动网络的发展,人们对数据的实时应用需求更加普遍,对数据的响应时间也更加敏感,大多希望能在第一时间抓住重要事件发生的信息,比如通过手持终端设备关注天气交通、物流等信息。心理学实验证实,从用户体验的角度,瞬间(moment,3秒钟)是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟内形成结果,否则处理结果就是过时和无效的,这就是人们所说的“1秒定律”。这一特征也是大数据与传统数据挖掘技术有着本质不同的关键分界点。(www.daowen.com)

四是价值密度低,通常,大量的非传统数据中往往隐藏着有用的信息,难点在于确定哪些数据有用,然后转换和提取这些数据进行分析,获取有价值的信息,但是发挥价值的仅是其中非常小的部分。这就好比淘金一样,在一大堆沙子中人们也许只能得到那么一点点金,而就是这一点点金才具有价值。以当前广泛应用的监控视频为例,银行地铁等一些敏感的地点,摄像头都是24小时运转,在不间断的监控过程中,会产生大量的视频数据,一般情况下,这些视频数据可能是无用的,并不会引人注目,但对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅只有一两秒,却给公安人员带来非常大的价值。因为无法在事前知道哪一秒会有用,只好把所有的视频数据都保存下来,甚至保存了一年的数据,只有那一秒对破案有用。但是在研究人类行为的社会学家眼中,这些视频数据可能就是难得的第一手资料,也许可以借此窥探人类的某些行为模式。所以大数据的价值密度低是指相对于特定的应用来说的,信息有效与否是相对的,数据的价值也是相对的,对于某些应用是无效的信息而对于另外一些应用却有可能至关重要。如果转变思维方法,将这些数据重新组合和处理,其潜在的价值之大难以估量。

大数据的4V特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性,以及对数据进行专业化处理并最终获得有价值信息的能力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈