理论教育 大数据特点、类型与关键技术-研究成果

大数据特点、类型与关键技术-研究成果

时间:2023-09-29 理论教育 版权反馈
【摘要】:(一)大数据的主要特点大数据之所以区别于其他数据,是因为其具备其他数据所不具有的特点。对大量数据流的快速实时处理也是大数据区别于其他数据的特点之一。(二)大数据的主要类型根据不同来源,大数据主要分为三种类型。

大数据特点、类型与关键技术-研究成果

(一)大数据的主要特点

大数据之所以区别于其他数据,是因为其具备其他数据所不具有的特点。大数据的主要特点被概括为 4 个“V”:体量巨大(Volume)、数据处理速度快(Velocity)、数据类型复杂(Variety)、价值密度低(Value)。

1.体量巨大

数据体量巨大是大数据的基本属性。随着科学技术的发展和网络的普及,数据量已经成倍增长,GB已经完全不能满足数据量激增的需求,数据已经从TB(1TB = 1 024GB)跃升至PB(1PB = 1 024TB)、EB(1EB = 1 024PB)甚至ZB(1ZB = 1 024EB)级别。以脑科学为例,用电子显微镜重建大脑中的突触网络,1mm3大脑的图像数据就超过了1PB。社交网络Facebook每天要处理25亿条消息、500多TB的数据,上传3亿张照片,每半个小时扫描的数据大约为105TB。[1]根据IDC(互联网数据中心)对大数据的定义,大数据的数据规模通常要达到100TB以上。但美国的熊辉教授则有不同的看法,他认为大数据的“大”不只是体量巨大,其对数据的处理速度也提出了很高的要求。比如,1GB的数据量并不算巨大,但如果要在极短的时间内,比如1ms完成对其复杂的数据分析,则可能目前常用的设备无法胜任这项工作。

2.数据处理速度快

大数据除了体量巨大,还要求数据是快速动态变化的,数据以数据流的形式存在是大数据的一大特点。随着网络技术、信息技术、传播技术的快速发展和互联网的普及,不但数据的产生途径增多,数据的传播、发布也变得越来越容易,爆炸式的数据增长对数据处理速度提出了很高的要求,否则快速增长的数据得不到有效利用,不但不利于问题的解决,还会带来数据的大量浪费、挤占堵塞数据通道、数据价值流失等一系列问题。同时,数据并非静止不动的,而是以数据流的形式不断流动,倘若数据没有在第一时间被处理利用,数据的价值会随着时间的流逝大打折扣,甚至完全消失,失去了价值的数据只能为问题的解决增添负担,也失去了大数据的意义。另外,由于电子商务等在线交易平台的兴起和发展,使数据具有很强的时效性,而且这种快速产生、迅速流动并消失的数据流通常是不平稳和非线性的,会在特定的时段突然激增,如“双十一”时天猫网的交易数据。对于大数据的应用而言,大多数情况下要在瞬间对数据进行持续实时处理,否则处理结果就是无效的。对大量数据流的快速实时处理也是大数据区别于其他数据的特点之一。

3.数据类型复杂

数据类型复杂多变是大数据的重要特点之一。以前的数据尽管数据量巨大,但通常是事先定义好的关系型数据库中的结构化数据。结构化数据的数据类型相同,可分解为多个相互关联的组成部分,且各个组成部分之间有非常明确的逻辑和层次结构,非常便于计算机存储、处理和查询,具有一定的操作规范。此类结构化数据,一般都以表格的形式保存在数据库中,不管新增多少数据,都只需根据数据的属性和数据间的关系将其存储在适当的位置,基本不需要为新增的数据更改查询、修改、删除等操作规范。结构化数据的这种标准化属性使只有机器的运算速度和存储空间能影响和限制数据的处理能力,新增的大量数据所导致的数据处理的复杂程度一般呈线性增长。但随着互联网的快速发展,以及各种传感设备的增多,数据类型变得更加复杂,使半结构化和非结构化的数据量日益增大。非结构化数据无法用数字或统一的结构表示,既要记录数据的数值,又要存储其数据结构,不但增加了数据存储的难度,更增加了数据处理的难度。

当今时代,人们上网已不仅仅是浏览新闻、发送电子邮件,更多的是观看视频、欣赏音乐、上传或下载照片等,除此之外,遍布世界各个角落的各种传感设备也在源源不断地产生并发送海量数据。这些复杂的半结构化、非结构化数据已占到数据总量的75%以上,逐渐成为数据的主流,且其增长速度要远远超过结构化数据。由于非结构化数据包含大量的细节信息,大数据的处理模式更强调关注数据类型复杂的非结构化数据。

4.价值密度低

数据价值密度低是大数据注重关注非结构化数据的结果。为了获取事物的全部细节,大数据直接采用了原始数据和全体数据,既不将事物抽象归纳为某一模型,也不对数据进行采样,最大限度地保留数据原貌。价值密度低带来的问题是引入了大量没有意义甚至是错误的信息,数据的价值密度偏低。以监控视频为例,连续不间断的监控视频数据被存储下来,如果没有发生任何意外,许多数据可能一直是无用的。但对于警察破案来说,若要获取逃逸车辆的线索,有用的视频数据可能仅有几分钟,大量其他不相关的视频信息增加了获取有用信息的难度。

值得注意的是,一方面大数据的数据价值密度低是指相对于特定的应用,对于某些应用来说没有价值的信息对于另外一些应用来说可能价值很大;另一方面也是相对于大数据巨大的数据量,即使再多的有效信息在大数据的庞大体量中也显得微不足道。另外,由于网络的发展普及和网民数量的激增,经常有某条信息被迅速转发扩散或点击的情况出现,此时原本一条普通的数据信息可能在网络中掀起一阵波澜,造成很大的影响,数据价值也变得不可估量。因此,为了还原数据的所有细节,通常是保留所有原始数据,数据绝对数量的激增也会引发有效信息量的比例减少,导致数据价值密度偏低。

(二)大数据的主要类型

根据不同来源,大数据主要分为三种类型。

1.科研数据

数据密集型科学已逐渐成为继实验科学、理论科学、计算机科学三大科研范式之后的第四种科研范式,成为大数据时代背景下的新模式。天体物理学、医疗影像学、基因学等都是以数据为中心的学科,高通量科学仪器、医疗成像设备、测序仪等各种科研设备都会产生大量数据。例如,CERN(欧洲核子研究组织)的离子对撞机每秒运行产生的数据将高达40TB。

2.网络数据(www.daowen.com)

随着以计算机技术、互联网为代表的通信技术的发展和广泛应用,网络数据逐渐成为大数据迅猛增长的主要源泉。

随着网民规模的不断增长,互联网对个人生活方式的影响进一步深化,从基于信息获取和沟通娱乐需求的个性化应用,发展到与医疗、教育交通等公用服务深度融合的民生服务。[2]同时,随着“互联网 + ”的异军突起,推动传统产业不断转型升级,互联网与其他平台的结合催生了大量数据。例如,天猫网每天有超过数千万笔交易,单日就能产生超过50TB的数据。百度每天大约要处理网民的请求60余亿次,日处理数据接近100PB。

3.传感数据

随着以物联网为代表的传感技术的发展和广泛应用,人类获取数据的能力和范围不断扩大。中国科学院计算机网络信息中心主任黄向阳认为,“以大科学装置为代表的机构内部产生的数据量能够被测量和记录得越来越多,而我们对事物、现象等的测量、记录也更加频繁和细致。”[3]这种扩张让我们从宏观到微观,从自然到社会都在产生和记录着海量数据,最为普遍的就是遍布在各个角落的视频监控。此外,几年前,跟踪遥测发动机仅安装于价值数百万美元的航天飞机上,但现在,越来越多的汽车生产商都在车辆中配备了连续测量和报告运行情况的装置,连续不断地提供车辆的整体运行情况。这些传感数据都是大数据的重要来源。

(三)大数据的关键技术

在这个数据大爆炸的时代,数据将是下一个“Intel inside”,谁能掌控数据,将数据转换成产品和理念,谁就能赢得未来。在数据量相对不足的年代,对数据的研究是“由小变大”,而在大数据时代,我们要做的是把数据“由大变小”,做到去粗取精、去伪存真。在海量数据中发掘有效信息的需求将数据挖掘摆在了更高的位置。

1.数据挖掘

此项技术源于数据处理技术的不断进步。20世纪60年代产生了数据收集并创建了数据库,70~80年代产生了数据库管理系统,80年代以来升级为高级数据库系统并出现了高级数据分析技术。数据挖掘技术(Data mining)正是高级数据分析技术的前沿。

数据挖掘,又译为资料勘探、数据采矿,是从数据中寻求价值,它是知识发现的一个核心环节。数据挖掘是一种从大量的数据中通过算法搜索有价值的信息的过程,这种价值一般是隐藏的、不易被发现的,这些大量的数据一般是随机的、模糊的和有噪声的。

经过多年的发展,数据挖掘已成为一种易于操作的成熟技术。它把统计和人工智能等复杂的技术封装起来,在足够多的数据和计算机强大的计算能力下分析大数据、产生洞察力。数据挖掘的主要任务是分类、估计、预测、相关性分组、聚类等。值得注意的是,大数据的研究主要是将数据挖掘技术作为一种研究方法和研究工作,而不将重点放在数据本身,它立足于传统的数据挖掘方法,又与其有很大的不同。

2.分布式计算

随着大数据成为IT领域乃至社会各界关注的热点,分布式计算技术(MapReduce)也迅速成为焦点,其开源版本Hadoop更是备受瞩目。

分布式计算是一门计算机科学,也是一种计算方法,和集中式计算是相对的。集中式计算是通过不断增加处理器的数量来增加单个计算机的数据处理能力。随着科学的发展,有些应用需要非常巨大的计算能力,如果采用集中式计算,耗时太长。分布式计算通过将大问题拆分,然后将子问题分配给多台计算机来共同完成,最后将分散的结果汇总起来得到最终答案。通过这种方法大大缩短了计算时间,提高了效率。最近世界各地成千上万个志愿者自愿把自己计算机的闲置计算能力贡献给有意义的分布式计算项目,这对于单个计算机在可接受的时间范围内是绝不可能完成的。

3.云计算、移动计算

云计算是继大型计算机到客户端—服务器模式的大转变之后的又一巨变。云计算是传统的计算机和网络技术与分布式计算、网络存储、并行计算等新兴技术融合发展的产物。通过云计算,网络上的任何设备可以按需共享资源。用户无须了解设备设施的细节,也无须具备运营和维护技能,所以,云计算对用户来说是透明的。云计算具有超大规模、虚拟化、高可扩展性等特点。云计算依赖资源的共享以达成规模经济。云计算代表了世界经济从以占有为标志的市场经济,向以接入为主的网络经济、共享经济的转向。[4]

移动通信技术、互联网、分布式计算技术的突破,以及智能手机的普及带来了移动计算领域的革命。移动计算涵盖多个交叉学科,被认为是对未来最有影响力的技术方向之一。移动计算使计算机或其他智能终端设备在无线环境下能够进行数据及信息的传输和共享。移动计算能将准确有用的信息及时地提供给任何地点的任何用户,还能分担中央信息系统的计算压力,这极大地改变了商业用户和人们的生活与工作方式

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈