大数据需要管理的数据规模大,数据类型不仅仅是关系数据,更多的是非结构化和半结构化的数据,大数据不仅增长速度极快,而且会动态快速变化,数据动态快速变化是区别大数据与一般的大规模数据和海量数据的标准。高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇,提出了数据的3V特点。
(1)Volume(数据量),数据量已经从TB级别,跃升到PB级别。现在不仅仅是最早产生大数据变革的天文学和基因学方面拥有巨量数据,大数据已经渗透到方方面面,甚至从科学研究渗透到了人们日常生活的各个领域,交通、医疗、教育、商务活动等各领域,无一例外都因为数据量的剧增进行过或正在进行大数据变革。
(2)Variety(数据类型),即数据类型多样性,大数据数据类型不仅包括常见的数字、文字信息,还包括网络日志、视频、图片、地理位置信息,等等。数据量大必然伴随着数据种类的多样性,就以交通运输物流领域的大数据类型为例来说明,交通运输物流领域的数据不仅包括道路、车辆、航线等这些原始数据类型,还包括由路网摄像头、传感器等组成的智能交通的智能分析平台上的大量视频、图片等数据,也包括交通卡刷卡记录、手机定位数据、电子停车收费系统数据、关于交通情况的调查数据等。
(3)Velocity(速度),这里不仅指的是资料输入、输出的速度快、数据流动速度快以及数据变化快,还包括数据处理速度快。用1秒定律来形容数据处理速度之快,1秒定律也称为秒级定律,就是说对处理速度的要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。数据处理速度也是大数据和传统的数据挖掘技术本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式,这就保证了数据的高速处理。数据具有时效性,数据价值会折旧,为了保证效率就必须有超快的处理速度。
随着对大数据研究的深入,对大数据的认识也越来越全面,学者们在3V特征的基础上,提出了大数据的5V特征。
Mayers.V.Cukieer K在《Big Data:A revolution That Transforms How we Work,Live,and Think》一书中在3V的基础上补充了大数据的另一个特点——Value(价值密度低),大数据数据量巨大,更新快,必然就伴随着价值密度低的属性,小部分数据难以描述得全面,不能提供一个完整的认识,拿视频来说,可能在一个连续不间断监控视频中,有用的数据仅仅为一两秒,视频中的大部分信息其实都是没有任何价值的。
IBM在3V的基础上提出大数据的又一特征——Veracity(真实性),即追求高质量的数据。数据的真实性和质量是成功决策的基础,追求高质量的数据是大数据的要求与挑战。(www.daowen.com)
数据规模大造成错误多、数据更新的高速性、数据多样性等原因可能会导致出现数据不一致、描述不精确、表达不完整、反应不及时等问题,在数据管理过程中,保证数据质量尤为重要。交通运输物流领域也不例外,不管是道路规模、实时交通状况,还是交通流量、交通运输物流能力,或是物流企业信用分析,都要求严格的数据质量。高质量的数据能帮助人们更准确地分析交通状况,能促使决策者的行为向好的方向发展。
目前,交通运输物流领域的旧数据没有做到很好的整合,很大一部分都无法满足质量上的要求。交通运输物流领域数据质量问题主要有以下三个方面。
(1)计算困难。数据规模巨大,达到PB级甚至EB级,而且增长速度快,为了保证数据的时效性、保证数据价值,需要设计并行算法加快计算速度。设计有效的大数据并行算法就是一个挑战性问题。
(2)混杂错误。大数据的多样性会导致各种各样的错误出现,在数据存储和管理的过程中,这些错误相互混淆,相互影响,现存的错误检测与修复方法基本都针对单一类型的错误,缺少对相互影响的错误的处理技术,改进错误检测与修复方法,修复相互影响的多种错误是大数据质量管理的第二个挑战性问题。
(3)知识缺少。小部分数据难以描述得全面,不能提供一个完整的认识;然而大数据规模巨大,来源多样,难以认知其全貌,难以全面认识大数据的语义。如何有效获取充分的语义信息支持大数据质量管理是第三个挑战性问题。当前大多数数据质量管理方法没有自动错误检测修复功能,难以直接应用于大数据。
高质量的交通运输物流领域数据是对交通情况进行合理分析与预测的基础,也是做分析决策的前提。没有高质量的数据,大数据分析的结果就不可靠,无法客观地反映现实,因此分析也就失去了意义。为了使分析更有意义,必须在收集大量数据的基础上,对数据进行多次清洗,有效整合,并在解决了数据存储、计算、网络传输、数据格式、数据结构等各方面的问题以后,才能对交通运输物流大数据进行分析与研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。