理论教育 大数据的研究现状的分析介绍

大数据的研究现状的分析介绍

时间:2023-06-17 理论教育 版权反馈
【摘要】:要明确的是,“大数据”并不是很大或者很多数据。什么样数据才可称其为“大数据”。有文献指出大数据=海量数据+复杂类型的数据,这一公式是否成立还待进一步讨论。强调数据是快速动态变化的,形成流式数据则是大数据区别于其他概念的最重要的特征。国外除在大数据概念上的研究外,重点放在技术研究。目前国内学者关于大数据概念上的研究并不充分,大多是引用以上定义进行阐释。

大数据的研究现状的分析介绍

要明确的是,“大数据”并不是很大或者很多数据。根据维克托在书中对大数据的描述,第一点,“大数据”并不是一部分数据样本,而是关于某个现象的所有数据;第二点,由于掌握了关于某个现象的所有数据,那么在统计时就能接受更多不准确的信息;第三,“大数据”的分析着重在了解“什么”而不是“为什么”。比如人们可以通过各种相关数据来了解未来将会发生什么,而不是这些事情发生的原因。要探寻原因会更难,很多时候,知道会发生什么已经足够了。以上这些就是“大数据”的核心,有足够多的数据,允许数据中存在不准确的信息和不去探寻事件发生的原因而是探寻会发生什么事件。有学者(维基百科)对“大数据”的解读是:“大数据”(Bigdata)或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。也有学者把“大数据”的定义为“大量数据”(bigdata)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的资讯。传媒专家刘建明教授认为:“大数据”同信息是不可分离的,是指信息数量浩大的统计与技术运作。作为人类认知社会方法的一次飞跃,“大数据”技术将给企业运营、政府管理和媒体传播的科学化创造有效机制。

什么样数据才可称其为“大数据”。

目前国内外的专家学者对大数据只是在数据规模上达成共识:“超大规模”表示的是GB级别的数据,“海量”表示的是TB级的数据,而“大数据”则是PB级别及其以上的数据。但对其的准确定义给出的结论不一。美国国家科学基金会(NSF)则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。麦肯锡全球数据分析研究所在2011年5月发表的一篇论文中所说:“大数据是指大小超出了典型数据库工具收集、存储、管理和分析能力的数据集。”但它同时指出并非是说有数百个TB才算得上是“大数据”。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要看产生数据的速度或者时间。权威IT研究与顾问咨询公司Gartne将大数据定义为“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题”。IBM公司把大数据概括为规模(Volume)、快速(Velocity)、和多样(Variety),即3V,而4V则是在3V的基础上多一个价值(Value)。(www.daowen.com)

由以上概念的差异可以看出,目前主要从数据来源、数据的处理工具与处理难度两个方面对大数据进行定义。但是这种定义方式会和另一个词发生混淆——海量数据。有文献指出大数据=海量数据+复杂类型的数据,这一公式是否成立还待进一步讨论。如今“海量数据”研究方向主要考虑各种非结构化数据的有效管理、多数据源的集成问题。由此看来能区别“大数据”和“海量数据”还需要借助IBM关于大数据4V特征,尤其是其中的快速。强调数据是快速动态变化的,形成流式数据则是大数据区别于其他概念的最重要的特征。

国外除在大数据概念上的研究外,重点放在技术研究。美国政府六个部门启动的大数据研究计划中,除了个别研究学者提到要“形成一个包括数学、统计基础和计算机算法的独特学科”外,绝大多数研究项目都是应对大数据带来的技术挑战,重视的是数据工程而不是数据科学,主要考虑大数据分析算法和系统的效率。目前国内学者关于大数据概念上的研究并不充分,大多是引用以上定义进行阐释。同时在国内对“海量数据”这一说法认同度较高,更习惯将“大数据”称为“海量数据,并没有将两个词进行明确的区分。国内在大数据研究领域的重点在大数据与云计算、数据挖掘,并行计算和分布式处理,应用式主要集中在地理信息系统。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈