大数据：定义、特征与应用

更新时间：2025-01-02 理论教育 版权反馈

【摘要】：在那个时候，大数据的意思是更新网络搜索索引，同时还需要批量处理和分析大量的数据集。所以，现有各行业的大数据可以是几十TB，也可以是几千TB。按照EMC的界定，特指的大数据一定是指大型数据集，规模大概在10TB。大数据的第一个特征是数据的量大。只不过，大数据不单纯只是大。有统计表明，全世界非结构化数据的增加率是63%，相对而言结构化数据增长率只有32%。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。

大数据到底是什么？

如果要追溯“大数据”这个专业术语最初的出处的话，就必然要提及apache org的开源项目Nutch。在那个时候，大数据的意思是更新网络搜索索引，同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System（GFS）发布了之后，大数据的定义中除了涵盖大量数据之外，还包括数据处理的速度。

研究机构Gartner曾给大数据（Big data）下过这样的定义：大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词，以往也有类似的词语，如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据：创新、竞争和生产力的下一个前沿》（James，2011）是这么定义“大数据”的：

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩，因为究竟什么样规格的数据才是大数据，这没有统一的标准，也就是无法确定超过多少TB（1000GB）的数据才是大数据。随着时间的推移和技术的发展，我们必须知道“大数据”的量会越来越大。还有一点，这定义也会因为部门的差异而发生标准的变化，这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以，现有各行业的大数据可以是几十TB，也可以是几千TB。

按照EMC的界定，特指的大数据一定是指大型数据集，规模大概在10TB。通过多用户将多个数据集集合在一起，能构成PB的数据量。

在IBM2011IOD大会上，负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过：“分析已经成为必要的能力，不再只是一个工具，是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动，而不是仅仅去争取竞争的优势，要将其转换为生存的根本。”(www.daowen.com)

IBM公司概括大数据时有三个V，也就是大量化（Volume），多样化（Variety）和快速化（Velocity），此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V，其实也说明大数据潜藏的另一个V——价值（Value）。就这么说的话，大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节（byte），1KB（kilobyte）等于1024B，就是千字节。除此之外还有更高的单位MB（Megabyte兆字节），GB（Gigabyte，吉字节），TB（Trillion byte，太字节）、PB（Pet byte，拍字节），EB（Exabyte，艾字节），ZB（Zetta byte，泽它字节）和YB（Yotta byte，尧字节）。每一级之间的换算关系是1024。到了2009年，几乎每一个美国企业，只要是雇员人数超过1000人的，它的数据存储量大概都超过了200TB，这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中，企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB，这个数字几乎是整个美国数据总量（16EB）的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB，而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一（James，2011）。硬件技术的发展速度远远赶不上数据容量的增长速度，为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉，例如医疗卫生提供商会将它们90%的数据给处理掉（这其中包括几乎所有在手术过程中产生的实时视频和图像资料）。

只不过，大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长，还有数据类型的改变带来的，这就是第二个V，多样化。此前的数据库用二维表结构存储方式就可以储存数据，譬如常见的Excel软件中处理的数据，这称为结构化数据。可是现在随着互联网多媒体应用的出现，像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明，全世界非结构化数据的增加率是63%，相对而言结构化数据增长率只有32%。2012年，非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过，大数据里有海量数据的含义，但它又大于海量数据的定义。简单来说，海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到，所有交易和交互数据集都属于大数据，它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之，三种主要技术趋势汇聚成了大数据：其一是海量交易数据，包括半结构化和非结构化信息，在从ERP应用程序到基于数据仓库应用程序的在线交易处理（OLTP）和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移，将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起，这一部分数据诞生了海量的交互数据，其中涵盖了呼叫详细记录（CDR）、设备和传感器信息、GPS和地理定位映射数据，还有利用管理文件传输（Manage File Transfer）协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件，等等。其三就是海量数据处理。随着大数据的涌现，已经有很多用于密集型数据处理的架构应运而生，比如Apache Hadoop，它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠，是因为它能够提前假定计算元素和存储失败，所以它能够维护多个工作数据副本，用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的，PB级的数据它也可以处理。另外，Hadoop因为依赖于社区服务器，所以它的成本很低，不论是谁都可以使用。对企业来说，最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop，像脸谱这一类的网站，也就可以自由地处理海量的数据，同时获得较高的收益。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关科技引领生活之书（套装共6册）的文章

大数据：定义、特征与应用

如何撰写2025年学生军训迟到的检讨书

2025年学生迟到早读反思的写作指导

如何撰写2025年新学期学生军训迟到的检讨书

如何撰写2025年年度迟到检讨书

2025年高中生早晨迟到反思该如何写

如何撰写2025年军训迟到的检讨书

如何撰写2025年早读迟到的检讨书

2025年员工关于上班迟到的反思与改进计划

相关推荐