2011年,麦肯锡全球研究所发布名为《大数据:创新、竞争和生产力的下一个前沿》的报告,提出了大数据概念。
我国高度重视大数据的应用和发展,2014年3月,大数据首次出现在政府工作报告中,2007年1月17日正式发布大数据产业发展规划。
大数据一词由英文big date翻译而来,大数据是指大小超出了传统数据库软件工具的抓取,存储管理和分析能力的数据群。
大数据的目标,不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,换言之,如果把大数据比作一种产业,那么这种产业盈利的关键,提高对数据的加工能力,通过加工实现数据的增值,大数据是为解决巨量复杂数据而生的,巨量复杂数据有两个核心点,一个是巨量、一个是复杂。巨量,意味着数据量大,要实时处理的数据越来越多,一旦在处理巨量数据上耗费的时间超出了可承受的范围,将意味着企业的策略落后于市场,复杂意味着数据是多元的,不再是过去的结构化数据了,必须针对多源数据重新构建一套有效的理论和分析模型,甚至分析行为,所依托的软硬件都必须进行革新。
大数据的特征,大数据主要具有以下四个方面的典型特征,volume(大量)、variety(多样)、value(价值)、velocity(高速),这四个典型特征通常称为大数据的“4V”特征。
(1)数据体量巨大。大数据的特征首先就体现为数据体量大,随着计算机深入到人类生活的各个领域,数据基数在不断增大,数据的存储单位经常过去的GB级升级到TB级,再到PB级,EB级甚至ZB级,要知道每一个单位都是前面一个单位的210倍。
(2)数据类型多,广泛的数据来源决定了大数据形式的多样性,相对于以往的结构化数据非结构化数据越来越多,包括网络日志音频视频图片地理位置信息的这一类数据的大小内容格式用途可能完全不一样,对数据的处理能力提出了更高的要求,而半结构化数据就是基于完全结构化数据和完全非结构化数据之间的数据,具体也没有文档就属于半结构化数据,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
(3)价值高,但价值密度低,价值密度的高低与数据总量的大小成反比,相对于特定的应用大数据关注的非结构化数据的价值密度偏低,如何通过强大的算法更迅速的完成数据的价值提纯,成为目前大数据背景下期待解决的难题,最大的价值在于通过从大量不相关的各种类型数据中,挖掘出对未来趋势与模式预测分析有价值的数据,发现新规律和新知识。
(4)处理速度快,数据的增长速度和处理速度是大数据高速性的重要体现,预计到2020年全球数据使用量将达到35.2 ZB,对于如此海量的数据,必须快速处理分析并返回给用户,才能让大量的数据得到有效的利用,对不断增长的海量数据进行实时处理,是大数据与传统数据处理技术的关键差别之一。
大数据技术架构,包含各类基础设施支持底层计算资源,支撑着上层的大数据处理,底层主要是数据采集数据存储阶段上层则是大数据的计算处理挖掘与分析和数据可视化的阶段。
基础设施支持,大数据处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑。云计算平台可分为三类:以数据存储为主的存储型云平台;以数据处理为主的计算型云平台;数据处理兼顾的综合云计算平台。(www.daowen.com)
数据采集,有基于物联网传感器的采集,也有基于网络信息的数据采集,数据采集过程中的etf工具,将分布的异构数据源中的不同种类和结构的数据抽取到临时中间层进行清洗转换分类集成,最后加载到对应的数据存储系统,如数据仓库和数据集市中成为联机分析处理数据挖掘的基础。
数据存储,云存储将存储作为服务,他将分别位于网络中不同位置的大量各型各类型各异的存储设备通过集群应用网络技术和分布式文件系统等集合起来协同工作,通过应用软件进行业务管理,并通过统一的应用接口对外提供数据存储和业务访问功能,现有的云存储分布式文件系统包括gfs和htfs,目前存在的数据库存储方案有,sql,nosql和newsql。
数据计算分为离线批处理计算和实时计算两种,其中离线批处理计算模式最典型的应该是Googlr提出的MapReduce编程模型,Mapreduce等核心思想就是将大数据并行处理问题分而制之,即将一个大数据通过一定的数据划分方法,分成多个较小的具有同样计算过程的数据块,数据块之间不存在依赖关系,将每一个数据块分给不同的节点去处理,最后再将处理的结果进行汇总。
实时计算,能够实时响应计算结果主要有两种应用场景:一是数据源是实时的不间断的,同时要求用户请求的响应时间也是实时的;二是数据量大无法进行预算单要求对用户请求实时响应的。运动过程中实时的进行分析,捕捉到可能对用户有用的信息,并把结果发送出去,整个过程中,数据分析处理,系统是主动的,而用户却处于被动接收的状态。数据的实时计算框架,需要能够适应流式数据的处理,可以进行不间断的查询,只要求系统稳定可靠,具有较强的可扩展性和可维护性,目前较为主流的,实时流计算框架,包括StormSpark和Streming等。
数据可视化,数据可视化是将数据以不同形式展现在不同系统中,计算结果需要以简单直观的方式展现出来,才能最终被用户理解和使用,形成有效的统计分析预测及决策应用到生产实践和取企业运营中,可视化能将数据网络的趋势和固有模式展现得更为清晰和直观。
大数据应用领域包括:政务大数据,金融大数据,城市交通大数据,医疗大数据,企业管理大数据等。
大数据的机遇与挑战,人类已经进入了大数据时代,互联网高速发展的背景下,在软硬件,大数据能够应用的领域十分广泛,在这种潜力完全发挥之前,必须先解决许多技术挑战,首先,大数据存在存储技术方面数据处理方面数据安全方面的诸多条,造成大数据相关专业人才供不应求,影响了大数据,快速发展,究其本质来看,都需要专业人才与解决,几次大数据的采集存储和管理方面都需要大量的基础设施和能源,需要大量的硬件成本和能耗,而在数据备份的过程中,由于数据的分散性,备份数据相当困难,同时从大数据中提取含有信息和价值的过程是相当复杂的,这就需要数据处理人员加强业务理解能力构建数据理解数据准备模型建立数据处理部署以及数据评估等流程。
此外,大数据还面临安全和隐私问题,目前有研究者提出了一些有针对性的安全措施,但是这些安全措施还远远不够。
最后,大数据及其相关技术会使IT相关行业的生态环境和产业链发生变革,这对经济和社会发展有很大影响,如果我们要获得大数据所带来的益处,就必须大力支持和鼓励解决这些技术挑战的基础研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。