大数据技术的缘起,可以回溯到2004年谷歌公司提出的MapReduce模型。在十几年时间里,大数据技术从概念走向应用,形成了以Hadoop为代表的一整套技术。时至今日,大数据技术仍在快速发展之中,无论是基础框架、分析技术,还是应用系统都在不断演变和完善。据统计,2015年美国大数据初创企业获得的融资额达到了66.4亿美元,占整个技术领域总融资额的11%。这代表着大数据领域具有蓬勃的活力并受到市场的肯定。大数据技术的发展方向是技术发展与应用需求相互推进的结果,对大数据技术趋势的分析,有助于从更本质的层面理解这个领域的现状。[9]
1.基础架构
历经多年发展,大数据基础设施正在向着快速、便捷与整合的方向发展。Hadoop框架是大数据分析的重要基础框架,但它存在着计算速度慢、运维复杂等问题。基于Hadoop衍生出了如Spark、Pig等框架,正在不断提升计算性能和优化处理流程。与Hadoop相比,Spark的抽象层次更高,计算速度更快,编程更加简便,更重要的是,Spark提供了统一的数据平台,通过不同的模块支持了不同类型的数据应用。通过Spark Core支持批处理,通过Spark SQL支持数据交互,通过Spark Streaming支持流式存储,通过MLlib支持机器学习,通过GrphaX支持图计算。
在大数据基础设施中,各种新技术不断产生,数据湖(Data Lake)和雾计算(Fog Computing)分别从数据的集中与分布的不同角度给出了解决方案。数据湖是大型的基于对象的存储库,数据以其原始格式存储。不需要对数据进行转换,就可以进行全面的监控和分析,并建立数据模型。与一般意义的数据汇聚不同,数据湖不需要改变原始数据的结构,而是支持分析原始数据。这种方式消除了数据抽取、转换和加载ETL的成本。为了达到不改变数据结构直接存储和技术的目标,数据湖对元数据有很高的要求。目前,数据湖技术仍在起步阶段,还存在原始数据差别大、类型复杂、分析应用困难等问题。但它有助于企业完成更长远的数据规划,建立数据治理结构,并预先解决安全问题。数据湖与一般大数据汇集方式的对比,如表8-2所示。
表8-2 数据湖与一般大数据汇集方式的对比
与数据湖侧重数据的聚集不同,雾计算则提出了一种分布式解决方案。雾计算这一名词最早来自网络安全领域,后来由思科(Cisco)公司借用,并赋予了分布式计算的含义。思科将雾解释为“更贴近地面的云”,雾计算是云计算的延伸。与云计算不同,雾计算并非由性能强大的服务器组成,而是由性能较弱、更为分散的各类计算模块和智能网络设置组成,这些低延迟且有能力进行位置感知的模块可以融入各类基础设施,乃至生活用品。
可以预见,随着物联网的不断发展,来自各类终端的数据量会激增。面对这一情况,云计算的瓶颈可能会凸显。在雾计算中,数据、分析和应用都集中在网络的终端节点,只在需要的时候汇集到云中。云计算与雾计算的对比,如表8-3所示。
表8-3 云计算与雾计算的对比
雾计算将计算能力延伸到了网络边缘的各类智能设备。在这种模式下,智能设备的管理与交互就变得非常重要。比如,比特币的底层技术“区块链”(Block Chain)形成了行动登记、权属确认和智能管理模式。这为通过网络实现各种智能终端和设备实现自我管理和智能交互,提供了新的技术支持。
数据湖和雾计算着眼于大数据的源头和终端,从分布和集中两个角度提供了解决方案。诚然,这些方案需要通过实践进行检验。但总体而言,数据湖和雾计算代表着大数据分析基础设施的发展趋势,即采用更灵活的方式获取和处理终端数据,合理分布计算负载,对核心数据进行广泛汇集,通过定制标准实现数据治理。
2.分析技术
分析技术是基于大数据进行模型构建,并进行评价、推荐和预测等具体应用的基础。大数据分析技术在近年得到快速发展,智能化、实时化和易用性成为了分析技术的发展特征。
第一,智能化。在分析技术方面,大数据与机器学习相结合形成的新型人工智能,已经成为近年最引人瞩目的趋势。大数据与机器学习正让数据分析在统计分析的基础上,更快速地实现智能关系发现和预测,如图8.2所示。AlphaGo就是这一趋势的典型应用范例。在海量数据的基础上,以深度学习为代表的创新算法,通过大规模并行计算,不断迭代演化,最终形成了能够战胜人类的数据智能。
大数据与机器学习整合所实现的人工智能,其意义不限于特定的领域应用,而是实现了一般性人工智能技术的突破。这一突破将在医疗、交通、金融和教育等为代表的各个应用领域产生重大影响。(www.daowen.com)
图8.2 数据与算法迭代演化形成数据智能
第二,实时化。实时分析是大数据技术的另一个发展方向。随着大数据技术的深入发展,各类应用对于数据的实时分析和处理的要求不断提高。与针对历史数据的聚合和分析不同,实时数据分析具有更强的时效性,也对数据存储、计算和呈现提出了更高要求。Hadoop中的批处理框架在对实效性要求较高的分析,例如,实时用户行为分析、用户分类和推荐等应用场景中的局限日益凸显。Spark Streaming,Samza,Storm等流式实时计算框架应运而生。以Spark Streaming为代表的实时分析框架具有优秀的调度机制,快速的分布式计算能力,在数据的汇聚和批处理之间通过关键参数建立平衡,提升了数据吞吐量和性能,对实时计算提供了有效支持。实时性预示着大数据将更深度地融入人们的工作和生活之中,在交通、翻译等需要及时响应的领域中,大数据会体现出更强大的作用。
第三,易用性。近年来,随着技术的不断成熟,大数据应用的门槛不断降低。Google、微软等巨头不断推出大数据技术平台。我国互联网三巨头——百度、阿里和腾讯分别推出了百度开放云、阿里数加和腾讯大数据平台,在应用技术方面提供了全面的支持。从数据汇集、模型构建到可视化应用方面都提供了高质量的解决方案。并且,这些分析框架中存在很多优秀的开源项目,如Caffe,Torch等。Google为Tensor Flow的开源分析工具提供了一个重要选择,Tensor Flow的开发者来自Google Brain团队,它整合了Google在搜索引擎、电子邮件和翻译、图像识别等方面的分析成果,并且应用了数据图技术(Data Flow Graphic)将模型构建过程和产品开发紧密结合,在完成建模实验之后就可以直接将代码应用到产品中。易用性为大数据在垂直领域的应用铺平了道路。
3.领域应用
在基础框架和应用技术的支持下,大数据在各个领域中的应用也在不断快速地深入,展现出了领域应用深化与融合、可视化应用广泛和产业生态链萌发的特征。
(1)领域深化与融合。
大数据在方法论层面上影响着多个领域的研究与实践,作为新的研究范式影响着众多学科。在各个领域应用中,大数据作为基础方法与工具有着一定的普适性,也具有鲜明的领域特征与领域差异。数据不同于金融、交通、零售等领域有着较为明确的量化指标作为机器学习的依据。在教育等社会科学相关领域中,大数据分析模型建立过程中形成的类量化指标往往很难获得。这就使得教育领域的模型构建具有了一定的独特性。同时,教育教学自身的周期性和复杂性,也为模型构建提出了新的挑战。
随着大数据的发展,领域应用将逐步深入。在各个领域中需要借助领域知识,针对领域问题进行深层次研究与实践。在此过程中,以数据为桥梁,各个领域的融合将成为可能。例如,始于气象系统的DMSP/OLS夜间灯光数据,已经在遥感测绘、城市规划、人口估计、国民经济测算、能源消耗以及生态环境影响评估方面取得了令人瞩目的成果。基于大数据,各个领域自身发生深刻变化的同时,领域之间的比较出现加速融合的趋势。大数据技术在领域内的深入发展和领域间的融合发展将日趋重要。
(2)可视化应用。
可视化是大数据应用的呈现层面,直接面向终端用户,并通过各类应用场景服务各类人群。数据可视化可以通过多种方式实现,从较为底层的R语言Ggplot扩展包、D3函数库,到SPSSModeler,Tableau等数据分析和可视化工具。数据可视化的方法和工具种类繁多,近年来,可视化工具的应用门槛不断降低。SAP,Tableau等重量级数据分析企业都推出了移动端数据可视化工具。以SAP的Roambi为例,只需要导入数据集,选择模板,Roambi就能够马上完成精美的可视化图表并支持互动。Tableau不仅推出了Tableau Mobile支持移动端数据分析,还通过Tableau Public和Desktop等工具,构建了包含桌面分析、在线发布和移动应用的整体可视化方案。
在各类工具支持下,数据可视化的应用门槛大大降低,为更加广泛的应用奠定了基础。数据可视化作为大数据技术的表现层,是数据分析与洞察的“最后一英里”。随着这个环节的不断优化与人性化,数据分析的广泛应用指日可待。
(3)生态链萌发。
2015年8月,国务院发布的《促进大数据发展行动纲要》,将大数据定位于推动经济转型发展的新动力,重塑国家竞争优势的新机遇以及提升政府治理能力的新途径。《促进大数据发展行动纲要》成为了大数据产业发展的政策依据,必将对大数据产业发展起到催化作用。大数据产业的资金投入、基础设施、数据标准、应用平台、区域实践必将呈现加速发展趋势。同时,正如前文所述,大型互联网企业如百度、阿里和腾讯等,已经在大数据领域发力,并开始构建基础设施、制定标准、推广应用,在各个应用领域的大数据实践也在快速开展。
可见,在政策重点支持、工具平台日渐成熟、领域应用不断深入的合力之下,大数据产业链正逐步形成,生态体系正在孕育之中。生态链将催生一系列数据标准,形成多种整合型技术路线,打通原始数据到终端应用,将大数据应用推向新的层次。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。