理论教育 大数据系统的意义与层次

大数据系统的意义与层次

时间:2023-11-17 理论教育 版权反馈
【摘要】:大数据是互联网智慧和意识产生的基础。这就是互联网大数据兴起的根源和背景。2011年,谷歌公司开始将“深度学习”运用在自己的大数据处理上,互联网大数据与人工智能的结合为互联网大脑的智慧和意识产生奠定了基础。大数据的技术体系分为三个层次:大数据的采集与预处理、大数据的存储与管理、大数据的计算与分析。

大数据系统的意义与层次

大数据是互联网智慧和意识产生的基础。随着博客/微博、社交网络以及云计算、物联网等技术的兴起,互联网上的数据信息正以前所未有的速度增长和累积。互联网用户的互动、企业和政府的信息发布、物联网传感器感应的实时信息每时每刻都在产生大量的结构化和非结构化数据,这些数据分散在整个互联网网络体系内,数量极其巨大。这些数据中蕴含了经济科技教育领域非常宝贵的信息。这就是互联网大数据兴起的根源和背景。

与此同时,深度学习为代表的机器学习算法在互联网领域的广泛使用,使得互联网大数据开始与人工智能进行更为深入的结合,这其中就包括在大数据和人工智能领域领先的世界级公司,如百度谷歌、微软等。2011年,谷歌公司开始将“深度学习”运用在自己的大数据处理上,互联网大数据与人工智能的结合为互联网大脑的智慧和意识产生奠定了基础。

在大数据时代,学术研究、生产时间、公司战略、国家治理等都发生着本质变化,采集到的原始数据往往是“零金碎玉”,需要通过不同的逻辑进行集成融合,从不同角度解释挖掘,才能得出前人未知的大价值。大数据的技术体系分为三个层次:大数据的采集与预处理、大数据的存储与管理、大数据的计算与分析。大数据平台向下需要管理和使用好各种设备/介质,向上需要支持各种大数据处理与计算的需求。数据量大是大数据平台的一个难关,但不是最大的挑战,比数据量大更难应对的是数据的多样性、实时性、不确定性、关联性异质性等各种特性。

大数据系统主要包括以下几种类型:

1)分布式文件系统,如HDFS、GFS、MooseFS、Ceph和TFS。(www.daowen.com)

2)半结构化存储系统,如HBase、Spanner、Dynamo、Cassandra和OceanBase。

3)计算框架和编程模型:如Hadoop、Spark、Dryad、Naiad和Storm。

4)图计算和机器学习系统:如Hama、Giraph、Graphlab、MLbase和Mahout。

5)类SQL查询系统:如Hive、Shark、DryadLINQ和Dremel。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈