理论教育 大数据技术基础:计算机导论

大数据技术基础:计算机导论

时间:2023-11-09 理论教育 版权反馈
【摘要】:目前,大数据领域涌现出了许多新技术,成为大数据获取、存储、处理分析及可视化的有效手段。大数据存储技术包括建立相应的数据库,并进行管理和调用。该技术重点解决结构化、半结构化和非结构化大数据的管理与处理,涉及大数据的可存储、可表示、可处理、可靠性及有效传输等问题。

大数据技术基础:计算机导论

随着互联网技术的不断发展以及数字化的不断提高,大数据分析计算成为当今网络化和数字化的最新、最高的应用技术,各种搜索引擎,网络导航和数据统计等都依赖于大数据分析计算。目前,大数据领域涌现出了许多新技术,成为大数据获取、存储、处理分析及可视化的有效手段。总体来说,基于大数据分析计算流程的大数据技术体系如图10.1所示,其中,底层是基础设施,涵盖云计算技术及软件系统,具体表现为计算节点、集群、机柜和云计算数据中心以及大数据计算软件平台。在此基础之上是大数据存储与管理层,包括数据采集、预处理,涉及分布式文件系统、非关系数据库及资源管理系统等。然后是大数据分析计算层,涵盖数据挖掘算法、Hadoop、MapReduce和Spark以及在此之上的各种不同计算模式,如批处理、流计算和图计算,包括衍生出的编程技术等。大数据可视化层基于分析计算层对分析计算结果进行展示,通过交互式可视化,可以探索性地提出问题,形成迭代的分析和可视化内容。

图10.1 大数据技术体系

同时,还有两个领域垂直涵盖各层,需要整体、协同地看待:一个是编程和管理工具,方向是机器通过学习实现自动最优化,尽量无须编程和无须进行复杂的配置;另一个是大数据隐私与安全,也贯穿整个技术体系。另外,还有一些技术跨越多层,例如内存计算事实上覆盖了整个技术体系。

大数据技术体系所涉及的内容只做概况性介绍,感兴趣的读者可以进行选修:大数据采集技术;大数据预处理技术;大数据存储与管理;数据挖掘(大数据分析与计算模式)技术;大数据可视化与应用技术。

(1)大数据采集技术

大数据采集是指通过射频识别(RFID)、传感器、社交网络交互和移动互联网等方式获得各种类型的结构化、半结构化(或称为弱结构化)及非结构化的海量数据。大数据采集技术包括分布式高速、高可靠数据抓取或采集,高速数据全映像等,同时还要涉及高速数据解析、转换与装载等大数据整合技术以及数据质量评估模型的设计等。

(2)大数据预处理技术

大数据预处理主要完成对已接收数据的抽取、清洗等操作。

抽取——因获取的数据可能具有多种结构和类型,数据抽取过程就是将复杂的数据转化为单一的或者便于处理的类型,以达到快速分析处理的目的。

清洗——大数据并不全是有价值的,有些数据并不是人们所关心的内容,而另一些数据则可能是完全错误的干扰项,因此需要对数据通过过滤“去噪”,提取出有效数据。

(3)大数据存储与管理

数据经过采集和转换之后,需要存储归档。针对海量的数据,一般可以采用分布式文件系统和分布式数据库的存储方式,把数据分布到多个存储节点上,同时还要提供备份、安全、访问接口及协议等机制。

大数据存储技术包括建立相应的数据库,并进行管理和调用。该技术重点解决结构化、半结构化和非结构化大数据的管理与处理,涉及大数据的可存储、可表示、可处理、可靠性及有效传输等问题。

①新型数据库技术包括关系数据库、非关系数据库(NoSQL)以及数据库缓存系统。其中,非关系数据库又分为键值数据库(key-value store)、列存数据库(column family)、图存数据库(graph)以及文档数据库(document)4种类型;关系数据库包含传统关系数据库和各种新的可扩展/高性能数据库(NewSQL)。

②大数据安全技术包括改进数据销毁、透明加解密、分布式访问控制、数据审计等技术,以及突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。(www.daowen.com)

(4)数据挖掘技术

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过分析与计算提取隐含在其中,人们事先不知道但又潜在有用的信息和知识的过程。数据挖掘技术包括改进已有数据挖掘和机器学习技术,以及开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;其重点在于突破基于对象的数据连接、相似性连接等大数据融合技术,突破用户兴趣分析、网络行为分析、情感语义分析等领域的大数据挖掘技术。数据挖掘所涉及的技术方法很多,并有多种分类方法。

根据挖掘任务可分为:分类或预测模型发现,聚类、关联规则发现,序列模式发现,依赖关系或依赖模型发现,异常和趋势发现等。

根据挖掘对象可分为:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、图数据库、异质数据库等。

根据数据挖掘的方法可分为:机器学习方法、统计方法、神经网络方法和数据库方法。其中,机器学习方法又可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习法、遗传算法等。统计方法又可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。

大数据挖掘任务和挖掘方法主要集中在以下方面:

①可视化分析。数据可视化无论对于普通用户还是数据分析专家,都是最基本的功能;数据图像化可以让数据自己说话,让用户直观地感受到结果。

②数据挖掘算法。数据挖掘的目的是通过分割、集群、孤立点分析及其他各种算法让人们精炼数据、挖掘价值,其算法一定要能够应付大数据的量,同时还要具有很高的处理速度。

③预测性分析。分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

④语义引擎。采用人工智能技术从数据中主动地提取信息。语义处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

⑤数据质量和数据管理。通过标准化流程和机器对数据进行处理,以确保获得一个预设质量的分析结论。

在数据科学领域,国际权威的学术组织IEEE于2006年12月在中国香港召开的IEEE Internation Conference on Data Mining(ICDM)会议上评选出了十大经典算法,包括C4.5算法、k-均值算法、支持向量机、Apriori算法、EM算法、PageRank算法、AdaBoost算法、k-近邻算法、朴素贝叶斯算法和回归树算法。这十大算法中的任何一种都可以称得上是机器学习领域的经典算法,都在数据分析领域产生了极为深远的影响。

(5)大数据可视化与应用技术

数据可视化与交互在大数据技术中至关重要,因为数据最终需要为人们所使用,为生产、运营、规划提供决策支持。数据可视化除了用于末端展示,它也是数据分析时不可或缺的一部分,即返回数据时的二次分析。大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,提升整个社会经济的集约化程度。因此,选择恰当的、生动直观的数据展示方式,有助于用户更好地理解数据及其内涵和关联关系,也能够更有效地解释和运用数据,发挥其价值。

数据可视化还有利于大数据分析平台的学习功能建设,让没有技术背景的初学者也能很快掌握大数据分析平台的操作。在数据展示方式上,除了传统的报表、图形之外,可以结合现代化的可视化工具及人机交互手段展示大数据的价值取向。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈