理论教育 基于大数据分析流程的技术要点

基于大数据分析流程的技术要点

时间:2023-06-14 理论教育 版权反馈
【摘要】:根据大数据分析流程,大数据分析的关键技术可分为数据采集、数据预处理、数据存储与管理、数据分析挖掘、数据可视化等环节。由于大数据具有大规模、异构、多源等特点,大数据分析技术与传统的数据分析技术也有所不同。在大数据分析的每个环节,都出现了许多针对大数据独特需求的新兴技术。从挖掘任务和挖掘方法的角度,大数据分析挖掘技术着重突破。

基于大数据分析流程的技术要点

根据大数据分析流程,大数据分析的关键技术可分为数据采集、数据预处理、数据存储与管理、数据分析挖掘、数据可视化等环节。由于大数据具有大规模、异构、多源等特点,大数据分析技术与传统的数据分析技术也有所不同。在大数据分析的每个环节,都出现了许多针对大数据独特需求的新兴技术(见图2-1)。

图2-1 基于大数据分析流程的关键技术

如图2-1所示,通过大数据采集技术和预处理技术,利用ETL[Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程]工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。通过数据存储技术,利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。通过数据分析挖掘技术,利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。通过数据可视化技术,对分析结果进行可视化呈现,帮助更好地理解数据、分析数据。

(一)大数据采集技术

数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

大数据采集一般分为大数据智能感知层和基础支撑层。大数据智能感知层,主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等;必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层,提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境;重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。

(二)大数据预处理技术

大数据预处理主要完成对已接收数据的辨析、抽取、清洗等操作。

1.抽取

因获取的数据可能具有多种结构和类型,数据抽取过程可以将这些复杂的数据转化为单一的或者便于处理的类型,以达到快速分析处理的目的。

2.清洗

对于大数据,并不全是有价值的,有些数据并不是需要关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

(三)大数据存储技术

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。大数据存储主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。(www.daowen.com)

开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为键值数据库、列存数据库、图存数据库以及文档数据库等。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

(四)大数据分析挖掘技术

改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。依据不同的标准,数据挖掘技术的分类结果也各不相同。

根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。

根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库等。

根据挖掘方法可分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度,大数据分析挖掘技术着重突破。

(1)可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观地感受到结果。

(2)数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法,可以精炼数据、挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。

(3)预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

(4)语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

(5)数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

(五)数据可视化技术

伴随着大数据时代的到来,数据可视化成为一个热门的话题,引起了极大的关注。无论是通过Excel的模板,还是使用R/GELPHI等专业工具,无论是使用国内魔镜公司的专业软件,还是使用百度旗下的Echarts,都可以帮助洞察出数据背后隐藏的潜在信息,都可以有效提高数据挖掘的效率,也都可以方便用户控制数据,更好地实现人机交互

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈