理论教育 大数据处理技术-计算机工程导论

大数据处理技术-计算机工程导论

时间:2023-11-24 理论教育 版权反馈
【摘要】:大数据技术是新兴的,能够高速捕获、分析、处理大容量多种类数据,并从中得到相应价值的技术和架构。大数据处理的关键技术主要包括:数据采集和预处理、数据存储、基础架构、数据分析和挖掘以及大数据应用。这两种途径分别针对原始数据集中的属性和记录进行处理。然而高可用性的硬件并不是大数据高效处理的全部决定性因素,合理的软件设计和架构同样必不可少。

大数据处理技术-计算机工程导论

大数据技术是新兴的,能够高速捕获、分析、处理大容量多种类数据,并从中得到相应价值的技术和架构。大数据处理的关键技术主要包括:数据采集和预处理、数据存储、基础架构、数据分析和挖掘以及大数据应用。

1.数据采集

数据是通过射频识别技术、传感器、交互型社交网络以及移动互联网获得的多类型海量数据,这些数据是大数据知识服务模型的根本。

大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系以及软硬件资源接入系统,可以实现对结构化、半结构化、非结构化海量数据的智能化识别、定位、跟踪、介入、传输、信号转换、监控、初步处理和管理等。基础支撑层主要提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境

2.数据预处理

数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、集成、转换、归约等并最终加载到数据仓库的过程。

(1)数据抽取:数据抽取是从数据源中抽取数据的过程。数据源采用关系型数据库和非关系型数据库。具体来说,就是搜索整个数据源,使用某些标准选择合乎要求的数据,并把这些数据传送到目的文件中。简单来说,数据抽取就是从数据源中抽取数据的过程。

(2)数据清洗:现实世界中接收到的数据一般是不完整、有噪声且不一致的。因此,为了提高数据挖掘结果的准确性,数据预处理是不可或缺的一步。数据清洗过程试图填充空缺值,光滑噪声并识别离群点,纠正数据中的不一致。数据清洗过程主要包括数据的默认值处理、噪声数据处理、数据不一致处理,常见的数据清洗工具有ETL和Potter’s Wheel。

(3)数据集成:数据集成过程是将多个数据源中的数据合并同时存放到一个一致的数据存储(如数据仓库)中,其中数据源可以包含多个数据库、数据立方体或一般文件。数据集成需要考虑诸多问题,如数据集成中对象匹配问题、冗余问题和数据值的冲突检测与处理问题。

(4)数据转换:将原始数据转化为适合于数据挖掘的数据形式。数据转化主要包括数据泛化、数据规范化和新属性构造。(www.daowen.com)

(5)数据归约:数据归约指在尽可能保持数据原貌的前提下,最大限度地精简数据量,该处理过程主要针对较大的数据集。数据归约主要有两个途径:属性选择和数据采样。这两种途径分别针对原始数据集中的属性和记录进行处理。

3.数据存储

数据存储过程需要将采集到的数据进行存储管理,建立相应的数据库。根据采集数据多样化的特点,数据主要存储在关系数据库、NoSQL、HTFS等数据库中。

为了保证数据的安全性,数据存储也需要考虑相应的安全技术,主要包括:分布式访问控制、数据审计、透明加解密、数据销毁、推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

单台计算机必然无法完成海量的数据处理工作,需要分布式架构的计算平台。然而高可用性的硬件并不是大数据高效处理的全部决定性因素,合理的软件设计和架构同样必不可少。现有的大数据计算平台主要是Map Reduce、Hadoop、Spark等。

4.数据分析和挖掘

数据分析是指利用相关数学模型以及机器学习算法对数据进行统计、预测和文本分析。数据分析可分为预测性分析、关联分析和可视化分析。数据的主要分析方法有探索性数据分析方法、描述统计法、数据可视化等。

预测性分析是通过大数据中某些特点科学地建立模型,并将最新数据应用到已建立的模型中,达到预测未来数据趋势的目的,从而减少对未来事物认知的不确定性。关联分析的目的是寻找数据之间的内在联系。可视化分析是将大型数据库中的数据以图形图像的形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。对应处理工具主要有动态分析工具和以图形、表格等可视化元素为主的工具。可视化分析可以直观地呈现大数据的特点。

数据挖掘是利用人工智能、机器学习、统计学等多学科方法从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据集中提取隐含在其中的有价值信息或模式的计算过程。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈