大数据作为智能决策分析的基础,对数据规模和传输速度要求很高。为了获取大数据中的价值,人们必须选择另一种方式来处理它。大数据中隐藏着有价值的模式和信息,以往需要相当的时间和成本才能对其进行提取。如沃尔玛和谷歌这类领先企业都要付出高昂的代价才能从大数据中挖掘信息,而当今的各种资源(如硬件、云架构和开源软件)使大数据的处理更为方便和廉价。
1.大数据的“4V”特征
(1)大量化(Volume)。企业面临着数据量的大规模增长。例如,国际数据公司(International Data Corporation,IDC)最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1 PB数据需要两万台配备50 GB硬盘的个人计算机。此外,各种意想不到的来源都能产生数据。
(2)多样化(Variety)。一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确,然而,数据多样性的增加主要是由于新型多结构数据以及网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等产生的数据类型。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
(3)快速化(Velocity)。快速化描述的是数据被创建和移动的速度。在高速网络时代,基于实现软件性能优化的高速计算机处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析数据并将其返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年,全球将拥有220亿部互联网连接设备。
(4)价值(Value)。基于大量的不相关信息,对未来的趋势与模式可进行预测分析和深度复杂分析。
2.大数据处理的关键技术
大数据处理的关键技术一般包括大数据采集技术、大数据预处理技术、大数据存储及管理技术、大数据分析及挖掘技术和大数据展现和应用技术(大数据检索、大数据可视化、大数据应用、大数据安全等)。
(1)大数据采集技术。大数据采集是指通过射频数据、传感器数据、社交网络交互数据及移动互联网数据等获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,它是大数据知识服务模型的根本。其重点要突破分布式高速、高可靠数据爬取或采集和高速数据全映像等大数据收集技术,高速数据解析、转换与装载等大数据整合技术;设计质量评估模型并开发数据质量技术。(www.daowen.com)
大数据采集一般分为大数据智能感知层和大数据基础支撑层。大数据智能感知层主要包括数据传感体系,网络通信体系,传感适配体系,智能识别体系及软、硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。大数据基础支撑层提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络等基础支撑环境。其重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
(2)大数据预处理技术。大数据预处理主要是指对已接收数据的辨析、抽取和清洗等操作。①抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助人们将这些复杂的数据转化为单一的或者便于处理的结构和类型,以达到快速分析处理的目的。②清洗:数据并不全是有价值的,有些数据并不包含人们所关心的内容,而另一些数据则是完全错误的干扰项,因此,要对数据过滤“去噪”并提取有效数据。
(3)大数据存储及管理技术。任何大数据存储都会受到物理上的限制,在数据不断增长的情况下,即使提升硬件配置也无法跟上数据增长速度。因此,应合理使用相应的技术,在分布式架构下的存储系统中对数据进行管理和调用,以解决大数据的存储、表示、处理、可靠及有效传输问题以及复杂结构化、半结构化和非结构化的大数据管理等关键问题。
需要突破传统数据库架构并开发新型数据库;突破分布式非关系型大数据管理与处理技术,结合异构数据的数据融合技术、数据组织技术;研究大数据建模技术,实现大数据可视化技术;开发大数据安全技术;改进数据销毁,透明加、解密,分布式访问控制,数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
(4)大数据分析及挖掘技术。需要开发数据网络挖掘、特异群组挖掘、图挖掘等新型大数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
大数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。大数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象,可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。挖掘方法可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法可细分为归纳学习方法(决策树、规则归纳等)、基于范例的学习方法、遗传算法等。统计方法有回归分析(多元回归、自回归等)方法、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)方法、聚类分析(系统聚类、动态聚类等)方法和探索性分析(主元分析法、相关分析法等)方法等。神经网络方法则有前向神经网络(BP算法等)方法、自组织神经网络(自组织特征映射、竞争学习等)方法等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
从挖掘任务和挖掘方法的角度,着重突破:①可视化分析。数据可视化无论对于普通用户还是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观地感受到结果。②数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样的算法让人们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。③预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果作出一些前瞻性判断。④语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。⑤数据质量和数据管理。数据质量和数据管理是管理的最佳实践,通过标准化流程和机器对数据的处理可以确保获得预设质量的分析结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。