大数据环境下信息分析研究的重点领域是大数据分析。大数据分析的主要研究内容包括以下几个方面:
1.4.3.1 大数据分析理论
(1)大数据的概念与特征。
大数据(Big Data)目前还没有一个统一的定义,众多研究机构和学者的表述各不相同,但对其内涵已经基本达成共识。其中较具代表性的定义是[16]:
2008年《自然》杂志(Nature)发表的大数据专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。
2011年麦肯锡公司(McKinsey)发布的研究报告认为,大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。
2013年牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)在《大数据时代》(Big Data:A Revolution That Will Transform How We Live,Work,and Think)一书中指出,大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。
我国学者韩翠峰认为,大数据是结构化数据、半结构化数据以及非结构化数据的总和;大数据的“数据”着重在数据获取和数据应用方面,而不仅指数据存储。
樊伟红等认为“大数据”不同于“海量数据”,即大数据并不仅仅意味着数量大,更在于它的第三个维度,也就是涉及数据流、结构化与非结构化数据的处理速度与效率的时间维度和速度维度。她认为“海量数据”只是“大数据”的一个方面,而“大数据”在内容上远远超越了“海量数据”。
关于大数据的特征也存在多种形式的表述,从3V模型到4V理论,其本质都是对大数据中的“大”进行阐释。
早在2001年,IT咨询公司麦塔集团(Meta Group)的分析师道格·莱尼(Doug Laney)在一份研究报告中,将数据增长的挑战和机遇定义为3V:增长的Volume(数据数量)、Velocity(数据进出的速度)和Variety(数据类型和来源的范围),也就是体量、速率和多样。这就是最早所谓的描述大数据特征的3V模型。Meta Group于2004年被高德纳(Gartner)收购,Gartner定义大数据的3V特征为巨大的数据量(Volume)、数据的快速处理(Velocity)、多变的数据结构和类型(Variety),这一描述得到广泛的认同。
2011年7月的大数据世界论坛上,美国IDC全球存储及大数据研究项目副总裁本杰明·武(Benjamin S.Woo)提出了大数据4V理论,即容量(Volume)、类型(Variety)、速度(Velocity)和价值(Value),认为大数据还应当具有价值性,大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据需要具有真实性(Veracity)。
(2)大数据分析的内涵与理念。
大数据没有分析,就无法发挥其价值,大数据也就成了大垃圾。目前,约有95%的数据量因受限于人类数据分析解释能力和数据分析手段而被闲置。大数据分析可以发掘隐藏在大数据中的巨大价值,已经引起了广泛的关注。马费成在《情报学发展的历史回顾及前沿课题》一文中提出情报学需要研究的九个前沿性课题,将“大数据分析”排在了首位。[17]
大数据分析(Big Data Analysis,BDA)是在大数据环境下,对数据科学的重新思考和新模式探索的产物。大数据分析是大数据理念与方法的核心,是对海量、类型多样、增长快速、内容真实的数据(即大数据)进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。[18]具体来讲,大数据分析是根据数据生成机制,对数据进行广泛的采集与存储,并对数据进行格式化清洗,以大数据分析模型为依据,在集成化大数据分析平台的支撑下,运用云计算技术调度计算分析资源,最终挖掘出大数据背后的模式或规律的数据分析过程。大数据分析主要关注两方面内容:大数据本身及分析技术本身;如何将两者有机融合,以实现从大数据中提取有价值的情报并用以辅助决策之目的。
维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)提出大数据分析应该遵循三大基本理念:①要全体不要抽样。当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。②要效率不要绝对精确。执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。③要相关不要因果。知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。
1.4.3.2 大数据分析方法(www.daowen.com)
大数据分析方法是大数据分析的核心研究内容之一,分析方法对分析结果具有关键作用,并将最终影响分析成果的应用。江信昱和王柏弟归纳出基于数据、流程、信息技术视角的三类大数据分析方法。[19]
(1)基于数据视角的大数据分析方法。Soumendra Mohanty、Hsinchun Chen、Power D J等分别从数据量、数据类型、数据分析需求等角度对大数据分析方法进行了分类。
Soumendra Mohanty等在《大数据规则》(Big Data Imperatives:Enterprise Big Data Warehouse,BI Implementations and Analytics)一书中,依照处理数据量从小至大的顺序,提出8种大数据分析方法:流分析(以预定模式及时处理数据流)、高速的数据采集(不转换任何格式,可稍晚处理)、链接分析(构建不同数据源的关系与链接)、罕见事件侦查(从庞大数据集中寻找特定模式)、数据聚合(对数据属性发展故事线或链接关系进行分析)、文本分析(如观点挖掘或社会网络分析等)、时间序列分析(通过模式侦测及事件发生概率来处理时空数据)、数据辩论(用于数据科学家探索大规模数据集)。
Hsinchun Chen等认为,商业智能分析经历了3个发展阶段:处理结构化程度较高的数据、处理网络上半结构化数据、处理移动数据;涵盖了5类核心分析方法:数据分析(涉及数据仓储、ETL、联机分析及数据挖掘等分析技术)、文本分析(涉及信息检索、查询处理、相关反馈等分析技术)、网站分析(涉及网络爬虫、日志分析等分析技术)、网络分析(涉及信息计量、引用网络、数学网络模式等分析技术)、移动分析(可应用于个性化分析、游戏营销分析等)。
Power D J依据分析需求将数值型数据的分析方法划分为3类:回顾性数据分析(采取历史数据及定量工具对未来作出推论)、预测性数据分析(可采取历史数据及仿真模型进行前瞻及预测分析)、规范性数据分析(采取实时数据及定量工具对未来作出预测)。
(2)基于流程视角的大数据分析方法。计算社区联盟(Computing Community Consortium)出版的白皮书《大数据的挑战与机会》(Challenges and Opportunities with Big Data)将大数据分析的过程分为5个阶段,每一个阶段都包含相应的方法:数据获取及记录(从各种感知工具中获取数据,运用相关分析技术处理数据并过滤无用数据)、信息抽取及清洗(从异构数据源抽取有用信息,并转换为结构化的格式)、数据整合及表示(将数据结构与语义关系转换为机器可读取、自动解析的格式)、数据建模及分析(运用挖掘算法或知识发现等方法,从数据中挖掘出潜在规律及知识)、诠释(借助可视化分析技术,让用户容易解读分析结果)。
孟小峰等将大数据处理流程分为数据抽取与集成、数据分析及数据解释3个阶段,并梳理了各阶段所使用的分析方法。现有的数据抽取与集成方法可分为基于物化或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等4种类型;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需要做出调整;在数据解释方面,传统的解释方法基本不可行,需要引入可视化技术或交互式的数据分析过程,提升数据解释能力。
(3)基于信息技术视角的大数据分析方法。严霄凤和张德馨依照收集、存储、管理、处理、分析、共享和可视化的流程,梳理出适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析、分布式文件系统、分布式缓存、分布式数据库、非关系型数据库系统、可视化技术等多种方法与技术。[20]
1.4.3.3 大数据分析的关键技术
一般而言,大数据分析技术主要包括5个基本方面:可视化分析(Analytic Visualizations)、数据挖掘算法(Data Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)、数据质量和数据管理(Data Quality and Master Data Management)。
(1)可视化分析。面向大数据主流应用的可视化技术主要包括文本可视化、网络可视化、时空数据可视化、多维数据可视化技术等。文本可视化旨在将文本中蕴含的语义特征直观展现。网络可视化基于网络节点和连接的拓扑关系直观地展示网络中潜在的模式关系。时空数据可视化对时间与空间维度建立可视化表征,并对相关的模式及规律进行展示。多维数据可视化技术探索多维数据项的分布规律和模式,揭示不同维度属性之间的隐含关系。[21]
(2)数据挖掘算法。数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先未发觉的、有潜在价值的信息和知识的过程。[22]数据挖掘的基本过程包括数据准备、数据挖掘、解释评估和知识运用。数据挖掘的分析方法包括聚类分析、分类和预测、关联分析等。近年来,大数据领域的数据挖掘研究进展主要体现在可扩展性、并行性、分布式算法等方面。
(3)预测性分析能力。预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。预测过程主要考虑3个方面:计算复杂性、分类变量的因果关系以及预测模型的寻优。选择一个恰当的预测算法需要考虑现有数据、预测形式、预测精度、实时性要求、可理解性和可操作性等因素。预测分析的成功与否取决于数据质量、数据科学家和预测分析软件。
(4)语义引擎。面对非结构化数据与异构数据等的多样性,需要工具去解析、提取、分析数据。语义引擎的设计旨在从文档中智能提取信息,从大数据中挖掘出特点,通过科学建模和输入新的数据,预测未来的数据。语义分析技术包括3个方面:通过语义识别处理非结构化的社会性信息;通过支持大规模程序计算的自动分析应对持续快速增长的大数据;通过人工智能对信息进行及时处理,提高数据处理的时效性。
(5)数据质量和数据管理。数据质量是保证大数据能够有效地发挥作用的关键。大数据的数据质量问题体现在不一致、不精确、不完整、过时等方面。数据清洗(Data Cleaning)是发现并纠正数据文件中的错误,提高数据质量的重要途径,包括检查数据一致性、处理无效数据和缺失数据、处理重复对象、检测逻辑错误等。大数据环境下,传统的关系型数据库在数据管理性能方面已不能胜任,并行处理是必由之路,MapReduce和NoSQL更符合大数据管理要求。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。