理论教育 大数据环境下信息分析研究的最新进展

大数据环境下信息分析研究的最新进展

时间:2023-08-01 理论教育 版权反馈
【摘要】:大数据与信息分析存在着天然的联系,大数据产生价值的实质性环节就是信息分析。大数据环境下信息分析发生了重大变革,大数据分析与传统信息分析的差异突出体现在分析对象、分析模式、分析工具、分析结果等方面。大数据环境下,数据量巨大,变量数目往往数不胜数

大数据环境下信息分析研究的最新进展

*本文系国家社会科学基金重大项目“云计算环境下的信息资源集成与服务研究”(项目编号:12&ZD220)和国家社会科学基金青年项目“大数据环境下数字出版知识服务研究”(项目编号:14CTQ028)研究成果之一。

卢小宾1 郭亚军2

(1.中国人民大学信息资源管理学院;2.郑州航空工业管理学院信息科学学院)

【摘 要】世界已经进入“大数据时代”,以大数据为代表的新一轮信息化浪潮将重塑信息分析理论,推动信息分析技术创新。本文在总结大数据分析与传统信息分析差异的基础上,论述了大数据分析理论、大数据分析方法、大数据分析技术等信息分析重点领域的研究进展,探讨了大数据环境下信息分析研究将越来越侧重于定量分析、实时分析、协同分析以及用户参与分析等发展趋势。

关键词】信息分析 大数据 大数据分析 研究进展

Research Progress of Information Analysis in Big Data Environment

Xiaobin Lu1 Yajun Guo2

(1.School of Information Management,Renmin University of China;2.School of Information Sciences,Zhengzhou University of Aeronautics)

【Abstract】The world has entered the era of big data,the new round of informatization tide represented by big data will reshape theinformation analysis theory,and promote the innovation of information analysis technology.The paper discusses the research progress of the key areas of information analysis include big data analysis theory,big data analysis method,and big data analysis technique on the basis of summing up the difference between big data analysis and traditional information analysis.Finally,the paper inquires into that the development trend of the research of information analysis in big data environment will be more and more focused on the quantitative analysis,real-time analysis,collaborative analysis and user involvement analysis.

【Keywords】information analysis big data big data analysis research progress

信息分析(information analysis,亦称情报分析、情报研究或情报调研)是根据用户的特定需求,对原生信息进行有针对性的选择、分析、综合、预测,为用户提供系统、准确、及时、大流量的知识与信息的科学研究活动。它是在现代信息分析活动快速发展的背景下,于20世纪50年代由情报科学中派生出来的一门新兴学科。随着信息社会和信息经济的发展,信息分析已经从科技领域拓展到经济、社会、文化等各个领域。目前,在国民经济和社会发展过程中,无论是决策活动、管理活动,还是创新活动,都离不开信息分析活动的支持。在当今竞争日趋激烈的现代社会里,信息分析已成为提升个人、组织乃至国家竞争力的重要手段[1]

半个多世纪以来,随着信息环境的变化和信息技术的发展,信息分析工作也发生了巨大的变革。目前,以大数据为代表的新一轮信息化浪潮将重塑信息分析理论,推动信息分析技术与方法创新,拉开信息分析产业革命的序幕。

1 大数据对信息分析的影响

世界已经进入“大数据时代”,大数据正以难以想象的速度带来新一轮信息化革命,大数据充斥着现代社会的各个领域,影响甚至改变我们的生活。大数据与信息分析存在着天然的联系,大数据产生价值的实质性环节就是信息分析。大数据环境下信息分析发生了重大变革,大数据分析与传统信息分析的差异突出体现在分析对象、分析模式、分析工具、分析结果等方面。

1.1 分析对象变革:从随机样本到全体数据

大数据分析对象与传统信息分析对象虽然都是数据,但大数据分析的是全体数据,而不是随机样本[2]。这在规模和结构上均发生了巨大的变化。

从规模上看,过去受到信息记录、存储、分析工具的限制,我们只能收集少量样本数据进行信息分析,准确分析大量数据是一种挑战;如今信息技术水平已经有了非常大的提升,我们可以处理的数据量大大增加。传统信息分析的数据量是以MB、GB 为基本处理单位,而大数据分析的数据量则是PB、EB、ZB 级,中国人民大学孟小峰和慈祥将二者的区别形象地类比为“池塘捕鱼”和“大海捕鱼”[3]

从结构上看,传统信息分析的数据种类单一,一般是单纯的由文字、图像、声音、视频等组成的二维数据,并且以结构化数据为主。大数据分析则数据种类繁多,一般由文字、声音、视频、多媒体、流媒体等组成,多是自动化或半自动化生成,包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据占据越来越大的比例。

1.2 分析模式变革:从“先假设,后关系”到“先数据,后关联”

传统信息分析一般遵循的是“先假设,后关系”的分析模式,先假设某种关系存在,然后根据假设针对性地分析数据并计算变量之间的相关关系。大数据环境下,数据量巨大,变量数目往往数不胜数,“先假设,后关系”的分析模式难以适用,转而采取“先数据,后关联”的分析模式,挖掘和发现大容量数据中隐含的关联、规则和规律。

传统信息分析的数据量小且变量数目少,大部分的相关关系分析在于寻求线性关系,人们往往会构造回归方程探求现象之间的因果关系,解决“为什么”的问题。随着数据量的增加,相关关系也变得更加复杂,经过大数据分析,我们能够发现数据的非线性关系,通过对事物相关关系的挖掘与发现,解决“是什么”的问题。相关关系分析在很多情况下可以取代因果关系起作用,即使不能取代,也能指导因果关系的研究,如果我们不满足于知道“是什么”,就会在此方向指引下继续研究因果关系,找出背后的“为什么”。

1.3 分析工具变革:从数学模型到数据挖掘

传统信息分析是“池塘捕鱼”,一种或少数几种渔网基本就可以应对,也就是所谓的One Size Fits All。大数据分析则是“大海捕鱼”,不可能存在一种渔网能够捕获所有的鱼类,也就是说No Size Fits All[3]。大数据分析对工具的要求更高,工具的种类也更多。

传统信息分析只需要对有限的样本数据进行定量和定性分析,主要分析工具是数学模型逻辑思维,选择合适的信息分析方法对样本进行处理是传统信息分析的关键。而大数据分析面对的是海量的数据,分析工具以数据挖掘为主,选择合适的数据和挖掘算法是大数据分析的关键[4]

1.4 分析结果变革:从追求精确到拥抱混杂

传统信息分析希望尽可能用有限的样本数据全面准确地反映总体,分析数据的有限意味着细微的错误会被放大,甚至影响整个结果的准确性,这就要求所分析的数据精确,减少错误,保证质量。大数据分析让我们使用所有可获取的数据变成现实,但数据量的大幅增加也可能会导致一些错误的数据混杂进来,造成结果的不精确。在大数据环境下,我们应该接受纷繁复杂的各类数据,放宽容错的标准,不应一味追求数据的精确性,以免因小失大。数据库设计专家帕特·赫兰德(Pat Helland)认为,处理大数据会不可避免导致部分信息的缺少,但能快速得到想要的结果弥补了这个缺陷,他的观点是:“如果你有足够多的数据,那么‘足够好' 真的足够好。”[5]

当我们在进行大数据分析时,不再需要担心某个数据点对整个分析的不利影响,不需要花费高昂的代价消除所有的不确定性,而是接受这些纷繁的数据并从中受益,从追求精准转变到拥抱混杂。

2 大数据环境下信息分析研究的重点领域

大数据环境下信息分析研究的重点领域是大数据分析,通过对相关文献的研究主题进行总结,可以发现大数据分析的主要研究内容包括以下几个方面:

2.1 大数据分析理论研究

2.1.1 大数据的概念与特征

大数据(Big Data)目前还没有一个统一的定义,众多研究机构和学者的表述各不相同,但对其内涵已经基本达成共识。其中较具代表性的定义是:

2008年《自然》 杂志(Nature)发表的大数据专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[6]

2011年麦肯锡公司(McKinsey)发布的研究报告认为,大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别[7]

2013年牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)在《大数据时代》(Big Data:A Revolution That Will Transform How We Live,Work,and Think)一书中指出,大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法[2]

维基百科给出的定义是,大数据是关于数据集(data sets)的一个宽泛的术语,这个数据集如此之大和复杂,以至于传统的数据处理程序无法处理[8]

我国学者韩翠峰认为,大数据是结构化数据、半结构化数据以及非结构化数据的总和;大数据的“数据”着重在数据获取和数据应用方面,而不仅指数据存储[9]

樊伟红等认为“大数据”不同于“海量数据”,即大数据并不仅仅意味着数量大,更在于它的第三个维度,也就是涉及数据流、结构化与非结构化数据的处理速度和效率的时间维度及速度维度。她认为“海量数据”只是“大数据”的一个方面,而“大数据”在内容上远远超越了“海量数据”[10]

关于大数据的特征也存在多种形式的表述,从3V 模型到4V理论,其本质都是对大数据中的“大”进行阐释。

早在2001年,IT 咨询公司麦塔集团(Meta Group)的分析师道格·莱尼(Doug Laney)在一份研究报告中,将数据增长的挑战和机遇定义为3V:增长的volume(数据数量)、velocity(数据进出的速度)和variety(数据类型和来源的范围),也就是体量、速率和多样,这就是最早所谓的描述大数据特征的3V 模型。Meta Group 于2004年被高德纳(Gartner)收购,Gartner 定义大数据的3V 特征为:巨大的数据量(volume)、数据的快速处理(velocity)、多变的数据结构和类型(variety),这一描述得到广泛的认同。

2011年7月的大数据世界论坛上,美国IDC 全球存储及大数据研究项目副总裁本杰明·武(Benjamin S.Woo)提出了大数据4V 理论,即:容量(volume)、类型(variety)、速度(velocity)和价值(value),认为大数据还应当具有价值性,大数据的价值往往呈现出稀疏性的特点[11]。而IBM 认为大数据需要具有真实性(veracity)[12]

2.1.2 大数据分析的内涵与理念

大数据没有分析,就无法发挥其价值,大数据也就成了“大垃圾”。目前,约有95%的数据量因受限于人类数据分析解释能力和数据分析手段而被闲置。大数据分析可以发掘隐藏在大数据中的巨大价值,已经引起了广泛的关注。马费成在《情报学发展的历史回顾及前沿课题》 一文中提出情报学需要研究的九个前沿性课题,将“大数据分析”排在了首位[13]

大数据分析(big data analysis,BDA)是在大数据环境下,对数据科学的重新思考和新模式探索的产物。大数据分析是大数据理念与方法的核心,是对海量、类型多样、增长快速、内容真实的数据(即大数据)进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程[14]。具体来讲,大数据分析是根据数据生成机制,对数据进行广泛的采集与存储,并对数据进行格式化清洗,以大数据分析模型为依据,在集成化大数据分析平台的支撑下,运用云计算技术调度计算分析资源,最终挖掘出大数据背后的模式或规律的数据分析过程[15]。大数据分析主要关注两方面内容:大数据本身及分析技术本身;如何将二者有机融合,以实现从大数据中提取有价值的情报并用以辅助决策之目的[16]

维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)[2]提出,大数据分析应该遵循三大基本理念:①要全体不要抽样。当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。②要效率不要绝对精确。执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。(3)要相关不要因果。知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

2.2 大数据分析方法研究

大数据分析方法是大数据分析的核心研究内容之一,分析方法对分析结果具有关键作用,并将最终影响分析成果的应用。江信昱和王柏弟归纳出基于数据、流程、信息技术视角的三类大数据分析方法[17]

2.2.1 基于数据视角的大数据分析方法

Soumendra Mohanty,Hsinchun Chen,Power D J 等分别从数据量、数据类型、数据分析需求等角度对大数据分析方法进行了分类。

Soumendra Mohanty 等在《大数据规则》(Big Data Imperatives:Enterprise Big Data Warehouse,BI Implementations and Analytics)[18]一书中,依照处理数据量从小至大的顺序,提出8种大数据分析方法:流分析(以预定模式及时处理数据流)、高速的数据采集(不转换任何格式,可稍晚处理)、链结分析(构建不同数据源的关系与链接)、罕见事件侦查(从庞大数据集中寻找特定模式)、数据聚合(对数据属性发展故事线或链接关系进行分析)、文本分析(如观点挖掘或社会网络分析等)、时间序列分析(通过模式侦测及事件发生概率来处理时空数据)、数据辩论(用于数据科学家探索大规模数据集)。

Hsinchun Chen 等[19]认为,商业智能分析经历了3个发展阶段:处理结构化程度较高的数据、处理网络上半结构化数据、处理移动数据。涵盖了5类核心分析方法:数据分析(涉及数据仓储、ETL、联机分析及数据挖掘等分析技术)、文本分析(涉及信息检索、查询处理、相关反馈等分析技术)、网站分析(涉及信息检索、网络爬虫、日志分析等分析技术)、网络分析(涉及信息计量、引用网络、数学网络模式等分析技术)、移动分析(可应用于个性化分析、游戏营销分析等)。

Power D J[20]依据分析需求将数值型数据的分析方法划分为3类:回顾性数据分析(采取历史数据及定量工具对未来作出推论)、预测性数据分析(可采取历史数据及仿真模型进行前瞻及预测分析)、规范性数据分析(采取实时数据及定量工具触发事件)。

2.2.2 基于流程视角的大数据分析方法

计算社区联盟(Computing Community Consortium)出版的白皮书《大数据的挑战与机会》(Challenges and Opportunities with Big Data)[21]将大数据分析的过程分为5个阶段,每一个阶段都包含相应的方法:数据获取及记录(从各种感知工具中获取数据,运用及时分析技术处理数据并过滤无用数据)、信息抽取及清洗(从异构数据源抽取有用信息,并转换为结构化的格式)、数据整合及表示(将数据结构与语义关系转换为机器可读取、自动解析的格式)、数据建模及分析(运用挖掘算法或知识发现等方法,从数据中挖掘出潜在规律及知识)、诠释(借助可视化分析技术,让用户容易解读分析结果)。

孟小峰和慈祥[3]将大数据处理流程分为数据抽取与集成、数据分析及数据解释3个阶段,并梳理了各阶段所使用的分析方法。现有的数据抽取与集成方法可分为基于物化或ETL 的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等4种类型;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需要作出调整;在数据解释方面,传统的解释方法基本不可行,需要引入可视化技术或交互式的数据分析过程,提升数据解释能力。

2.2.3 基于信息技术视角的大数据分析方法

严霄凤和张德馨[22]依照收集、存储、管理、处理、分析、共享和可视化的流程,梳理出适用于大数据的关键技术,包括:遗传算法神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析、分布式文件系统、分布式缓存分布式数据库、非关系型数据库系统、可视化技术等多种方法与技术。

2.3 大数据分析技术研究

2.3.1 大数据处理系统

程学旗等[23]总结,目前人们对大数据的处理形式主要有:对静态数据的批量处理,对在线数据的实时处理(包括对流式数据的处理和实时交互计算),以及对图数据的综合处理。

(1)批量数据处理系统。批量数据的体量巨大,达到PB 级别,数据以静态的形式存储在硬盘中,往往是从应用中沉淀下来的,精确度高,数据价值密度低,需要通过合理的算法才能抽取有用的价值。批量数据处理耗时长,不提供用户与系统的交互手段。Hadoop[24]是典型的大数据批量处理架构,由HDFS 负责静态数据的存储,并通过MapReduce 将计算逻辑分配到各数据节点进行数据计算和价值发现。

(2)流式数据处理系统。流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特性,或者有其他的有序标签。从数据库的角度而言,每一个元素可以看作是一个元组,而元素的特性则类比于元组的属性,流式数据的元组通常带有时间标签或其余含序属性,数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的,流式数据是活动的,随着时间的推移不断增长[25]。典型的流式数据处理系统有Twitter 的Storm,Facebook 的Scribe,Linkedin 的Samza,Cloudera的Flume,Apache 的Nutch。

(3)交互式数据处理系统。与非交互式数据处理相比,交互式数据处理灵活、直观、便于控制。系统与操作人员以人机对话的方式一问一答,直至获得最后处理结果。采用这种方式,存储在系统中的数据文件能够被及时处理修改,同时处理结果可以立刻被使用。交互式数据处理系统的典型代表是Berkeley 的Spark 系统和Google 的Dremel 系统。

(4)图数据处理系统。图数据中主要包括图中的节点以及连接节点的边,节点之间具有关联性。图数据的种类繁多,没有一个通用的图数据处理系统能满足所有领域的需求。图数据计算的强耦合性对图的规模日益增大达到上百万甚至上亿节点的大图数据计算提出了巨大的挑战。目前主要的图数据库有GraphLab、Giraph、Neo4j、HyperGraphDB、InfiniteGraph、Cassovary、Trinity 以 及Grappa 等。(www.daowen.com)

2.3.2 大数据分析关键技术

一般而言,大数据分析技术主要包括五个基本方面:可视化分析( analytic visualizations)、数据挖掘算法( data mining algorithms)、预测性分析能力(predictive analytic capabilities)、语义引擎(semantic engines)、数据质量和数据管理(data quality and master data management)。

(1)可视化分析。面向大数据主流应用的可视化技术主要包括文本可视化、网络可视化、时空数据可视化、多维数据可视化技术等[26]。可视化旨在将文本中蕴含的语义特征直观展现。网络可视化基于网络节点和连接的拓扑关系直观地展示网络中潜在的模式关系。时空数据可视化对时间与空间维度建立可视化表征,并对相关的模式及规律进行展示。多维数据可视化技术探索多维数据项的分布规律和模式,揭示不同维度属性之间的隐含关系[27]

(2)数据挖掘算法。数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先未发觉的、有潜在价值的信息和知识的过程[28]。数据挖掘的基本过程包括数据准备、数据挖掘、解释评估和知识运用。数据挖掘的分析方法包括聚类分析、分类和预测、关联分析等。近年来,大数据领域的数据挖掘研究进展主要体现在可扩展性、并行性、分布式算法等方面。

(3)预测性分析能力。预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。预测过程主要考虑3个方面:计算复杂性、分类变量的因果关系以及预测模型的寻优。选择一个恰当的预测算法,需要考虑现有数据、预测形式、预测精度、实时性要求、可理解性和可操作性等因素。预测分析的成功与否取决于数据质量、数据科学家和预测分析软件。

(4)语义引擎。面对非结构化数据与异构数据等的多样性,需要工具去解析、提取、分析数据。语义引擎的设计旨在从文档中智能提取信息,从大数据中挖掘出特点,通过科学建模和输入新的数据,预测未来的数据。语义分析技术包括3个方面:通过语义识别处理非结构化的社会性信息;通过支持大规模程序计算的自动分析应对持续快速增长的大数据;通过人工智能对信息进行及时处理,提高数据处理的时效性

(5)数据质量和数据管理。数据质量是保证大数据能够有效发挥作用的关键。大数据的数据质量问题体现在不一致、不精确、不完整、过时等方面。数据清洗(data cleaning)是发现并纠正数据文件中的错误,提高数据质量的重要途径,包括检查数据一致性,处理无效数据和缺失数据、处理重复对象、检测逻辑错误等。大数据环境下,传统的关系型数据库在数据管理性能方面已不能胜任,并行处理是必由之路,MapReduce 和NoSQL 更符合大数据管理要求。

3 大数据环境下信息分析研究的未来走向

大数据环境下信息分析研究将越来越侧重于定量分析、实时分析、协同分析以及用户参与分析。

3.1 定量分析成为信息分析的主流研究范式

图灵奖获得者、著名数据库专家Jim Gray 认为,科学研究的范式先后经历了经验范式、理论范式和模拟范式,随着大数据时代的到来,这三种传统范式在一些新的研究领域已经无法很好的发挥作用,这便催生了科学研究的第四范式——数据范式[29],即:先将获取和生成的大量数据经数据处理后,存储在超大容量的计算机中,科研人员运用数据管理的原理和方法对大数据库进行数据分析和挖掘,形成新数据库,并据此产生新的思维,研究出新的科研成果。

Duncan J.Watts[30]在《自然》 杂志上撰文指出,借助社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。

大数据环境下,定量分析将成为信息分析的主流研究范式。大数据分析的任务是对数据去冗分类,去粗取精,从数据中挖掘出有价值的信息与知识,把大数据通过定量分析变成小数据[31]

3.2 大数据实时分析成为信息分析的突出特色

从分析时机角度区分,信息分析可以分为历史分析和实时分析。历史分析是对历史静态数据做分析,实时分析是对变化着的数据作分析。传统信息分析提供准确可靠的决策参考要以充足的分析时间为前提,虽然在动态跟踪时会使用实时更新的数据,但在规律总结与趋势分析时主要使用带有一定阶段性和滞后性的数据。大数据环境下,对信息分析既要求分析的准确性,又要求分析的时效性。

大数据技术的发展为实时分析提供了条件,实时大数据分析在很多领域已经得到广泛的应用,如舆情监测系统通过对网络舆情抓取和数据实时更新,及时辨别舆情风险并发出预警信号,做到早发现、早预警、早引导;电子商务网站根据用户当前浏览页面的点击行为,实时分析用户的购买动机,为用户准确推送商品推荐信息。

虽然对实时数据进行处理和实现实时预测并非易事,但大数据实时分析作为未来信息分析的突出特色,为信息分析提供了广阔的发展空间。

3.3 协同分析成为信息分析的发展趋势

协同论(synergetics)是20世纪70年代以来在多学科研究基础上逐渐形成和发展起来的一门新兴学科。赵凡和冉美丽提出,协同情报研究是指一项复杂的情报研究任务由多个部门的研究人员甚至是多个机构的研究人员,在分散的工作地点,主要通过众多现代化的信息技术和网络通信手段,共同协作完成的一种情报研究方式[32]。大数据环境下,尤其需要开展协同分析。

大数据协同分析首先体现在数据的协同收集上,大数据类型多种多样且数量庞大,靠单一机构或个人的能力很难完成对数据的收集处理工作,而是需要多人、多部门的合作与数据共享。其次,分析技术和工具的协同成为分析处理大规模、多类型数据集的必然要求,大数据环境下,信息分析问题越来越复杂,综合运用多种方法、技术和工具开展大数据分析的特征会越来越明显。最后,人员的跨界协同合作可以实现优势互补,使参与分析的人员发挥各自的能力,共同致力于任务的完成。

3.4 用户可以更深层次参与信息分析

一直以来,用户参与被认为是提高信息分析水平的有效途径,特别是用户参与早期的需求分析工作。用户参与会带来更多的信任、更高的控制感、更多的自我参与感或组织认同感,最终会提升用户对信息分析成果的满意度。

在大数据技术的支持下,用户可以更大程度上了解和参与具体的信息分析过程。主要途径有两种:一是采用人机交互技术,利用交互式的数据分析过程来引导用户逐步进行分析,使用户在得到结果的同时更好的理解分析过程和结果的由来;二是采用数据起源技术,可以帮助用户追溯整个数据分析的过程,有助于用户更好地理解信息分析结果。

参考文献

[1]卢小宾,郭亚军.信息分析理论与实践[M].北京:清华大学出版社,2013.

[2]Mayer-Schönberger V.Big data: A revolution that will transform how we live,work,and think [M].Boston: Houghton Mifflin Harcourt Publishing Company,2013.

[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[4]文庭孝,等.大数据时代的信息分析变革研究[J].图书情报知识,2015,167(5):66-73.

[5]Helland P.If you have too much data,then ‘good enough' is good enough [J].Communications of the Acm,2011,9(9): 40-47.

[6]Goldston D,et al.Big data: science in the petabyte era [J].Nature,2008,455(9): 1-136.

[7]Manyika J,Chui M,Brown B,et al.Big data: The next frontier for innovation,competition,and productivity [R].McKinsey Global Institute,2011.

[8]Big Data [EB/OL].[2015-11-01].http: / /en.wikipedia.org/wiki/Big_data.

[9]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.

[10]樊伟红,李晨晖,张兴旺,秦晓珠,郭自宽.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.

[11]Woo B S.Big data: Finding answers where there are yet to be questions? [C].BIG DATA World Forum,2011.

[12]IBM.What is big data?[EB/OL].[2015-11-01].http: / /www-01.ibm.com/software/data/bigdata/what-is-big-data.html.

[13]马费成.情报学发展的历史回顾及前沿课题[J].图书情报知识,2013,152(2):4-12.

[14]The White House.Big data across the federal government [EB/OL ].[ 2015-11-01].http: / /www.whitehouse.gov/sites/default/files/microsites/ostp/big-data-fact-sheet-final.pdf.

[15]官思发,孟玺,李宗洁,刘扬.大数据分析研究现状、问题与对策[J].情报杂志,2015,34(5):98-104.

[16]Russom P.Big date analytics [R].The Data Warehousing Institute,2011.

[17]江信昱,王柏弟.大数据分析的方法及其在情报研究中的适用性初探[J].图书与情报,2014(5):13-19.

[18]Mohanty S,Jagadeesh M,Srivatsa H.Big data imperatives:Enterprise big data warehouse,BI implementations and analytics[M].New York: Apress,2013.

[19]Chen H,Chiang R,Storey VC.Business intelligence and analytics: From big data to big impact [J].MIS Quarterly,2012,36(4): 1165-1188.

[20]Power D J.Using “big data”for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[21]Computing community consortium.Challenges and opportunities with big data [ R].Washington DC: Computing Research Association,2012.

[22]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,23(4):168-172.

[23]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.

[24]Hadoop.http: / /hadoop.apache.org/.

[25]Chakravarthy S,Jiang Q.Stream data processing: A quality of service perspective: Modeling,scheduling,load shedding,and complex event processing [M].Berlin: Springer-Verlag,2009.

[26]高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015,38(3):1-12.

[27]任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936.

[28]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,3(3):45-47.

[29]Hey T,Tansley S,Tolle K.The fourth paradigm: Data-intensive scientific discovery [M].Redmond: Microsoft Research,2009.

[30]Watts D J.A twenty-first century science [J].Nature,2007,445(7127): 489.

[31]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4):47-49.

[32]赵凡,冉美丽.情报服务实践中的协同情报研究理论探讨[J].图书情报知识,2007,116(3):65-68.

【作者简介】

卢小宾,管理学博士,中国人民大学信息资源管理学院教授、博士生导师、副院长,中国人民大学信息分析中心主任。全国图书情报专业学位教育指导委员会委员;中国科技情报学会常务理事,情报研究与咨询专业委员会主任;中国社科情报学会常务理事,学术委员会副主任;《情报学报》 《图书情报工作》 《情报科学》 《情报资料工作》 《图书情报知识》 等核心期刊编委。主要研究领域:信息分析、信息咨询、信息服务、信息资源管理等。主要科研成果:先后主持国家社科重大项目、国家自然科学基金、国家社会科学基金、省部级科研项目12项,出版学术著作及教材11部,在国内外核心期刊发表学术论文百余篇,获国家及省部级奖10余项。

卢小宾,管理学博士,中国人民大学信息资源管理学院教授、博士生导师、副院长,中国人民大学信息分析中心主任。全国图书情报专业学位教育指导委员会委员;中国科技情报学会常务理事,情报研究与咨询专业委员会主任;中国社科情报学会常务理事,学术委员会副主任;《情报学报》 《图书情报工作》 《情报科学》 《情报资料工作》 《图书情报知识》 等核心期刊编委。主要研究领域:信息分析、信息咨询、信息服务、信息资源管理等。主要科研成果:先后主持国家社科重大项目、国家自然科学基金、国家社会科学基金、省部级科研项目12项,出版学术著作及教材11部,在国内外核心期刊发表学术论文百余篇,获国家及省部级奖10余项。

卢小宾,管理学博士,中国人民大学信息资源管理学院教授、博士生导师、副院长,中国人民大学信息分析中心主任。全国图书情报专业学位教育指导委员会委员;中国科技情报学会常务理事,情报研究与咨询专业委员会主任;中国社科情报学会常务理事,学术委员会副主任;《情报学报》 《图书情报工作》 《情报科学》 《情报资料工作》 《图书情报知识》 等核心期刊编委。主要研究领域:信息分析、信息咨询、信息服务、信息资源管理等。主要科研成果:先后主持国家社科重大项目、国家自然科学基金、国家社会科学基金、省部级科研项目12项,出版学术著作及教材11部,在国内外核心期刊发表学术论文百余篇,获国家及省部级奖10余项。

郭亚军,管理学博士,郑州航空工业管理学院副教授,中国人民大学信息分析中心研究员,河南省民航专家库专家,主要研究方向:信息分析、知识服务、大数据、数字出版等,出版专著2部,参编教材4部,发表论文30余篇。

郭亚军,管理学博士,郑州航空工业管理学院副教授,中国人民大学信息分析中心研究员,河南省民航专家库专家,主要研究方向:信息分析、知识服务、大数据、数字出版等,出版专著2部,参编教材4部,发表论文30余篇。

郭亚军,管理学博士,郑州航空工业管理学院副教授,中国人民大学信息分析中心研究员,河南省民航专家库专家,主要研究方向:信息分析、知识服务、大数据、数字出版等,出版专著2部,参编教材4部,发表论文30余篇。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈