理论教育 大数据对信息分析的影响

大数据对信息分析的影响

时间:2023-10-30 理论教育 版权反馈
【摘要】:大数据与信息分析存在着天然的联系,大数据产生价值的实质性环节就是信息分析。大数据环境下信息分析发生了重大变革,大数据分析与传统信息分析的差异突出体现在分析对象、分析模式、分析工具、分析结果等方面。大数据分析对象与传统信息分析对象虽然都是数据,但大数据分析的是全体数据而不是随机样本。[10]大数据分析对工具的要求更高,工具的种类也更多。

大数据对信息分析的影响

世界已经进入“大数据时代”,大数据正以难以想象的速度带来新一轮信息化革命,大数据充斥着现代社会的各个领域,影响甚至改变着我们的生活。大数据与信息分析存在着天然的联系,大数据产生价值的实质性环节就是信息分析。大数据环境下信息分析发生了重大变革,大数据分析与传统信息分析的差异突出体现在分析对象、分析模式、分析工具、分析结果等方面。

(1)分析对象变革:从随机样本到全体数据。

大数据分析对象与传统信息分析对象虽然都是数据,但大数据分析的是全体数据而不是随机样本。这在规模和结构上均发生了巨大的变化。

从规模上看,过去受到信息记录、存储、分析工具的限制,我们只能收集少量样本数据进行信息分析,准确分析大量数据是一种挑战;如今信息技术水平已经有了很大的提升,我们可以处理的数据量大大增加。传统信息分析的数据量是以MB、GB为基本处理单位,而大数据分析的数据量则是PB、EB、ZB级,有学者将二者的区别形象地类比为“池塘捕鱼”和“大海捕鱼”。[9]

从结构上看,传统信息分析的数据种类单一,一般是单纯的由文字、图像、声音、视频等组成的二维数据,并且以结构化数据为主。大数据分析则数据种类繁多,一般由文字、声音、视频、多媒体、流媒体等组成,多是自动化或半自动化生成,包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据占据越来越大的比例。

(2)分析模式变革:从“先假设,后关系”到“先数据,后关联”。

传统信息分析一般遵循的是“先假设,后关系”的分析模式,先假设某种关系存在,然后根据假设针对性地分析数据并计算变量之间的相关关系。大数据环境下,数据量巨大,变量数目往往数不胜数,“先假设,后关系”的分析模式难以适用,而是采取“先数据,后关联”的分析模式,挖掘和发现大数据中隐含的关联、规则和规律。

传统信息分析的数据量小且变量数目少,大部分的相关关系分析在于寻求线性关系,人们往往会构造回归方程探求现象之间的因果关系,解决“为什么”的问题。随着数据量的增加,相关关系也变得更加复杂,经过大数据分析,我们能够发现数据的非线性关系,通过对事物相关关系的挖掘与发现,解决“是什么”的问题。相关关系分析在很多情况下可以取代因果关系,即使不能取代,也能指导因果关系的研究,如果我们不满足于知道“是什么”,就会在此方向指引下继续研究因果关系,找出背后的“为什么”。(www.daowen.com)

(3)分析工具变革:从数学模型到数据挖掘。

传统信息分析是“池塘捕鱼”,一种或少数几种渔网基本就可以应对,也就是所谓的“One Size Fits All”。大数据分析则是“大海捕鱼”,不可能存在一种渔网能够捕获所有的鱼类,也就是说“No Size Fits All”。[10]大数据分析对工具的要求更高,工具的种类也更多。

传统信息分析只需要对有限的样本数据进行定量和定性分析,主要分析工具是数学模型和逻辑思维,选择合适的信息分析方法对样本进行处理是传统信息分析的关键。而大数据分析面对的是海量的数据,分析工具以数据挖掘为主,选择合适的数据和挖掘算法是大数据分析的关键。[11]

(4)分析结果变革:从追求精确到拥抱混杂。

传统信息分析希望尽可能用有限的样本数据全面准确地反映总体,分析数据的有限意味着细微的错误会被放大,甚至影响整个结果的准确性,这就要求所分析的数据精确,减少错误,保证质量。大数据分析让我们使用所有可获取的数据变成现实,但数据量的大幅增加也可能会导致一些错误的数据混杂进来,造成结果的不精确。在大数据环境下,我们应该接受纷繁芜杂的各类数据,放宽容错的标准,不应一味追求数据的精确性,以免因小失大。数据库设计专家帕特·赫兰德(Pat Helland)认为,处理大数据会不可避免地导致部分信息的缺失,但能快速得到想要的结果弥补了这个缺陷,他的观点是:“如果你有足够多的数据,那么‘足够好’真的足够好。”[12]

当我们在进行大数据分析时,不再需要担心某个数据点对整个分析的不利影响,不需要花费高昂的代价消除所有的不确定性,而是接受这些纷繁的数据并从中受益,从追求精准转变到拥抱混杂。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈