(1)起源
大数据的产生并非一蹴而就,是现实需求和技术进步共同推动的结果。
《Nature》早在2008年就推出了“BigData”专刊,从互联网技术、网络经济学、超级计算、环境科学与生物医药等多个方面介绍了海量数据带来的挑战[1]。2011年,《Science》推出关于数据处理的专刊“DealingwithData”[2],讨论数据洪流(Data Deluge)所带来的机遇,指出如果能够有效地组织与使用数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用[3]。
著名的咨询公司麦肯锡在2011年6月发布了一份关于大数据的详尽报告,对大数据的影响、关键技术与应用领域等都进行了详尽的分析。2012年3月,美国联邦政府发布了“大数据倡议”(Big Data Researchand Development Initiative),投资两亿美元进行大数据项目研究,争取增加100倍的分析能力以从各种语言的文本中抽取信息。这是一个标志性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点[4]。
随后,全球兴起“大数据”热潮,我国在2012年召开了关于大数据的学术会议,阿里巴巴等企业将大数据应用于实践并取得了一定的效果。Web3.0的众多功能也以大数据分析为基础,大数据已进入消费者的日常生活。
(2)概念和特征
大数据是新兴事物,涉及方面较多,可以从多个角度来定义大数据的概念,以下是具有代表性的观点[5]。
IDC:“‘大数据’是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”[6]
维基百科:互联网企业日常运营所生成和积累用户网络行为数据量的增长已突破传统计量单位,难以使用现有的数据库管理工具来驾驭数据的获取、存储、搜索、共享、分析和可视化等方面的工作,故称之大数据。
麦肯锡:“大数据将会是带动未来生产力发展、创新、消费需求增长的指向标。”[7](www.daowen.com)
Forrester分析师布莱恩·霍普金斯和鲍里斯·埃韦尔松在其撰写的《首席信息官,请用大数据扩展数字视野》报告中,将大数据的特征概括为:海量、多样性、高速和易变性。
1947年哈佛大学物理学教授齐普夫提出的“齐普夫定律”指出,英文单词的出现频率服从幂律型尾部的分布,即重尾分布,而非指数型的轻尾分布。随着高速存取技术的出现和存储空间的极速拓展,有研究显示大数据并不服从齐普夫定律,80%的处理并非都集中在20%的数据集上,而是呈长尾缓慢下降的形态分布,于是有人提出所谓的“广延指数分布”[8]。
上述观点从大数据的应用过程和特点、大数据作用、数据特点等方面对大数据进行了定义,并分析其特征。人们普遍将大数据概括为4V:即更大的容量(Volume)、更复杂的多样性(Variety,包括结构化、半结构化和非结构化数据)、更快的生成速度(Velocity)以及其组合带来的第四个因素—价值(Value)。
(3)大数据的核心思想
互联网新兴名词总是给人一种神秘、高端的感觉,大数据虽然集聚了不同领域的知识和大量先进的技术,然而如同“大音希声”一般,繁琐的背后是简约。大数据的核心思想正是中国传统科学观的体现,是对人类思维模式的“仿生”。
大数据是中国式“科学观”的体现。传统的数据分析基于西方的科学,在数据分析中要求寻找两组数据所代表的含义间的关系,这是数据分析结果科学性的基础。换言之,数据分析以科学逻辑为基础,需要明确事物间的影响机理。大数据却不再分析事物间的逻辑关系,而是通过多种数据处理,从复杂、大量的数据中寻找相关的数据,这是从纷繁复杂的事物中总结整体规律的过程,体现了“归纳”的特点。不以内在逻辑为核心,通过归纳的方式找出事物本质特点和整体规律正是中国式“科学观”的体现。《周易》的学习和应用过程往往是从简到繁——太极、两仪、四象、八卦、六十四卦……。而有人推断该规律的产生是通过对复杂事物的分析得到几个基本的规律,然后不断地化繁于简,归纳核心的规律和事物的本质。
大数据是对人类思维模式的“仿生”。人类思考认识问题并不总是经过严密的逻辑思维产生的,经常是凭感觉产生了某种认识或想法,然后付诸行动。这种方式虽然被认为是非理性决策,然而在一个人没有太大情绪波动的情况下,理性的成分还是很大的,尽管这一点并没有被其本人意识到。究其原因,就是人在经历、记忆了各种各样的事件之后,潜意识中已经建立了很多事物间的联系,当遇到某件事之后,大脑开始调用存储的信息,并结合对当前信息的分析,做出决策和采取行为。这些收集、处理、存储、调用信息的部分过程是人意识不到的,此时人们往往感觉出应该是“怎么回事”或“怎么做”,但说不出为什么(潜意识思维不是基于逻辑的),这也是“姜是老的辣”和“不听老人言,吃亏在眼前”等说法的内涵所在。例如,当一个篮球运动员跳起投篮的时候,面对对手的封盖、标准动作的走形、变化的位置等困难,仍然将球投进,靠的是“感觉”;贝克汉姆将任意球踢进球门的时候,球在空中旋转、划出弧线,靠的还是“感觉”。这些“感觉”中有大脑潜意识的“大数据”处理,有身体肌肉的“反应”和“记忆”(可以看作一种另类的“分布式”处理)。
大数据的产生是科学发展的结果,但是其中的核心思想与中国式“科学观”或者古代哲学思想不谋而合。一个基于“形而下”的科学发展起来的大数据反而与侧重“形而上”的中国哲学、感性的人类潜意识思维模式相通,这是一个有意思的现象。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。