1.大数据的起源
现代数据记录和处理起源于19世纪90年代。当时,数据在1880年成为美国人口普查局的一个问题。据估计,处理1880年人口普查期间收集的数据需要8年时间,而处理1890年人口普查的数据则需要10年以上。幸运的是,1881年,一个为调查局工作的名叫赫尔曼·霍尔瑞斯的年轻人发明了霍尔瑞斯制表机来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。
第一个大型数据收集项目创建于1937年,由美国总统富兰克林·罗斯福下令实施。1937年《社会保障法》成为法律后,美国政府必须记录2600万美国人和300多万雇主的缴款情况。IBM最终获得了合同竞标,为该大型数据项目开发了穿孔卡片读取机。
第一部数据处理机出现在1943年,由英国人开发。当时,一家英国工厂为了破译第二次世界大战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000个字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。
1952年,美国国家安全局(NSA)成立,并在10年内就发展成为拥有超过12000名密码学家的情报机构。1961年,在间谍饱和的冷战年代,面对超量信息,美国国家安全局开始采用计算机自动收集处理信号情报。
1965年,美国政府决定建立第一个数据中心,将所有政府记录进行格式转换,包括7.42亿条税单和1.75亿套指纹,转换为磁式计算机存放在唯一的国家数据中心。尽管该计划后来因为遭受公众抗议而被取消了,但人们普遍认为这是大规模数据存储时代的开始。
1989年,英国计算机科学家蒂姆·伯纳斯·李发明了万维网,他的目标是通过超文本系统在互联网上分享信息。他的系统通过互联网进行访问,允许音频、视频和图片的传输。当时他可能不知道他的发明将会产生什么影响。到了20世纪90年代,随着越来越多的设备接入互联网,数据的创造得到了刺激。1995年,第一台超级计算机问世,它在一秒钟内完成的工作量相当于一台由人操作的计算器在3万年内完成的工作量,大大提高了数据处理的效率。
2.大数据的萌芽期
20世纪末,是大数据发展的萌芽期,随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始得到应用。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的规律和趋势,即在大量的数据中发现新知识,为决策者提供参考[10]。1989年是数据挖掘技术兴起的关键一年。这一年,美国计算机协会下属的知识发现和数据挖掘小组(SIGKDD)举办了第一届数据挖掘学术年会,此后数据挖掘技术进入快速发展期。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上,与会专家不仅进行了学术讨论,而且30多家软件公司展示了相关产品,例如,IBM公司研制的Intelligent Miner,是用来提供数据挖掘的解决方案;SPSS股份公司开发了基于决策树的数据挖掘软件Clementine;Oracle公司开发了Darwin数据挖掘套件,等等。
在这一时期,数据挖掘技术开始在公共安全领域发挥作用,典型案例包括其在流感疫情预警方面的作用。1999年,美国研究人员发现,通过对全国药店销售系统的数据进行挖掘,可以有效预测流感的暴发。据此,匹斯堡大学研发了“疾病暴发实时监测系统”,对宾夕法尼亚州全州药店的药品销售流量进行监测。由于该系统的效果显著,2002年,美国联邦政府疾病预防中心开始在全国推广这种数据监测模式。此外,美国政府部门还在交通安全、治安管理等领域建立数据系统并应用数据挖掘技术,取得了不错的效果。
3.大数据的突破期
2003—2006年是大数据发展的突破期。在这一时期,以Facebook、Twitter为代表的社交媒体相继问世,使得互联网的发展进入了Web 2.0时代。由于社交媒体的出现,全世界的网民都成为数据的生产者,无时无刻地不在制造数据,这引发了人类历史上最庞大的数据爆炸。同时,社交网络的流行导致大量非结构化数据的出现,使得传统数据处理方法难以应对,人们开始重新思考数据处理系统、数据库架构。
就是在这个时候(2005年),来自美国知名技术媒体O'Reilly Media的罗杰·穆加拉斯(Roger Mougalas)首次向世界介绍了“大数据”这个术语,即使用传统的数据处理工具几乎不可能管理和处理的大规模数据,难度一是来源于数据的规模,二是数据的复杂性。
同年,雅虎创建了现在的开源框架Hadoop,其允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。雅虎开发该框架的最初目的是用来解决整个万维网的网页搜索问题。后来因其技术的高效性,被数以百万计的企业用于处理大量数据。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用谷歌开发的Map Reduce技术的高性能并行数据处理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。(www.daowen.com)
在这一时期,技术驱动下对大规模数据进行处理和分析的实现使得大数据技术在公共安全领域的应用也更加成熟,例如,美国公司Palantir就是一个典型案例。2004年创立的Palantir是美国一家大数据分析公司,其开发的大数据软件,在美国中央情报局等情报机构的情报分析以及反恐工作方面发挥了重要作用。
4.大数据的爆发期
随后,社交网络和移动互联网迅速发展,每天都会产生大量数据。创新型的企业开始纷纷挖掘这些海量数据,各国政府也开始高度重视大数据技术,纷纷发布大数据战略,启动大数据项目,大数据发展进入爆发期。
2009年1月,印度政府建立印度唯一的身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中,旨在提高政府服务的效率。
2009年5月,美国总统奥巴马指定美国首席信息官建立的美国政府数据门户网站data.gov完成并正式上线。作为国家数据门户网站,data.gov致力于整合来自各政府部门、广义公共部门、自愿参与的企业以及其他国家政府的所有开放数据,通过按政府部门、按主题分类索引,统一元数据格式及元数据地图,以通用、方便的数据格式发布,使公众能够对政府数据资源进行高效的开发利用。这一行动激发了英国等国政府相继推出类似举措。
2009年,联合国秘书长执行办公室正式启动“全球脉动”(Global Pulse)项目,旨在推动数字数据快速收集和分析方式的创新。
2010年2月,肯尼斯·库克耶(Kenneth Cukier)在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。肯尼斯·库克耶在报告中写道:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。”肯尼斯·库克耶也因此成为最早洞见大数据时代趋势的数据科学家之一。
2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来《纽约时报》认为这一刻为一个“大数据计算的胜利”。
2011年5月,麦肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,指出大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。大数据开始备受关注。
2012年1月,在瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data,Big Impact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展计划》,这一计划标志着大数据已经成为重要的时代特征。2012年3月22日,奥巴马政府宣布将2亿美元投资大数据领域,并将大数据定义为“未来的新石油”,这成为大数据技术从商业行为上升到国家科技战略的分水岭。
当前,我们仍处于大数据的爆发期。特别是随着5G技术的铺开、物联网技术的成熟以及人工智能技术推动的智能设备的普及,正使数据流以前所未有的速度生成和增长,数以百万计的电视、音箱、冰箱、可穿戴设备、自动驾驶汽车,以及智能工厂中的各类设备传感器,每天都将产生ZB级别的数据。对这些数据的实时处理需求将带动大数据处理技术的进一步快速发展,并将为各行各业带来更多有高度价值和意义的洞见,为智能时代的到来提供基石。
同时,大数据技术在公共安全领域的应用范围也更加广阔。例如欧盟创新委员会的EPIWORK项目便是其中之一,用于开发预测流行病的IT基础设施。EPIWORK项目由意大利跨学科科学研究所(ISI)负责,最终开发出“全球流行病和流动模型”(The Global Epidemic and Mobility Model,GLEAM)。“全球流行病和流动模型”集合了全球人口数据、人口流动数据、基于个体的感染动力学随机数学模型,提供流行病分析和预测能力,帮助制定干预政策,最大限度地减少潜在破坏性流行病的影响。再如,在灾难预警方面,IBM等公司开发的人工智能停电预测解决方案,通过AI抓取与分析历年巨量气候数据与实时天气大数据,提前72小时预测风灾等级、损失情况和最严重的脆弱区域,可使加拿大电力公司根据AI评估采取有效措施迅速恢复供电[11]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。