理论教育 探析大数据(BigData):实现信息价值最大化

探析大数据(BigData):实现信息价值最大化

时间:2023-05-28 理论教育 版权反馈
【摘要】:伴随麦肯锡公司的这一报告的发布,大数据引起了世界各国的高度重视。首先响应的是美国,2012年3月,时任美国总统的奥巴马宣布了“大数据研发计划”。在我国,大数据及其应用作为国家战略得到了应有的关注。要运用大数据提升国家治理现代化水平。这是大数据区别于传统数据的显著特征。此外,还可以增加一个特征——复杂性,即大数据的处理手段复杂。以上这些特征汇集到一起构成了大数据的特征。

探析大数据(BigData):实现信息价值最大化

随着信息技术的广泛应用,数据爆炸式的增长正在出乎人们的想象。据预计,到2020年,全球以电子形式存储的数据量将达到35 ZB(1 ZB等于1万亿GB),是2011年全球数据总量1.8 ZB的20倍。美国图灵奖得主Jim Gray则提出了“每18个月产生的数据,是过去所有数据的总和”这一所谓新摩尔定律的判断。数据的疯狂增长,使得适应和有效应对数据增长成为整个社会关注的焦点。“大数据”的概念正是在这一背景下应运而生的。

早在1980年,著名的未来学家阿尔文·托夫勒在其出版的《第三次浪潮》一书中,便将大数据热情地赞颂为“第三次浪潮的华彩乐章”。而真正引发对“大数据”重视的则是全球知名的战略咨询公司——麦肯锡。麦肯锡公司在其研究报告(Big data:The next frontier for innovation,competition,and productivity,McKinsey Global Institute,May 2011)中指出:“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。世界经济论坛(WEF)2012年也发布报告,认定大数据为新的财富,其价值堪比石油。能否充分利用和把握大数据的机遇,将是决定未来成败的关键

伴随麦肯锡公司的这一报告的发布,大数据引起了世界各国的高度重视。首先响应的是美国,2012年3月,时任美国总统奥巴马宣布了“大数据研发计划”(Big Data Research and Development Initiative)。并为该计划特别拨款2亿美元,计划目的在于提高人们从海量和复杂数据中获取知识的能力,加速美国在科学与工程领域前进的步伐,增强国家安全,转变现有教学和学习方式。2016年5月美国联邦政府在NITRD计划框架下增列了“THE FEDERAL BIG DATA RESEARCH AND DEVELOPMENT STRATEGIC PLAN”。

在我国,大数据及其应用作为国家战略得到了应有的关注。2017年12月,中共中央政治局就实施国家大数据战略进行了集体学习。会议指出:大数据是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。

我们要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。要加快构建高速、移动、安全、泛在的新一代信息基础设施,统筹规划政务数据资源和社会数据资源,完善基础信息资源和重要领域信息资源建设,形成万物互联、人机交互、天地一体的网络空间。要发挥我国制度优势和市场优势,面向国家重大需求,面向国民经济发展主战场,全面实施促进大数据发展行动。

要构建以数据为关键要素的数字经济,推动互联网、大数据、人工智能同实体经济深度融合。要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。要运用大数据促进保障和改善民生,推进“互联网+教育”“互联网+医疗”“互联网+文化”等。要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。

然而大数据既然叫大数据,就一定具有不同于传统数据的基本属性和特征。作为一种新型的、重要的信息资源,可以将大数据的特点归纳为以下四点:

①数据规模巨大(Volume)。传统大型数据集的规模一般为TB级别,而大数据的规模则从TB级跃升至PB级,并且通过各种设备产生的数据形成了海量数据。

②数据类型繁多(Variety)。大数据不再是传统单一的结构化数据,而是包括网络日志、视频、图片和地理位置信息等多种形式的非结构化信息,其在编码方式、数据格式、呈现方式、应用特征等多个方面存在差异性,而且常常是多信息源的异构数据。

③价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成海量数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。

④处理速度快(Velocity)。数据增长速度快,处理速度也快,时效性要求高。比如索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据的显著特征。

此外,还可以增加一个特征——复杂性,即大数据的处理手段复杂(Complexity)。例如,在数据的采集阶段需要将分布在异构数据源中的数据,如关系数据、平面数据文件、流数据(Data Strom)多媒体数据等抽取到临时中间层后进行清洗、转换、集成、整合;而在数据的存储阶段,则需要针对异构数据,混合采用关系数据库、非关系数据、分布式文件系统数据仓库等技术;在数据处理阶段,需要综合运用相关分析、关联规则分析、聚类分析遗传算法神经网络、模拟仿真、机器学习等分析、处理方法;在信息处理结果的呈现阶段,则需要利用标签云(Tag Cloud)、聚类图、空间信息流、热图等可视化手段。

以上这些特征汇集到一起构成了大数据(4V+1C)的特征。

更为重要的是,大数据对我们运用和分析数据的传统、固有观念带来了颠覆性的根本改变,英国牛津大学教授维克托·迈尔·舍恩伯格(Viktor Mayer Schönberger)和《经济学人》杂志编辑肯尼思·库克耶(Kenneth Cukier)在其合著的畅销书《大数据时代:生活、工作与思维的大变革(Big Data:A Revolution That Will Transform How We Live,Work,and Think)》中指出大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。而这些改变集中表现在三个方面:“是全部数据,而不是随机采样”;“是大体方向,而不是精确制导”;“是相关关系,而不是因果关系”。

①不是随机样本,而是全体数据:在大数据时代,我们具有了可以收集、提取和分析更多数据的条件和能力,有时候甚至可以处理与某个特别现象相关联的所有数据,而不再依赖于传统的随机采样(随机采样,以前我们通常把这看成理所应当的限制,但高性能的数字技术让我们意识到,这其实是在条件制约下的一种人为限制)。

②不是精确性,而是混杂性:可供研究的数据如此之多,以至于我们不再热衷于追求数据研究的精确度。之前需要分析和能够获取的数据很少,所以我们必须尽可能精确地量化我们的记录,随着数据规模的扩大,对精确度的痴迷将减弱;拥有了大数据,我们不再需要对一个现象刨根问底,只要能够掌握该现象大体的发展方向及演变规律即可,适当地忽略微观层面上的精确度,可能会让我们在宏观层面拥有更好的洞察力。

③不是因果关系,而是相关关系:我们不再热衷于寻找因果关系,寻找因果关系是人类长久以来的思维习惯。但是,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该致力于寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生或将要发生,从而对之做出正确、有效的应对。

舍恩伯格认为,世界的本质就是大数据,大数据正在开启重大的时代转型。大数据正在改变人们生活以及理解世界的方式,正在成为新发明和新服务的源泉。从因果关系到相关关系的思维变革,正是大数据应用的关键,建立在相关关系分析法基础上的预测才是大数据应用的核心。

以上大数据的特征和由大数据带来的改变,为我们有效地处理和应用大数据提出了挑战。

首先是数据管理的挑战。来自不同来源、不同标准,数据量大小不一、结构形式多样、实时性要求不同的数据,增加了数据采集、数据编辑、数据索引、数据提取以及数据整合的困难,需要对传统的数据传输工具(Extract-Transform-Load,ETL)及其流程进行重新设计。

其次是数据挖掘的挑战。大数据价值密度低,其内容提取要求大量的仿真和计算,必须同时协调成百上千个参数,大多数的数据挖掘算法具有很高的计算复杂度,需要实时操控超量和耗时的计算任务,需要全新的数据挖掘方法和算法的支持。(www.daowen.com)

再次是数据呈现的挑战。多结构、多层次的分析数据需要可视化最终甚至是中间的计算结果,可能需要脑机工程技术,以便组合自动计算和高级智能,获得更直观、自觉的洞察力。

最后是数据应用的挑战,通过挖掘、分析大数据,洞察问题、发现规律、明辨风险、精准预测并将其结果有效地应用于所面临的问题是大数据应用的关键。

应对上述挑战,既对技术方面提出了全新的要求,也对具备相应能力的专门人才提出了需求,这样的人才麦肯锡称为“数据深度分析人才”。

在美国,根据麦肯锡公司的分析预测,2018年具备深度分析大数据能力的人才的供给与需求之间的缺口就高达19万人之多;而在中国,2017年较之于2016年,大数据人才的需求量猛增6倍之多。其中,对于自然语言处理(NLP)和自然语言理解(NLU)、大数据开发、数据深度挖掘、图像/视觉及智能硬件等人才需求总量超过60万人。

因此,针对大数据分析人才的这种强劲的社会需求,我们必须着力加强对信息管理人才,尤其是加强对能够依托大数据展开深度分析进而支持决策和控制的信息管理人才的培养,扩大信息管理人才培养的数量,提高信息管理人才培养的质量。

而在技术需求方面,为了应对大数据有别于传统数据加工、处理和应用的特殊要求,世界上的相关计算服务供应商,纷纷研究和提供技术解决方案。图3-4是有关大数据应用的一整套技术解决体系。

图3-4 大数据应用技术解决体系

【案例】

大数据应用案例:奥伦·埃齐奥尼的Farecast系统

2003年,美国华盛顿大学计算机科学系教授、艾伦人工智能研究所首席执行官奥伦·埃齐奥尼(Oren Etzioni)准备乘坐从西雅图洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而,埃齐奥尼是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目的负责人开始,他创立了许多在今天看来非常典型的大数据公司,而那时候还没有人提出“大数据”这个概念。

1994年,埃齐奥尼帮助创建了最早的搜索引擎MetaCrawler,该引擎后来被InfoSpace公司收购。他联合创立了第一个大型比价网站Netbot,后来把它卖给了Excite公司。他创立的从文本中挖掘信息的公司ClearForest则被路透社所收购。在他眼中,世界就是一系列的大数据问题,而且他认为他有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生,自毕业以来,他也一直致力于解决这些问题。

飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。

埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。

如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。换言之,这是埃齐奥尼针对9 000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。不过,这个项目是可行的。于是,埃齐奥尼开始着手启动这个项目。埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产生的12 000个价格样本基础之上,而这些信息都是从一个旅游网站上搜集来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格的波动。机票降价是因为很多没卖掉的座位、季节性原因,还是所谓的周六晚上不出门,它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。

这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。

这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机票预订数据库。有了这个数据库,系统进行预测时,预测的结果就可以基于美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出。如今,Farecast已经拥有惊人的约2 000亿条飞行数据记录。利用这种方法,Farecast为消费者节省了一大笔钱。

棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦·埃齐奥尼。他看上去完全不像是一个会让航空业损失数百万潜在收入的人。但事实上,他的目光放得更长远。2008年,埃齐奥尼曾计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他将该计划实施之前,微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入微软的必应搜索引擎。

到2012年为止,Farecast系统使用了将近十万亿条价格记录来帮助预测美国国内航班的票价。到此时Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。

Farecast是大数据应用的一个缩影,也代表了当今世界发展的趋势。在五年或者十年之前,奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微而重要的改变正在发生,特别是人们关于如何使用数据的理念。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈