理论教育 大数据:解决复杂数据处理的挑战

大数据:解决复杂数据处理的挑战

时间:2023-05-21 理论教育 版权反馈
【摘要】:在介绍大数据发展之前,需要先明确三个基本概念,那就是数据、信息和知识。互联网上生产的数据种类也多种多样,有文档、视频、评价、网络日志、地理位置、声音,还有用于获取用户行为的点击流,要处理如此种类繁多的数据,是大数据要解决的一个基础问题,也是其面临的一个挑战。

大数据:解决复杂数据处理的挑战

在介绍大数据发展之前,需要先明确三个基本概念,那就是数据、信息和知识。

数据就是一些事实的集合,如数字、词、度量、描述,数据可以是量化的或描述性的(图1-11)。数据是信息的一种表现形式。

978-7-111-55918-4-Chapter01-11.jpg

图1-11 数据的分类

信息通俗来说泛指人类社会传播的一切内容,人类通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。信息作为科学术语最早出现在哈特莱(R.V.Hartley)于1928年撰写的《信息传输》一文中,1948年,美国应用数学家控制论的创始人,诺伯特·维纳(Norbert Wiener,1894—1964)提出“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”。同样在1948年,美国数学家、信息论的创始人,克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916—2001)提出“信息熵”概念,即信息是描述不确定性的,一个事件越不确定,就需要更多的信息来解决事件的不确定性。

知识是指人类在实践中认识客观世界(包括人类自身)的成果。它可能包括事实、信息、描述或在教育和实践中获得的技能。它可能是关于理论的,也可能是关于实践的。知识的定义在认识论中仍然是一个争论不止的问题。一个经典的定义来自于柏拉图:一条陈述能称得上是知识必须满足三个条件,它一定是被验证过的、正确的,而且被人们相信的。

数据、信息、知识是人类对世界认识的三个不同层次。(www.daowen.com)

伴随着互联网技术的发展,向人类社会不断深入地渗透,社会数字化进程不断加快,数据的种类、表达方式也越来越丰富,而积累的大量数据资源,逐渐显示出其巨大的价值,大数据受到广泛关注。2012年,奥巴马政府宣布“大数据研究和发展倡议”(Big Data Research and Development Initiative),倡议提出通过改善从大量复杂的数字化数据中抽取知识(extract knowledge)、获得洞察力(insight)的能力,帮助加速科学和工程发现的步伐,加强国家安全和转变教学(transform teaching and learning)。2015年9月,我国国务院印发《促进大数据发展行动纲要》,提出推动大数据发展和应用,在未来5~10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。《纲要》明确三个主要任务,一要加快政府数据开放共享,推动资源整合,提升治理能力;二要推动产业创新发展,培育新兴业态,助力经济转型;三要强化安全保障,提高管理水平,促进健康发展。

数据与大数据的关系是一个典型的量变引起质变的关系,大数据的“大”是其特征,这个大体现在四个方面:一是“量”上的大,二是“生产速度”的快,三是数据“种类”的多,四是价值大。

互联网上的数据量之大在前面的章节也有介绍,公开数据显示[19],仅百度2013年拥有数据量接近EB级别;阿里腾讯声明自己存储的数据总量都达到了百PB以上,1EB=1024PB=1024×1024TB=1024×1024×1024GB,按一个汉字2B计算,1EB相当于445万部《中国大百科全书》,1PB相当于四千多部《中国大百科全书》,仅从这三个公司拥有的数据量,足以看出互联网数据总量之大。

而互联网上产生数据的速度也相当惊人,2012年腾讯科技发表的一篇文章《互联网上一天》[20]称,互联网一天产生的全部内容可以刻满1.68亿张DVD,发出2940亿封邮件,相当于美国两年纸质信件的数量,发出200万个帖子,相当于《时代》杂志770年的文字量,每天在Facebook上耗费的时间总计47亿分钟,有“状态”的更新达5.32亿人,在Facebook上传2.5亿张图片,如果都打印出来相当于80座埃菲尔铁塔的高度,每天在Netflix看2200万小时的电视电影节目,相当于3天全美剧院播放小时总和,在YouTube上传86.4万小时视频,如果不间断全部播放完需要98年,用户在Pandora上听1870万小时音乐,如果Pandora从公元1年开始播放,现在还在放,每天新增1288款应用,下载次数超过3500万次,每天卖出37.8万台手机,高于全球每天出生的婴儿数量37.1万。

互联网上生产的数据种类也多种多样,有文档、视频、评价、网络日志、地理位置、声音,还有用于获取用户行为的点击流,要处理如此种类繁多的数据,是大数据要解决的一个基础问题,也是其面临的一个挑战。

互联网的普及程度提高,人们对网络的依赖性不断增强,网络生活日常化,互联网上产生的数据价值越来越凸显。阿里集团的创始人马云在阿里云2015云栖大会的演讲上称[21],“从IT时代走向DT(数据)时代的第三次技术革命是真正的大释放”“第一次技术革命是体能的释放,是让人的力量更大,第二次技术革命是对能源的利用,使得人可以走得更遥远,而这一次技术革命是IT时代走向DT时代,是真正的大大的释放”,互联网产生的数据价值,不仅体现在商品推荐等商业应用价值上,同时也体现在社会治理变革、商业模式变革、企业流程再造等方面,应该说互联网上的数据已经受到广泛关注,互联的下一步发展重点和目标就是最大限度地挖掘这些数据的各种价值,人类的信息社会将会发展到信息社会的高级阶段。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈