理论教育 互联网革命下的网络大数据世界

互联网革命下的网络大数据世界

时间:2023-06-14 理论教育 版权反馈
【摘要】:大数据是计算机和互联网相结合的产物,计算机实现了数据的数字化,互联网实现了数据的网络化,两者结合起来之后,赋予了大数据强大的生命力。来自互联网的网络大数据是指“人、机、物”三元世界在网络空间中交互、融合所产生并可在互联网上获得的大数据,网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律。大数据来自人类社会,尤其是互联网的发展为数据的存储、传输与应用创造了基础与环境。

互联网革命下的网络大数据世界

大数据是计算机和互联网相结合的产物,计算机实现了数据的数字化,互联网实现了数据的网络化,两者结合起来之后,赋予了大数据强大的生命力。随着互联网如同空气、水、电一样无处不在地渗透人们的工作和生活,以及移动互联网、物联网、可穿戴联网设备的普及,新的数据正在以指数级加速产生,目前世界上90%的数据是互联网出现之后迅速产生的。来自互联网的网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并可在互联网上获得的大数据,网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律

大数据来自人类社会,尤其是互联网的发展为数据的存储、传输与应用创造了基础与环境。依据基于唯象假设的六度分隔理论而建立的社交网络服务(Social Network Service,SNS),以认识朋友的朋友为基础,扩展自己的人脉。基于Web 2.0交互网站建立的社交网络,用户既是网站信息的使用者,也是网站信息的制作者。社交网站记录人们之间的交互,搜索引擎记录人们的搜索行为和搜索结果,电子商务网站记录人们购买商品的喜好,微博网站记录人们所产生的即时的想法和意见,图片视频分享网站记录人们的视觉观察,百科全书网站记录人们对抽象概念的认识,幻灯片分享网站记录人们的各种正式和非正式的演讲发言,机构知识库和期刊记录学术研究成果等。归纳起来,来自互联网的数据可以划分为下述几种类型。

1.视频图像

视频图像是大数据的主要来源之一,电影、电视节目可以产生大量的视频图像,各种室内外的视频摄像头昼夜不停地产生巨量的视频图像。视频图像以每秒几十帧的速度连续记录运动着的物体,一个小时的标准清晰视频经过压缩后,所需的存储空间为GB数量级,对于高清晰度视频所需的存储空间就更大了。

2.图片与照片

图片与照片也是大数据的主要来源之一,截至2011年9月,用户向脸书(Facebook,美国的一个社会网络服务网站)上传了1400亿张以上的照片。如果拍摄者为了保存拍摄时的原始文件,平均每张照片大小为1MB,则这些照片的总数据量约为1.4×1012×1MB=140PB,如果单台服务器磁盘容量为10TB,则存储这些照片需要14 000台服务器,而且这些上传的照片仅仅是人们拍摄到的照片的很少一部分。此外,许多遥感系统24小时不停地拍摄并产生大量照片。

3.音频

DVD光盘采用了双声道16位采样,采样频率为44.1kHz,可达到多媒体欣赏水平。如果某音乐剧的时间为5.5min,计算其占用的存储容量为:

存储容量=(采样频率×采样位数×声道数×时间)/8

=(44.1×1000×16×2×5.5×60)/8(www.daowen.com)

≈55.5MB

4.日志

网络设备、系统及服务程序等,在运作时都会产生log的事件记录。每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。Windows网络操作系统设有各种各样的日志文件,如应用程序日志、安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等,这些根据系统开启的服务的不同而有所不同。用户在系统上进行一些操作时,这些日志文件通常记录了用户操作的一些相关内容,这些内容对系统安全工作人员相当有用。例如,有人对系统进行了IPC探测,系统就会在安全日志里迅速地记下探测者探测时所用的IP、时间、用户名等,用FTP探测后,就会在FTP日志中记下IP、时间、探测所用的用户名等。

网站日志记录了用户对网站的访问,电信日志记录了用户拨打和接听电话的信息,假设有5亿用户,每个用户每天呼入呼出10次,每条日志占用400B,并且需要保存5年,则数据总量为5×100×365×400×5 Byte≈3.65PB。

5.网页

网页是构成网站的基本元素,是承载各种网站应用的平台。通俗地说,网站就是由网页组成的,如果只有域名和虚拟主机而没有制作任何网页,客户仍旧无法访问网站。网页要通过网页浏览器来阅读。文字与图片是构成一个网页的两个最基本的元素。可以简单地理解为:文字就是网页的内容,图片就是网页的美观描述。除此之外,网页的元素还包括动画、音乐、程序等。

网页分为静态网页和动态网页。静态网页的内容是预先确定的,并存储在Web服务器或者本地计算机、服务器之上,动态网页取决于用户提供的参数,并根据存储在数据库中的网站上的数据而创建。通俗地讲,静态页是照片,每个人看都是一样的,而动态页则是镜子,不同的人(不同的参数)看都不相同。

网页中的主要元素有感知信息、互动媒体和内部信息等。感知信息主要包括文本、图像、动画、声音、视频、表格、导航栏、交互式表单等。互动媒体主要包括交互式文本、互动插图、按钮、超链接等。内部信息主要包括注释,通过超链接链接到某文件、元数据与语义的元信息、字符集信息、文件类型描述、样式信息和脚本等。

网页内容丰富,数据量巨大,每个网页有25KB数据,则一万亿个网页的数据总量约为25PB。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈