理论教育 大数据构成简析-计算机(软件)工程导论

大数据构成简析-计算机(软件)工程导论

时间:2023-11-24 理论教育 版权反馈
【摘要】:结构化数据是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。图8-3 结构化数据1.结构化数据结构化数据是由二维表结构来逻辑表达和实现的数据,也称作行数据,严格地遵循数据格式与长度规范,有固定的结构、属性划分和类型等信息,主要通过关系型数据库进行存储和管理,数据记录的每一个属性对应数据表的一个字段。

大数据构成简析-计算机(软件)工程导论

大数据分为结构化数据、非结构化数据和半结构化数据三种,如图8-3所示。结构化数据是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。通常,信息系统涉及生产、业务、交易、客户等方面的数据,采用结构化方式存储。一般来讲,结构化数据只占全部数据的20%以内,但就是这20%以内的数据浓缩了很久以来企业各个方面的数据需求,发展也已经成熟。而无法完全数字化的文档文件、图片、图纸资料、缩微胶片等信息就属于非结构化数据,非结构化数据中往往存在大量的有价值的信息,特别是随着移动互联网、物联网的发展,非结构化数据正以成倍速度快速增长。

图8-3 结构化数据

1.结构化数据

结构化数据是由二维表结构来逻辑表达和实现的数据,也称作行数据,严格地遵循数据格式与长度规范,有固定的结构、属性划分和类型等信息,主要通过关系型数据库进行存储和管理,数据记录的每一个属性对应数据表的一个字段。

2.非结构化数据(www.daowen.com)

与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、各类报表、图片和音频、视频信息等。在数据较小的情况下,可以使用关系型数据库将其直接存储在数据库表的多值字段和变长字段中;若数据较大,则存放在文件系统中,数据库则用于存放相关文件的索引信息。这种方法广泛应用于全文检索和各种多媒体信息处理领域

3.半结构化数据

半结构化数据既具有一定的结构,又灵活多变,其实也是非结构化数据的一种。和普通纯文本、图片等相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比,其结构又不固定,如员工简历,处理这类数据可以通过信息抽取、转换等步骤,将其转化为半结构化数据,采用XML、HTML等形式表达;或者根据数据的大小,采用非结构化数据存储方式,结合关系数据存储。

随着大数据的发展,结构化数据处理技术越来越不能满足我们对数据处理的需求,对非结构化数据的处理越来越重要,非结构数据成为学者研究的方向。IDC的一项调查报告显示,企业中80%的数据都是非结构化数据,这些数据每年都按60%的比例增长。在利用传统的关系型数据库技术存储、检索非结构化数据的技术上,近年来逐渐发展出多种NoSQL数据库来应对非结构化数据处现的需求。但NoSQL数据库无法替代关系型数据在结构化数据处理上的优势,可以预见关系型数据库和NoSQL数据库将在大数据处理领域共同存在,在各自擅长的领域继续发挥各自的优势。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈