工业数据包括通过感知技术获得的各类智能物体的标识、状态、位置和场景数据,可以分为结构化数据和非结构化数据。
结构化数据是指具有明确结构定义的数据,如数字、文字。结构化数据可以存储在关系数据库二维表的行记录里。例如,企业的机器信息,每个机器的标号、购买时间、价格等具有相同的结构,可以保存在一张资产表里。企业ERP、财务系统等数据都属于结构化数据。
因为结构化数据的结构具有明确定义,所以可以对其建立数据模型。数据模型包括数据类型、数据长度、数据约束等。结构化数据具有易输入、存储、查询和分析的特性。在相当长的一段时间里,关系数据库中的结构化数据是人类唯一能有效地管理和分析的数据。存储在数据库中的结构化数据常常使用结构化查询语言SQL来管理。通过对关系数据库技术的研究,人类对结构化数据已经形成了成熟的存储、分析、挖掘的方法。
非结构化数据包括无法给出明确结构定义的数据,如图片、声音、视频等。人们通常无法直接知道这类信息的内容,传统关系数据库也只能将其保存在一个BLOB字段中,日后检索非常麻烦。在传统关系数据库里的做法是,建立一个包含三个字段的表[编号number、内容描述varchar(1024)、内容blob],可通过编号引用,通过内容描述检索。(www.daowen.com)
为了更好地分析非结构化数据,可以把它们存储在非结构化数据库里。非结构化数据库主要是针对非结构化数据而建立的。其与以往流行的关系数据库相比,最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段,并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息和非结构化信息中有着传统关系型数据库所无法比拟的优势。
半结构化数据介于结构化数据和非结构化数据之间,它是结构化的数据,但是结构变化很大。因为要了解数据的细节,所以不能将数据简单地组织成一个文件按照非结构化数据处理,又由于其结构变化很大,因此也不能简单地建立一个表与它对应。例如,员工的简历,每个员工的简历大不相同。有的员工的简历很简单,只包括教育情况;有的员工的简历却很复杂,包括工作情况、教育情况、技术技能、获奖记录、发表论著等,还可能有一些人们没有预料到的信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。