结构化数据可以在结构数据库中存储与管理,并可用二维表来表达实现的数据。这类数据是先定义结构,然后才有数据。结构化数据在大数据中所占比例较小,占15%左右,现已应用广泛,当前的数据库系统以关系数据库系统为主导,例如银行财务系统、股票与证券系统、信用卡系统等。
非结构化数据是指在获得数据之前无法预知其结构的数据,目前所获得的数据85%以上是非结构化数据,而不再是纯粹的结构化数据。传统的系统无法对这些数据完成处理,从应用角度来看,非结构化数据的计算是计算机科学的前沿。大数据的高度异构也导致抽取语义信息的困难。如何将数据组织成合理的结构是大数据管理中的一个重要问题。大量出现的各种数据本身是非结构化的或半结构化的数据,如图片、照片、日志和视频数据等是非结构化数据,而网页等是半结构化数据。大数据大量存在于社交网络、互联网和电子商务等领域。另外,也许有90%的数据来自开源数据,其余的被存储在数据库中。大数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流是不确定性大数据的一个典型例子。结构化数据、非结构化数据、半结构化数据的比较如表1-1所示。
表1-1 结构化数据、非结构化数据、半结构化数据的比较(www.daowen.com)
大数据产生了大量研究问题。非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰,这些需要通过数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉研究。对于半结构化或非结构化数据,例如图像,需要研究如何将它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型。还应说明的是,大数据每一种表示形式都仅呈现数据本身的一个侧面表现,并非其全貌。
由于现存的计算机科学与技术架构和路线,已经无法高效处理如此大的数据,如何将这些大数据转化成一个结构化的格式是一项重大挑战,如何将数据组织成合理的结构也是大数据管理中的一个重要问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。