信息存储一方面必须面向最终使用者,以方便他们对信息的提取和使用;另一方面必须充分考虑计算机的具体存储方法。信息存储的体系结构有以下3个层次:
1)第一层:用户存储模型
用户存储模型是从用户角度看,存储通过信息采集并加以治理、组织序化的信息模型。
信息采集阶段所获取的信息是前面信息分类中的语法信息,而需要存储的信息目的是满足将来的应用,为管理和决策服务。在信息存储阶段,必须在一定程度上从语义的角度考虑信息的表示和存储模型,这就是用户存储模型,也即一般意义上的面向客观世界的“数据模型”。
数据模型是对采集到的数据或信息的一种抽象,这种抽象既要准确、全面地反映所观察和处理的对象,又要便于处理,特别是方便计算机处理。在现实世界中的数据,可以分为两类:一类是描述独立存在的对象或元素的数据;另一类是描述这些对象和元素之间的联系的数据。
人们在对数据存储理论和实践进行大量的研究基础上,提出了各种数据模型,如E-R模型、关系数据模型、面向对象模型、层次数据模型、网状数据模型等。
2)第二层:逻辑存储模型
如果说用户存储模型的出发点是从语义信息的角度,那么了解数据的逻辑存储模型就是从语法信息的角度、从信息结构的角度进一步研究数据之间的逻辑关系。其一方面着眼于方便信息的管理,另一方面有利于计算机的存储,这就是逻辑存储模型所要解决的问题。
数据单元之间的关系可以是数据元素之间代表某种含义的自然关系,也可以是为处理问题方便而人为定义的关系。这种自然或人为定义的关系,就是数据之间的逻辑关系。数据之间的逻辑关系通常以数据结构方式表达。研究数据结构是信息存储又一层次上模型存储的表现。
3)第三层:物理存储模型
以上两个层次的信息存储模型分别从语义信息和语法信息的角度研究信息的存储表现形式,而物理存储模型则从计算机数据存储系统的角度研究信息的存储方法。其又分为两个层次:结构化数据存储系统、非结构化数据存储系统。
(1)结构化数据存储系统
在结构化数据存储系统中,数据的物理存储主要通过数据库系统和数据仓库系统实现。
数据库系统(Database System),是由数据库及其管理软件组成的系统,是为适应数据处理的需要而发展起来的一种较为理想的数据处理系统,也是一个为实际可运行的存储、维护和应用系统提供数据的软件系统,是存储介质、处理对象和管理系统的集合体。
数据库系统的出现是计算机应用的一个里程碑,它使得计算机应用从以科学计算为主转向以数据处理为主,并从而使计算机得以在各行各业乃至家庭普遍使用。在它之前的文件系统虽然也能处理持久数据,但是文件系统不提供对任意部分数据的快速访问,而这对数据量不断增大的应用来说是至关重要的。为了实现对任意部分数据的快速访问,就要研究许多优化技术。这些优化技术往往很复杂,是普通用户难以实现的,所以就由系统软件(数据库管理系统——DBMS)来完成,而提供给用户的是简单易用的数据库语言。由于对数据库的操作都由数据库管理系统完成,所以数据库就可以独立于具体的应用程序而存在,从而数据库又可以为多个用户所共享。
因此,数据的独立性和共享性是数据库系统的重要特征。数据共享节省了大量人力物力,为数据库系统的广泛应用奠定了基础。数据库系统的出现使得普通用户能够方便地将日常数据存入计算机并在需要的时候快速访问它们,从而使计算机走出科研机构进入各行各业,进入家庭。
数据仓库(Data Warehouse,DW),由“数据仓库之父”W.H.Inmon于1990年提出,主要功能仍是将组织透过信息系统之联机交易处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作已有系统的分析整理,以利各种分析方法如线上分析处理(OLAP)、数据挖掘(Data Mining)的进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者能快速有效地从大量的资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的定义被广泛接受——数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision Making Support)。这一定义集中反映了数据仓库的以下基本特点:(www.daowen.com)
①数据仓库是面向主题的。操作型数据库中的数据主要面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织的。主题是指用户使用数据仓库进行决策时所关心的重点方面(如收入、客户、销售渠道等);所谓面向主题,是指数据仓库内的信息是按主题进行组织的,一个主题通常与多个操作型信息系统相互关联。
②数据仓库是集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
③数据仓库是相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需定期加载、刷新。
④数据仓库是反映历史变化的。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库通常以在线的数据库或文件系统为其底层数据源,通过ODS(Operational Data Store)对其实施E(抽取)、T(转换)、L(加载)操作形成数据仓库中的数据。
(2)非结构化数据存储系统
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大,IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在此情况下,主要用于管理结构化数据的关系数据库系统的局限性暴露得越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入了基于网络信息应用的非结构化数据库时代。
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(全文文本、图像、声音、影视、超媒体等信息)。
在我国,非结构化数据库以北京国信贝斯(IBase)软件有限公司的iBase数据库为代表。iBase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点:
Internet应用中,存在大量的复杂数据类型,iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。
它采用子字段、多值字段以及变长字段等机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。
iBase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了数据库系统数据管理到内容管理的转化。
iBase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在一起,特别适合于表达复杂的数据对象和多媒体对象。
iBase是适应Internet发展的需要而产生的数据库,它基于Web是一个广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将网络服务器(Web Server)和数据库服务器(Database Server)直接集成为一个整体,使数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合,从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。
iBase全面兼容各种大中小型的数据库,对传统关系数据库,如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。
通过上面的分析可以预言,随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后信息存储的又一重点、热点技术。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。