按照信息的存在方式可以将信息分为结构化信息和非结构化信息两大类。
①结构化信息:信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构并且能够通过加工转换为数字化表达形式的信息。结构化信息的使用和维护可以通过数据库进行管理,并有一定的操作规范。我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。
②非结构化信息:相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息、超媒体信息等。
如果说结构化信息翔实地记录了企业的生产交易活动外在状态,是显性的表示,那么非结构化信息则隐性包含了掌握着企业命脉的关键信息,隐含着许多提高企业效益的机会。对于企业来说,企业内部以及企业与供应商、客户、合作伙伴和员工等通过数字化共享所有形式的数据资源,已越来越重要。在信息和知识的“结构化”世界之外,信息应用中还存在着一个“非结构化”的世界。对大多数组织来说,ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右,其他的90%左右都是数据库难以存取到的非结构化信息和知识。来自IDC的分析显示,虽然很多企业投资建立了诸多业务支撑系统,但仍有72%的管理者认为知识没有在他们的组织得到重复利用,88%的人认为他们没有接触到企业最佳实践的机会。Gartner公司也曾预言,对非结构化信息和知识的管理将会带来一个新信息技术应用潮流。(www.daowen.com)
非结构化信息处理类似于20世纪70年代以前的结构化信息应用。割裂、无法进行数据互操作的应用是其主流。以人们最常用的文档软件来看,DOC文档是MSWORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“专属领地”。这样的情况下,文档格式的束缚使信息四分五裂,信息流无法通畅地实现流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。
可以预见,文档数据库技术的发展将成为信息处理技术下一步发展的潮流。文档数据库产业也将成为一个比数据库产业更加重要的核心产业,关系到信息技术的发展和应用的进程。该技术的应用将意味着文档信息也可以像结构化信息的应用操作一样,其信息的构建只要符合特定的数学模型,并设计一种可以对所有符合这种数学模型的文档进行各种操作的标准,文档应用软件就可以对所有此类文档进行相应的操作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。