理论教育 有限维度语义空间与结构化数据的关联

有限维度语义空间与结构化数据的关联

时间:2023-06-09 理论教育 版权反馈
【摘要】:有限维度语义空间各个维度正是结构化数据/信息的语义分解。有限维度语义空间以及关系型数据库为结构化数据/信息的管理以及基于它的应用提供了一个统一的处理方法与工具。

有限维度语义空间与结构化数据的关联

在第3章第3.3节中引入了“有限维度语义空间”的概念,并且指出所谓结构化数据/信息就是可以用某个有限维度语义空间中的点来严格定义的数据/信息,在此对这个问题进行比较深入的分析。

在所有的各种不同的信息类型中,结构化信息是语言文字类信息之中含义与结构都比较简单的一小类。从语义学的角度来看,它们主要只有概念的/字面含义以及概念之间的一阶关联,而基本没有概念之间相互作用而形成的复杂语法含义。

同一类结构化数据/信息是由一组明确定义的概念的实例字段组合而成的。比如银行的同一类型中不同的具体账号,都是由同样的一组字段组合而成的,而这些概念具有明确无歧义的特征。明确定义的概念是语义的基础与核心。所以把由一组明确无歧义的概念作为“基”而形成的空间,称之为有限维度(离散)语义空间。而结构化数据/信息自然就是这样一个空间中的一个点。

由于结构化数据/信息属于语言文字类信息,因此它的含义内容也就是其语义内容。同时,结构化数据/信息就是由具有独立明确意义的字段组成的,并没有复杂的语法结构。所以,结构化信息的语义内容完全由其构成的字段所决定。

因此在结构化数据/信息的管理中,通过有限维度语义空间,结构化数据/信息的含义内容,即语义内容,已经被完整而显性地表示出来。有限维度语义空间各个维度正是结构化数据/信息的语义分解。也就是说,有限维度语义空间正是从语义含义的角度实现了对结构化数据/信息的管理。

因为结构化数据/信息是与具体的应用紧密耦合在一起的,数据/信息的产生与使用都是具体的应用过程的一个环节,所以结构化数据/信息的支撑信息也都是融合在应用之中的,有些包含在数据/信息自身中。因此,在结构化数据/信息的管理中,并没有使用全信息的概念将一个数据/信息的支撑信息作为它的附属而管理起来。事实证明,利用有限维度语义空间对结构化数据/信息的语义内容进行完整准确的分解,并由此完成对数据/信息的管理,就可以有效地支撑对结构化数据/信息的含义(语义)内容的完整和充分的利用。

在技术实现上,关系型数据库为建立和操作有限维度语义空间以及其中的数据/信息提供了一个便利而强大的技术工具。利用关系型数据库,可以围绕一个完整的应用将应用中不同类型的数据/信息用不同的有限维度语义空间进行管理,实现对各个语义空间内的数据/信息进行各种操作。也正是因为这个原因,关系型数据库成为计算机应用第二个阶段,即基于结构化数据应用中最为核心的平台级产品之一。

有限维度语义空间以及关系型数据库为结构化数据/信息的管理以及基于它的应用提供了一个统一的处理方法与工具。那么,对于非结构化信息是否也有一个统一的方法来解决所有的问题呢?

在科学技术的发展历程中,曾经出现过一个与此有些类似的问题,那就是线性系统与非线性系统的处理方法问题。线性系统与非线性系统的处理方式,对于理解结构化与非结构化数据/信息处理问题具有一定的启发作用。

在各个不同的领域内都会遇到系统问题。其中,线性系统一如结构化信息,也是有明确的定义的。假如一个系统的传递函数F,并且定义了“加法”与“数乘”运算,则满足下面两个条件即为线性系统:

F(X+Y)=F(X)+F(Y),F(aX)=aF(X)(www.daowen.com)

而非线性系统与非结构化数据/信息一样,也是用排除性描述来定义的,即线性系统之外的系统均称为非线性系统。

所以,线性系统是整个系统集合中很小的一个子集,而且性质相对简单。这就如同结构化数据/信息是整个数据/信息集合中很小的一个子集那样,而且也是性质相对简单的一类。

对于线性系统,有有效的数学方法来统一描述。事实上,大部分数学分析工具都是针对线性系统的。与此类似,对于各种结构化数据/信息,也有有限维度语义空间这个工具来有效地统一描述。

对于非线性系统,情况则千差万别。不同的非线性系统的具体描述与处理方法各有不同。其实,这个状况非常自然。因为非线性系统并不是一类具有相同性质的系统,而是系统集合将线性系统排除后剩余的大杂烩。这样,对于非线性系统进行细分归类,然后再想办法来描述与处理就成为必由之路。我们不应该指望有一个统一的方法能够有效地描述与处理所有的非线性系问题。

当然,在描述与处理非线性系统问题的时候还是有一些通用的原则。比如,在一定条件下对系统进行线性化处理。但是最重要和最关键的,还是针对具体的非线性问题的特点寻找具体的方法。

非结构化信息的情况与此类似。非结构化信息是所有类型的信息除去结构化信息后剩余的大杂烩。我们很难指望找到一个简单的方法来处理所有的非结构化信息的管理与应用的问题。对于非结构化信息的管理,也需要针对具体类型的问题寻找具体的方法,而不太可能有一个方法解决所有问题。尽管对非结构化信息作结构化处理,可以利用有限维度语义空间这个工具是一个可能的基本思路,但仅仅作结构化处理并不能解决全部问题。

拿系统问题与数据/信息管理与应用问题作对比,是为了获得一些有益的启示,并不意味着应该简单照搬系统领域里的经验或做法。

如何针对不同类型的问题构建针对包括大量非结构化信息在内的一般性信息的有效管理结构,是未来涉及非结构化信息应用的基础与关键。由于非结构化信息无法用有限维度线性语义空来严格定义,其实际的应用既与信息的直接含义内容有关,也与它的支撑信息有关。所以,对非结构化信息的管理方法应该放在全信息的框架内来分析。很多现在流行的仅仅基于语义的方法无法满足未来应用的需求,或者说,这些方法无法充分利用复杂的非结构化信息的价值。

下面将从前面引入的“全信息”的视角,对信息,特别是非结构化信息进行比较深入细致的分析,来寻找对包括大量非结构化信息在内的一般性信息在特定的、代表未来主要应用场景的情况下进行有效管理的方法或结构,以期实现在这些情况下对信息的充分有效利用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈