在前面的分析中曾指出,有限维度语义空间在非结构化信息的管理中同样扮演着重要的角色。但是由于与结构化信息相比,非结构化信息的内涵复杂性大大增加,因此在非结构化信息管理中的有限维度语义空间将具有一些新的特征。
首先,从全信息的角度来对非结构化信息进行管理的时候,是需要多个有限维度语义空间来描述的,而不是像结构化数据那样,一类数据只需要一个语义间来描述就够了。多个语义空间之间还需要有结构将它们联系在一起。这种结构反映了信息宏观层面的,或者说隐性的、间接的特征或含义,而不仅仅是信息自身的显性内容含义。这也再一次表明,仅仅依靠语义标签是不能有效地管理非结构化信息的。在第5章将会讨论这种结构的建立。
其次,在非结构化信息管理中使用的语义概念,从性质上看要更加复杂。有限维度语义空间的“基”是由明确无歧义的概念构成的。从传统的意义上讲,概念就是描述性的,表征着实体或抽象的存在。比如,时间就是一种对过程流逝特质的抽象描述。但是,仅仅用描述性的语义概念来构建对非结构化信息的管理,不能有效反映非结构化信息内涵的复杂性。
比如,非结构化信息可能会携带复杂的主观意图。这种意图不是描述性概念能够完全反映出来的。在前面举的会议通知的例子中,参会人员虽然仅仅是姓名,但要让他们能够及时得到这个会议召开的信息,而不仅仅是对一个人做姓名的标识。这种姓名含义的变化,就是这个信息在形成的时候人的主观意愿带来的。当用有限维度语义空间来表达这些信息内容的时候,显然有必要把这些含义明确地表达出来,以便支撑相应的应用。
因此,在构建针对非结构化信息管理的有限维度语义空间的时候,空间“基”所使用的概念并不都是单纯描述性的。除了“描述性概念”外,还需要使用“使能性概念”。
所谓“使能性概念”,是指这个概念不仅是对对象的抽象描述,而且隐含驱动未来行为的意义。它将能够更有力地支撑信息的智能化应用。
还以会议通知为例,看看其中的几个概念的使能作用。比如会议的时间,它标志了一个活动的起点,它所具有的使能作用是提醒参会人员按时参会。所以,这个字段将触发日历中提醒功能的设置和启动,而不仅仅是一个时间点的标识。
会议通知中的参会人员姓名,不是仅仅在说谁将参加这个会议,而是应该触发将这个通知及时发送给这些人的动作。
从这两个例子中可以看出,一个基本的概念除了可以分化出不同的描述性子概念之外,还应该分解演化出不同的具有使能特性的子概念,这些子概念也将成为有限维度语义空间基的可选概念。
表4-1表现了时间这个基本概念可能分解出的具有不同描述与使能意义的子概念。这些概念可以分为多级,以便细致地表达不同的具体含义。从对这些子概念的说明中能够看到它们对应了实际应用中的不同场景,可以用来自动触发不同的应用动作。
表4-1 基本概念的分解
(www.daowen.com)
对概念的分解相当于对于有限维度语义空间的某个维度做空间上的进一步分解,以便更加精细地描述信息。
对姓名、地名等其他概念也可以做类似的分解,形成具有不同具体含义的概念。在会议通知中,结构化部分的语义空间的基包括:会议主题(描述性)、会议开始时间与会议结束时间(使能性)、地点(描述性)、参会人(使能性)等不同特性的概念。
通过引入描述性之外的使能性概念,使有限维度语义空间这个非常简单的结构拥有了相对复杂的功能。可以用比较简单的方式将非结构化信息的一些比较复杂的含义揭示出来并加以利用,能够更好地实现智能化的信息应用。
针对某一类信息应用,需要按照这个原则建立一个完整的概念及其分解的集合,使用其中不同的子集作为“基”来构建不同的语义空间,以此为基本构件并结合其他结构组成一个完整的信息管理结构。
这样的概念集合可以分为两个部分,一个是普适的通用概念部分,比如对时间的细分就属于这一类。另外一部分则与具体的应用领域有关,涉及专有领域内的概念。比如做电子病历管理的时候,就要用到大量医学领域内特有的概念;如果做教育的应用,则会使用大量的教育领域内特有的概念。这些概念也是构成领域内知识的基础,在构造领域内知识库时也会起到基础性的作用。这部分工作与人工智能领域中的知识表示有关系。
最后,如在第4.2节中指出的那样,对于音频和图像等非文字型信息,需要将音频和图像等某些非语义特征单独或与语义概念一起形成一个有限维度离散空间,来描述音频和图像等非结构化信息。这些特征同样需要具有明确无歧义的性质。这样构成的空间被称为广义有限维度语义空间。
在有限维度语义空间中引入的使能性概念与非语义特征,将主要用来支撑基于信息全面管理的计算机的各种智能化应用。
在具体构建一个(广义)有限维度语义空间的时候,空间基的选择通常有两个基本的出发点。一个是在一个知识领域范围内来选择空间的基。这个时候,这个空间主要是从某个知识领域的角度来描述信息的。或者说所有的信息都是属于这个知识领域的;另外一个是根据具体应用的需要来选择一组基。这个时候,这组基可能是跨不同知识领域的概念的组合,以便用来支撑特定的应用场景。这样的空间在知识层面上看将具有复合的特征。根据具体应用来选择基的时候,也有可能这组基没有明确的知识领域特征,只是由具体应用所需要的一般性的通用基本概念组成。
从本章各节的分析中可以看出,对于非结构化信息,仅仅依靠“打标签”是无法做到对其进行有效管理的,更无法支撑其在各种场景下的全面智能化应用。需要一个“全信息”的结构来“全息”地描述一个信息,才能够实现对它的有效管理进而支撑各种智能化的应用。
到此完成了对“信息”的解剖,下一章将在此基础上开始对信息管理的讨论。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。