从网络舆情信息聚合概念框架可知,决策者和分析者所需知识和信息是分散、异构的,为了实现知识的有效共享,许多技术问题需要解决。首先,需要为给定的决策任务寻找可能包含所需数据的合适的数据源,寻找合适的数据源是信息检索和信息过滤领域要解决的问题[1]。一旦数据源被找到,数据的获取成为接下来要解决的问题,不同来源的数据需要在同一个系统中经过查询获取而发挥作用,即数据互操作问题。简单来说,知识共享不仅需要提供获取数据的充分权限,还需要处理并解释这些数据。由于数据异质性带来的问题在分布式数据库系统的研究领域可以被划分为:结构异质性和语义异质性[2],前者指不同信息系统存储数据的结构不同,后者指存储数据的内容及其含义相异。Goh将语义异质性的原因归纳为三种:①混淆冲突,信息项似乎具有相同的含义,但是因为情境差异带来含义差异。[3]扩展冲突,用不同的参考系统来衡量同一个数值。[4]命名冲突,同一个含义,却使用了不同的命名方案,例如同义词②。本体被开发用于解释隐含或隐性知识、克服语义异质性、实现信息聚合和数据互操作③。
几乎所有基于本体的信息聚合方法中,本体的首要作用都是用于显示描述信息的语义,总体来看,使用方式可以分为三种:单个本体方法、多个本体方法和复合方法。单个本体的方法可用于解决当所有待聚合的数据源都指向某个领域中几乎相同的观点的情况,但是当数据源指向不同观点,需要提供另一个级别的粒度时,寻找最小本体就变成了一个难题。例如,产品目录的聚合,当不同来源的产品目录结构相似度高时,本体表达的难度会比较小,而当差异性大时,本体表达的难度就大。当数据源发生变化时,单一本体表达的领域概念也会随之发生变化。当出现新的数据源时,就需要为之开发新的本体,因而导致了多本体方法的出现。在多本体方法中,每个数据源都由其独立本体表示。这种本体架构能使简化例如数据源中数据移除或添加带来的变化,然而,一个通用词库的缺失,让本体之间的比较变得困难起来,因此需要本体内映射来识别本体中术语之间的语义关联,然而映射同样需要考虑不同领域内的不同观点,例如本体概念的不同粒度及其聚合。为了解决多本体方法带来的本体映射困难,复合方法提出用一个通用共享的词库统一管理多个本体[5]。共享词库包含了某一个领域的基本术语,这些术语是多个本体共用的,因此可以让多个本体之间的比较变简便,而有时候,这个共享词库本身就是一个本体[6]。
本体与数据源的联系,可以是基于数据库模式,也可以是数据库中使用的单个术语。总体上看,一般具有四种方式:
1)相似结构。直接应用数据库模式,将数据库结构一对一拷贝。这种联系是在复制模型的基础上建立的,便于追溯原始数据,如SIMS[7]和TSIMMIS系统[8]就是采用这种方式建立进行数据定义的。(www.daowen.com)
2)定义术语。为了让数据库模式下的术语语义清晰,可以将数据库或者数据库模式中术语进一步定义清晰。这种定义不直接反映数据库的结构,仅仅通过定义术语建立起与信息之间的联系。定义本身可以包含定义术语的规则。通常情况下,术语是由概念定义进行描述的[9]。
3)丰富结构。这是建立本体与数据源联系的最常用的方法,是以上两种方法的结合,要求建立与数据源结构相似的逻辑模型,同时包含对概念的补充定义。
4)元注释。添加语义信息到数据源中的方法称为元注释,这种方法始于互联网环境,通过注释避免信息冗余,例如通过给文本加上标签,通过标签可以实现信息聚合。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。