为了实现语义出版的目标,必须首先在数据层面上理解文本内容的结构和功能,这是实现各种粒度的实体识别、特征描述和知识关联技术的基础。
1.3.1 文本结构相关理论
语言学以及人工智能领域的相关研究,对文献结构和功能的理解提供了丰富的理论基础。其中较有代表性的是Mann提出的修辞结构理论(rhetorical structure theory,RST)[12],该理论认为语篇是由不同的文本块(text span)构成。在语篇分析的基础上,修辞结构理论发现文本块之间存在约30种不同的修辞关系(rhetorical relations),承担着构建文本的功能。Sanders等人则从认知心理学的角度出发,更加侧重于对文本间关联性的探究,形成了认知关联关系理论(cognitive coherence relations,CCR)。这两种理论都是从根本上对文献构成元素及其关系进行的研究,是文本表示理论及模型的基础,也是语义出版基础理论的重要组成部分。
除此之外,Swales[13][14]从体裁的角度出发,提出了引言部分的CARS模型并对其进行了修正。Zhang Lei[15]在此基础上,结合了用户阅读科学文献的偏好,提出了功能单元(functional unit)的观点,并识别出了科学文献中的41个功能单元。Anita de Warrd提出了科学文献的ABCDE模型[16],将科学文献划分为注释(annotation)、背 景(background)、贡 献(contribution)、讨 论(discussion)以及实体(entities)等部分。harmsze[17]提出了科学文献模块化结构的模型,认为科学文献是由内在关联的六个模块构成,分别是元信息(meta-information)、位置(positioning)、方法(methods)、结 果(results)、解 释(interpretation)以 及 结 论(outcome)。除了以上几种理论之外,在科学论文写作理论中,通常把论文结构称为IMRAD结构,既引言(introduction)、方法(method)、结果(result)、讨论(discussion)四部分,该结构是最常见的文本结构模型。
1.3.2 语义出版相关技术
语义出版的相关技术是开发语义出版系统的基础,这些技术包括基础性的可扩展性标记语言(XML)、资源描述框架(RDF),关键性的语义标注技术(semantic annotation)、实体链接技术(entity linking)和关联数据技术(linked data)。(www.daowen.com)
XML语言是一种用于标记电子文件使其具有结构性的标记语言,其主要目的是用于提供统一方法来描述和交换结构化数据。RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,定义了资源的描述方式,具有简单、易扩展、开放性、易交换等特点。RDF由RDF Data Model、RDF Schema以及RDF Syntax三部分构成。RDF语言提供了一套简易的数字资源组织发布方式,成为了本体(ontology)、关联数据(linked data)等技术的基础。
语义标注[18]就是将文献资源中涉及的实体(作者实体、术语实体、机构实体等)与其对应的本体概念相关联,利用本体中定义的概念、属性以及语义关系揭示文献资源的语义。语义标注需要将语义标签添加到传统文档上,并生成相应的语义内容(semantic content),由此实现机器可读。张晓林[19]对语义标注方法进行了总结,认为主要分为三类:①人工标注。由专门人员确定网页的使用概念集、对网页内容结构进行解析、选择元数据元素、建立用RDF或HTML语言标记的语义数据。②利用DTD和XML Schema进行概念集映射和标注。③利用词汇语义分析进行标注。随着技术的不断进步,语义标注技术,尤其是自动语义标注技术也逐渐丰富起来[20]:基于规则学习的标注方法,诸如Ciavegna提出的LP2(规则自动学习算法);基于分类模型的语义标注方法,如支持向量机模型、感知器模型以及贝叶斯模型等;基于序列模型的语义标注方法,如隐马尔科夫模型(HMM)、最大熵模型(MEM)以及条件随机场模型(CRFs)等。此外,还有基于语言依存关系的分析方法、基于语义排歧的统计方法、基于文档结构的分析方法等。
实体链接是指将文档中出现的文本片断,即实体指称(entity mention)链向其在特定知识库中相应条目(entry)的过程[21]。实体链接在文本分类和聚类、信息检索等领域都十分重要。在语义出版系统构建过程中,构建实体之间以及与领域知识库间的链接十分重要,它是对文本内容进行语义增强的重要方法。实体链接主要包含两项关键技术,分别是指称识别和实体消歧。指称识别的任务是在科学文献中识别出在知识库中存在相应条目的实体并自动归类。指称识别的研究大多利用维基百科中的信息构建实体别名词典,得到实体指称与其候选实体之间的一对多映射关系。实体消岐与词义消岐类似,是指给定实体指称及其所在上下文、候选实体,判断其在当前上下文中所指向实体的过程。目前,实体消岐的方法主要有分类方法、机器学习排序方法、基于图的方法、模型集成方法等。
关联数据(linked data)是W3C推荐的一种建立在现在Web通用标准上的结构化数据发布与共享方法,用来发布和连接各类数据、信息和知识,并提供适宜人和机器理解的语境信息,从而实现多源数据的语义融合[22]。Tim Berners-Lee[23]曾提出了关联数据的四个原则,对关联数据的基本特性进行了概括,成为了关联数据的基石。关联数据的语义化和关联化的链接机制,能够为语义出版提供一种更为灵活的数据发布及共享方式,实现外部知识库链接、文献知识单元语义聚合等更高层次的语义出版需求。关联数据的发布是关联数据技术的核心。夏翠娟、刘炜[24]等人曾以Drupal为例对关联数据发布技术及其实现进行了梳理与介绍,提出关联数据的发布模式有静态发布、批量存储、调用时生成、事后转换(D2R)等四种,关联数据发布的工具包括VOID词表、前端转换工具、OWL及SKOS相关工具、CMS及RDFa等。沈志宏等[25]认为关联数据的发布包括数据建模、实体命名、实体RDF化、实体关联化、实体发布、开放查询六个关键步骤。
目前,关联数据技术在数字图书馆领域得到了广泛的应用,尤其是在数字资源的语义聚合上[26]。牟冬梅等[27][28]针对数字资源,提出了基于关联数据的语义聚合策略,并探究了相关的语义互联模式。郑燃等[29]基于关联数据构建了图书馆、档案馆和博物馆的数字资源整合模式。王忠义、夏立新等[30]针对数字图书馆馆藏资源目录数据的中层关联数据,提出了相应的创建与发布方法。此外,夏立新等[31]基于关联数据初步设计了科技报告语义共享框架及实现机制。马费成等[32]则提出了基于关联数据的网络信息资源集成框架,并设计了一套网络学术资源集成系统。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。