出版本体是在对出版物和出版过程深度理解基础上进行的形式化定义和表达,从根本上来说,出版本体更多的是对当下出版物形式和出版过程的描述。目前,相关研究开始探讨一些新颖的出版物模型,如纳米出版物模型和微型出版物模型。
2.3.1 纳米出版物模型
纳米出版物(Nanopublication)是概念网络联盟(Concept Web Alliance)在2009年提出的,以“科学声明”为单位的具有科学意义、机器可读的、最小的可出版单元模型[67]。该模型包含了核心科学声明和相关语境,对科学信息进行形式化表达,进而方便科学声明层面的知识处理工作,诸如科学声明的整合、查询、推理等。
具体的纳米出版物模型是由Barend Mons和Jan Velterop[68]提出的。随后,Paul Groth[69]对纳米出版物的结构进行了更深入的分析。概括来说,纳米出版物主要由内容性组成部分及功能性组成部分构成。其中,内容性组成部分以概念三元组(triples)为基础,将每一个具有实际意义的三元组视为一条科学声明(assertion)。科学声明与其出处信息(provenance)构成了一条最基本的纳米出版物。除此之外,出版物信息(publication information)(包括归属、整合时间、引用情况等)、支持性信息(supporting)等则对纳米出版物起到了附加解释作用。其核心模型如图4所示。
图4 纳米出版物核心模型
纳米出版物的功能性组成部分是纳米出版物ID,也就是纳米出版物的URI。其中包含完整性密钥(Integrity Key),用于保证纳米出版物的不变性与完整性,帮助用户检查纳米出版物是否被修改。纳米出版物的基本模型由概念出发,概念在此处即为细粒度的知识单元,是具有领域知识属性的知识实体。纳米出版物模型提供了一种对知识实体进行链接的方式,从本质上说是对细粒度知识单元的表示和集成。
除了概念模型的提出及解释以外,纳米出版物模型也在不同项目中得到了广泛应用,其中最知名的是Open PHACTS(Open Pharmacological Concept Triple Store)项目,该项目利用不同来源的信息资源集成药物数据,采用纳米出版物作为数据通用表达方式,提供相关的数据服务工作。2012年,Open PHACTS推出了纳米出版物指南并构建了Nanopub.org网站,提供纳米出版物构建的实例[70]。除此之外,纳米出版物在蛋白质知识平台neXtPro[71]、哲学事实集成项目EMTO Nanopub等项目中也得到了运用。在学界,近年来关于纳米出版物的研究也较为丰富。Croset[72]对纳米出版物的构建及应用进行了归纳,同时对科学声明、科学结论等知识资源如何在创建者、使用者以及计算机之间传递进行了描述。Tobias Kuhn[73]对纳米出版物模型进行了扩展,提出了一个新的框架AIDA(Atom,Independent,Declarative,Absolute)Nanopublication,该模型将英语语句与相应的纳米出版物进行关联,借此提高纳米出版物模型的描述能力。Mina及Thompson[74]借助纳米出版物模型,对亨廷顿氏舞蹈症(Huntington's Disease)的相关研究数据进行了集成与发布。
2.3.2 微型出版物
微型出版物(micropublication)[75]是由Tim Clark等人在2015年新提出的一个用以促进生物医学领域科学交流的新型出版物模型。微型出版物模型从科学文献的角度出发,以论证结构为基础,提出了一种既能适应人阅读,又能满足机器可读性的模型。
Tim Clark等人总结分析了图尔敏的论证模型[76]及其在人工智能领域内的应用,然后在Verheij-Toulmin模型[77]的基础之上,提出了微型出版物的论证结构模型。微型出版物在论证结构方面进行了精简,并将论证的元素扩充至三大类,包括实体、声明、数据及实验等,论证元素之间主要通过支持(support)以及质疑(challenge)两大类逻辑关系相连接。围绕同一断言的所有元素及其之间的关系,共同构成了一个论证框架,清晰地表示了一个论证过程。
具体来说,微型出版物模型的组成成分按照功能可划分为四大类别:
(1)实体。表示客体及讨论对象,前者包含机构(agents)、人物(person)、活动(activity)、表述(representation)等,后者指数据、方法、声明、断言等。
(2)关系。表示微型出版物各元素之间的关联,其中最主要的关系为支持(support)与质疑(challenge)两种。
(3)语句。该类主要从语句功能出发,定义了语句(sentence)、声 明(statement)、断 言(claim)以 及 修 饰 词(qualifier)并加以区分。在微型出版物模型中,语句主要是指有意义的符号,不一定具有语法完整性,可以是单词、短语等。声明则是指陈述性的语句,包含了有意义的符号及符号之间的关系。断言则是起到核心论点作用的声明,是微型出版物模型论证框架的核心。
(4)数据及方法。表示科学实验过程中采用的实验方法以及得出的实验数据,还有实验过程中所需的材料等。
微型出版物的一般结构完整地表述了一条科学论断的论证过程,包含有一系列声明、引用以及包括数据、方法在内的实验过程等,其结构如图5所示。
Clark等人在提出微型出版物概念及模型之后,又对基于微型出版物模型构建以科学论断为连接点的全域性论证网络,以及微型出版物模型与纳米出版物模型互相转化、嵌套的可能性做了研究。Schneider,Ciccarese和Clark还利用微型出版物模型和开放标注模型(open annotation data model)对潜在药物互作用(potential drugdrug interactions,PDDI)相关研究中的证据进行了尝试性形式化表达[78]。(www.daowen.com)
微型出版物模型的构建非常具有启发性。从本质上看,微型出版物模型是一种新的文档表示结构。微型出版物模型把科学文献拆分成了各种论证单元,随后又根据论证结构进行了重组,这一过程与纳米出版物模型十分相似,都提供了新的知识聚合框架。对于语义出版来说,这是传统的叙事性论文向结构化知识库转变的关键。
图5 微型出版物的一般结构,包括由实验数据(Data)和实验方法(Method)组成的证据(Evidence)、声明(Statement)及其参考文献(Reference)[75]
2.3.3 科学知识对象及流体出版物
科技知识对象(scientific knowledge objects,SKO)是由Fausto Giunchiglia等[79][80]提出的一种科学知识表示模型,其核心是一种三层结构的表示方法,定义了SKO节点(SKO Nodes)、SKO、SKO集合(SKO Sets),并通过设定SKO模型(SKO Models)、SKO类型(SKO Types)、SKO模式(SKO Patterns)对科技知识对象的种类、结构、关系、组成模式等进行了定义,同时也规范了相应的元数据标准。
SKO Models是SKO的基础,是一种对于普遍科学知识对象结构化表示的形式化定义,由文件层、语义层、序列层以及表现层等四个层次组成。文件层用于表示科技知识对象的实际内容,即其所包含的实际物理数据。语义层用以表示科技知识对象的语义信息,即所包含对象的元数据,用以描述数据整体或部分的属性。语义层构建在文件层之上,通过属性(attribute)和关系(relation)的定义,用于内容、背景知识以及概念的描述。序列层则定义了SKO节点(SKO Nodes)之间的排列顺序及其组成结构。表现层用于描述科技知识对象的可视化部分。
在SKO Models的基础上,SKO Types[81]通过借鉴都柏林核心元数据集、SALT本体等标准,定义了科技知识对象的元数据标准,具体包括相关的实体(entity)、关系(relation)、属性(attribute)和服务(service)的定义,借此实现对SKO语义层的描述,提供机器可读的科技知识对象语义信息,进而提高检索和阅读效率。SKO Types强调对科技内容语义结构及语义关系的定义,定义了诸如摘要(abstract)、背景(background)、动机(motivation)等文本修 辞 单 元(rhetorical block),同 时 也 定 义 了isAbstract、isBackground等语义关系。
SKO Patterns为科技论文表示提供了一个粗粒度的语义结构,结合在SKO Types中定义的修辞单元,并在此基础上借鉴逻辑推理(logical reasoning)的几种方式,提出了三种语义序列模式,包括演绎模式(deduction pattern)、归纳模式(induction pattern)和溯因模式(abduction pattern)。
在科技知识对象的基础之上,Giunchiglia[82]等提出了流体出版物(liquid publication)模型。流体出版物是一种具备可协作、多样性、动态性等特点的知识对象,以SKO作为主要组成分子,可在不同层次上进行重组以形成新的出版物。该模型具备了协同创作、多形态、多来源等特点,从而实现了创新观点的高效传播、版本迭代、创作进程控制、关联外部知识等较高层次的要求。流体出版物主 要 由 科 技 知 识 对 象(SKO)、人 物(people)、进 程(process)三部分组成。其中,SKO实现了对文献内部知识对象的识别并提供了语义关联的模式。人物则指在科学知识处理进程中扮演一定角色的个人或机构,诸如作者(authors)、审稿人(reviewers)等,同时也包括社交网络环境下产生的新角色,诸如博主(bloggers)、内容聚集者(content aggregators)等。进程则涉及科技知识对象生产、加工、聚合等生命周期中的各个环节。在流体出版物的基础上,Baez和Casati[83]等还提出了“流体期刊”(Liquid Journal)的概念,并提出了相应的概念模型。
2.3.4 语义集成方法
文献本身就是知识的容器。一篇论文往往聚合了某个特定研究主题的多个研究环节的多种知识与发现。在文献被结构化处理和语义标注后,必然会出现二次重组的需要,这就产生了知识集成的问题。如何在知识对象的基础上开展面向用户需求的语义集成是当前语义出版研究的核心问题之一。Khalid Belhajjame[84]等人提出了研究对象套件模型(research object suit,RO),该模型旨在提供一种结构化的容器,将研究数据与对应的研究方法以及相关的元数据封装起来,形成一个围绕特定主题的套件。
Christian Bölling[85]等人提出了语义证据(Semantic Evidence,SEE)的表示方法及模型。该模型借由RDF和OWL对论证框架下科学论断、证据和相关支撑材料进行了形式化表达。与微型出版物模型类似,SEE也提供了一种以相关证据(evidence-related)为线索的知识聚合方式,将特定主题的科学论断、证据与相关材料、方法、假设、推理及其他外部知识库相连接,进而形成一种相互连接且机器可读的表达。
Kevin Livingston[86]等人提出了一个基于本体的生物医学数据库语义集成模型KaBOB(the Knowledge Base Of Biomedicine)。KaBOB借助本体,提供了一种将不同生物医学数据库中的数据集成化表示的方法,并能实现简单的逻辑推演。
Ovopub[87]则是Alison Callahan等人提出的用以表示数据及数据来源的模块化模型。与纳米出版物结构相似,但Ovopub侧重于对数据的整合与应用。Ovopub模型提供了对数据、数据来源及相关的授权信息进行结构化描述的方法,同时也提供了构建更加复杂的声明及论证的方法,并在此基础上实现了对数据来源进行信息检索以及相关数据的整合发布。
Trójcazk[88]等人以科学规律本体(ontology of scientific laws)为基础,提出了从农业食品科学文献到知识库的知识转移及转换方法。
以上是对2013年以来几种具有代表性的文献单元聚合及语义集成模型的介绍。这些模型与纳米出版物、微型出版物在形式上有所不同,但都在一定程度上实现了不同细粒度文献单元及实体的聚合。综合来看,这种语义集成和知识聚合是实现知识对象非线性重构和再利用的关键。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。