理论教育 出版学研究进展:多领域文献结构描述手段的逐渐独立提供

出版学研究进展:多领域文献结构描述手段的逐渐独立提供

时间:2023-08-08 理论教育 版权反馈
【摘要】:随后出版本体逐渐独立出来,提供了适应于不同领域的文献结构描述手段。随着本体间协同作用的增强,出版本体集也开始产生。在领域性出版本体中最具有代表性的是SWAN本体。全域性出版本体虽然在使用上摆脱了特定领域的限制,但在功能上过于全面而无法对某一方面进行更为深入细致的描述。

出版学研究进展:多领域文献结构描述手段的逐渐独立提供

出版本体是用于对出版物内容和出版过程的规范化描述,是对文献内的细粒度知识单元进行有序组织的关键,也是构建语义出版系统的核心。出版本体的发展是一个逐渐细化的过程,最早的出版本体是领域性的,与特定的领域知识结合非常密切,更多的服务于领域知识组织。随后出版本体逐渐独立出来,提供了适应于不同领域的文献结构描述手段。随着本体间协同作用的增强,出版本体集也开始产生。

在领域性出版本体中最具有代表性的是SWAN本体。SWAN[55](Semantic Web Applications in Neuro-medicine)是神经医学领域表示生物医学文本一般性语义结构的本体。SWAN最初是建立在奥尔兹海默症(Alzheimer Disease,AD)的相关研究基础上,整合了诸如OBO(Open Biomedical Ontologies Foundry)、NCBO(National Center for Biomedical Ontology)等领域本体,具有非常鲜明的领域属性。除此之外,SWAN还包含一些通用元素,如人物、组织、机构、篇章单元、引用及参考文献、版本及出处信息等。其中,最核心的部分是篇章元素部分,它又涵盖了研究声明、研究问题以及结构性注解三类。这里的研究声明具体指代断言或假设,研究问题是指科学研究的主题,结构型注解则是对发布在数字资源上注释的结构性表述。由此可以看出,SWAN对于出版物内容结构的理解还十分有限,更侧重于将领域知识与篇章内容结合在一起。

全域性出版本体以SALT(Semantically Annotated LaTex)为代表,SALT由Groza[56]等人提出。SALT摆脱了领域知识的限制,而专注于出版内容及相关信息。SALT本体包括语义层和语法层两部分,其中语义层居于核心地位,包括文档、修辞及标注三大部分。文档本体用来描述文档的内部结构,诸如段落、语句等。修辞本体用来描述文章的修辞结构及修辞单元,如断言、证据等。标注本体则连接了文档内部结构与修辞结构,给文档内部结构单元赋予了修辞功能的属性,又将文档功能单元与具体文档组成成分相关联。全域性出版本体虽然在使用上摆脱了特定领域的限制,但在功能上过于全面而无法对某一方面进行更为深入细致的描述。

出版是一个系统工程,其中涉及了出版物内容、相关的引用及参考文献,还有具体的出版流程,这就需要不同目的的本体进行协同工作,由此产生了出版本体集合的需求。

出版本体集以SPAR(Semantic Publishing And Referencing Ontology)以及语义棱镜(Semantic Lenses)为代表。SPAR[57]是一套整合了出版过程本体(PRO、PSO、PWO)、出版物参考文献本体(FaBio、CiTO、C4O)以及描述出版物内容结构和修辞功能的DoCO本体的本体集。该本体集的各个部分既可以同时使用,也可以单独使用,还可以与其他本体协同使用。语义透镜也是一组由不同功能的本体组成的本体集合,通过不同语义本体构成诸如研究背景、出版环境、结构、修辞、引用、论证等八个不同的分析维度,并通过对这些不同维度的组合以实现对文献背景信息、论文结构信息以及论文内部各功能块作用的定义。与SPAR不同的是,Semantic Lenses[58]对于不同功能的区分更加明确,尤其是在对文本内容的描述上。相比于SPAR使用DoCO对文献内容从修辞结构方面进行描述,语义透镜则将论证结构引入到文本结构描述上来,通过使用论证本体(argument ontology)定义文档的论证要素及论证结构,使其与引文关系、修辞结构等互相作用。

2.2.1 出版物内容与结构本体

对出版物内容和结构的描述在各出版本体中通常从两个角度出发,一是文献修辞结构,二是文献论证结构。这两者均是从文献功能单元的定义起步,以文献结构深层次理解为基础,侧重于对文献知识单元的链接。下文将对这两类本体进行详细介绍。

文献修辞本体最早的雏形是SALT本体中的修辞本体(SALTRhetorical Ontology)[59],SALT的修辞本体总共分为修辞关系、修辞结构以及论证三个层次。其中修辞关系(rhetorical relations)主要用来表示文献内断言(claims)及相关解释之间的关系。SALT借鉴了修辞结构理论(rhetorical structure theory,RST)中对修辞关系的解释,选取了其中与科学文献关联度较高的几种修辞关系,如环境(circumstance)、判断(justify)、证据(evidence)等。修辞结构(rhetorical structure)主要关注文献结构单元的功能识别及定义,它借鉴了waard提出的ABCDE结构模型,并在此基础上进行了扩充,形成了更细粒度的功能单元,如摘要(abstract)、动机(motivation)、讨 论(discussion)、结 论(conclusion)、背 景(bsckground)等。

修辞块本体(ontology of rhetorical blocks,ORB)[2][60]是W3C提出的用以表示篇章修辞结构的推荐标准,其目的是为了建立一个跨学科的、具有普适意义的科学修辞模块定义。ORB本体既定义了具有描述一般修辞单元的粗粒度结构,又可以根据具体的篇章进行更细粒度的结构划分,所以ORB具有较强的可扩展性。ORB的核心结构包括三个部分:头部、主体和结尾。头部主要是对出版物附加信息的描述,包括题目、作者、机构及出版地等条目。主体则借鉴了科学文献的IMRAD结构,分为引文(orb:introduction)、方法(orb:method)、结果(orb:results)及讨论(orb:discussion)四个部分。尾部的信息包括致谢(orb:acknowledgement)及参考文献(orb:reference)。

篇章元素本体(discourse element ontology,DEO)[3]是Peorni和Shotton等人对SALT本体及ORB本体的完善。相比于ORB和SALT,篇章元素本体专指性更强,更加针对科学文献的修辞结构,因而对修辞单元的划分也更为细致。该本体使用RDF语言描述了30多种修辞单元,如致谢(acknowledgement)、背景(background)、方法(method)、模型(models)、结果(results)、讨论(discussion)、数据(data)等。

文献构件本体(document component ontology,DoCO)[4]是Peroni等人对DEO的改进,它使用了OWL2作为描述语言,整合了SALT、ORB等本体的相关部分,因此该本体有类似于ORB关于头部、主体、尾部的划分[61]。DoCO最主要的特点是整合了文献结构模式本体(Pattern Ontology,PO),用以描述诸如段落、语句等文献外部结构框架

除了以上关注文献修辞结构的本体外,关于文献论证结构的本体也受到了越来越多的关注。在出版本体发展初期,文献论证结构通常是与修辞结构一起,作为对修辞结构及修辞功能的补充。但这两者之间存在本质区别,相比于修辞结构更注重对文本单元功能的定义及描述,论证结构侧重对逻辑推理和科学论证过程的描述,是科学文献内的隐性知识。在论证结构得到关注之后,相关的论证本体也开始出现。

SALT修辞本体中的论证框架是较早将论证关系引入对文献结构描述的实例之一。论证部分并不是独立存在的,而是作为修辞本体的一部分,用以说明不同修辞块之间存在的支持与反对关系。受制于使用目的,该部分只定义了论证(argument)及反证(counterargument)两种论证。

论证模型本体(argument model ontology,AMO)[5]是相对完整的论证本体,是使用OWL语言对图尔敏论证模型的形式化表达。AMO定义了图尔敏论证理论中包含的6个元素,包括断言(claim)、证据(evidence)、保证(warrant)、限定词(qualifer)、反驳(rebuttal)、支援(backing),同时也定义了包含支持(support)、证明(proves)等在内的21种关系。(www.daowen.com)

学术本体项目(sholarly ontologies project,ScholOnto)[62]从sanders的认知关联关系(cognitive coherence relations,CCR)理论出发,由内容片断的一致性(coherence among content segments)入手,侧重于对文本块之间关系的定义。ScholOnto通过一系列参数的设置定义了丰富的关系,最主要的关系有六类,分别是:因果(causal)关 系、问 题 相 关(problem related)关 系、相 似 性(similarity)关系、通用(general)关系、支持/挑战(support/challenges)关系、分类(taxonomic)关系。每一类关系都包含了极性(正向或负向),以及具体的权重

2.2.2 引用及参考文献本体

出版内容本体提供了对文献内容细粒度单元功能及其关系的解读,而文献之间的关联以及文献内部文本块的联系除了由自身功能决定之外,还受到引用关系的影响。对引文及参考文献进行语义解读,能帮助研究者理解引用关系的实质。目前,对引文的语义解读通常体现在参考文献特征、引用的语义关系以及引用的上下文环境三方面。具有代表性的出版引用本体如下:

引文类型本体(citation typing ontology,CiTO)[6]是Peroni等人提出,借助RDF表示引用关系的同时对其语义属性进行了定义。在CiTO中,引文语义主要从修辞(rhetorical)关系及事实(factual)关系两方面进行定义,修辞关系主要指作者的引用情感,包括积极(positive)、中性(neural)、消极(negative)三类;事实关系则体现引文的作用,即引用数据(uses data from)、引用方法(uses method in)等[63]。CiTO具有较强的扩展性,可以同FOAF(Friend of a Friend)本体、都柏林核心元数据集一起使用,以表示引用文献的作者信息。同样也可以与ORB、DoCO等出版物内容本体有较好的协同作用。

引用数量及引用环境本体(Citation Counting and Context Characterization Ontology,C4O)[7]主要用来对同一参考文献在不同文献中的引用位置、引文环境进行定义,同时也与谷歌学术等相关联,实现对总体引用次数的描述。

书目信息本体(the Bibliographic Ontology Specification,BIBO)与FRBR对应书目信息本体(FRBR-aligned Bibliographic Ontology,FaBiO)[8]则对施引文献与被引文献的具体特征信息进行了描述。BIBO共定义了69个元素,其中最主要的是对文献类型的定义。[64]FaBiO在BIBO的基础上,融合了FRBR(Functional Requirement of Bibliographic)框架中关于作品(work)、内容表达(expression)、载体表现(manifestation)和单件(item)的分类,同时也包括了对创作者和创作团体描述,最终形成了整合性的本体。

FaBiO的元素主要分为四类,其中,作品(work)中包括69个子类,诸如模型(model)、数据集(dataset)等;内容表达(expression)包括图表(figure)、章节(chapter)、表格(table)、专利 文 献(patent document)等92个 子 类;载 体 表 现(manifestation)则定义了诸如云(cloud)、博客(blog)、网页(web page)等10个子类;单件(item)则定义了4个子类,诸如数字单件(digital item)、模拟单件(analog item)等[65]。相较于BIBO、FaBiO关于参考文献的定义结构更为清晰。

2.2.3 出版流程本体

出版是一个流程,对出版物生命周期的描述十分重要,这其中包括出版工作流程,与之相对应的出版物状态和在不同环节中扮演不同角色的实体与代理。SPAR中通过出版流程本体(the Publishing Workflow Ontology,PWO)、出 版 物 状 态 本 体(the Publishing Statuses Ontology,PSO)、出 版 物 角 色 本 体(the Publishing Roles Ontology,PRO)三个本体对其进行了描述[66]

出版角色本体(PRO)[9]用来描述在出版过程中,人、机构及计算机代理所扮演的角色信息。通过这个本体可以将书目实体(作者、边际、审稿人等)与特定机构(出版商、图书馆等)及其在特定时期所扮演的具体角色相关联。其中主要的元素包括作者(author)、编辑(editor)、出版商(publisher)、同行评议者(peer reviewer)等。

出版物状态本体(PSO)[10]是对出版过程中出版物所处不同状态的描述。在该本体中,一个实体是指在特定出版项目中,特定时间序列及特定状态下的出版物。该本体的主要元素包括草稿(draft)、递 交(submitted)、审 阅(under review)、拒 绝 录 用(rejected for publication)、录用(accepted for publication)、同行评议(peer reviewed)等。

出版流程本体(PWO)[11]是对出版流程的描述。PWO本体相对简单,其主要目的是将文献的出版工作流程的主要阶段进行形式化表达,诸如送审(under review)、XML处理(XML capture)、页面设计(page design)、Web发布(Web publication)等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈