2.1.1 文献结构化表示模型与标准
文献内容的结构化处理是实现语义出版的资源基础。文献内容只有经过结构化处理生成半结构化的XML数据,之后才能便于实现内容的重组与多元发布。目前,对于文献内容结构化处理的相关研究相对丰富,并已经形成了若干具有代表性的标准。
科技期刊文章标签集(The Journal Articles Tag Suite,JATS)[33]是由美国国立医学图书馆(NLM)下的国家生物技术信息中心(NCBI)开发,是一组集XML元素、期刊文献标记属性、三种DTDs的标准,用来描述期刊及一些非论著材料如书信、述评、书籍以及产品评论的正文及表格内容。JATS标签集包含三套标准,所有标签与标签属性的定义都是从JATS标签集中抽取的,这些标签构成了存储、出版、创作三大模型。
除了JATS外,NLM同时也针对图书的结构化处理发布了图书交换标签集(The Book Interchange Tag Suits,BITS)[34],这被视为JATS标准在图书结构化领域内的拓展。BITS主要用于描述STM领域的图书结构信息,同时也可以用于政府报告、会议文集等的结构化描述。BITS吸收了NCBI Book DTD的设计理念,将书视为一个单独的XML文档,并通过对部分(section)、章节(chapter)等元素的定义和划分实现了对图书的结构化处理。
DocBook[35]是一种主要用于技术文档的标记语言,其核心是DocBook DTD,由OASIS的DocBook小组维护。该标准对文档结构进行了详细的定义,按文献篇章结构特征由大到小依次分为集、书、文章、部分、章、节、段落,不同层次的文献内容由不同的元素进行描述。
达尔文信息版式架构(Darwin Information Typing Architecture,DITA)[36]是一种面向主题的出版架构。在DITA定义的出版流程中,内容组织的最细粒度单元是以XML格式描述的结构化内容模块。这种内容模块在DITA标准中被称作主题(topic)。根据出版物的结构组织要求,描述相同对象的主题通过对象映射(mapping)机制进行逻辑顺序组织,形成内容完整的统一体。组织完成的出版内容经样式渲染(rendering),形成交付终端展示的数字出版物。
文本编码协议(Text Encoding Initiative,TEI)[37]是另一广泛应用于人文领域的文档编码规范。它包含了版本、出版信息、文本大小、题名等多个复合元素,同时也对500种不同的标签及相关概念进行了定义。目前,TEI除了相关的DTD标准外,也有使用可扩展标记语言的下一代正规语言(Relax NG)的相关模型。(www.daowen.com)
目前,文献内容结构化处理研究主要集中在两个方面。首先,是对这些标准在不同领域内的运用的研究,尤其是在文献管理与存储方面。Eliot Kimber[38]探讨了在DITA标准的基础上,实现对超文档(hyperdocument)进行管理与发布的可能性,并在此基础上提出了一个简要的超文档管理系统。Zhao Wei[39]等则在加拿大21所高校的学者门户(scholars portal,SP)系统开发中,使用JATS对超过4000万篇文献进行了结构化处理与存储,同时采用BITS代替MARC21作为对电子图书资源进行管理的标准。除此之外,Charles O’Connor[40]等人以及Kaveh Bazargan[41]等都对如何借助JATS实现出版流程以及出版生态系统的再造做出了相应的研究。李万勇[42]等人讨论了S1000D规范与DocBook规范转换问题。
其次,是对现有标准的补充、扩展与完善,包括相应的改进方法以及在多语种环境下的应用。例如,Jeff Beck[43]提出了完善JATS重用性的方法,Daniel Mietchen[44]则提出了使用JATS支持数据引用的机制,并提出了通过增加<version>以及<data-title>两个元素的方式对JATS进行改进的方式加以实现。同时,Hidehiko Nakanishi[45]探讨了使用JATS对日语文献的标注策略。此外,Chandi Perera[46]、Wei Zhao[47]等还对JATS在图书范畴内的使用进行了探讨。Dana Wheeles[48]探索了BITS在非标准化图书内容环境下的使用情况。
结构化数字摘要(structured digital abstracts,SDA),不同于传统科学文献中摘要的概念,结构化摘要是一种对文献关键数据及结论的、机器可读的总结。其概念最早由Gerstein和Seringhaus提出,目的是为了加强科学文献文本与存储在数据库中的科学数据之间的关联,并实现文本挖掘[49]。Gerstein和Seringhaus认为SDA应当包含三个主要元素,分别是翻译表、使用本体等受控词表表示的重要结果清单,以及相关的标准证据编码。在此概念的基础上,《欧洲生化学会联合会快报》(FEBS Letters)[50]以及MINT数据库(The Molecular INTeraction Database)[51]均对其进行了延伸,将数字化摘要运用到了涉及蛋白质化学反应的结构化描述文献中。结构化摘要通常是一系列对传统摘要的XML编码,重点是对文献中出现的蛋白质、化学反应等进行详细描述,通过XML将文章中的关键数据及结论以机器可读的方式展现,这种描述通常包括固定标识符以及相关的预设受控词表。
目前,结构化摘要研究已经成为文献结构化研究的重要组成部分。Shotton[52]等人曾做过结构化数字摘要的实验,Kei-Hoi Cheung[53]等人也在SDA的基础之上提出了语义网环境下结构化数字表格的表现形式及结构化方法。
关键词结构化是文档结构化的另一个研究领域。以往的论文中,关键词的语义功能并没有得到特别区分,这使得检索过程中,不同语义功能的关键词被一视同仁的处理,不利于提高检索的精准度。美国印第安纳大学的Xiaozhong Liu[54]等利用自然语言处理和机器学习技术,提出了一种构建科学文献结构化元数据,也就是结构化关键词(structured keyword)的方法。结构化关键词是一种方便知识检索,具有机器可读性的框架,能够区分关键词在论文中的语义功能,并表示论文中的主要论断和实验结果。武汉大学信息管理学院的陆伟教授也在自科基金项目“面向词汇功能的学术文本语义识别与知识图谱构建”的支持下进行这方面的研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。