虽然学术的第一要素是学科,但在多维度标签中,我们还是用了本体这个概念。这里的本体并不是阮冈纳赞所说的本体概念,多维度标签中的“本体”是从“形式本体论”延伸出来的内容。前面提到,形式本体论=元概念*元关系,这个关系构成了一个结构体系。或者可以认为本体要解决的是构建一个结构体系的问题,揭示元概念相互之间的关系,产生一个结构,结构由概念及它们之间的从属或其他关系构成。在基于学术单元的多维度标签中,本体主要由“学科”来构建学术单元的主要结构。
在国内,学科主要有三个体系,教育部的学科门类及一、二级学科体系,国家社科基金的社科学科体系,还有国标GBT 13745的三级学科体系。由于GBT 13745是最系统的学科体系,所以多维度标签主要以中国国标GBT 13745—2009《学科分类与代码国标》(见附录1‐1,由于篇幅太长,故只列出一级学科)作为结构的基本体系。国标GBT 13745—2009《学科分类与代码国标》由一、二、三级学科构成其基本概念,三级学科之间的主要关系为从属关系,也包含有部分参见的学科,形成另一种相关关系。这些学科的概念及其之间的关系形成了基本本体结构,并成为知识组织的主要基础。
所以“本体”维度,也可以理解为“结构体系”。学科名称其实也是一种概念。学科之间的统属与联系就是概念间的关系。借用形式本体论的外在形式,各种学科可以形成一个基于概念的网状结构体系。
“多维度标签”可以有多个维度,每个维度也可以有多个内涵。将本体理解为“结构体系”后,比如教育部学科体系、《中图法》类目的结构关系等也可以成为该维度的“第二结构体系”或“第三结构体系”,即“第二本体”或“第三本体”。
对CADAL中约100万册的图书进行学科分类,是一项工作量巨大的任务,由于每一种图书都有一个《中图法》分类号,所以我们制定了中图分类号与GBT 13745—2009《学科分类与代码国标》的对照表,采用计算机自动匹配的方式,完成学科分类的工作。对照表的名称是《学科与中图法类目对照表1.0版》(见附录1‐3,由于篇幅关系,附录中只列出“B9宗教”的对照表)。我们发现了很多的问题。
一是由于二级类目细分时,学科与《中图法》由不同的分面展开,这使得对照表的建立产生了很大的难度。比如文学,《中图法》先按国别分,再按体裁分,再按时代分。而GBT 13745—2009《学科分类与代码国标》中,有:
75024中国古代文学
75027中国近代文学(www.daowen.com)
75031中国现代文学
75037中国民间文学
75041中国儿童文学
可以看出,在学科中,时代与体裁是并列层级的类目,这与《中图法》将之设成上下位类有很大的不同。这种情况经常出现,给对照表的构建增加了不小的难度。
二是部分应该属于学术的内容没有对应的学科。比如在经济学中,《中图法》的F11是世界经济,F12是中国经济,F13/17是世界各国经济,但在GBT 13745—2009《学科分类与代码国标》中,79029世界经济学以下,有世界经济各大国,如美国、日本、德国、法国、英国等国的经济学,但没有中国经济学这个分支。又如工业各类中,所有的工业制品几乎都有对应的学科,但就是没有“制鞋工业”。大多数鞋子是皮鞋,但还有布鞋、球鞋等,所以也不能算在“53061毛皮与制革工程”下面,只能算作“7905599工业经济学其他学科”。
三是《中图法》是针对学术文献设立的,但国际中有很多类目的对象是非学术文献,这些类目在《中图法》中就没有相应的学科,但是如果有非学术文献出现的话,还是要有相应的地方归类。这就需要我们对GBT 13745—2009《学科分类与代码国标》做一个补充。通过对照GBT 13745—2009《学科分类与代码国标》与《中图法》,我们抽取出了与学科无对应的类目,这些类目可以看作非学术文献的类目。随后,根据我们GBT 13745—2009《学科分类与代码国标》的代码规则,将这些类目进行分析组合,设立了《非学术文献代码表》(见附录)。
四是虽然学术文献基本都有相应的学科类目,但也存在部分学术文献无法归入学科类目的情况。这些学术文献往往是综合性的,包含多个学科的学术内容,如综合性学术文集等。因此,我们还制定了《综合性学术文献代码表》(见附录)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。