6.1.3 改进措施和建议
(1)统一规划管理,合理开发利用。建立一个全国性的或地区性的数据库信息协调管理机构。负责统一规划数据库的建设,制定有关数据存贮、获取、传输的一致性协议,统一数据库中记录格式及标准,确保数据库在网络运行中的可靠性及安全性。
(2)严格监管,以库养库。对现有国内数据库的数量、分布、类型及规模进行摸底、登记,进行有计划、有步骤的挖潜、调整、改造和提高,使原有数据库上档次、上等级;定期调查数据库的市场需求,并结合本单位、本行业、本地区的技术水平、人员素质、信息资源优势等,制定有关政策和计划,指导和调整数据库的建设,在规模、分布、质量以及建库选题方面,要把好审批关、验收关、监督关,逐渐扭转我国数据库建设中普遍存在着靠长期拨款建库的“输血”现状。
(3)提高文献标引质量。文献标引质量的好坏直接关系到文献的查全率、查准率。要将一篇文献的主题内容,真正达到对文献实行对口的、准确的检索,就必须用较多的主题进行组配标引;并认真克服在分类标引中,深度不够、欠准确以及一篇文献只给出一个分类号的现象。当今学科技术发展的趋势是相互交叉、相互渗透,文献的类别越来越具有双重属性和多重属性,以及一词多义、多词一义、词义模糊等现象时有发生,但还是应尽量选用自然语言对文献进行自由标引。当然,还应根据文献内容进行全方位的主题标引、关键词标引和分类标引,给出多个主题词和分类号,以便从主题词和分类角度提高查全率、查准率。
①在主题标引时。主题词是人工语言,即规范化的自然语言,是经有关专家收集并按一定的要求和方式加以人工控制;是反映文献内外特征的规范化的词汇或短语。
a.标引人员应正确分析、提炼文献的主题(包括:显性主题、整体主题、主要主题、隐性主题、局部主题、次要主题等),以方便读者从多种主题的角度进行检索。当然还应正确选择、组配与文献内容最为相符的标识语言也是至关重要的。
b.标引人员还应进行适度标引。即标引深度,又称网罗度、穷学度,是指一篇文献所论述的各个主题概念被确认并转换为检索标识的完备程度。文献标引的网罗度越高,文献的查全率和查准率就越高,但网罗度过高,标引过深,有可能题文不符,造成读者文献误检,查准率降低;而网罗度低、标引过浅,则造成文献漏检,查全率低。要知道,主题标引专指度的高低与文献查准率高低成正比,对查全率也有一定影响。
c.要注意标引的规范与一致性。当主题概念转换成检索标识时,同一文献或相同主题的文献赋予规范、相同的检索标识;同类型、同学科、同类主题的文献在标引方式、网罗度及专指度等保持一致;不同标引人员或同一标引人员在不同时期标引保持一致。
d.采用全面标引与整体标引相结合。
②在关键词标引时。关键词就是自然语言,是从文章的题目、内容中抽取的,是表达文献主题概念具有实质意义的语词。
a.采用关键词标引应当选用专指词。过多使用通用词作主题标引,会降低标引质量,影响查全率和查准率。通用词是指那些没有专业独立检索意义的泛指词。比如尽量采用“教学管理、学籍管理、师资管理、科研管理、资产管理”等专指度高的词,不宜用通用性的“管理”一词。
b.一般每篇文章标引3~8个关键词,并按其“关键性”递减的顺序排列。
c.标引关键词的专指应当尽量使用与文献主题概念相吻合的措词,即拟定最专指的词标引,一般不采用靠词标引(即相关标引)和上位标引。标引用词应当含义清晰,对于同形异义词,不可采用在叙词后添加限定词的做法,一般不选用口语词汇或新闻用语。
d.编制综合性的后控词表以利检索。为了提高查全率,克服自然语言存在同义词、近义词现象和无语义关联性的缺点,需要在检索时提供后控制词表,把表示某一主题概念的各种关键词(包括同义词、准同义词、同义词组等)联系起来,以提高查全率。这种后控词表,可以把“自由散漫”的自然语言组织起来,形成一个语义网络以便检索。编制综合性的后控词表,还可以克服不同刊物、不同标引人员存在标引不一致的问题。
③在分类标引时。分类标引实质上是选择一种特定的人工分类语言,是对依据论文内容实质的学科属性进行分类标引,即给出该文献所属学科在分类表中的类目代号(分类号)。分类语言是一种人工语言,具有以下作用:
a.提高分类标引一致性。要规范分类标引程序(如查重→主题分析→归类→给号→审校)、分类标引深度(或称细分程度)、分类标引规则(含总则、细则、其他)。建立严格的分类标引审校制度,就可以大大降低分类标引差错率,从而提高分类标引质量。
b.对不同的文献应采用不同的标引方式,是采用整体标引还是全面标引,综合标引还是分析标引等方法。对多主题文献的分类标引,以最能代表文献内容本质或起主导作用的学科主题进行分类或组配,使学科分类标引尽可能准确。不能单凭文献名称进行分类标引。对于交叉学科应尽量从几个不同侧面或角度来揭示和描述文献主题,即进行多维标引,从而提高分类检索查全率。
④采用关键词标引的优点。
a.有利于缩短加工时间,加快数据库建设速度;编制数据所涉及的人力、物力方面的成本费用相对较低。
b.可降低对标引人员和编辑人员知识和业务水平的要求,在一定程度上减轻他们在数据处理过程中的智力劳动。非常适合网络信息的标引,有利于提高工作效率。
c.标引用词与文章作者用词一致,能及时、客观地反映最新的名词术语,对文献内容的专指度较高。
⑤分类标引优点。
a.分类标引是通过学科属性来揭示主题关系的。它们反映每一主题在分类体系中的位置及其上、下、左、右的相关主题,所以它更适合于族性检索。
b.分类标引的标识系统采用符号(数字、字母、其他符号)语言,因此直观性差。
c.在反映新主题时分类标引不如主题标引灵活及时,因而在标引时往往采用靠类标引(或归类)、上位归类、仿照归类、重点归类等较模糊的人为方法解决,这样在检索时当然就十分困难。
d.在集中与分散文献方面,分类标引按学科集中。
⑥主题词标引的优点。
a.主题词标引是通过单个的学科主题的词序系统来显示的,所以它适合于特性检索。
b.主题词标引采用的标识系统是规范化的自然语言,因而直观性好、易于掌握。
c.在反映新主题时,新主题只要名称一经确定,按照词序总是有它的一定位置,因此灵活及时。
d.在集中与分散文献方面,主题词标引则按事物集中。(www.daowen.com)
⑦为了提高标引质量,标引人员应做到以下几点:
a.学习和掌握先进的标引手段和方法,做到正确标引揭示主题和学科属性。
b.认真对文献进行主题分析,在对文章主题概念和重要内容分析的基础上做好主题和分类标引。
c.在主题词标引时唯有制定执行标引规则,采取科学、规范、有效的方法,注重主题分析,综合把握全文,挖掘内容实质,力求全面具体,认真分门别类,才能满足各种需求,取得事半功倍的收益。因此,制定一套较为完善的、规范的、具有可操作性强的分类标引规则,是提高分类标引质量至关重要的措施。
d.高质量的分类标引能准确地将同一主题文献集中在一起,较好地反映各学科之间的关系,体现出所属学科的系统性和完整性,充分揭示馆藏文献资源,以便读者从分类目录体系中找到所需文献,使馆藏文献得以充分利用。
(4)加快“多媒体”和“特色”数据库建设。
①多媒体技术集声音、文字、数字、图形、图像、动画等信息形式于一体。其特点在于信息载体的多样性、与用户的交互性、信息的集成性和直观性。对它的操作不仅可以用键盘、鼠标来操纵计算机,而且还可使用输入笔、语音、触摸屏幕来实现用户与计算机的对话,使用户与计算机的交流达到自然会话的境地。既增加了数据库的类型,又促进了数据库建设同计算机技术的完美结合,使之更加向人性化方向发展。
②特色数据库建设是高校图书馆信息化、数字化、网络化建设的一项重要基础性工作,也是一项投资大、周期长、技术要求复杂、标引要求精准的系统工程,它不仅需要一支高素质的专业技术队伍,更需要有馆内外多方面的通力合作与协调。从而实现真正意义上的资源共享——即各自特色资源共享,而不是相互共享相同的资源。
(5)分工购藏,联合编目。目前,由于书刊价格不断上涨等原因,造成图书馆经费紧张,要最大限度发挥群体优势,合理使用有限的经费,站在全社会的高度和图书馆的角度,审视图书馆的藏书方向,使有限资金得到最合理的利用。并在此基础上,开展全国性与地区性的书刊网上编目,共建联合目录数据库,共享书目数据资源,最大限度地节省人力资源。
(6)提高标准,制定规范。研究制定统一的数据库规范和标准势在必行,要高标准严要求,要考虑与国际标准统一。克服目前不规范、不标准、各行其是、缺乏实用性、通用性的低水平重复建库。要统一规范、统一标准、统一格式,以便在建数据库时有所遵循,进而为全国联网,与世界接轨创造条件。
特别是数据存储格式选定(或数字化的存储格式)最为重要。对于不同的资源类型,要确定相应的数字化加工标准。通常文献资料的数字化有两种方式,一种是只进行图像扫描;另一种是在图像扫描的基础上再进行OCR识别转换成电子文本,并进行文献标引。对于图像、音频、视频资料,要考虑存储格式、占据空间大小、网上传输的速度、画面质量和整体效果等因素,既要着眼于现实的网络条件,又要充分考虑到网络的快速发展。数字化加工标准的制定要具有一定的前瞻性。
重视图像数据的加工质量。对图像偏斜度、清晰度、失真度等进行质量检查,不符合要求的,应重新进行图像处理。对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像应进行旋转还原,以符合阅读习惯。对影响图像质量的杂质进行去污处理,如去除黑点、黑线、黑框、边等;对于用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。
目前数据存储的常用格式主要有TXT、XML、TIFF、PDF,如表6-1所示。在实际应用中,采用最多的是TIFF和PDF两种格式。其中,TIFF格式主要用于存储精度要求较高的各类工程设计的图像文件;而PDF格式一般用于存储输出分辨率要求不高或者多页的文字内容较多的文件。比如:清华、维普、万方等数据库。
表6-1 数据存储常用格式
(续表)
(7)采用大字符集字库,提高建库质量。随着强制性国家标准的执行,被称为GB18030-2000《信息技术和信息交换用汉字编码字符集、基本集的扩充》的实施,收录了2.7万多个汉字,总编码空间超过150万个码位。还有,由中易中标电子信息技术有限公司提供的符合国际标准ISO/IEC 10646:2003 的包括7万个汉字的大字符集则可涵盖中文信息处理中遇到的大部分非常用字。对于甚至超出7万汉字的少数汉字,则可从目前世界最大的字库——中易的10万字库中调取。对于10万字库都未包括的汉字,可由专业造字员进行造字,随后即可加进系统中,给出编码,用郑码进行输入检索。为基本解决回溯建库、古籍整理等领域出现的生僻、怪异等汉字提供了良好的条件。
(8)“服务”才是数据库建设的目的和工作重点。当投入大量的人力、物力、时间之后,最应关注的是数据库的使用情况,以便及时改进建库工作、调整建库策略、制订培训计划、改进服务质量。
(9)选择适合的数字资源加工系统,如表6-2所示。目前,通用的数据存储格式是PDF,并可免费随意下载Adobe Reader 阅读器。
表6-2 数字加工系统的压缩、输出格式
下面是成都大学图书馆使用“天宇全文信息检索系统”新建数据库的“字段”资料,如图6-1、图6-2、图6-3所示。
图6-1 数据库结构
图6-2 添加数据库“字段”
图6-3 数据“录入”窗口
总之,由于大多数高校图书馆,因在技术、资金、人才、管理、文献资源等方面的差异,使得在数据库建设中,数据格式不标准、库结构不合理、标引深度不够、共享程度低,以及重复建库,从而造成人力、物力、财力的严重浪费。因此,我们在建库时一定要清楚地认识到,数据库的建设是一项投资大、技术性强、周期长而见效慢的工程,我们不能急于求成,既要借鉴国外有影响的大型文献数据库的特点,又要建设有本国特色的数据库,在建设大型数据库的同时,也要抓小型的、具有特色的专业数据库的建设。克服重复建库、重复劳动,把数据库的建设逐步引向规范化、商品化、产业化、标准化、国际化的方向发展,从而实现全球性的资源共享。数据库建设在我国已是十分成熟的“产业”。因此,我们仍然还需从理论的高度来认识文献资源数字化建设的必要性,建立规范的法制管理的建库模式,充分利用网络渠道收集中、英文信息,提高数据制作人员的素质,培养出具有知识创新能力的复合型的人才。从而实现文献资源全球化的目标,促进人类知识传播与共享,以新的姿态迎接高校图书馆建设的美好明天。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。