理论教育 元数据的定义及其在文件管理中的应用

元数据的定义及其在文件管理中的应用

时间:2023-07-17 理论教育 版权反馈
【摘要】:元数据的概念是在信息技术出现后才被提出的,一般被解释为“关于数据的数据”,其主要功能是描述数据以及数据环境。该国际标准将文件、档案领域的元数据定义为“描述文件的背景、内容、结构及其管理过程的数据”。这个国际标准是在2001年“通则”对元数据的定义基础上,为创建、管理、使用文件管理元数据建立一个框架,并提出相应的管理指导原则。

元数据的定义及其在文件管理中的应用

元数据的概念是在信息技术出现后才被提出的,一般被解释为“关于数据的数据”,其主要功能是描述数据以及数据环境[1]随着网络化社会的快速发展,网络信息呈现出海量而无序的状态。元数据就是在这样的背景下被提出来的,是对网络信息进行有效管理的工具。“元数据是用来描述数据本身的内容特征和其他特征的数据,其目的是加强对网络信息资源的发现、识别、开发、组织和评价,而且对相关的信息资源进行选择、定位、调用,追踪资源在使用过程中的变化,实现信息资源的整合、有效管理和长期保存。”[2]

元数据(metadata)一词最早出现于美国航空与宇宙航行局(NASA)的《目录交换格式》(Directory of Interchange Format,DIF)手册。[3]“metadata”是根据亚里士多德的著作集《形而上学》(Metaphysics)特别创造的一个词,意指超脱于数据的事物。[4]从英文“metadata”的构词法上看,“meta”来自希腊语,意指“超越”,“data”则指数据,“metadata”的字面意义为“关于数据的数据”。[5]这两个数据中,前者代表的是信息对象,后者是为了进一步理解信息对象而存储的有关其内容、结构、背景等方面的信息,即元数据。“关于数据的数据”虽不是元数据的一个精确定义,却表明元数据也是数据,是更高层面的能够描述和管理数据的数据。不过,也不能因此就认为元数据与数据没有区别。相比作为信息对象的数据而言,元数据如果脱离所处的背景环境和所要实现的目的就会变得毫无意义。目前,元数据作为数据管理的工具,被广泛地应用于数据库、文件管理、图书情报、地理艺术电子政务等各种信息资源管理领域。基于本书围绕刑事卷证的电子化管理展开探讨,所涉电子卷宗属于电子文件,下文将重点对电子文件管理中的元数据进行考察借鉴,其他领域的元数据兹不赘述。

虽然“元数据”一词只使用了近五十年,但事实上,元数据并非新生事物,图书馆管理员使用元数据早已有几千年,只是以前把“元数据”称作“图书馆目录信息”。[6]目录信息包含的题名、作者、主题和载体描述等之类的标识信息就是纸质印刷载体的元数据信息。“目录是图书馆馆藏的规范记录,同时发挥着管理工具和图书馆用户查找帮助的作用。”[7]随着电子文档成为信息资源的主流,网络上大量文件需要管理和检索,元数据因此得到重视并发展起来。虽然传统载体和电子化信息资源都需要元数据对数据的外部与内容特征进行描述,并有序地组织文档信息。但不同于纸质文档的是,“电子文档的元数据基本都是以数字形式存在的,并将传统形式的元数据集成到了数字信息系统中”。[8]传统文件的元数据(如文头、文尾、目录、标题、编制时间、签名等)多为静态。而电子文档元数据存在于动态的数字环境中,依赖计算机系统可以做到实时地记录文件在计算机系统内的所有变化,并能说明文件数据间的内在关系与外在联系。[9]可以说,元数据是电子文件管理系统中的“血液”,对电子文件的管理发挥着举足轻重的作用。

在界定元数据的定义之前,先要了解电子文件元数据概念的发展变迁,有助于我们更好地理解刑事卷证电子化管理中所应用的元数据。

在文件档案领域中,1990年由联合国信息系统协调委员会出版的《管理电子文件:问题与指南》最先使用了“元数据”这个术语。这本书认为元数据是“描述数据和数据系统,即数据库的结构、特征、位置等一类的数据”。[10]这个定义没有从电子文件管理角度定义元数据,过于偏重数据库,因此这个时期的档案工作者仍然将元数据称为“关于数据的数据”。

2001年,国际标准化组织(ISO)颁布了第一个文件管理国际标准《信息与文献 文件管理 第1部分:通则》(ISO 15489-1:2001)(以下简称“通则”)。该国际标准将文件、档案领域的元数据定义为“描述文件的背景、内容、结构及其管理过程的数据”。[11]从这个定义可以看出,元数据贯穿于文件整个生命周期,与文件的背景、内容、结构和管理过程结合起来,相比于以前的定义更能体现出元数据在文件管理应用中的特性。2006年,国际标准化组织颁布了《信息与文件 文件管理处置 文件元数据 第1部分:原则》(ISO 23081~1:2006)。这个国际标准是在2001年“通则”对元数据的定义基础上,为创建、管理、使用文件管理元数据建立一个框架,并提出相应的管理指导原则。[12](www.daowen.com)

2009年,国际标准化组织颁布有关元数据概念和实施问题的国际标准[13]将元数据定义为:“使得档案始终能在业内或行业间形成、管理和使用的结构化与半结构化信息。”[14]此定义强调了元数据的结构化或半结构化特征,体现了元数据在形成、管理、使用文件各个阶段中的作用,更突显了元数据在数字环境下的特性。2011年,国际标准化组织又颁布了有关元数据自评估方法的国际标准[15],进一步明确了评价现有文件管理元数据的方法。

各国文件管理中的元数据有以下几种代表概念:①澳大利亚国家档案馆提出,元数据是有关文件背景信息的著录元素;②英国国家档案馆《电子文件管理指南》指出,“元数据是关于单一电子文件和文件组合的背景及其相互关系的结构化著录数据”;[16]③美国的戴维·比尔曼认为,元数据是有关文件结构和背景信息的数据。[17]这几个定义中,澳大利亚的元数据概念已经指明元数据对文件背景信息进行描述的作用,且提出“著录元素”的说法有助于实践中档案工作者对元数据的认识,比“关于数据的数据”的提法更加具有专业性;英国的元数据概念相比澳大利亚的提法,又注意到了元数据的结构化特征,元数据是由不同层次的元数据元素及其相互关系所构成的,通过一定的方法和规则对信息对象予以描述;美国的戴维·比尔曼在对元数据进行界定时,也强调了元数据能描述文件结构和背景信息的作用,为了将数字化环境中的电子文件管理元数据与传统载体的著录数据相区分,又舍弃了著录元数据的提法。

在我国,刘嘉认为:“元数据是描述和限定其他数据的数据。”[18]这种提法指出了元数据与信息对象数据之间的关系,元数据可以描述和规定数据的特征、数据相互之间的关系以及有关数据的相应操作。刘家真在对电子文件这一问题进行研究时也涉及了对元数据问题的探讨,指出“元数据是定义和描述其他数据的数据”。[19]该定义揭示了元数据也是数据,可以用以描述电子文件管理系统中的所有数据。李双文认为:“元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。”[20]该定义把元数据看作是描述和评价信息资源的工具,在识别资源基本信息的基础上根据需求评价和利用信息资源。

概念的界定是各种问题展开研究的逻辑起点,众说纷纭的概念无益于对问题的深入探讨。虽然以上学者对元数据的表述各不相同,但都指向元数据是描述电子文档各种特征的信息数据集合。笔者认为,对于元数据的认识可以采用国际标准,即元数据是“描述文件背景、内容、结构及其整个管理过程的数据”[21]。这个定义简单、科学,既易于掌握又具有权威性。

电子卷宗同样也属于电子文档,也需要利用元数据记录对证据进行全程管理。元数据是全面、系统、有序地反映电子卷宗背景、内容、结构及其管理过程的信息,对刑事卷证电子化管理的意义非常重大。在刑事卷证的电子化管理中,元数据不仅可以说明电子卷宗的使用环境、责任主体、形成时间、形成地址、卷证内容及组成结构,还可以以结构化的规范语言如实地记录和追踪卷证在生成、移送、保管、使用及处理中的全程动态变化,从而实现对证据的有效管理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈