理论教育 网络信息资源归档概述-面向公众需求的档案资源建设与服务研究

网络信息资源归档概述-面向公众需求的档案资源建设与服务研究

时间:2023-08-12 理论教育 版权反馈
【摘要】:网络信息资源归档是指对互联网上具有长远保存价值的网络信息资源进行收集、整理、保存等流程处置,真实地反映网络资源存在状态,以满足社会或个人的利用需求。2003年11月,我国国家图书馆建立了网络信息资源收集与保存实验项目主页,并开通服务。

网络信息资源归档概述-面向公众需求的档案资源建设与服务研究

网络信息资源归档是指对互联网上具有长远保存价值的网络信息资源进行收集、整理、保存等流程处置,真实地反映网络资源存在状态,以满足社会或个人的利用需求。20世纪90年代以来,许多国家开展了关于网络信息资源归档的实验项目,例如美国的Minerva项目、澳大利亚的PANDORA项目、欧洲NEDUB合作项目等;与此同时,我国国家图书馆也于2003年正式开展了网络信息资源归档项目。至今,全球范围内已完成或正在进行的网络资源归档项目已达近百项,分别对涉及网络资源存档的技术、法律、合作机制等多方问题展开研究,并取得了丰富的经验和研究成果。

5.4.2.1 国外的网络资源归档研究

(1)全面收集——PARADIGMA和Kulturarw3项目

2001年,挪威国家图书馆开始实施网络信息保存项目PARADIGMA(Preservation,Arrangement and Retrieval of Assorted DIGital Materials),该项目旨在确定收集和保存网络信息资源的技术、方法和组织,使国家图书馆能够在呈缴制度的框架下提供存取服务。PARADIGMA项目的主要活动集中在技术、法律和书目描述上,由于挪威国家图书馆认为“首先不能预测哪些文件在未来具有研究价值,其次数字存储越来越便宜,最后未加过滤地进行收集会节省很多人力选择的时间和收集的时间”,因此采用了全面自动保存的方法。按照项目组的建议以及文化部的批准,国家图书馆收集所有挪威的网络空间(域名为no)中可以获得的数字文献,有时也收集域名为com、org或net的网络文献[81]

1996年,瑞典皇家图书馆设立网络信息资源收集项目——Kulturarw3项目。这个项目的目标是进行瑞典现在以及未来的电子资源基础建设,收存瑞典的网络信息资源,并提供网上获取。该项目通过网络机器人进行数据收集,采取网络信息全面自动收集的策略。其主要目标是采集和保存具有历史意义的瑞典网站,为网络出版物建立电子馆藏。在实施初期,采集范围只局限在特定的域名下,但随着项目的进展,其抓取范围已扩大到其他域名。在利用方面,由于法律的规定,用户只能在瑞典皇家图书馆提供的专门计算机上访问该项目的存档资源[82]

(2)选择收集——PANDORA项目和UKWAC项目

1996年,澳大利亚国家图书馆开始保护和存取澳大利亚网络信息资源项目(Preserving and Accessing Networked Documentary Resources of Australia,PANDORA)的研究,主要目的是为了建立一个基于选择的澳大利亚网络信息资源归档系统,并为澳大利亚电子资源的保护和存取制定政策。该项目选择澳大利亚在线出版物中具有长期保存价值的信息进行存档,存档信息涉及澳大利亚的文化、社会、政治、社会团体活动等各个方面。PANDORA项目的总体模式包括5个工作环节:出版物选择收集(Publication Selection),主要是控制整个收集过程的质量;同版权所有者进行协商,获得存取权利;同信息生产者和出版者发展一种合作伙伴关系;跟踪网站设计特征和文件格式方面的指标,从而为将来的管理服务;记录所有为将来保存用的元数据;保持对多样和复杂的各种文件的长期存取。检索(Access),主要处理和用户相关的活动。存储管理(Archival Management),主要负责添加出版物到归档系统,更新、修改和删除系统的出版物。报告生成(Report Generation)主要是为项目管理者、出版者等生成各种统计数据。提交(Filing),主要记录和出版者交流的情况[83]

2003年10月,英国6个具有影响力的机构组成联盟提出一个实验性的项目——英国网络信息保存联盟计划(UK Web Archiving Consortium Project,UKWAC),它是英国第一个公众网络信息保存计划,旨在对英国网站信息进行选择性的保存。该项目以大英图书馆为主要组织者,各联盟成员共同分担网络站点信息保存的成本和风险,分享经验和软硬件设施。同时,该项目采用澳大利亚国家图书馆开发的PANDAS系统,于2005年开始保存一些与本机构相关的站点,并在他们的联盟站点提供对已保存站点内容的免费检索服务[84]

(3)专题收集——美国国会图书馆MIERVA项目

美国国会图书馆把保存开放式数字信息资源作为国会图书馆的主要任务之一,并从2000年开始了MIERVA(Mapping the Intemet Electronic Resources Virtual Archive)项目,该项目运行初期主要是对几个选定的网站进行归档,以期为更大规模的网络信息存档提供经验。如今已发展成为一个持续的专题数字归档项目,保存内容十分丰富,如“9·11”事件和“9·11”周年纪念网站、2002年冬季奥运会的网站等。MIERVA项目主要包括以下几项活动:使用镜像程序下载网络快照,并对这些快照进行检查(查找错误、反常情况);使用OCLC的资源编目软件生成编目数据,并集成到国会图书馆的系统中;建立一个试用网站供用户检索;同美国版权局进行有关法律方面的协商[85]

5.4.2.2 国内的网络信息资源归档项目

(1)中国国家图书馆的WICP项目和ODBN项目

2003年年初,中国国家图书馆正式启动网络资源的采集与保存试验项目。2003年11月,我国国家图书馆建立了网络信息资源收集与保存实验项目主页,并开通服务。该项目的目标是通过试验项目来查找网络信息资源在采集、保存等方面的问题,同时确定问题的解决方案,确保保存对象的准确无误和完整性,确保网络信息资源永久保存工作的有效进行。该项目致力于研究与网络信息资源采集和保存有关的技术标准和法律等问题,在进行网络信息资源收集与保存时,针对表层网络和深层网络的不同特点,在试验中分别采取了不同的技术策略:对于表层网络,实施“Web资源采集与保存试验”(Web Information Collection and Preservation,WICP),对归档网站进行有选择地采集;对于深层网络,实施“网络数据库导航”(Online Database Navigation,ODBN)[86]

截至2010年年底,WICP保存了8万多个中国政府网站中的所有网页、315种电子期刊和报纸。WICP对网络资源的保存按照专题进行分类,目前保存的网络资源有100多个专题,如2008年北京奥运会、“非典”、载人航天工程等,在线数据库导航可以访问约2万个服务项,如政府信息、国内外图书馆的服务项目、电子期刊和所有专题内容等。

(2)北京大学图书馆网络实验室的“中国Web信息博物馆”系统

2002年,在我国“985”和“973”项目的支持下,北京大学图书馆网络实验室主持开发了中国Web信息博物馆(Web Information Mall,简称Web Info Mall)系统[87],即我国历史信息存储网页与展示系统。该系统是对我国因特网上最主要的网络信息资源进行采集和归档,旨在将我国的网页信息资源完整地保存下来。该系统主要实现以下功能:输入有效的网址,就可以浏览到以往已经保存下来的网页;能够通过超级链接,在以往已经保存下来的网页中随意浏览;可以浏览到一个个完整的历史事件。

2002年1月,首批中文网页保存归档在Web Information Mall中,此后每天增加约150万页的数量。截至目前,Web Information Mall已保存超过30亿的中文网页,在线数据总量约为100TB。通过它能访问以前的网络信息和浏览以前的历史网页。Web Information Mall的目标是获取和保存尽可能多的中文网页(在网页消失之前)。互联网上的数据普遍具有多变的特征,据统计网页的平均生命周期为100天左右,“.com”域名的网页生命周期较短,“.gov”则较长。50%的当前浏览网页将在1年左右后消失。(www.daowen.com)

(3)清华大学图书馆保存方案

2001年,清华大学图书馆与德国哥廷根大学图书馆、美国康奈尔大学图书馆、法国奥赛图书馆合作展开了数字资源长期保存系统的研究与开发。在借鉴美国国会图书馆长期保存音像资料的经验的基础上,清华大学图书馆制定出了一个完整的保存元数据框架,并确定了使用这个元数据框架进行实际标引时的标引机制以及元数据的编码方案。这个元数据框架除了可以实现数字资源的长期保存外,还重点解决了资源结构的表达问题[88]

5.4.2.3 国内外网络信息资源归档的关注点

(1)网络信息资源归档面临的问题与挑战

英国联合信息系统委员会在关于网络资源长期保存的专题讨论会上提出“复杂可视化资源长期保存正面临着可视化和模拟、软件艺术、游戏环境和虚拟世界这三个难题”;Michael Day认为网络信息资源长期保存面临的问题可归结为四个方面,即网络是一个非集中化的组织,网络的动态性,网络技术的快速发展以及法律方面的问题[89];John Philips认为网络资源的管理机构也是不可忽视的重要因素[90];Lioyd Sokvitne则认为网络资源的多样性是其存档面临的重大挑战[91]

国内的学者对这个问题也有一定的研究,形成了不同的观点。有学者认为,网络资源存档面临的挑战集中在技术、法律和责任体系三个方面[92],有学者则认为集中在政策、技术、经济、法律四个方面[93],以及内容选择、技术问题、资金保障、责任者和法律问题五个方面[94]。有的学者剖析了当前我国网络资源存档面临的问题集中在信息的采集方式与采集频率、组织与管理机制、著作权和资金等方面,并对中文网络信息档案馆的建立提出了初步构想[95]

(2)网络信息资源归档的系统模型

目前,各国对网络资源长期保存的系统框架还没有统一的标准,但是OAIS(Open Archival Information System)模型应用于网络信息资源保存的可能性已经得到了众多学者和专家的论证,并在该模型的基础上进行了修正,例如,OCLC(Online Computer Library Center,Inc)和RLG(The Research Library Group)分别提出了关于“可信赖的保存系统”[96]和“保存元数据方案”[97]研究报告。此外,丹麦、荷兰等国家也分别对OAIS的环境模型、功能模型和信息模型进行了一定的修正和实现。

(3)网络信息资源的采集工具

网络信息资源采集工具的设计和完善也是国外部分学者研究网络信息资源归档的重要方面[98]。在众多网络信息资源归档项目中,一些项目自行设计采集工具[99],如澳大利亚国家图书馆的PANDORA项目和欧盟的NEDLIB项目;一些项目则是对当前较为常用的采集工具进行分析、评测并完善。

(4)网络信息资源归档的技术问题

目前,网络信息资源归档技术主要包括数据更新、封装、迁移和技术仿真等,国外关于这方面的研究较为深入,关注焦点集中在机构仓储领域、长期的保存系统、网络关联数据的格式保存、元数据保存研究、保存系统共享技术和互操作技术研究等方面。各国的网络信息资源存档项目已经采用了较为先进的保存技术,如澳大利亚的PANDORA项目中的机器人技术,挪威的PARADIGMA项目中的Crawling技术,以及CEDARS的网络信息资源永久保存技术体系等[100]

元数据在网络信息资源归档中的作用引起了学者们的关注。有学者认为,利用元数据建立信息交互机制是长期保存合作管理有效进行的重要措施[101],论述了数字信息长期保存的元数据体系与单元[102]。此外,有学者在介绍国内外部分网络资源备份保存系统的基础上,分析并测试了Internet Archive和Web Info Mall的功能、特点与应用[103]

(5)网络信息资源存档的法律问题

在项目实践的基础上,各国纷纷制定了网络信息资源存档的相关制度。目前,丹麦、加拿大、美国、挪威等国家都将网络信息资源纳入呈缴制度之中;日本、澳大利亚、芬兰等国家也正在进行筹备,计划通过法律把网络信息资源列为呈缴对象。在网络资源的知识产权隐私权保护方面,各国也采取了相应措施:美国的缴送制度规定,缴送到国会图书馆的CD-ROM出版物只能在国会图书馆使用;荷兰国家图书馆与Elsevier签订的长期保存协议规定,该馆可向到馆读者提供所保存的Elsevier数据服务;澳大利亚国家图书馆则选择与网络资源的所有者和出版者进行合作,在不损害网络资源所有者和出版者利益的前提下探讨存取条件[104]

总体来看,国内外关于网络信息资源归档都面临着实际问题,包括:网络信息资源归档的管理制度缺失,网络信息资源归档的法律体系尚不完善,网络信息资源归档的标准化建设欠缺,网络信息资源归档的技术制约和资金短缺等。如何解决这些问题,是网络信息资源归档面临的关键挑战。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈