将纸质档案数字化,转换为数字档案是当前档案资源建设中最普遍的一种形式,主要依赖的是模拟-数字转换技术(Analog-Digital Conversion,A/D,简称模数转换技术)。模数转换技术是指将模拟信号转换成相应的数字信号,再将数字信号送入计算机,由计算机进行处理和运算。
(1)纸质档案模数转换的组织方式
针对纸质档案模数转换,国家档案局于2005年年底出台了《纸质档案数字化技术规范》(DA/T31—2005)。其中,关于组织方式方面,要求成立一个纸质档案数字化小组,由分管领导任组长,统一管理数字化工作的组织方式将有利于保证档案数字化的质量。纸质档案数字化小组应制定本馆室在数字化工作中所使用的数字化处理表单、交接登记表单、质量验收表单等各种工作记录单,以保证数字化工作有序、保质、高效地进行。
国家档案局办公室于2014年印发的《档案数字化外包安全管理规范》(档办发〔2014〕7号)也要求“成立由主要领导或分管领导同志参加的档案数字化外包管理组织,明确档案数字化管理的部门、人员及其职责”。此外,当前国家档案局正在报批的《纸质档案数字化规范》(修订版报批稿),对档案数字化工作的组织与管理进行了详细的规范[24],指出“应建立纸质档案数字化工作组织,对数字化工作进行统筹规划、组织实施、协调管理、安全保障、技术保障、监督检查、成果验收等,确保数字化工作的顺利开展。应配备具有相应能力的工作人员,包括熟悉档案业务并具有较高的调查研究水平和良好的组织领导能力的管理人员,熟悉相关标准规范并能够为纸质档案数字化工作各环节提供技术支持的技术人员,掌握一定数字化基础知识并熟悉本职工作的操作人员等。应通过科学规范的管理制度,对工作人员进行规范化管理。为强化数字化工作的安全性,应加强对外聘工作人员的审核”。
(2)纸质档案模数转换的对象选择
纸质档案模数转换的对象显然是纸质档案,在实际工作中,数字化对象的选择存在不同的标准。根据公众利用、涉密等不同的情况,需要从不同的角度对要数字化的纸质档案进行选择:
以利用为目的的纸质档案数字化,应优先数字化本馆室的优势馆藏资源及利用率较高的档案。
以保管为目的的纸质档案数字化,应优先考虑高龄档案及纸张保存时间短的档案。
对于那些不能公开的档案,出于长期保管的目的,尤其是替代性保管的目的,同样需要做数字化处理,并且在管理上要视同于有密级的电子文件。
(3)纸质档案模数转换的模式
从数字化档案的数据存储格式来看,数字化模式可分为文本模式和图像模式。其中,文本模式是指数字化后的档案以文本方式存储,其存储的格式为XML、TXT或RTF三种通用存储格式;图像模式是指数字化的档案以图像方式存储,其存储格式为TIFF或JPEG格式[25]。在《纸质档案数字化规范》(修订版报批稿)中指出“纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式”,并指出“纸质档案数字图像利用时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为PDF等其他格式。”
从实现过程上看,数字化模式可分为直接模式与间接模式。其中,直接模式是指用数字化设备直接将纸质档案转为数字化档案;间接模式是指先将纸质档案转化为另一种非数字化形式,然后再将其转化为数字化形式,例如先将纸质档案制作成缩微胶片,然后将缩微胶片进行数字化。
(4)纸质档案模数转换的基础设施
首先,应配备专用加工场地,并进行合理布局,形成档案存放、数字化前处理、档案著录、档案扫描、图像处理、质量检查等工作区域。其次,加工场地的选择及温湿度等环境的控制不应不利于档案实体的保护。场地内应配备可覆盖全部场地的防火、防水、防有害生物、防盗报警、视频监控等安全管理的设施设备。另外,应合理规划、配备和管理纸质档案数字化设施设备,确保设施设备安全、先进,能够满足数字化工作的需要[26]。而数字化的设备通常有扫描仪、数码相机等。若使用间接模式进行数字化,还需要缩微设备等。常用的扫描仪有平板式扫描仪、高速(文件)扫描仪、手持式扫描仪。扫描仪的选择依档案纸张状况及工作要求而定。
(5)纸质档案模数转换的具体操作
图像扫描数字化是纸质档案转换为数字档案的常用形式,运用扫描仪等设备对纸质档案原件进行光学扫描,形成光学图像传送到光电转换器中变为模拟信号,进而将模拟信号转换为数字电信号,并通过计算机接口送至计算机中,形成数字图像。《纸质档案数字化技术规范》(DA/T31—2005)就对纸质档案图像扫描数字化的操作规程和实施细则作出详细的规范[27]。总体而言,纸质档案图像扫描数字化主要包括档案整理、档案扫描、图像处理、图像存储、数据建库与挂接、数据验收与备份等环节,见图5-1[28]。
图5-1 纸质档案数字化主要操作环节
档案整理是纸质档案图像扫描数字化的前期准备工作,需要从内容和形式两个方面对档案进行适当整理,并作出标识,以确保纸质档案扫描数字化的质量。内容上的整理包括档案目录和内容的规范,著录项的明确,档案中错误或遗漏之处的核查与纠正等。形式上的整理则体现在对纸质档案物理形态的规范与整序上,如为保证扫描效果,先拆除档案上的装订物,筛选并剔除无关或重复的档案,修复破损、无法直接扫描的档案,并对折皱不平的档案先期压平或熨平等。
档案扫描是纸质档案图像扫描数字化的主要环节,需要借助扫描仪来进行,扫描的效果也将直接影响整个工作的质量。依据扫描速度的快慢,扫描仪可分为高速扫描仪和平板扫描仪两类;依据颜色的不同,扫描仪又被分为黑白扫描仪和彩色扫描仪。适合档案机构的主要是平板扫描仪和黑白扫描仪[29]。为确保扫描效果,扫描仪的扫描分辨率应选择300×600dpi,色彩分辨率为24bit,灰度级为1024级,扫描模式为黑白二值模式。纸质档案扫描完成后,需对数字图像的偏斜度、清晰度和失真度等进行质量检查,及时加以处理和纠正,以最大限度地展现档案的原貌。
纸质档案扫描后得到的数字图像,既可直接以图形文件的形式加以存储,也可以通过光学字符识别(OCR)系统识别成文本文件,以文本形式加以存储。以图形文件存储的数字图像,可以再现档案原件的真实面貌,其中印章、签字、批注等信息均可给利用者比较直观的视觉感受,加之避免了大量的校对工作,因而转换费用较低。而以文本形式存储的数字图像,有助于缩小存储空间,实现全文检索,但失去了原件的视觉效果,特别是对手写字迹的辨识增加了校对的工作量,费用也较高。为保证档案检索和利用的效率,可以将两种形式一并保存,从而为后期图像数据库和全文数据库的建设提供条件。
当前,图像文件的存储格式,主要有BMP格式、PNG格式、JPEG格式、TIFF格式、PDF格式、CAJ格式和CEB格式等,参照《纸质档案数字化技术规范》(DA/T31—2005)的规定可知,纸质档案扫描后,如果是采用黑白二值模式扫描得到的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储;提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。同时,在确保扫描图像清晰可读的前提下,应尽量减小图像文件存储的空间。
纸质档案扫描存储后,需要对图像文件和纸质原文进行核查。每一份纸质档案都有一个与之相对应的唯一文号,因此可以该文号作为该文件扫描后得到的图像文件的名称。有的纸质档案一份中有多页文件,也可以文号为名称建立文件夹,按页码顺序对每个图像文件进行命名。在确保图像文件的文件名与纸质档案的文号或页号一致和唯一对应的基础上,可以尽快建立起纸质档案的目录数据库,并采用人工校对或软件自动校对的方式,对目录数据库的建库质量进行检查,对不合格的数据及时进行修改或重录。
目录数据库经质检合格后,可以通过网络将档案信息及时记载到数据服务器端汇总,并通过编制程序或借助相应软件,实现目录数据对相关联数字图像的自动搜索,并加入对应的电子地址信息,实现批量、快速挂接。此外,仍需要以抽检的方式对模数转化所得的数据进行检查,以保证目录数据库、图像文件及数据挂接的总体质量,其抽检比率应大于或等于5%,只有抽检合格率达到95%及以上时,才能予以通过。
验收合格的数据,应及时进行备份。备份的载体应多样化,并可以在线、离线或异地保存的形式实行多套备份。备份后的数据同样需要检验,以确保其真实性、完整性与可读性。
各地在执行上述规范的时候,形成了更加详细的做法,见图5-2。
图5-2 纸质档案数字化操作环节[30]
依据图5-2,纸质档案模数转换的基本操作环节包括:
①基础鉴定。
a.对馆藏长期保管的档案进行鉴定,将其中经鉴定变更为永久保管的档案纳入馆藏档案数字化范围之中。
b.对目录与档案二者保管期限不一致的进行鉴定处理。
c.对永久档案中明显错划保管期限的进行鉴定处理。
②案卷整编。
a.处理重份文件。
b.标注省(市、县)级领导审改的文件。
c.标注破损文件。
d.理顺文件排列顺序。
e.编制张(页)号。
f.编制卷内文件目录。
g.完成基础考证。
h.规范案卷信息。
③技术修复。
a.修裱、加固破损档案载体。
b.稳定、恢复出现退变、扩散的档案字迹。
c.迁移载体濒临灭失的档案信息。
d.对珍贵档案进行去酸和复制处理。
④选择软件。
选择软件考虑以下因素:
a.技术开发水平。
b.功能设计是否满足档案工作的实际需要。
c.数据库的设计、结构和格式是否符合国家规范、标准的要求。
d.系统操作和维护是否方便。
e.系统的稳定性和后续技术服务保障能力。
f.价格。
g.与以往建立的档案数据进行交换、汇总,保持一致性和便利性。
h.上级主管部门的技术导向。
⑤案卷处理。
a.清点核对档案。
b.拆开档案装订。
c.分开扫描件与非扫描件。
d.分出大幅档案和特殊档案,并确定其处理方式。
⑥建立目录数据。(www.daowen.com)
a.原来已有目录数据的,通过导入建立相关目录数据库。
b.对导人的数据进行审核、补充、完善。
c.原来没有目录数据的,通过录入建立相关目录数据库。
d.根据需要,打印出相关目录(如:卷内文件目录)。
⑦建立图像数据。
a.准确设置技术参数,选择正确的扫描方式(一般应用黑白方式扫描)。
b.进行数据扫描。
c.检查图像质量,纠正错误。
d.对分幅扫描文件进行技术挂接处理。
e.对以黑白方式扫描质量达不到清晰度要求的,改用灰度或彩色方式重新扫描。
⑧数据检查。
a.确保文件目录与案卷目录准确关联。
b.确保每件档案的图像文件与该档案在数据库中的文件目录准确对应。
c.确保图像文件的内容、数量和排列顺序与档案原件一致。
⑨档案还原。
a.去掉档案中的金属物。
b.将档案按原样还原。
c.按国家规范要求装订档案。
⑩数据挂接。
a.确保文件目录与案卷目录准确关联。
b.确保每件档案的图像文件与该档案在数据库中的文件目录准确挂接。
c.确保图像文件的内容、数量和排列顺序与档案原件一致。
数据检查。
a.检查图像文件与档案原件排列顺序的一致性。
b.检查图像文件与相关目录对应的正确性。
c.检查大幅文件图像挂接的完整性。
d.检查扫描图像数量的准确性(不可多扫,也不可少扫)。
e.检查图像质量的清晰度与规范性。
f.抽检率不得低于59%,合格率不得低于95%。
g.统计新建和修改目录的条数、扫描图像的幅数。
h.在运行大数据条件下,检查软件工作是否正常。
档案还原检查。
a.对照原目录清点档案,检查是否所有档案都已还原。
b.检查档案排列顺序是否正确。
c.检查档案是否有被破坏现象。
d.检查档案装订是否符合国家规范要求。
e.统计新打印目录的页数。
数据备份。
a.数据检查合格后,承包方按照合同规定的方式、格式要求备份数据。
b.委托方组织对备份数据的检测。
数据交换。
a.委托和承包双方按照合同规定的时间、介质、格式、方式和套数要求交换已经验收合格的数据。
b.备份数据首先用于在数据服务器中进行合库处理,提供在线服务。
c.全部备份数据都应整理编号,存人档案库房。
d.备份数据应当按套集中,实行异地存放保存。
销毁外部数据。
承包方移交数据后,在档案馆有关人员的监督下,销毁所有存放介质中的档案数据。
项目验收。
验收内容:
a.完成时间。
b.完成数据。
c.完成质量:查看数据和档案还原检查记录。
d.数据交换情况。
e.数据在利用部门恢复运行的情况。
f.外部数据销毁情况。
g.合同规定的其他要求事项。
付款结项:
a.图像质量抽查检查合格签字。
b.档案还原装订验收合格签字。
c.档案数字化成果数据备份,再检查及接收签字。
d.财务核算签字。
e.局(馆)领导在总体验收合格后签字。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。