理论教育 纸质档案扫描及图像处理技术优化方法

纸质档案扫描及图像处理技术优化方法

时间:2023-07-18 理论教育 版权反馈
【摘要】:一般情况下,保管时间较长、纸质状况较差的档案应采用平板扫描仪逐页进行扫描,而对于纸张质量好的档案文件可采用高速扫描设备扫描,以提高扫描的速度和效率;扫描准确度可以通过正确设置适当的分辨率等来实现。(五)图像处理纸质档案扫描完成后,按照纸质档案数字化技术规范,应对扫描后的图像进行精细处理,处理操作内容如下:纠偏:对偏斜的图像进行纠偏处理,达到视觉基本感觉不偏斜为准。

纸质档案扫描及图像处理技术优化方法

纸质档案是企业档案数字化的主要对象,其数字化工作核心内容包括档案实体信息的扫描制作、图像处理、存储备份、数据输出等,对于规模化的数字化工作往往需要建立相应的纸质档案扫描管理系统,以实现对纸质档案扫描数据的批量处理及大容量存贮,并实现档案目录数据与档案内容数据的有效挂接。

除了对个别质地脆弱的纸质原件通过拍照方式进行数字化外,扫描是目前最常用的、能够快速对大量的馆藏纸质档案以及图纸资料等进行数字化的技术方式。纸质档案扫描首先需要选择合适的扫描设备,确立合适的扫描技术指标,这些都要通过纸质档案扫描管理系统来进行控制。一般情况下,保管时间较长、纸质状况较差的档案应采用平板扫描仪逐页进行扫描,而对于纸张质量好的档案文件可采用高速扫描设备扫描,以提高扫描的速度和效率;扫描准确度可以通过正确设置适当的分辨率等来实现。

根据《纸质档案数字化技术规范》(DA/T31-2005)的规定,纸质扫描系统的参考工作流程是包括范围确定、档案整理、档案扫描、图像处理、图像存储和命名、图像质量检査、目录数据著录或导入、数据挂接、数据验收、数据备份与管 理 。

(一)档案出库

进行数字化的纸质档案要按照数字化处理工作计划和进程顺序提取,档案从库房提取出库后,由接收人员与档案管理人员双方共同清点卷数、份数及页数,核对案卷封面上的信息是否与所调全宗相符合,确认无误后在交接单上签字,交接单可以一式两份,由双方各执一份。

(二)档案整理

档案整理是进行数字化扫描前的一个关键环节,该环节完成纸质档案接收并签字核定后,整理人员按照交接单认真核实案卷的完整性后,对纸质档案进行分类排序,并筛选出需要扫描的档案,按照相关技术标准要求,把同一案卷中的扫描件与非扫描件分开,剔出无关和重复的文件,有正式件的文件可以不用扫描原稿。完成拆装、修复后,整理人员对每卷编写流水号、页号,按照数字化处理工作要求,合理分配各环节工作任务后,将纸质档案交至档案著录环节。

对于破损严重,无法进行扫描的纸质档案,应采用技术手段进行纸张修裱;对于折角、皱折的档案,可以采用较重的物体压平、烫平、蒸汽熏蒸的方法处理;对于霉变档案,可以采用清洗技术,若无法清洗,可以采用蒸汽薰蒸后再擦洗,将霉变物资清除;对于热敏纸,可以采用加深复印的方式处理,所有操作都应以文字方式记录。如对档案实体进行过调整并需要在备考表中注明的,应在备考表中注明。

(三)档案著录

在进行扫描前,需对纸质档案进行著录,建立纸质档案目录数据库,包括档案目录数据的准备、档案目录数据准备的审核、档案目录数据录入、档案目录数据校对、档案目录数据备份和管理。

(四)档案扫描

档案扫描是数字化加工流程中的核心环节,需要在扫描仪选择、文件存储位置与命名、色彩模式选择、分辨率选择等方面进行控制。

选择扫描仪。应根据纸张的规格、质量状况,扫描要求等,选择最为合适的扫描仪进行数字化扫描工作。对于工程图纸等大幅面档案,可釆用大幅面扫描仪进行;不能一次性完成扫描的纸质档案,须进行分幅扫描,采用拼接的方法获得单一图像;对于不规则纸张、不拆卷档案等,可采用书刊扫描仪进行;对于纸张较厚、质量较高且数量较多的档案,可采用高速扫描仪进行;对于较薄纸张易碎的档案,可釆用平板扫描仪进行。

确立扫描文件存储位置及命名规则。扫描需要确定存储位置和命名规则,如建立档案扫描数据存储总目录,并在总目录下建立批次档案相应的子目录,在子目录下,文件的命名可考虑文件的档号一致,多页文件以单页形式存储时,可釆用该档号建立相应文件夹,按页码顺序对图像文件命名。

选择合适的色彩模式。按照纸质档案数字化技术标准,扫描色彩模式一般有黑白二值、灰度、彩色等。对于页面为黑白二色,只有文字,且字迹清晰可见,无插图、表格等的档案,可采用黑白二值扫描模式;对于页面为黑白二色,但字迹清晰度较差,带有插图、表格的档案,可采用灰度或彩色扫描模式;对于页面带有除黑白二色之外的其他颜色,如红头、印章、彩图等的档案,应釆用彩色扫描模式。

选择合适的扫描分辨率。按照纸质档案数字化技术标准,一般纸质档案扫描分辨率不低于200dpi,综合考虑信息技术的不断发展,为最大限度地釆集档案信息,满足后续多种利用目的的需要,扫描分辨率建议不小于300dpi。如文字偏小、密集、清晰度较差时,应适当提髙分辨率。如有仿真、印刷、出版等其他用途时,可根据需要调整分辨率。

选择扫描文件存储格式。用于典藏的纸质档案数字化可存储为无损压缩TIFF 格式,后期根据利用需要可转存为JPEG、PDF等格式,图像色彩应符合规定要求,在保证影像质量的前提下,尽量减少文件占用的存储空间。

(五)图像处理

纸质档案扫描完成后,按照纸质档案数字化技术规范,应对扫描后的图像进行精细处理,处理操作内容如下:(www.daowen.com)

纠偏:对偏斜的图像进行纠偏处理,达到视觉基本感觉不偏斜为准。

裁边:对扫描完成多余的白边、无关的背景等,裁掉多余部分。

局部减淡:对于模糊的字迹,釆用字迹锐化的功能,清晰字迹笔画。

局部加粗:对于缺少笔画的字迹,采用字迹填补功能,填补断线笔画。

去污去噪:对于扫描后的图像存在黑边、零散的小黑点、大块的污渍等情况,釆用图像去噪功能,去除图像杂点、脏点、脏斑等。

通过图像处理技术,要做到保证图像清晰、不失真,保证图像数据信息完整,图像居中、不倾斜,特别是批示、便条、文件编号等重要信息不得随意裁切、涂改,从而保证数字化后产生的图像符合质量标准,图像效果最接近档案原件。

(六)图像质检

图像质检人员应根据相关标准规范,对处理后的数字化图像进行检验,包括对档案拆分、扫描、修正、去污以及文本和图像页的匹配等质量进行全面检验, 对于质量达不到要求的进行重扫、补扫;不准缺页、漏页,对于图像存在信息丢失、图像页面未进行处理存在杂质以及扫描图像排列顺序与档案原件不一致时,都应退回重扫;清晰度检査,扫描件的清晰度应最大限度的接近于档案原件,内容要完整,画面要端正,凡原件中可识别的内容,扫描后的图像文件在屏幕显示中和打印输出后应都能识别。

图像质检完成后,质检人员应及时对质检结果进行登记,详细记录图像质检结果和内容。

(七)数据挂接

数据挂接实现的是档案目录信息与扫描图像文件的关联关系,原则上挂接应通过系统自动进行。挂接功能将已录入的目录信息与已完成图像文件进行挂接,将目录数据与相关联的图像数据自动挂接,建立起对应的关联关系,实现目录条目与图像文件的批量挂接。

挂接完成后,质检人员应对挂接结果进行检査,核实目录条目与挂接的图像文件是否对应,以确保挂接内容的一致性。若出现挂接失败,应及时查找失败原因,判断是软件问题还是图像文件命名错误问题,应及时解决。

(八)数据验收

纸质档案全部完成数字化加工后,无论是自建或采用外包方式,都需组织相关人员,对数字化成果进行验收。原则上应釆用计算机自动检验与人工检验相结合的方式对纸质档案数字化成果进行验收检验。能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,检验合格率应为100%。对于无法用计算机自动检验的项目,可采用抽检的方式进行人工检验。抽检比率不得低于5%,抽检合格率应为100%。建设单位可以根据需求,提高抽检比率。

(九)数据存储与备份

纸质档案数字化工作通过验收后,需要对数字化后的数据进行存储与备份。对于在单位内部进行的数字化加工可以釆用在线存储的方式,形成的图像数据必须完整无误的上传到指定的服务器。对于采用外包方式或不具备在线存储条件且需要对数据进行备份存储的档案信息,可以釆用光盘、磁带、磁盘存储的方式进行数据的离线存储。

(十)档案装订还原与归档

纸质档案的数字化工作完成后,原则上档案原件仍需恢复到扫描前的状态。具体内容包括拆除过装订物的档案应按原有方式重新装订,并保持每页档案原有的排列顺序不变,装订时要求保持原装订孔和装订样式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈