采用不同材质、记录方式的档案,数字化加工技术不同。纸质档案、照片、底片、缩微胶片的数字化主要采用扫描技术,当扫描效果不好,或者载体无法扫描时,也可釆用数码拍摄的方法。录音、录像档案则主要采用针对声音、视频的 模数转换技术,也可采用数字录音、数字摄像的方法。
(一)扫描技术
扫描是通过扫描仪获取档案原文图像的技术。扫描仪的基本工作原理是将光线照到待扫描对象上,感光元件接收到反射光线,再将光波转换为数字信息。市场上扫描仪的种类很多,应参考各类扫描仪的技术指标,并结合档案的特点、经费的情况加以选择。
1.扫描仪的技术指标
(1)光学分辨率。光学分辨率体现了扫描仪在扫描时所能达到的精细程度,是衡量扫描仪性能高低的重要指标,用每英寸捕获的光点数来表示,单位为dpi。分辨率越髙,扫描出来的图像越清晰。扫描仪的光学分辨率一般用两个数字相乘,如600*1200dpi,其中前一数字为横向分辨率,后一数字则代表纵向分辨率或是机械分辨率,在判断扫描仪光学分辨率时,应以最小的一个为准。
(2)色彩位数。也称色深,是指描述一个像素点颜色信息的二进制位数,它一般采用红绿蓝(RGB)三通道的数值总和来表达,常见的有24位、30位、36位、42位等,其中每个通道的数值位数分别为8位、10位、12位和14位。这是反映扫描仪识别色彩的能力和能够描述的颜色范围的性能指标,决定了颜色还原的真实程度。色彩位数越大,扫描的效果越好、越逼真,扫描过程中的失真就越少。
(3)灰度级。该指标反映了扫描时提供由暗到亮层次范围的能力,即从纯黑到纯白之间平滑过渡的能力。灰度级越大,扫描结果的层次就越丰富,扫描的效果越好。常见的灰度级为8位,即256级。
(4)扫描幅面。该指标反映了扫描仪所能扫描纸张的大小,一般有A4(297x216mm)、A4 加长(216x356mm)、A3(297x420mm)这几种,工程扫描仪还可使用AO(841x1189mm)幅面。
(5)扫描速度。该指标是指扫描仪从预览开始到图像扫描完成后光头移动的时间。可用扫描标准A4幅面所用的时间或完成一行扫描的时间来表示。
(6)接口类型。扫描仪提供的可与计算机相连的接口类型主要有SCSI、EPP、USB、IEEE1394等。
2.扫描仪的类型
档案数字化工作用到的扫描仪类型主要包括平板式扫描仪、胶片扫描仪、滚筒式扫描仪等。
(1)平板式扫描仪。又称平台式扫描仪、台式扫描仪,主要用于扫描纸质档案。其光学分辨率在300-8000dpi之间,色彩位数从24位到48位。部分产品可安装透明胶片扫描适配器,用于扫描透明胶片,少数产品可安装自动进纸实现高速扫描。扫描幅面一般为A4或是A3。零边距扫描仪是用来扫描古籍档案的一种特殊类型的平板式扫描仪,用该扫描仪可不拆装、压迫原件。
(2)胶片扫描仪。又称底片扫描仪或接触式扫描仪,用于扫描各种透明胶片,包括缩微胶片和底片。其光学分辨率在1000dpi以上,一般可达2700dpi。
(3)鼓式扫描仪。又称滚筒式扫描仪,是扫描仪中的高端产品,特点是以点光源逐个像素地进行采样,效果好。光学分辨率在1000-8OOOdpi,色彩位数从24 位到48位。扫描速度较慢,扫描一幅图可花费几十分钟甚至几个小时。
3.扫描件技术参数的选择
扫描件主要的技术参数包括分辨率、色彩模式、色彩位数、文件格式、压缩算法等。
(1)分辨率。扫描图像的分辨率与扫描仪的光学分辨率既有联系也有区别。后者是硬件设备的分辨率,体现的是扫描仪捕获精细图像的能力;前者是利用扫描设备获得的图像的分辨率,是描述图像本身精细程度的一个量度。除了 dpi之外,有时也用ppi来表示图像分辨率,指每英寸长度上扫描图像所含有像素点的个数。在扫描仪釆集图像时,扫描仪的每一个样点和所形成图像的每一个像素相对应,因此扫描时设定的dpi值与扫描形成图像的ppi值是相等的,此时两者可以划等号。但其他情况下,dpi和ppi未必相同。
(2)页面大小。扫描图像一般釆用A4幅面的页面尺寸。有些档案由于年代久远或纸张特殊不是A4大小,可视情况扫描成A3或其它页面大小。若纸张大于一个A4页面,则可把档案扫描成多个A4文件,事后通过图像拼接再还原为原大小。(www.daowen.com)
(3)色彩模式和色彩位数。扫描图像的色彩模式有三种:黑白模式、灰度模式和彩色模式。釆用黑白模式的扫描图像系黑白二值图像,只有黑白两级灰度,每个像素只用1个二进制位来记录色彩。采用灰度模式和彩色模式的扫描图像系连续色调静态图像,以多于两级灰度的不同浓淡层次或以不同颜色通道组合成,每个像素颜色的表示位数大于1位。
(4)文件格式和压缩算法。常用的图像格式有TIFF和JPEG两种标准格式。TIFF格式支持多页存储,可进行无损或有损压缩,支持多种压缩算法,包括CCITT G3、CCITT G4、RAW、LZW、JPEG等。JPEG既是一种单页存储的图像格式,又是一种标准的压缩算法,允许釆用不同的压缩比例对文件进行压缩。TIFF格式适合保存高质量的原件,JPEG则是互联网上主流图像格式,适合屏幕显示。此外,还可釆取GIF、PDF等格式提供扫描图像的利用。
为扫描件确定合适的技术参数,主要有如下两个角度:
(1)扫描件的使用目的。扫描件的用途主要包括保存、浏览、预览、打印等。可以为同一份档案建立多个数字副本,选择不同的技术参数。作为图像采集的直接成果,原版图像的主要作用在于保存和生成派生文件,应尽可能保持原件的视觉信息。浏览、预览图像则分别用于高清晰度和低清晰度要求的屏幕显示。打印图像则用于打印输出。
(2)档案原件的质量情况。《纸质档案数字化技术规范》(DA/T31-2005)主要着眼于档案原件的情况,对色彩模式、扫描分辨率加以规定,它指出“页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描;页 面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可釆用灰度模式扫描;页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描;分辨率一般均建议选择≥100dpi;需要进行OCR汉字识别的档案,扫描分辨率建议选择≥200dpi”。
实际工作中,应综合考虑扫描件的使用目的和档案原件的质量情况,来决定扫描件的技术参数,保证各参数之间协调、匹配。
(二)录音档案的模数转换技术
通过由放音设备、音频采集卡(声卡)、音频输入线、计算机等设备以及相应的音频数字化软件搭建而成的录音档案数字化转换系统,可以将模拟声音信号转化为数字音频信号。其主要工作过程包括采样、量化和编码。通过系统的设置,该过程可以批量化、自动化进行。
1.采样
模拟的声音信号是连续变化的信号。采样是指每隔一定的时间间隔,采集模拟声音信号的幅度值作为样本,以样本表示原来的信号。釆样频率是采样过程中的重要技术参数,即每秒钟采集多少个声音样本,这是用数字信号表达声音精确度高低的参数。采样频率越高,即釆样的时间间隔越短,声音波形就表达得越精确。理论上采样频率应大于声音信号最髙频率的两倍,常见的釆样频率有11.025kHz、22.05kHz、44.1kHz、48kHz等。其中,达到CD音质的釆样频率为 44.1kHz。
2.量化
量化是指度量样本幅度值并表示为二进制码的过程。量化之前要规定信号的量化精度。量化精度,又称样本大小、量化比特率,是指样本振幅值的等级,一般用二进制位数来表示,如8位、16位等,达到CD音质的量化精度是16位。根据量化精度,可以明确每一个量化级别对应的幅度范围,将样本幅度值与之比较,就可以得出离散的量化值。量化精度越高,量化级别就越多,声音还原效果越好。除了量化精度外,本阶段的主要技术参数还有声道数,常见的声道数包括单声道、双声道、5+1声道、7+1声道等,声道数越多,音质越好。
3.编码
编码是指用相应位数的二进制代码按照规定的格式表示量化后的样本。编码阶段的技术参数有编码方式、文件格式、压缩算法等。常见的编码方式包括脉冲编码调制(PCM)无压缩编码和MPEG-1 Layer 3压缩编码方式等,利用前者可形成WAV格式的音频文件,利用后者形成的音频文件为MP3格式。WAV格式也支持多种压缩算法,通用性好,保真度高,常用作音频文件的存档格式;MP3压缩比高,音质较好,是互联网上流行的音频格式,可用于录音档案的提供利用。此 外,还可采用RM、MOV等流媒体格式提供网络利用。凡压缩编码形成的音频文件在使用过程中,重复编码和解码会导致内容质量的损伤。
(三)录像档案的模数转换技术
通过由放像设备、视频釆集压缩卡、视频输入线、计算机、编辑机等设备以及相应的视频数字化处理软件搭建而成的录像档案数字化转换系统,可以将模拟视频信号转化为数字视频信号。其主要工作过程同样包括采样、量化和编码。录像档案数字化过程比录音档案数字化过程要复杂,除了包含在其中的音频信号的采集之外,还要釆集视频信号,而后者是由一系列静止的图像组成。
录像档案数字化之后形成的视频文件,可根据用途选用MPEG1(VCD格式)、MPEG2(DVD格式)、MPEG4、RM、MOV、ASF等中的一种或多种格式。其中MPEG1(VCD 格式)、MPEG2(DVD 格式)主要用于存档,MPEG4、RM、MOV、ASF则是用于网络传输的流媒体格式。目前档案部门多釆用MPEG2格式,相应的数据传输率不低于4Mbps。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。