理论教育 档案信息获取技术:面向公众需求的服务研究

档案信息获取技术:面向公众需求的服务研究

时间:2023-08-12 理论教育 版权反馈
【摘要】:档案信息获取技术是指能够对档案信息进行测量、转换、存储、感知和采集的技术,特别是直接获取重要信息的技术。档案信息获取技术主要涉及数字转换技术和信息资源采集技术。缩微胶片档案数字化技术主要包括缩微胶片档案扫描、图像处理、图像存储、目录建库、数据挂接、数据验收、数据备份等内容。照片档案数字化主要采用数字图像技术,对不同介质的照片档案,如缩微胶片、照片底片、照片进行数字化处理。

档案信息获取技术:面向公众需求的服务研究

档案信息获取技术是指能够对档案信息进行测量、转换、存储、感知和采集的技术,特别是直接获取重要信息的技术。档案信息获取技术主要涉及数字转换技术和信息资源采集技术。

(1)数字转换技术

数字转换技术是指通过数字化扫描技术、图文编辑、图像格式和图像储存技术、数据压缩技术、影像刻录技术等手段,将各种载体的档案文献数字化,建设数字化资源库,为提供数字档案信息服务创造条件。主要包括:纸质档案数字化、缩微胶片档案数字化(照片档案数字化)和多媒体档案数字化。

纸质档案数字化是采用扫描仪数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上,并能被计算机识别的数字图像或数字文本的处理过程[42]。这个过程主要应用光学字符识别技术(简称OCR技术)和图像处理技术。OCR技术是将文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术,该技术主要用于档案标引信息识别和全文信息识别,为数字档案信息查询提供了技术支持[43]。图像处理技术是用计算机对图像进行处理和分析,以达到所需结果的技术。其在档案图像处理过程中主要涉及图像压缩图像增强和复原,图像编码,图像匹配、描述和识别等内容。

缩微胶片档案数字化是采用缩微胶片扫描仪等设备将缩微胶片上的影像转换为存储在磁盘、磁带、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程[44]。缩微胶片档案数字化技术主要包括缩微胶片档案扫描、图像处理、图像存储、目录建库、数据挂接、数据验收、数据备份等内容。

照片档案数字化主要采用数字图像技术,对不同介质的照片档案,如缩微胶片、照片底片、照片进行数字化处理。数字图像技术是将照片、图片、底片等通过输入设备(数码相机、扫描仪、电脑摄像头以及数字摄像机等)所获得的并以数字格式存储的图像,在电脑上利用各种图像处理软件,对图像进行各种处理的技术。数字图像技术主要包括电荷耦合器(CCD技术)、色彩管理技术、色彩校正技术、动态色彩校正技术和三色同步扫描技术等输入技术,色彩增强技术、增强图形技术、位增强技术和图像处理软件等处理技术,以及图像压缩、检索查询等技术[45]

多媒体档案数字化是将录音、录像等各种形式的多媒体原文资料通过音频、视频转换设备进行转换、识别,压缩,生成标准格式的电子文件,并编目以及建立标引信息的过程。音频档案数字化是通过计算机、录音机声卡等设备将音频档案中的模拟音频信号转化为计算机可识别的数字音频信号并加以存储的过程,其中涉及声音转换技术、去噪声技术、声音采样技术、声音处理和控制技术等。视频档案数字化是利用计算机、放像设备及视频采集卡将录像带中的视频信号(可同时包含音频信号)转化为计算机可识别的数字信号,其中涉及视频采集技术、视频转换技术、图像声音处理技术和视频剪辑技术等。(www.daowen.com)

需要注意的是,近年来,除了传统档案数字化外,数字档案也正在转移到相对可靠的介质上,即“数模转化”,其主要依据是《数字档案信息输出到缩微胶片上的技术规范》[46](详见本书5.2节)。为此,除了转换过程中的法律凭证问题需要相关的法规保障外,也需要建立相关的标准进行规范。

(2)信息资源采集技术

网络信息资源是档案信息资源采集的主要对象,其以数量大、格式多样、内容丰富、共享程度高等特点越来越受到人们的重视。面对急剧膨胀的信息资源,如何快速、准确地采集到所需要的档案信息,是档案信息资源建设中最困难的问题。基于信息挖掘、抽取、过滤等方面的技术,为档案信息资源的获取提供了保障。

信息挖掘技术是指在主题样本的基础上,得到数据间的内在特征,并以此为依据在网络资源中挖掘与用户需求一致的信息的技术。它是数据挖掘技术在网络中的应用,整合了全文检索、人工智能模式识别神经网络等技术。网络档案信息挖掘可以根据档案部门资源建设的主题需求,提取主题特征信息,根据主题特征自动在网络中挖掘档案信息,然后对挖掘到的档案信息进行整理,导入档案信息数据库,以备过滤之用。

信息抽取技术是指从网络自然语言文本中抽取更符合采集主题的信息,并形成结构化数据输出的技术。它是在机器学习、模式挖掘、自然语言处理等技术的基础之上发展起来的一项新技术。信息抽取技术主要包括:命名实体识别技术,即对现实世界中的具体的或抽象的实体信息进行识别;句法分析技术,即通过句法分析得到输入的某种结构表示,便于计算机理解自然语言;篇章分析与推理技术,该技术能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段;知识获取技术,即主要以知识库的形式为信息抽取技术提供支撑[47]

信息过滤技术是为了克服网络信息飞速增长所带来的“信息过载”和“信息迷向”等问题,减轻信息采集者在采集过程中的负担,向用户提供符合要求的信息的技术。它根据过滤规则,运用一定的工具,从动态变化的网络信息中提取用户需要的信息或剔除用户不需要的信息。信息过滤技术主要有认知过滤(基于内容的过滤)、协同过滤(基于社会的过滤)和混合过滤三种。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈