信息检索技术是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。目前,档案信息化或数字档案馆中涉及的信息检索技术主要有:全文检索技术、基于内容的信息检索技术和智能信息检索技术。
(1)档案全文检索技术
全文检索技术是以原始档案记录中的检索词、字间的特定位置为对象进行运算,提供存取档案全文的文本空间技术。简言之,全文检索技术就是以数据,诸如文字、声音、图像等为主要内容,以检索档案文献资料的内容而不是外表特征的一种检索技术。全文检索的显著特点是:它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索。
全文检索主要有三种实现方法[52]:
①自由文本查询。这是用自己指定的关键词、字符串直接与全文文本进行一次数据高速对照来进行检索,它的查询结果是一个按序列值排列的文件列表。
②对文本内容中的每个词进行位置扫描,然后排序。最后建立以每个词(字)的离散码为标目的倒排文件。
③采用基于HTML语言的超文本模型建立全文数据库,使用户便捷地看到查询结果。
当前,全文检索技术正全面应用于我国新型公共档案馆和数字档案馆,它为档案馆实现服务利用方式的转变、全面提升档案管理的信息化水平,以及更好地满足公众需求等提供了有效保障。
(2)基于档案内容的信息检索技术
基于内容的信息检索技术主要是利用媒体对象的语义、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,直接对图像、音频、视频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索,是多种技术的合成,具有广泛的应用前景[53]。
根据检索媒体对象的不同,基于内容的信息检索主要分为基于内容的图像检索、基于内容的视频检索和基于内容的音频检索。
①基于内容的图像检索。它是通过软件对输入的图像进行综合分析,自动抽取图像的颜色、形状或纹理等特征,并在把输入图像存人图像库的同时将其相应的特征向量存入与图像库相连的特征库。在进行图像检索时,对每一幅给定的示例图进行分析,并提取图像特征向量。将该图像的特征向量和特征库中的特征向量进行匹配,根据匹配的结果就可以在图像库中找到相应的图像[54]。该技术在照片档案检索、工程图纸检索、医学图像检索、历史图片检索等方面逐渐得到应用。(www.daowen.com)
②基于内容的视频检索。它是根据媒体与媒体对象的语义内容和上下文联系进行检索,它需要从媒体数据中提取指定的特征(如颜色、纹理、形状等),然后再根据这些特征从媒体数据库中检索出具有相似特征的图像或者视频内容。该技术是大规模网络化信息检索和服务的关键之一,它涉及视频处理、计算机网络、模式识别、人工智能、数据库等多个学科领域,该检索技术对于数字影像档案的开放和开发,实现影像档案信息满足公众需求将大有帮助[55]。
③基于内容的音频检索。它主要研究如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征,实现与音频内容信息相关的检索。基于内容的音频检索主要分为三大部分:音频内容的获取、音频内容的描述(音频特征提取)、特征相似度匹配。该技术主要应用于对录音档案、音频档案、音乐档案等的检索。
(3)智能档案信息检索技术
智能信息检索技术主要是人工智能技术应用于信息检索方面,涉及本体论、神经网络、遗传算法、自然语言理解、ID3算法等。该技术使检索智能化成为可能,使各类信息、知识与技术的学习、集成和创新成为可能,从而有利于避免与离散物理世界打交道的许多困难,为实现分布式信息资源的智能化管理开拓了新的途径。
智能信息检索技术在档案信息服务方面的应用主要体现在“个性化”和“智能化”两个方面。要实现“个性化”和“智能化”,就必须能在语义层次上对文档内容进行理解和索引组织,归纳并学习用户的兴趣爱好,准确完整地理解用户的查询意图,进而给出用户满意的结果[56]。所以,智能信息检索在档案信息满足公众需求方面应该实现:
①提供友好的用户接口界面,用户接口使用自然语言理解与分析;
②系统自动监测用户行为,收集用户浏览习惯的信息,熟悉用户的兴趣爱好,建立一定的用户描述,主动去搜集相关信息,向用户提供个性化的档案信息;
③针对用户查询请求自动向用户提供相关档案信息,不需用户重复发现知识;
④检索速度快,能够快速地返回查询结果;
⑤高精确度和召回率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。