1)按存储与检索对象划分
文献信息检索(Document Information Retrieval)是以文献(包括文献、题录和全文)为检索对象,从已存贮的文献数据库中查找出特定文献的过程。检索结果往往是一些可提供研究课题使用的参考文献的线索或全文。例如“关于商标保护有些什么参考文献?”这就需要我们根据课题要求,按照一定的检索标识(如主题词、分类号等),从所收藏的文献中查出所需要的文献。
文献检索是信息检索的核心部分,文献检索根据检索内容不同又可分为书目检索和全文检索。书目检索是以文献线索为检索对象的文献检索。检索系统存贮的是二次文献,信息用户通过检索获得的是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。全文检索是以文献所含的全部信息作为检索内容的,即检索系统存贮的是整篇文章或整部图书的全部内容,全文检索是当前计算机信息检索的发展方向。随着现代网络技术的发展,文献检索更多是通过计算机技术来完成的。
(2)数据信息检索
数据信息检索(Data Information Retrieval)是将经过选择、整理和评价(鉴定)的数据存入某种载体中,并根据用户需要从某种数据集合中检索出能回答问题的准确数据的过程或技术,是以数值或数据(包括数据、图表、公式等)为对象的检索。数据检索不仅能够查找出需要的数据,还能够提供一定的运算、推导能力,辅助信息使用者进行定量化的分析与决策。
数据检索按查询问题的要求,分为简单检索(即单一因素的检索)和综合检索(即综合条件检索)。数据文件组织方式不同,数据检索的技术方法也不同。对于顺序结构文件,常见方法有顺序检索、分块查找法、两分检索等。对于随机结构文件,常采用直接地址法、杂凑(hash)法等。例如,地理信息系统中空间数据检索常涉及目标空间分布范围(行政区域、地理范围或空间关系等)及目标属性类型(地形高度、坡度、土地利用现状等)两个方面的综合条件。
(3)事实信息检索
事实信息检索(Fact Information Retrieval)是信息检索的一种类型。广义的事实检索既包括数值数据的检索、算术运算、比较和数学推导,也包括非数值数据(如事实、概念、思想、知识等)的检索、比较、演绎和逻辑判断。它要求检索系统不仅能够从数据(事实)集合中查出原来存入的数据或事实,还能够从已有的基本数据或事实中推导、演绎出新的数据或事实。
例如,该系统中存储有如下事实:①李明是A校的学生。②A校的学生都学外语。如果该系统是一个事实检索系统,则它应当能回答某用户所提出的“李明学外语吗?”这种问题。事实检索是情报检索中最复杂的一种。它要求系统中的数据和事实以自然语言或接近于自然语言的方式存储。不仅要存入各种数据或事实单元,还要存入各单元之间的语义关系、句法关系以及各种有关的背景知识。允许用户用自然语言提问,并能用自然语言作答。更重要的是,系统必须具有一定的逻辑推理能力和自然语言理解功能。
以上3种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
2)按实现检索的技术手段划分
(1)手工信息检索
所谓手工信息检索是指通过人工来处理和查找所需信息的检索方式,使用印刷型信息检索工具,检索者与检索工具直接“对话”,它依靠检索者手翻、眼看、脑子判断而进行,不需要借助任何辅助设备。手工检索的特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。这是一种传统的信息检索方法,工作量大、效率低。但是,由于经过了人工的选择,准确性相对较高,适用于检索要求较为模糊、需要人工亲自检视取舍的、较小范围的信息检索。
(2)联机信息检索
联机信息检索是指信息使用者通过计算机终端设备,运用一定的指令输入检索词或检索策略,借助于人机对话方式,通过检索软件的运行,从联机信息中心查找出所需信息的过程。
联机信息检索的特点:①能够突破信息检索的地域空间限制,方便信息使用者检索异地的信息资源,实现信息资源集中管理和高度共享。②信息更新及时、更新周期短。如DIALOG系统的工程索引每周更新,有的商情数据库随时更新。③信息检索速度快。④信息检索费用较高。(www.daowen.com)
DIALOG系统是世界上最早,也是目前最大的专业联机信息检索系统,该系统拥有600个数据库,这些数据库的内容覆盖面非常广泛,涉及自然科学、工程技术、社会科学、商业新闻与工业分析、公司信息、金融数据等。其中,科技文献类数据库占40%;人文社会科学类数据库占10%;公司及产品类商情数据库占24%;其他为新闻、媒体以及参考工具书等类型的数据库。DIALOG系统的数据库主要收录公开出版的文献信息,每个数据库都有明确的收录范围,所有进入数据库的信息均采用规范化的语言进行严格的编辑、标引,数据关联体系严谨,信息有序化程度高、可靠性强。
(3)网络信息检索
网络信息检索是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
网络信息检索是借助于网络共享信息资源的重要方式。其具有以下特点:
①数量庞大、内容丰富。网络信息的最大优势就在于它无所不包、类型丰富多样。这一方面为信息使用者提供了非常大的选择空间和非常多的选择路径;但另一方面大量的无用信息混杂其中,给信息的有效检索带来了困扰。
②随时更新、无序化强。任何机构、个人都可以自由地在网络上发表信息,信息来源分散、组织松散,相关信息都通过一个个网页来呈现,每一个网页都存在多种链接方式,并通过这种链接形成复杂的网状结构,而且这个结构还不稳定,永远处于不断变化、不断扩大、不断更新中。
③信息关联度强。网络信息利用超文本链接构成了立体网状的信息链,将不同国家、不同地区、不同机构、不同服务器、不同网页、不同文件连接起来,增强了信息的关联度。
④网络信息具有典型的网络外部性特征。“网络外部性”是“新经济”中的重要概念,是指连接到一个网络的价值,取决于已经连接到该网络的其他人的数量。通俗地说,就是每个用户从使用某产品中得到的效用,与用户的总数量有关。用户人数越多,每个用户得到的效用就越高,网络中每个人的价值与网络中其他人的数量成正比。而网络外部性又分为直接网络外部性和间接网络外部性,直接网络外部性是指消费者直接和网络单元相连,可以直接增加其他消费者的使用效用;间接网络外部性是指随着一种产品使用者数量的增加,市场出现更多品种的互补产品可供选择,而且价格更低,从而消费者更乐于购买该产品,间接提高了该产品的价值。在这一特征的作用下,网络信息将会伴随用户的增加而呈几何级数增长,并且使得获取信息更为便捷。
基于以上特点,结合传统信息检索技术,利用计算机网络技术、人工智能技术、机器学习、计算机语言学等新一代网络信息检索技术将会具有更为广泛的应用前景。
(4)智能信息检索技术
传统的全文检索技术主要是基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索通过语义来理解和索引信息、利用分词词典、同义词典、同音词典来改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户以智能知识提示,最终帮助用户获得最佳的检索虚拟图书馆与网上信息检索效果。比如用户可以进一步缩小查询范围至“微机”“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”“软件”“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索结果处理,比如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,从而高效、准确地反馈给用户最需要的信息。
智能检索以文献和检索词的相关度为基础,综合考查文献的重要性等指标,对检索结果进行排序,以提供更高的检索效率。智能检索的结果排序同时考虑相关性和重要性,相关性采用各字段加权混合索引,相关性分析更准确,重要性指通过对文献来源权威性分析和引用关系分析等实现对文献质量的评价,这样的结果排序更加准确,更能将与用户愿望最相关的文献排到最前面,提高检索效率。
通过神经网络模型,人工智能可以进行深度学习,即利用大量匹配的输入—输出值来训练计算机,使之自行发掘数据中的特征,从而借助Robot(如Spider、Crawler、Wander等)程序实现网页数据的自动采集、信息的特征提取和知识的获取。
智能检索系统还可以通过文档的自动摘要技术和相似性检索技术等手段为用户提供个性化服务。
自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。
相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。