搜索引擎是在万维网上查找信息的工具,为了实现协助用户在万维网上查找信息的目标,搜索引擎需要完成收集、组织、检索万维网信息并将检索结果反馈给用户这一系列的操作。
一般来说,完成信息搜索引擎的任务,需要两个过程。一是在服务器方,也就是服务提供者对网络信息资源进行搜索分析标引的过程(称作信息标引过程);二是当用户方提出检索需求时,服务器方搜索自己的信息索引库,然后发送给用户的过程(称作提供检索过程)。
用户通过检索表达式页面的填写反映出自己的检索意向,向系统送交请求。系统答复后,用户可以根据具体情况,决定是否访问资源所在地。信息搜索引擎在整个信息检索过程中起到了指南和向导的作用,方便了人们的检索。对应以上两个过程,搜索引擎一般需要以下4个不同的部件来完成:
(1)搜索器。功能是在互联网中漫游、发现和搜集信息。
(2)索引器。功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档的索引表。
(3)检索器。功能是根据用户输入的关键词在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
(4)用户接口。作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
搜索引擎系统由数据抓取子系统、内容索引子系统、链接结构分析子系统和信息查询子系统四个部分组成。(www.daowen.com)
信息搜索模型是信息搜索系统的核心,它为搜索系统信息的有效获取提供了重要的理论支持。目前文本信息搜索的方法有:基于关键字匹配的检索方法,基于主题的搜索引擎,启发式的智能搜索方法等。研究与开发文本信息搜索的技术重点是自动分词技术,自动摘要技术,信息的自动过滤技术,自然语言的理解识别技术。
搜索引擎可分为如下3类:
(1)一般搜索引擎,也是一般网民经常在网络上用到的搜索工具,通常分为以下3类:基于Robot的搜索引擎,分类目录,两者相结合的搜索引擎。
(2)元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作。
(3)专题性搜索引擎,满足针对特定领域、专业或学科最全,其服务对象是专业人员与研究人员。
搜索引擎的其他分类方法还有:按照自动化程度分为人工与自动引擎;按照是否具有智能功能分为智能与非智能引擎;按照搜索内容分为文本搜索引擎、语音搜索引擎、图形搜索引擎、视频搜索引擎等。
搜索引擎的现状是:①各种搜索引擎走向不断融合;②多样化和个性化的服务;③强大的查询功能;④本地化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。