随着Internet的快速发展和计算机应用的日益普及,人们已经进入了网络信息时代,网络信息资源极为丰富,WWW(World Wide Web)的规模迅速扩大,为广大信息用户提供了一个快捷、方便的信息共享资源平台。借助于其独有的超文本界面和多媒体等特点,WWW已经覆盖了世界上几乎所有的信息源,成为了居于统治地位的信息检索手段,人们越来越多地依赖网络信息检索来获取自己所需要的信息。
检索WWW信息资源的检索工具主要是搜索引擎。所谓搜索引擎(Web Saerch Engin)是实现网络信息检索的一项关键技术,其主要的作用是实现“网络导航”,帮助信息使用者方便、快捷地从网络上纷繁复杂的信息中筛选出满足需要的结果信息。按照信息检索的层面划分,搜索引擎可以划分为检索型搜索引擎、目录型搜索引擎、元搜索引擎和信息检索代理Agent等类别。
1)检索型搜索引擎
检索型搜索引擎就是为用户提供直接输入关键词查找信息搜索引擎。其搜索方便、直接,可以使用布尔逻辑查询、短语查询、邻近查询、模糊查询、自然语言查询等检索方式。Google、Infoseek等就是这类信息检索工具的典型代表,它们拥有自己的收集、组织信息资源的机制,通过对网页内容和特征的分析,建立检索信息的索引数据库,为用户提供信息检索、查询服务。
2)目录型搜索引擎
除了基于网页分析建立索引的网页搜索引擎外,目录搜索引擎是以人工方式或半自动方式搜集信息,由编辑人员根据信息资源的内容人工形成信息摘要,并将信息置于事先确定的分类框架中。这种分类框架是按照一定的主题分类形成的目录体系,其所对应的信息也由大到小、由粗到细,整个搜索引擎形成了一个层次型的组织体系。用户可以逐层浏览,选择不同的主题对信息进行筛选、过滤,所选择的主题类别越小,信息的相关性就越高,越是能够获取满足用户要求的信息。比如,中文搜索引擎——新浪(Sina)的分类目录就多达15个大类、一万多个子目录。
目录型搜索引擎的性能取决于对网页信息的人工归类、自动归类算法的精度以及归类结果的更新速度。目录型搜索引擎的代表有Looksmart、Open Dirctroy等。目前,大多数搜索引擎都同时提供关键词和目录浏览两种检索方式,即混合型搜索。如Google就借用Open Directory目录提供分类查询。
3)元搜索引擎
单个的搜索引擎的覆盖范围往往有限,为了获取到能够满足需要的信息,用户常常需要使用多个搜索引擎,但是不同的搜索引擎其查询语法、用户界面等往往各不相同,需要用户学习和适应,这给需要通过多种搜索引擎获取更多、更全信息的用户带来了不便。针对这一问题,元搜索引擎应运而生。(www.daowen.com)
元搜索引擎(Meta-search Engine)是一种调用其他独立搜索引擎的引擎系统,也称“搜索引擎之母”(The mother of searching engines)。在这里,“元”(Meta)为“总的”“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用的机制。相对元搜索引擎,可被其利用的独立搜索引擎称为“源搜索引擎”(source searching Engine),或“搜索资源”(searching resources);整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。
一个真正的元搜索引擎由3部分组成,即检索请求提交机制、检索接口代理机制、检索结果显示机制。检索“请求提交”机制负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索的时间限制、结果的数量限制等。“接口代理”机制则负责将用户的检索请求“翻译”成能够满足不同搜索引擎“本地化”要求的格式。“结果显示”机制负责对从相关源搜索引擎所获得的检索结果去重、合并、排序,并向用户输出最终的检索结果。元搜索引擎的出现,对于满足连续地使用不同的搜索引擎、重复相同的检索的需求提供了极大的便利。使用元搜索引擎能够同时实现对多个搜索引擎进行信息检索,获得分级编排的检索结果,提高了信息检索的召回率和精度。
世界上最早的元搜索是metacrawler,它是infospaceinc.的一部分,初始网上运行时间为1995年,是由华盛顿大学的学生Erik和教授Oren Etzin共同开发研制的。它是万维网搜索引擎metacrawler的姐妹引擎,是一个并行式的元搜索引擎。具有同时调用Google、Yahoo、Ask JeevesAbout、LookSmart、TeomaOverture、FindWhat等搜索引擎的功能,然后按相关度给出精确、详细的结果。
4)信息检索代理Agent
随着智能Agent技术的发展,智能Agent与信息检索相结合的技术也逐步成熟,信息检索代理Agent是一种主动信息检索技术。它能够根据网络信息用户事先定义的信息检索要求、用户日常的检索行为与信息浏览行为,主动学习并掌握用户的习惯和兴趣、推断用户可能的潜在需求,并利用已有的信息检索服务,主动从网络中检索相关的信息资源,检视信息资源的变化情况,并将有关的结果信息通过电子邮件等方式推送给用户。
智能Agent信息检索技术具有自治性(Agent运行时不直接由人或其他东西控制,它对自己的行为和状态具有自主控制能力)、社会能力(多个Agent个体之间能够自主进行信息交换与行为协同)、反应能力(Agent具有对环境的感知和影响能力)和自发行为(Agent的行为是自主的)等特点,其还具有一般人类所拥有的知识、意图和承诺等心智状态,即智能Agent具有人类的社会智能。这使得智能Agent系统在面临诸如基于主题和用户个性化信息检索时,具有方便灵活和适应力强的特征。
比如美国麻省理工学院(MIT)所设计的Amalthaca系统就是一个采用智能Agent技术实现的基于用户个性化需求的元信息采集器,该系统通过信息过滤(Information Filtering)Agent和信息发现(Information Discovery)Agent来实现信息检索,前者的任务是挖掘用户的个性化信息,后者则根据用户的需求到Web上检索信息。
MIT的另一个系统Letizia则是利用智能Agent来辅助用户浏览Web页面的工具。当用户通过浏览器浏览页面时,该系统可以跟踪用户的浏览行为,采用启发式算法来估计用户的信息收集兴趣,并根据用户所在的位置,从网络中收集用户感兴趣的页面推荐给用户。其采用宽度优先的原则,从用户最近浏览的兴趣页面向周围实施扩展检索,将搜索到的相关页面向用户主动推送。用户可以遵从这些推荐,也可以按自己的方式浏览,Agent则不停地根据用户检索行为的新的变化调整检索策略,获取并推荐检索结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。