网络信息检索的方法及技巧

更新时间：2026-01-12 理论教育 版权反馈

【摘要】：检索WWW信息资源的检索工具主要是搜索引擎。针对这一问题，元搜索引擎应运而生。一个真正的元搜索引擎由3部分组成，即检索请求提交机制、检索接口代理机制、检索结果显示机制。使用元搜索引擎能够同时实现对多个搜索引擎进行信息检索，获得分级编排的检索结果，提高了信息检索的召回率和精度。这使得智能Agent系统在面临诸如基于主题和用户个性化信息检索时，具有方便灵活和适应力强的特征。

随着Internet的快速发展和计算机应用的日益普及，人们已经进入了网络信息时代，网络信息资源极为丰富，WWW（World Wide Web）的规模迅速扩大，为广大信息用户提供了一个快捷、方便的信息共享资源平台。借助于其独有的超文本界面和多媒体等特点，WWW已经覆盖了世界上几乎所有的信息源，成为了居于统治地位的信息检索手段，人们越来越多地依赖网络信息检索来获取自己所需要的信息。

检索WWW信息资源的检索工具主要是搜索引擎。所谓搜索引擎（Web Saerch Engin）是实现网络信息检索的一项关键技术，其主要的作用是实现“网络导航”，帮助信息使用者方便、快捷地从网络上纷繁复杂的信息中筛选出满足需要的结果信息。按照信息检索的层面划分，搜索引擎可以划分为检索型搜索引擎、目录型搜索引擎、元搜索引擎和信息检索代理Agent等类别。

1）检索型搜索引擎

检索型搜索引擎就是为用户提供直接输入关键词查找信息搜索引擎。其搜索方便、直接，可以使用布尔逻辑查询、短语查询、邻近查询、模糊查询、自然语言查询等检索方式。Google、Infoseek等就是这类信息检索工具的典型代表，它们拥有自己的收集、组织信息资源的机制，通过对网页内容和特征的分析，建立检索信息的索引数据库，为用户提供信息检索、查询服务。

2）目录型搜索引擎

除了基于网页分析建立索引的网页搜索引擎外，目录搜索引擎是以人工方式或半自动方式搜集信息，由编辑人员根据信息资源的内容人工形成信息摘要，并将信息置于事先确定的分类框架中。这种分类框架是按照一定的主题分类形成的目录体系，其所对应的信息也由大到小、由粗到细，整个搜索引擎形成了一个层次型的组织体系。用户可以逐层浏览，选择不同的主题对信息进行筛选、过滤，所选择的主题类别越小，信息的相关性就越高，越是能够获取满足用户要求的信息。比如，中文搜索引擎——新浪（Sina）的分类目录就多达15个大类、一万多个子目录。

目录型搜索引擎的性能取决于对网页信息的人工归类、自动归类算法的精度以及归类结果的更新速度。目录型搜索引擎的代表有Looksmart、Open Dirctroy等。目前，大多数搜索引擎都同时提供关键词和目录浏览两种检索方式，即混合型搜索。如Google就借用Open Directory目录提供分类查询。

3）元搜索引擎

单个的搜索引擎的覆盖范围往往有限，为了获取到能够满足需要的信息，用户常常需要使用多个搜索引擎，但是不同的搜索引擎其查询语法、用户界面等往往各不相同，需要用户学习和适应，这给需要通过多种搜索引擎获取更多、更全信息的用户带来了不便。针对这一问题，元搜索引擎应运而生。(https://www.daowen.com)

元搜索引擎（Meta-search Engine）是一种调用其他独立搜索引擎的引擎系统，也称“搜索引擎之母”（The mother of searching engines）。在这里，“元”（Meta）为“总的”“超越”之意，元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用的机制。相对元搜索引擎，可被其利用的独立搜索引擎称为“源搜索引擎”（source searching Engine），或“搜索资源”（searching resources）；整合、调用、控制和优化利用源搜索引擎的技术，称为“元搜索技术”（Meta-searching technique），元搜索技术是元搜索引擎的核心。

一个真正的元搜索引擎由3部分组成，即检索请求提交机制、检索接口代理机制、检索结果显示机制。检索“请求提交”机制负责实现用户“个性化”的检索设置要求，包括调用哪些搜索引擎、检索的时间限制、结果的数量限制等。“接口代理”机制则负责将用户的检索请求“翻译”成能够满足不同搜索引擎“本地化”要求的格式。“结果显示”机制负责对从相关源搜索引擎所获得的检索结果去重、合并、排序，并向用户输出最终的检索结果。元搜索引擎的出现，对于满足连续地使用不同的搜索引擎、重复相同的检索的需求提供了极大的便利。使用元搜索引擎能够同时实现对多个搜索引擎进行信息检索，获得分级编排的检索结果，提高了信息检索的召回率和精度。

世界上最早的元搜索是metacrawler，它是infospaceinc.的一部分，初始网上运行时间为1995年，是由华盛顿大学的学生Erik和教授Oren Etzin共同开发研制的。它是万维网搜索引擎metacrawler的姐妹引擎，是一个并行式的元搜索引擎。具有同时调用Google、Yahoo、Ask JeevesAbout、LookSmart、TeomaOverture、FindWhat等搜索引擎的功能，然后按相关度给出精确、详细的结果。

4）信息检索代理Agent

随着智能Agent技术的发展，智能Agent与信息检索相结合的技术也逐步成熟，信息检索代理Agent是一种主动信息检索技术。它能够根据网络信息用户事先定义的信息检索要求、用户日常的检索行为与信息浏览行为，主动学习并掌握用户的习惯和兴趣、推断用户可能的潜在需求，并利用已有的信息检索服务，主动从网络中检索相关的信息资源，检视信息资源的变化情况，并将有关的结果信息通过电子邮件等方式推送给用户。

智能Agent信息检索技术具有自治性（Agent运行时不直接由人或其他东西控制，它对自己的行为和状态具有自主控制能力）、社会能力（多个Agent个体之间能够自主进行信息交换与行为协同）、反应能力（Agent具有对环境的感知和影响能力）和自发行为（Agent的行为是自主的）等特点，其还具有一般人类所拥有的知识、意图和承诺等心智状态，即智能Agent具有人类的社会智能。这使得智能Agent系统在面临诸如基于主题和用户个性化信息检索时，具有方便灵活和适应力强的特征。

比如美国麻省理工学院（MIT）所设计的Amalthaca系统就是一个采用智能Agent技术实现的基于用户个性化需求的元信息采集器，该系统通过信息过滤（Information Filtering）Agent和信息发现（Information Discovery）Agent来实现信息检索，前者的任务是挖掘用户的个性化信息，后者则根据用户的需求到Web上检索信息。

MIT的另一个系统Letizia则是利用智能Agent来辅助用户浏览Web页面的工具。当用户通过浏览器浏览页面时，该系统可以跟踪用户的浏览行为，采用启发式算法来估计用户的信息收集兴趣，并根据用户所在的位置，从网络中收集用户感兴趣的页面推荐给用户。其采用宽度优先的原则，从用户最近浏览的兴趣页面向周围实施扩展检索，将搜索到的相关页面向用户主动推送。用户可以遵从这些推荐，也可以按自己的方式浏览，Agent则不停地根据用户检索行为的新的变化调整检索策略，获取并推荐检索结果。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

网络信息检索的方法及技巧

网络图的绘制方法及技巧

网络信息检索技术解析

网络讲故事的技巧和方法

基本方法介绍：信息检索

网络广告推广的优化方法和技巧

有效的网络营销方法——掌握这些技巧

防范网络监听的方法及技术

信息检索效果评价方法探析

相关推荐