理论教育 搜索引擎技术发展及未来趋势

搜索引擎技术发展及未来趋势

时间:2023-11-28 理论教育 版权反馈
【摘要】:邱诚摘要 文章对网络搜索引擎技术进行了较为详细的分析说明,并对其未来的技术发展趋势作了简要概括。关键词 搜索引擎 计算机技术 计算机网络 Robot随着时代的进步和技术的发展,人们随时都在面对浩如烟海的大量信息,特别是Internet及相关技术的发展,使网络上的信息资源出现了级数膨胀。本文拟对其现状和未来技术发展作一浅略分析。

搜索引擎技术发展及未来趋势

邱诚(浙江图书馆 浙江杭州 310007

摘要 文章对网络索引擎技术进行了较为详细的分析说明,并对其未来的技术发展趋势作了简要概括。

关键词 搜索引擎 计算机技术 计算机网络 Robot

随着时代的进步和技术的发展,人们随时都在面对浩如烟海的大量信息,特别是Internet及相关技术的发展,使网络上的信息资源出现了级数膨胀。为了便于在浩瀚的信息资源中发现和定位特定的信息资源,先后出现了众多的网络信息发现工具,如ArchieGopherWAIS等。目前应用最为广泛的是万维网搜索引擎(Web Search Engines),它已经成为人们在利用万维网时不可或缺的必备工具。本文拟对其现状和未来技术发展作一浅略分析。

1.万维网搜索引擎原理与技术

万维网搜索引擎一般使用两种技术来实现信息检索:一是使用网站分类技术,即对网站进行树状的归类,每一个网站属于至少一个类别,并对每个站点进行简略的描述,雅虎即是如此;二是使用全文检索技术对大量文档(网页)建立由字(词)到文档的倒排索引,在系统接收到用户使用关键词来对文档(网页)进行查询时,根据索引向用户返回含该关键词的网页。不管使用哪一种技术,其原理和主要技术都涉及以下几个方面:

1.1Robot原理

Robot(网上机器人)是一种软件,它在网上进行漫游并搜集它所能得到的信息,也被称为“spider”或“wanderer”。Robot沿着WWW文件间的链接在网上漫游,记录URL、文件的简明概要、关键词或索引并形成一个巨大的本地数据库,你可以通过WWW浏览器(如NetscapeIE)访问与该Robot相匹配的检索服务器对其结果进行查询。由于每个Robot完成的功能不同,它们的本地索引结果也是不同的,到现在为止还没有哪个Robot可以说是完美无缺的,用户在使用时要根据自己的具体需求来选择不同的搜索引擎。现在比较成熟的RobotInfo SeekUltra SeekAlta VistaScooterExciteArchi Text等,并且多数提供免费下载。

Robot的基本运行方式如图所示:

1.2关键技术

在从远程获得数据时,由于每个Robot都是与一定的索引和检索技术相联系的,所以它必须与其他模块相配合工作,因而在实现时要考虑到众多的相关技术。一般来说,一个搜索引擎在实现索引与检索功能时要涉及以下主要技术:

1HTTPHyper Text Transfer Protocol)协议。它是WWW上数据传输的标准协议。通过它,我们可以跟WWW服务器进行信息交换。

2HTMLHyper Text Markup Language)语言。它是WWW服务器所发回各种数据的主要描述语言。因为搜索引擎的主要搜索目标是文本,所以必须对HTML文件进行解析,提取相应的数据。

3)分词技术。为了在网页中提取关键词或知识,必须分隔出单个的词和句子。而现有的各种WWW查询服务器多数都基于英文:它们或是按单词在文章中出现的位置和次数打分(如WAIS),或是通过对英文文章或句子的语法和语义分析来提取出该文章的主要意思(知识的提取)。这些方法对英文比较适用,而对于汉语等无明显词间间隔的语言来说,就必须先对原文进行分词。汉语分词的方法很多,如按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法、联想一回溯法、全自动词典切词等。近年来,又出现了基于神经元网络和专家系统的分词方法与基于统计和频度分析的分词方法,各有其适用的范围。

4)数据的存储。根据对数据的不同分析结果和要求,及针对提取的索引和查询目的,可以选用专用数据库或通用数据库进行存储。一般来说,对它的要求主要是数据查询和组织的效率

5)公共网关接口CGICommon Gateway Interface)。通过它,我们可以执行WWW服务器上的程序:把查询要求传递给HTTP服务器;HTTP服务器根据用户请求执行CGI程序;CGI程序根据查询要求对数据库进行操作,并把查询结果以HTML的形式传递回HTTP用户。

1.3搜索引擎实现策略

为了提高在索引和检索服务器中的检索速度,搜索引擎需要考虑到以下几个方面的实现策略:

1)数据获取的策略:采用多进程并行处理;各获取点之间的相互协调;数据获取模块与数据分析模块间的协调等。

2)数据提取的策略:是全文关键词提取,还是关键内容提取。根据不同的查询目标会有不同的提取目标和提取范围,这将最终影响数据提取的速度和效果。

3数据检索的策略:它是由应用系统的服务者提出并由整个应用系统的目的和需求所决定的。它包含关键词的匹配方式:如全匹配、模糊匹配、正则匹配;以及多关键词的处理方式等。数据检索方式决定了数据索引的存储方式和检索算法,数据检索的软件实现技术将在很大程度上决定该查询服务器的最大查找速度,在处理大量数据时尤为明显。实际上,影响检索速度的关键技术是如何实现关键词检索的算法,并提高算法的效率。

2.搜索引擎未来技术发展趋势

2.1 Yahoo!综合门户搜索引擎模式(www.daowen.com)

雅虎(Yahoo!)目录可谓是互联网上的一部在线指南。雅虎的编辑对网站进行访问并作出评判后,把这些资源整理组织起来,按照不同的主题将它们归入雅虎类目和子类目中。在雅虎目录中列出的所有网站,都可以归入14个“最高级”雅虎类目之中的一个。它在根据用户所提供的关键词进行搜索时,其搜索结果的排列顺序如下:先是相关类目、相关网站,然后是相关网页(由搜索引擎“Google”提供),最后是相关新闻。长期以来,Yahoo!的这种模式成为人们追随的流行时尚。Yahoo!类搜索引擎的最大特点是无休止地横向扩张,服务内容从目录搜索到综合信息门户,服务范围从一个地域到有着不同语言文化背景的几十个地域,将人工分类的网站目录数据库与机器人自动生成的关键词数据库相互融合,试图涵盖所有的网络资源。但是,随着网络的纵深拓展,人们对信息的需求更为广泛和深入,除了需要大众化信息和免费服务,更想有个性化的服务。从近期Yahoo!的改版,我们不难发现一种趋势,即开始逐步向客户需求驱动下的定制服务发展。新的Yahoo!将所有相关类目集中显示在一个“InsideYahoo”区域内,在主显示区域内又分成“精选类目”、“最常用网站”和“完全网站列表”三部分,减轻了用户层层寻找信息的负担,有效地帮助用户定位于一些重要的网站。这种搜索引擎的维护和再建设需要大量的人力和物力的投入,是一个非常耗时耗力的产品。不过在一定时期内,Yahoo!AOLLycos这网络门户的“三剑客”仍将风光依旧。

2.2 Google基于Robot原理的搜索引擎模式

Google一词来源于“googol”,表示一个非常巨大的数字概念,隐喻要穷尽所有Web资源的壮志豪情。Google是基于Robot技术的一种纯净的搜索引擎。在此基础上,它又提出了“链接评价体系”,使它能更有效、准确地检索到用户所需要的信息,且它的网页排名也更具客观性Google独创的“链接评价体系”是基于这样一种认识:当从网页A链接到网页B时,Google就认为“网页A投了网页B—票”。于是,根据网页的得票数评定其重要性。然而,除考虑网页得票数(即链接)的纯数字之外,它还要分析为其投票的网页。“重要”网页所投之票自然分量较重,有助于增强其他网页的“重要性”。重要的、高质量的网页可获得较高的网页级别,从而在搜索结果中可获较高的排位。这样,Google的重要性综合指标为网页级别,而不是根据某一个具体的查询。当然,这代表了该网页本身的特性,是由Google根据网络数据、采用评定链接结构的综合运算法则进行分析的结果。事实证明,这一技术是非常有效的,尤其是网络资源的膨胀必然产生更多的链接,从而为Google评价文件重要性提供了更多的证据。有业内人士评论其“集中了所有Web的智慧,从而使人们找回了失去已久的对搜索引擎的忠诚”。目前,这一技术已被广泛应用于Alta vistaExciteFastNorthern Light等著名搜索引擎中。除此之外,Google还提供了许多人性化的设计:“手气不错”,类似Windows的快捷方式,对于一些常用信息资源(如公司名称),可以在第一时段内将最确切的信息展现在用户面前;搜索结果中的Page Rank指数,以数字的形式直观地显示出网页的重要性,而且可以用点击查看其具体被引用的情况,保证了充分的透明度;可以产生包括检索词的自动摘要等。Google以强大的技术为后盾,不断扩大服务内容,最近新推出的项目有:引进Open Dirctory目录数据库,开发了具有Google特性的目录搜索服务功能;可自动识别接入设备并实现协议转换的WAP搜索服务等。

2.3 Mamma元搜索引擎模式

人们在探讨哪个搜索引擎更好的过程中,发现由于搜索机制、范围和算法的不同,导致一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查询相关率不足45%。元搜索引擎的出现很好地解决了这一问题。元搜索引擎(Meta Search Engines)有“搜索引擎之上的搜索引擎”之称,用户在递交一个搜索请求后,将由其代替用户去调用多个预先选定的独立的搜索引擎分别进行搜索,并负责将各个查询结果集中处理后,以统一的格式呈现在用户面前,提供相对全面可靠的搜索结果,而且即使结果不能完全满足用户需求,仍可作为相对可靠的参考源进行扩展搜索,因此成为备受青睐的检索入口。

一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等。当然,并不是所有的元搜索引擎都具备这3项功能,它们的机制和功能还有待进一步完善。

Mamma是一个人们公认的快捷元搜索引擎。每个月有超过7900万的用户对它进行访问。它利用自己的专利技术使用一系列搜索引擎,根据用户的搜索请求对具有一定规范格式的数据源进行探测搜索,然后创建一个虚拟数据库,并使用统一的格式组织这些数据源,最后提供给用户的信息是相关的一组搜索结果。搜索完成后,用户可以将搜索结果通过e-mail形式保存起来。

2.4 Oingo等基于语义理解的搜索引擎模式

根据技术人性化发展的要求,有更多的人开始研究通过发展语义理解搜索技术来提高传统关键词搜索的效率。传统的搜索技术关键词的检索只能“形似”不能“意会”,而“AND”、“OR”等逻辑算术符的使用在对于信息需求的表达上经常会显得无能为力,且加剧了用户在信息量上的沉重负担。基于语义理解的搜索引擎,是通过将语言学的研究成果和搜索引擎技术的结合,实现了搜索引擎对搜索词在语义层次上的理解力,为用户提供最确切的搜索服务。与传统的目录查询、关键词查询模式相比,基于语义理解查询的优势体现在:使网络交流更加人性化,并使信息查询变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持基于语义理解的查询,但是要建立真正的基于语义理解的智能查询系统,还存在很多的技术难点,如:如何理解自然语言及所代表的实际含义;如何根据问题找出用户实际想要的答案;如何建立大规模的知识库等。

2.5 Hotlinks驾驭书签的搜索引擎模式这是一种很有创意的搜索引擎,它通过挖掘人们日常使用的书签(或收藏夹)中的潜在价值,形成一个类似Yahoo!的分类搜索体系;同时它采用类似Google的链接评价分析方法,对每一条记录的重要性进行评价并给出相应的分数。Hotlinks就是利用这一思想创建的搜索引擎,它的目标不是最终代替主流搜索引擎,而是成为另一个有力的辅助工具,帮助用户挖掘那些可能被大搜索引擎忽略掉的重要资源。目前,大约10万人已在Hotlinks开设了账号。虽然由于刚刚起步,还存在着各种各样的问题,诸如数据库容量太小、文件自动分类技术不完善、搜索质量有待提高等,但是其精巧灵活的搜索功能受到了越来越多的关注。另一个涉足该模式的搜索引擎是Back Flip

2.6 Kenjin智能搜索代理模式

Kenjin是由主要从事语言模式匹配技术的Autonomy系统有限公司开发的一个以提供主动服务为主的Web搜索软件,虽不够完善,但从中可以体会“智能搜索代理”的一系列崭新理念,是未来智能搜索引擎的雏形。该软件的特点包括:将信息主动推送到用户面前,免去了用户被动搜索的困扰;搜索的是活动窗口而不是某一个关键词的主导概念,因此相关性增强;不同于传统搜索引擎,提供的链接除WWW外,还包括客户端的本地内容、Kenjin社区中的同类用户及相关内容的百科全书、参考资源等。该软件是一个免费软件,目前只支持Windows95/98NT4.0/2000平台。

实际上,目前人们在使用的搜索引擎所包含的自动搜索模块、分词模块、自动生成HTML文件并建立网络连接三大主要模块都尚与精确方便的检索需求有一定的差距。随着相关技术的飞速发展,开发一种新型的结合上述各类搜索引擎模式优势的智能型搜索引擎,让搜索更方便,查准率更高,速度更快,将是各大网站和搜索引擎开发商应该努力达到的目标。到那时,人们面对更加纷繁复杂的网络信息资源时,将不会再产生那种矛盾的信息饥渴。

参考文献

1.张蕊.发展中的搜索引擎模式.http://itsearch.ccidnet.com/info/info.htm

2.张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术.小型微型计算机系统,19986

3.解玉洁,吴梅.搜索引擎的检索性能及应用.山东电子20001

4.郭飞跃.搜索引擎是如何工作的.网络时代,19994

5.J.Udell.SearchAgain.ByteJan,1997

6.http://www.google.com

(原载2002年第2期)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈