说到搜索引擎大家都知道搜索引擎是个效劳器,并且也了解搜索引擎分为两个个体,一个是用来统计数据的搜索引擎效劳器,另一个则是收录页面信息的搜索引擎机器人也就是蜘蛛,这两种缺一不可,本小节主要为读者介绍搜索引擎的原理及工作流程。通过了解搜索引擎的基础知识,可以方便网站更有效地制定相应的SEM方案。
在计算机网络的初始发展阶段,网站相对现在要少很多,信息查询也比较容易。然而伴随着互联网爆炸性地发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为了满足大众信息检索需求的专业搜索网站便自然应运而生了。成立较早的Google搜索引擎网站如图3-1所示。
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full TextSearch Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
图3-1 Google搜索引擎
1.全文搜索引擎(Full Text Search Engine)
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的“检索(Indexer)”程序,俗称“蜘蛛(Spider)”程序或“机器人(Robot)”程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
2.目录搜索引擎(Search Index/Directory)
目录搜索引擎,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,但是需要人工介入、维护量大、信息量少、信息更新不及时。目录索引中最具代表性的有Yahoo和新浪分类目录搜索,如图3-2所示。
图3-2 Yahoo搜索
3.元搜索引擎(Meta Search Engine)(www.daowen.com)
元搜索引擎(Meta Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有元搜索引擎检索结果的去重、合并、输出处理等。元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。使用元搜索引擎同时对几个搜索引擎进行检索,可获得分级编排的检索结果。
原理:我们可将元搜索引擎看成具有双层客户机/服务器结构的系统。用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求,搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同的机制,如图3-3所示。
图3-3 元搜索引擎工作原理
分类:在可以检索的目标搜索引擎、检索提问的处理方式以及如何编译和显示结果方面,元搜索引擎有着很大的差异。有些元引擎一个接一个地搜索目标搜索引擎,另一些则同时进行搜索。有些搜索引擎将检索提问转变成目标搜索引擎的提问语言,而有一些则原封不动地发送给目标引擎。
按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-One式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。
4.其他非主流搜索引擎形式
除前面介绍过的还有以下几种搜索引擎形式,集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模很小。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。