理论教育 掌握搜索引擎的工作原理

掌握搜索引擎的工作原理

时间:2023-06-08 理论教育 版权反馈
【摘要】:搜索引擎的工作流程对于外界来说神秘而高不可测,其实搜索引擎的工作流程非常简单。当作为一般用户在使用搜索引擎的时候,很难去想象或者了解搜索引擎的工作原理是怎么样的?用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。

掌握搜索引擎的工作原理

索引擎的工作流程对于外界来说神秘而高不可测,其实搜索引擎的工作流程非常简单。当作为一般用户在使用搜索引擎的时候,很难去想象或者了解搜索引擎的工作原理是怎么样的?所以正是因为对搜索引擎的工作流程不是很了解,导致现在很多人都认为搜索引擎返回的结果是动态的结果,也就是当用户输入一个语句进行关键字查询的时候,搜索引擎马上从互联网上抓取筛选结果,然后把我们查询的关键字结果反馈给用户!其实搜索引擎返回的结果是提前就已经抓取,然后经过了一系列算法筛选之后放入数据库,用户查询就立即对索引数据库进行查找,反馈用户准确的关键字查询结果。

1.搜集信息形成快照

网页快照收录是搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储形成快照的过程,他为搜索引擎开展各项工作提供了数据支持,如图3-4所示。

978-7-111-45801-2-Chapter03-9.jpg

图3-4 123宠物百度快照

搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。

2.整理信息分析页面

普通用户看页面,看到的都是文字、图片等一些直观信息,但是搜索引擎看的是网页源代码,而且会根据这些源代码来确定网页的重要信息。(www.daowen.com)

当我们看一个页面的时候,会发现一些粗体、斜体、加色等样式的文字,还有一些比较大的字体,有些文字还被像标题一样被隔开,这些设置不光是让用户在浏览信息的时候要特别注意,还有一点就是它们可能是网页的重点。

在搜索引擎看来,源代码头部或者靠近头部的信息往往是比其他位置的文字重要,大家可以很形象地将一个网页和一张报纸的页面比较着看,还记得以前的一篇关于“H标签”的文章里面就有相关比较。确定重要文字或词语,这是搜索引擎建立网页索引过程的一个步骤。

搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎不用重新翻查它所有保存的信息就能迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来,再快的计算机系统也没有用。

3.接受查询处理关键词

搜索引擎还会根据同义词典和潜在语义进行拓展查询检索项。比如,搜索引擎会将“宠物”和“狗狗”,“藏獒”和“犬”,“人民”和“百姓”当做同一个概念进行处理。另外,搜索引擎在查询的时候,还会根据主题来进行归类,比如当我们查询“SEO”的时候,系统会自动将“网络营销”“搜索引擎优化”“网站优化”之类的都归为一个主题来处理。

当用户在搜索引擎进行查询的时候,如果用户在搜索框输入一个关键词,当索引中有这样一个完全匹配的结果的时候,就会显示出来。对于英文来说,相对就比较简单了些,只要对英文的单复数、时态、词根、组合词等进行分析即可。不过对于中文,则一定要进行分词。然后对关键词进行向量计算,得出哪个网站的哪个关键词的权重比较高,就显示在索引中。

用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈