谷歌工程师来告诉你搜索引擎是如何工作的

谷歌搜索引擎

搜索引擎大家都不陌生,百度谷歌是我们最常用的两个搜索引擎,不过现在谷歌已经被墙了。搜索引擎大家肯定都是会用的,比如说现在我想知道猎豹的奔跑速度,只需在搜索框中输入“猎豹的奔跑速度”后点击搜索,这时候我想要的答案所在网页就呈现在我眼前了。搜索引擎大家都会用,可大家知道搜索引擎是如何工作的吗?当我点击搜索按钮后搜索引擎的内部到底发生了哪些事情,我们来听听谷歌质量小组的工程师马特.卡茨是怎么讲解的:

谷歌工程师马特卡茨
google工程师马特.卡茨

“我今天讲的是网页搜索的工作原理,首先,我们需要了解的是当您使用Google进行搜索时,实际上您不是在搜索网页,而是在搜索Google的网页索引,至少是在搜索尽可能多的、可找到的索引。我们用一些名为“蜘蛛”的软件程序搜索,“蜘蛛”程序先是抓取少量的网页,然后跟踪这些网页上的链接,接着抓取这些链接指向的网页,再跟踪这些网页上的所有链接,并抓取它们链接到的网页,以此类推。直到我们将大部分网页编入索引,这是存储在数千台电脑中的数十亿网页!”

百度蛛蛛抓取页面
蜘蛛拼命的抓取页面

“现在,假设我想知道猎豹的奔跑速度,我在搜索框内输入“猎豹的奔跑速度”,按回车键或是点击搜索按钮后,我们在软件就会在这些索引中搜索查找所有包含这些搜索字词的网页,在这种情况下系统会显示成数万条可能的结果。“

成千上万的页面组成庞大的数据库
成千上万的页面组成庞大的数据库

“Google如何确定我的搜索意图呢?答案是通过提问来确定问题数量超过200个。例如,您的关键字在此网页上出现了多少次?这些关键字显示在标题中、网址中还是直接相邻?此网页是否包含这些关键字的同义词?此网页来自于优质网站还是劣质网站甚至垃圾网站?此网页的PageRank是什么?”

“PageRank公式是由我们的创始人拉里.佩奇和塞吉.布林发明的。该公式会通过查看指向网页的外部链接数量及这些链接的重要性来评价网页的重要性。”

什么是PR值
每个页面都有一个PR值,也就是页面等级

“最后,我们会结合以上所有因素为每个网页打出总的评分,并在您提交搜索请求半秒钟后返回搜索结果。Google郑重承诺,我们会以严肃认真的态度为您提供有用且公正的搜索结果,绝不会为换取任何报酬而将网站加入索引,更频繁更新网站或提高网站排名。”

“来看看我的搜索结果吧,每条结果都包含一个标题、一个网址以及一段有助于确定些网页是否是我所查找内容的文字,还有一些类似网页的链接,该网页在Google上最近保存的版本,以及我下次可能会尝试的相关搜索。有时我们会在网页右侧和顶部看到广告,我们同样会认真处理我们的广告业务。”

搜索引擎google的搜索结果界面
google搜索结果

“我们不仅会尽力为广告客户提供最有意向的受众群众,还会努力只向您展示您真正想看到的广告,我们会很谨慎地区分广告和常规搜索结果。如果我们找不到我们认为有助于您找到所查找信息的广告就不会向您展示任何广告。”

这里是以谷歌搜索来展示和讲解的,然而在我们实际使用当中更多的是百度,其实不管是百度还是搜狗等其它搜索引擎,跟谷歌的搜索原理是一样的,由于现在谷歌被墙了,我们如果不会翻墙的话只能用百度或是搜狗等其它搜索引擎了。

浏览次数 9,373