百度搜索引擎的工作原理:抓取,索引和排名

 网站优化    |      2020-06-08
你知道像百度这样的搜索引擎如何发现,抓取和排列数以万亿计的网页,以便提供搜索结果吗?

尽管搜索引擎的整体工作原理较为复杂,但我嘛可以理解一些非技术性的东西,如抓取,索引和排名,以便我嘛更好地理解搜索引擎优化策略背后的方法。

据统计网络上页面结果超过130万亿个。实际上,可能远远超过这个数字,有很多页面因为各种原因被百度排除在抓取,索引和排名过程之外。

为了保持搜索结果尽可能的与用户搜索相关,像百度这样的搜索引擎有一个明确定义的流程,即用于为任何给定的搜索查询确定最佳网页,这个过程随着时间的推移而变化,因为它可以使搜索结果更好。

基本上,我们试图回答这个问题:“百度如何确定以及排序搜索结果?”。简而言之,这个过程包含以下步骤:

1.抓取发现网络上页面并抓取;

2.索引存储所有检索到的页面的信息供日后检索;

3.排名确定每个页面的内容,以及应该如何对相关查询进行排名;

让我们仔细看看更简单的解释…

抓取搜索引擎具有专门的抓取工具(又名蜘蛛),可以“爬行”万维网来发现存在的页面,以帮助确定最佳网页,以便对查询进行评估,爬虫旅行的方式是网站链接。网站链接将整个网站上的页面链接在一起,这样做为抓取工具创建了一条通往存在的万亿互联网页的途径。

每当爬虫查看网页时,他们都会查看页面的“文档对象模型”(或“DOM”),以查看其中的内容。DOM页面呈现HTML和Javascript代码,爬虫可以通过它查找其他页面的链接,这允许搜索引擎发现网页上的新页面,并且找到每个新链接都会加载到该爬虫将在稍后访问的队列中。

如前所述,像百度这样的搜索引擎不会抓取每一个网页,相反,他们从一组可信的网站开始,这些网站是确定其他网站如何衡量的基础,并且通过跟踪他们在他们访问的网页上看到的链接,扩展了他们在网络上的抓取。

相关阅读:百度蜘蛛优化教程

索引索引是将关于网页的信息添加到搜索引擎索引中的行为,索引是一组网页一个数据库包含搜索引擎蜘蛛爬取页面的信息。

索引目录和组织:

为了方便用户快速找到我们,也可以关注我们的微信公众号:唯小宝网络


上一篇:SSH是什么?