搜索引擎收录原理

2020-06-18

　　Internet上存在的网页数量绝对是个天文数字，每天新增的网页也不计其数，搜索引擎需要首先找到要索引收录的对象。今天上海科技的小编跟大家一起讲讲搜索引擎收录原理。

from clipboard

　　具体到Google而言，虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议--至于是否叫这么两个名字更是众说纷纭，当然，名字本身并不重要--至少到目前为止。

　　主流的看法是，在Google的robots中，的确存在着相当部分专门为真正的索引收录页准备"素材"的robots--在这里我们姑且仍称之为FreshBot吧。

　　它们的任务便是每天不停地扫描Internet，以发现并维护一个庞大的url列表供DeepBot使用，换言之，当其访问、读取其一个网页时，目的并不在于索引这个网页，而是找出这个网页中的所有链接。

　　当然，这样似乎在效率上存在矛盾，有点不太可信。不过，我们可以简单地通过以下方式判断:FreshBot在扫描网页时不具备"排它性"。

　　也即是说，位于Google不同的数据中心的多个robots可能在某个很短的时间周期，比如说一天甚至一小时，访问同一个页面，而DeepBot在索引、缓存页面时则不会出现类似的情况。

　　即Google会限制由某个数据中心的robots来完成这项工作的，而不会出现两个数据中心同时索引网页同一个版本的情况，如果这种说法没有破绽的话，则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。

　　因此，有时候发现GoogleBot频繁访问网站也不要高兴得太早，也许其根本不是在索引网页而只是在扫描url。

　　更多网站建设、网页设计等相关内容欢迎您咨询上海分形科技！

400-7808-893 我现在就想找顾问聊聊

上一篇文章：商业地产——上海分形科技签约利星行下一篇文章：网页设计之设计误区

搜索引擎收录原理

更多网站案例

更多解决方案