详细内容

了解百度蜘蛛的抓取规律,让网站吸引蜘蛛常来

image.png


搜索引擎会捕捉你的站点,把你的内容放到索引中。网站上抓取的时间是很重要的。假如你的站点有1,000个页面或者更少,那你就不用考虑这个问题了。在这篇文章中,如果你打算开发你的网站,我们将介绍爬行效率和你可以采取的措施。所有的搜索引擎都是用同样的方法来抓。

一、爬虫怎么抓你的网站?

在网上,百度可以找到一个链接,指向你的网站。

这时,URL是虚拟堆的起点。接下来的过程非常简单:百度蜘蛛会从这一堆中得到一页;它抓取页面,对所有内容进行索引以便在百度中使用;然后,它将该页面上的所有链接添加到堆中。抓取过程中,百度蜘蛛可能遇到重定向。其在堆中被重定向到的URL。

你的主要目标是确保百度蜘蛛能够访问该网站上的所有网页。另一个目标是确保快速获取新内容并更新内容。一个好的网站架构会帮助你达到这个目标。不管怎样,你还是能很好地维护你的网站。

二、爬深。

谈到爬深,一个重要概念是爬行深度。假如你有1个链接,从你网站的1个网站到1个网页。这个网页链接到另一个,另一个,等等.百度蜘蛛还会继续爬一会儿。但是有时候它会决定不再需要爬升了。如果是这样,那要看第一页链接的重要性。

看起来很有理论意义,让我们来看一个实例。假如你有10,000篇文章,所有的文章都属于相同的类别,每页显示10篇文章。这两页只链接到下一页和上一页。在这10,000篇文章中,百度需要抓住1,000页深度来获得第一个。这并不适用于大多数网站。

因此,关键在于:使用类别/标签和其他分类方法来进行更精细的细分。别过分使用它们。通常情况下,标签只在连接超过3件东西的时候有用。另外,请确保优化了这些分类文件。

更深一页的链接包含数字,这样百度蜘蛛就能更快到达目的地。假定您在第一页上第一页到第10页的链接,然后继续。上例中,最深层的页面只有100次点击离开主页。

让你的网站快一点。你的网站速度越慢,抓取的时间就越长。

XML网站的地图与抓取效率。

站点应该有一个或多个XML站点地图。那些XML站点地图告诉百度你的网站上有哪些网址。良好的XMLSiteMaps还可以指出最后一次更新特定URL的时间。与其他搜索引擎相比,大多数搜索引擎将会更频繁地获取网站地图中的URL。

Sitemap为蜘蛛的爬行提供了很多便利。在每一个网站地图上,百度会显示错误和警告。通过为不同类型的URL创建不同的XML站点地图,您可以做到这一点。这就是说,你可以看到你的网站上哪些类型的网址是有问题的。

四、爬行效率低的问题。

1.许多404和其他错误。

百度在抓取你的网站的时候就会出现错误。一般只从堆中选择下一个页面。假如你的网站在抓取的时候有很多错误,百度蜘蛛就会减速。这么做是因为它害怕爬行过快而引起错误。为了避免百度蜘蛛的减速,你需要修复尽可能多的错误。

就像360和搜狗一样,百度将在它的网站站长工具上向你报告所有这些错误。以前,我们在百度的搜索控制台和360网站管理工具中引入了错误。

你将不再是我们看到的在百度搜索控制台中拥有3,000个URL和20,000个错误的客户端。请勿将站点设置为站点。每月至少定期修复错误。

2.301过度重定向。

近期我在一个刚刚完成了域迁移的网站上咨询。这个网站很大,所以我用我们的一个工具来运行整个网站,看我们应该怎么做。显然我们遇到了大问题。这个网站上的大量URL总是链接到没有斜杠的后面。若使用的URL没有尾部斜杠,则重定向301。你会被重定向到一个带有斜杠的版本。即使你网站上的一两个网址有问题也不重要。事实上,这通常是主页问题。假如你的网站上有250,000个网址有问题,那么这个问题就更加严重了。与与之相反,百度蜘蛛不需要获取250,000个网址,而是获取500,000个网址。它的效率并不高。

正因为如此,当你改变网址时,你总是应该尝试更新链接。否则,过了一段时间,你就会得到越来越多的301重定向。这样可以降低你的抓取速度和用户速度。多数系统需要一秒钟的服务器重定向。这样将使页面载入时间增加一秒。

3.蜘蛛陷阱。

假如你的网站在百度眼中更有权威,那么有趣的事情就会发生。甚至明显的链接是没有意义的,百度也会抓住它。