了解百度蜘蛛的抓取规律，让网站吸引蜘蛛常来

搜索引擎会捕捉你的站点，把你的内容放到索引中。网站上抓取的时间是很重要的。假如你的站点有1,000个页面或者更少，那你就不用考虑这个问题了。在这篇文章中，如果你打算开发你的网站，我们将介绍爬行效率和你可以采取的措施。所有的搜索引擎都是用同样的方法来抓。

一、爬虫怎么抓你的网站？

在网上，百度可以找到一个链接，指向你的网站。

这时，URL是虚拟堆的起点。接下来的过程非常简单：百度蜘蛛会从这一堆中得到一页；它抓取页面，对所有内容进行索引以便在百度中使用；然后，它将该页面上的所有链接添加到堆中。抓取过程中，百度蜘蛛可能遇到重定向。其在堆中被重定向到的URL。

你的主要目标是确保百度蜘蛛能够访问该网站上的所有网页。另一个目标是确保快速获取新内容并更新内容。一个好的网站架构会帮助你达到这个目标。不管怎样，你还是能很好地维护你的网站。

二、爬深。

谈到爬深，一个重要概念是爬行深度。假如你有1个链接，从你网站的1个网站到1个网页。这个网页链接到另一个，另一个，等等.百度蜘蛛还会继续爬一会儿。但是有时候它会决定不再需要爬升了。如果是这样，那要看第一页链接的重要性。

看起来很有理论意义，让我们来看一个实例。假如你有10,000篇文章，所有的文章都属于相同的类别，每页显示10篇文章。这两页只链接到下一页和上一页。在这10,000篇文章中，百度需要抓住1,000页深度来获得第一个。这并不适用于大多数网站。

因此，关键在于：使用类别/标签和其他分类方法来进行更精细的细分。别过分使用它们。通常情况下，标签只在连接超过3件东西的时候有用。另外，请确保优化了这些分类文件。

更深一页的链接包含数字，这样百度蜘蛛就能更快到达目的地。假定您在第一页上第一页到第10页的链接，然后继续。上例中，最深层的页面只有100次点击离开主页。

让你的网站快一点。你的网站速度越慢，抓取的时间就越长。

XML网站的地图与抓取效率。

站点应该有一个或多个XML站点地图。那些XML站点地图告诉百度你的网站上有哪些网址。良好的XMLSiteMaps还可以指出最后一次更新特定URL的时间。与其他搜索引擎相比，大多数搜索引擎将会更频繁地获取网站地图中的URL。

Sitemap为蜘蛛的爬行提供了很多便利。在每一个网站地图上，百度会显示错误和警告。通过为不同类型的URL创建不同的XML站点地图，您可以做到这一点。这就是说，你可以看到你的网站上哪些类型的网址是有问题的。

四、爬行效率低的问题。

1.许多404和其他错误。

百度在抓取你的网站的时候就会出现错误。一般只从堆中选择下一个页面。假如你的网站在抓取的时候有很多错误，百度蜘蛛就会减速。这么做是因为它害怕爬行过快而引起错误。为了避免百度蜘蛛的减速，你需要修复尽可能多的错误。

就像360和搜狗一样，百度将在它的网站站长工具上向你报告所有这些错误。以前，我们在百度的搜索控制台和360网站管理工具中引入了错误。

你将不再是我们看到的在百度搜索控制台中拥有3,000个URL和20,000个错误的客户端。请勿将站点设置为站点。每月至少定期修复错误。

2.301过度重定向。

近期我在一个刚刚完成了域迁移的网站上咨询。这个网站很大，所以我用我们的一个工具来运行整个网站，看我们应该怎么做。显然我们遇到了大问题。这个网站上的大量URL总是链接到没有斜杠的后面。若使用的URL没有尾部斜杠，则重定向301。你会被重定向到一个带有斜杠的版本。即使你网站上的一两个网址有问题也不重要。事实上，这通常是主页问题。假如你的网站上有250,000个网址有问题，那么这个问题就更加严重了。与与之相反，百度蜘蛛不需要获取250,000个网址，而是获取500,000个网址。它的效率并不高。

正因为如此，当你改变网址时，你总是应该尝试更新链接。否则，过了一段时间，你就会得到越来越多的301重定向。这样可以降低你的抓取速度和用户速度。多数系统需要一秒钟的服务器重定向。这样将使页面载入时间增加一秒。

3.蜘蛛陷阱。

假如你的网站在百度眼中更有权威，那么有趣的事情就会发生。甚至明显的链接是没有意义的，百度也会抓住它。

上一篇seo是一门技术还是属于网络营销下一篇网站SEO的文章内容优化方向