首页

舆情服务

品牌官网

精品模板

新闻资讯

新闻资讯

详细内容

SEO扫盲课，robots协议你知多少？

大多数站点拥有robots协议，也被称为爬行协议，或者机器人协议。通常称为robots.txt，存在于文本文件格式中，是一个网站告诉搜索引擎蜘蛛什么页面可以抓取，什么页面可以拒绝抓取。在搜索引擎蜘蛛访问站点时，首先要做的就是读取robots文件，然后按照协议对站点进行访问抓取。若站点没有robots协议，则可以将其视为该站点上的所有内容。包含敏感保密文件。全部推荐使用robots协议作为站点。

一、robots协议文件是什么？

robots协议用于确保网站隐私信息不会被泄露，通过robots协议定义的规则对搜索引擎抓取网站内容作了约定，在这里，会告诉蜘蛛，有些网页是不允许蜘蛛访问的。通常放在网站的根目录中，但说白了，各大搜索引擎都会抓取？每个人都有这样的感觉，也许只是在对页面进行索引时才进行处理，那些页面并不加入索引库，因为毕竟搜索引擎说白了就是数据公司，不会放过每个数据。这也只是一种猜测，我们进行了站点优化，对robots文件进行了优化。

在Robot协议中，可以使用*号代替部分字符加入网站后台，以确保安全性。

Robots协议可以更好的帮助搜索引擎蜘蛛抓取站点的抓取效率。

如果还没有修改好网站的上线日期，可以利用Disallow:/来屏蔽全站。

二、robots协议的书面形式。

1、允许使用所有机器：

用户标记：*

Disallow

另外一个例子。

用户阶段：*

阿尔洛：/

二、只允许特定机器人：

使用者：baiduspider。

阿尔洛：

3、截取所有机器人：

用户标记：*

清单流：/

4.禁止所有机器人进入特定的目录：

用户阶段：*

Disallow:/cgi-bin/

Disallow:/图像/

Disallow:/tmp/

Disallow:/私有/

5.只禁止坏爬虫访问特定目录(以真名代替BadBot)：

用户页面：添加按钮。

显示：/private//

6、所有机器人都不得访问特定文件类型[2]：

用户标记：*

Disallow:/*.fp$。

Disallow:/*.js$

清单：/*.inc$。

说明：/*.css$。

robots协议的使用上的一些误解。

假设网站上所有的文件都同意蜘蛛抓取，那么就没有隐私文件可以隐藏不见了。这样网站就不必再增加robots协议文件了吗？回答肯定是否定的。假如没有robots协议文件，搜索引擎蜘蛛就会把网站的所有页面，包括404页面，404页面抓取一遍，这就会给网站带来太多的负面影响。当蜘蛛访问robots.txt时，它将返回一个404错误。

2,robots协议文件中设置了蜘蛛抓取的所有文件，不会增加站点的收录。一些脚本文件，如CSS文件、IMG文件等与网站内容无关的文件也会被蜘蛛抓取，而不能很好地收录网站。即使内容与主题不相符也会被处罚。这不是一件好事啊。

3、太多的蜘蛛抓取所有文件，也完全是在浪费服务器资源，造成服务器卡顿，反而影响用户正常访问，同时对蜘蛛的访问也有影响，如果抓取速度太慢，就会认为网站打开太慢，不仅影响整个网站的收录，还会受到网站服务器过慢的惩罚。

4、蜘蛛抓不到这四种类型的文件。

不需要搜索引擎蜘蛛抓取的文件主要有：后台管理文件，程序脚本，附件，数据库文件，编码文件，样式表文件，模板文件，导航图片，背景图片等。

robots.txt文件中提供以下设置：

用户标记：*

Disallow:/admin/管理文件的背景。

Disallow:/优先/计划文件。

列表：/attachment/附件。

Disallow:/图像/图像。

显示：/data/数据库文件。

清单：/template/模板文件。

显示：/css/样式表文件。

Disallow:/Lang/Code文件。

Disallow:/脚本/脚本文件。

如果您的站点是动态网页，并且这些动态网页创建静态副本，则便于蜘蛛搜索并获取。然后，您需要在robots.txt文件中设置蜘蛛索引，以避免动态网页被认为没有重复内容。

robots.txt文件中也可以包含直接链接到sitemap文件。是这样的：

网站链接：http://www.gldahsitemap.xml。

当前支持这种搜索方式的公司有Google、Yahoo、AyandMSN。而且中文搜索引擎公司，显然不属于这个范围。其优点在于，站长不需要使用每个搜索引擎的站长工具或类似的站长平台，就可以提交自己的sitemap文件，而搜索引擎的sitemap本身就会抓取robots.sitemap文件，读取其中的sitemap路径，然后再抓取其中链接的网页。

适当地使用robots.community文件也可以避免访问错误。例如，搜索人员无法直接进入购物车页面。由于没有理由将购物车纳入目录，因此您可以在robots.complete文件中设置阻止搜索者直接进入购物车页面。

五、robots协议文件的黑帽设置角色。

不要使用快照编辑功能，并且要防止所有搜索引擎显示您网站的快照，请将该Meta标签置于网页部分：

为了允许其他搜索引擎显示快照，但百度搜索引擎只能显示快照，请使用下面的标签：

六、Robots的常见名称。

GoogleSystem:googlebot。

谷歌搜索：baiduspider。

搜索工具：sogouspider。

360蛛网：360丝网。

yahoo蜘蛛：返回页面。

alexa蜘蛛：ia_archiver

msn蛛网膜下腔。