详细内容

SEO扫盲课,robots协议你知多少?

d16bd119-adb8-eb11-8daf-e4434bdf6706.jpg


大多数站点拥有robots协议,也被称为爬行协议,或者机器人协议。通常称为robots.txt,存在于文本文件格式中,是一个网站告诉搜索引擎蜘蛛什么页面可以抓取,什么页面可以拒绝抓取。在搜索引擎蜘蛛访问站点时,首先要做的就是读取robots文件,然后按照协议对站点进行访问抓取。若站点没有robots协议,则可以将其视为该站点上的所有内容。包含敏感保密文件。全部推荐使用robots协议作为站点。

一、robots协议文件是什么?

robots协议用于确保网站隐私信息不会被泄露,通过robots协议定义的规则对搜索引擎抓取网站内容作了约定,在这里,会告诉蜘蛛,有些网页是不允许蜘蛛访问的。通常放在网站的根目录中,但说白了,各大搜索引擎都会抓取?每个人都有这样的感觉,也许只是在对页面进行索引时才进行处理,那些页面并不加入索引库,因为毕竟搜索引擎说白了就是数据公司,不会放过每个数据。这也只是一种猜测,我们进行了站点优化,对robots文件进行了优化。

在Robot协议中,可以使用*号代替部分字符加入网站后台,以确保安全性。

Robots协议可以更好的帮助搜索引擎蜘蛛抓取站点的抓取效率。

如果还没有修改好网站的上线日期,可以利用Disallow:/来屏蔽全站。

二、robots协议的书面形式。

1、允许使用所有机器:

用户标记:*

Disallow

另外一个例子。

用户阶段:*

阿尔洛:/

二、只允许特定机器人:

使用者:baiduspider。

阿尔洛:

3、截取所有机器人:

用户标记:*

清单流:/

4.禁止所有机器人进入特定的目录:

用户阶段:*

Disallow:/cgi-bin/

Disallow:/图像/

Disallow:/tmp/

Disallow:/私有/

5.只禁止坏爬虫访问特定目录(以真名代替BadBot):

用户页面:添加按钮。

显示:/private//

6、所有机器人都不得访问特定文件类型[2]:

用户标记:*

Disallow:/*.fp$。

Disallow:/*.js$

清单:/*.inc$。

说明:/*.css$。

robots协议的使用上的一些误解。

假设网站上所有的文件都同意蜘蛛抓取,那么就没有隐私文件可以隐藏不见了。这样网站就不必再增加robots协议文件了吗?回答肯定是否定的。假如没有robots协议文件,搜索引擎蜘蛛就会把网站的所有页面,包括404页面,404页面抓取一遍,这就会给网站带来太多的负面影响。当蜘蛛访问robots.txt时,它将返回一个404错误。

2,robots协议文件中设置了蜘蛛抓取的所有文件,不会增加站点的收录。一些脚本文件,如CSS文件、IMG文件等与网站内容无关的文件也会被蜘蛛抓取,而不能很好地收录网站。即使内容与主题不相符也会被处罚。这不是一件好事啊。

3、太多的蜘蛛抓取所有文件,也完全是在浪费服务器资源,造成服务器卡顿,反而影响用户正常访问,同时对蜘蛛的访问也有影响,如果抓取速度太慢,就会认为网站打开太慢,不仅影响整个网站的收录,还会受到网站服务器过慢的惩罚。

4、蜘蛛抓不到这四种类型的文件。

不需要搜索引擎蜘蛛抓取的文件主要有:后台管理文件,程序脚本,附件,数据库文件,编码文件,样式表文件,模板文件,导航图片,背景图片等。

robots.txt文件中提供以下设置:

用户标记:*

Disallow:/admin/管理文件的背景。

Disallow:/优先/计划文件。

列表:/attachment/附件。

Disallow:/图像/图像。

显示:/data/数据库文件。

清单:/template/模板文件。

显示:/css/样式表文件。

Disallow:/Lang/Code文件。

Disallow:/脚本/脚本文件。

如果您的站点是动态网页,并且这些动态网页创建静态副本,则便于蜘蛛搜索并获取。然后,您需要在robots.txt文件中设置蜘蛛索引,以避免动态网页被认为没有重复内容。

robots.txt文件中也可以包含直接链接到sitemap文件。是这样的:

网站链接:http://www.gldahsitemap.xml。

当前支持这种搜索方式的公司有Google、Yahoo、AyandMSN。而且中文搜索引擎公司,显然不属于这个范围。其优点在于,站长不需要使用每个搜索引擎的站长工具或类似的站长平台,就可以提交自己的sitemap文件,而搜索引擎的sitemap本身就会抓取robots.sitemap文件,读取其中的sitemap路径,然后再抓取其中链接的网页。

适当地使用robots.community文件也可以避免访问错误。例如,搜索人员无法直接进入购物车页面。由于没有理由将购物车纳入目录,因此您可以在robots.complete文件中设置阻止搜索者直接进入购物车页面。

五、robots协议文件的黑帽设置角色。

不要使用快照编辑功能,并且要防止所有搜索引擎显示您网站的快照,请将该Meta标签置于网页部分:

为了允许其他搜索引擎显示快照,但百度搜索引擎只能显示快照,请使用下面的标签:

六、Robots的常见名称。

GoogleSystem:googlebot。

谷歌搜索:baiduspider。

搜索工具:sogouspider。

360蛛网:360丝网。

yahoo蜘蛛:返回页面。

alexa蜘蛛:ia_archiver

msn蛛网膜下腔。

阿尔塔维斯塔:斯库特。

lycos_:lycos_spider_(t-rex)

heweb:fast-webcrawler/

inktomiyu:slurp。