|
SEO扫盲课,robots协议你知多少?大多数站点拥有robots协议,也被称为爬行协议,或者机器人协议。通常称为robots.txt,存在于文本文件格式中,是一个网站告诉搜索引擎蜘蛛什么页面可以抓取,什么页面可以拒绝抓取。在搜索引擎蜘蛛访问站点时,首先要做的就是读取robots文件,然后按照协议对站点进行访问抓取。若站点没有robots协议,则可以将其视为该站点上的所有内容。包含敏感保密文件。全部推荐使用robots协议作为站点。 一、robots协议文件是什么? robots协议用于确保网站隐私信息不会被泄露,通过robots协议定义的规则对搜索引擎抓取网站内容作了约定,在这里,会告诉蜘蛛,有些网页是不允许蜘蛛访问的。通常放在网站的根目录中,但说白了,各大搜索引擎都会抓取?每个人都有这样的感觉,也许只是在对页面进行索引时才进行处理,那些页面并不加入索引库,因为毕竟搜索引擎说白了就是数据公司,不会放过每个数据。这也只是一种猜测,我们进行了站点优化,对robots文件进行了优化。 在Robot协议中,可以使用*号代替部分字符加入网站后台,以确保安全性。 Robots协议可以更好的帮助搜索引擎蜘蛛抓取站点的抓取效率。 如果还没有修改好网站的上线日期,可以利用Disallow:/来屏蔽全站。 二、robots协议的书面形式。 1、允许使用所有机器: 用户标记:* Disallow 另外一个例子。 用户阶段:* 阿尔洛:/ 二、只允许特定机器人: 使用者:baiduspider。 阿尔洛: 3、截取所有机器人: 用户标记:* 清单流:/ 4.禁止所有机器人进入特定的目录: 用户阶段:* Disallow:/cgi-bin/ Disallow:/图像/ Disallow:/tmp/ Disallow:/私有/ 5.只禁止坏爬虫访问特定目录(以真名代替BadBot): 用户页面:添加按钮。 显示:/private// 6、所有机器人都不得访问特定文件类型[2]: 用户标记:* Disallow:/*.fp$。 Disallow:/*.js$ 清单:/*.inc$。 说明:/*.css$。 robots协议的使用上的一些误解。 假设网站上所有的文件都同意蜘蛛抓取,那么就没有隐私文件可以隐藏不见了。这样网站就不必再增加robots协议文件了吗?回答肯定是否定的。假如没有robots协议文件,搜索引擎蜘蛛就会把网站的所有页面,包括404页面,404页面抓取一遍,这就会给网站带来太多的负面影响。当蜘蛛访问robots.txt时,它将返回一个404错误。 2,robots协议文件中设置了蜘蛛抓取的所有文件,不会增加站点的收录。一些脚本文件,如CSS文件、IMG文件等与网站内容无关的文件也会被蜘蛛抓取,而不能很好地收录网站。即使内容与主题不相符也会被处罚。这不是一件好事啊。 3、太多的蜘蛛抓取所有文件,也完全是在浪费服务器资源,造成服务器卡顿,反而影响用户正常访问,同时对蜘蛛的访问也有影响,如果抓取速度太慢,就会认为网站打开太慢,不仅影响整个网站的收录,还会受到网站服务器过慢的惩罚。 4、蜘蛛抓不到这四种类型的文件。 不需要搜索引擎蜘蛛抓取的文件主要有:后台管理文件,程序脚本,附件,数据库文件,编码文件,样式表文件,模板文件,导航图片,背景图片等。 robots.txt文件中提供以下设置: 用户标记:* Disallow:/admin/管理文件的背景。 Disallow:/优先/计划文件。 列表:/attachment/附件。 Disallow:/图像/图像。 显示:/data/数据库文件。 清单:/template/模板文件。 显示:/css/样式表文件。 Disallow:/Lang/Code文件。 Disallow:/脚本/脚本文件。 如果您的站点是动态网页,并且这些动态网页创建静态副本,则便于蜘蛛搜索并获取。然后,您需要在robots.txt文件中设置蜘蛛索引,以避免动态网页被认为没有重复内容。 robots.txt文件中也可以包含直接链接到sitemap文件。是这样的: 网站链接:http://www.gldahsitemap.xml。 当前支持这种搜索方式的公司有Google、Yahoo、AyandMSN。而且中文搜索引擎公司,显然不属于这个范围。其优点在于,站长不需要使用每个搜索引擎的站长工具或类似的站长平台,就可以提交自己的sitemap文件,而搜索引擎的sitemap本身就会抓取robots.sitemap文件,读取其中的sitemap路径,然后再抓取其中链接的网页。 适当地使用robots.community文件也可以避免访问错误。例如,搜索人员无法直接进入购物车页面。由于没有理由将购物车纳入目录,因此您可以在robots.complete文件中设置阻止搜索者直接进入购物车页面。 五、robots协议文件的黑帽设置角色。 不要使用快照编辑功能,并且要防止所有搜索引擎显示您网站的快照,请将该Meta标签置于网页部分: 为了允许其他搜索引擎显示快照,但百度搜索引擎只能显示快照,请使用下面的标签: 六、Robots的常见名称。 GoogleSystem:googlebot。 谷歌搜索:baiduspider。 搜索工具:sogouspider。 360蛛网:360丝网。 yahoo蜘蛛:返回页面。 alexa蜘蛛:ia_archiver msn蛛网膜下腔。 阿尔塔维斯塔:斯库特。 lycos_:lycos_spider_(t-rex) heweb:fast-webcrawler/ inktomiyu:slurp。 |