seo扫盲课 robots协议的一些无法解决的问题

u=1851978428,703280717&fm=26&gp=0.jpg

一些机器人协议无法解决的问题。

这种协议不是很先进的技术，只是互联网上出现了一种不同机构相互尊重的协议，就像在私家花园门口挂着闲人不进的牌子，尊重者绕道而行，不尊重者依然可以推门而入。如今，在实际应用中，dots协议仍存在着一些无法解决的问题。

举例来说：robots.to本身就是网站文件，也是需要抓取的，为了提高效率，robots.to一般不会在每次抓取网站页面之前先抓取一次，robots.to更新并不频繁。爬虫的惯例是先抓取robots.complete，解析后缓存，再等待robots.complete。假设Web网站管理员更新了robots.inat，并修改了一些规则，但是对爬虫来说，这些规则并不能立即生效，只有在爬虫下次抓取robots.inat时，才能查看最新内容。令人难堪的是，下次抓取robots.house的时间并不受网站管理员的控制。所以，有些搜索引擎提供了web工具，允许网站管理员通知搜索引擎url发生变化，建议重新获取。尽管下次抓取robobots.hots.hots.hots.ts.ts.ts.ts.to的好处如何？

在大多数互联网公司中，一些爬虫不太遵守或完全忽略robots.hat，这并不排除开发者的能力有问题，例如，他们对robots.hat一无所知。另外，robots.do本身并非强制性的，也根本不能强制性地阻止爬虫获取网站内容，当然，如果网站有数据需要保密，就必须采取加密技术措施，如：用户验证，内容加密传输，ip白名单截取，访问频率控制截取等。

互联网世界里，每天都有无数的爬虫在日夜不停地爬行数据，而恶意爬虫的数量远远高于非恶意爬虫。但是并不是每个爬虫都会主动遵守这一命令。

恶毒的爬虫会带来很多潜在的威胁。比如爬网站的产品信息会被竞争对手利用，太多的爬虫会占用带宽资源，甚至导致网站瘫痪。

防止恶意爬虫是一项长期而艰巨的任务，如果靠自己的力量难以解决，可以借助商业风险分析平台，对其进行防止恶意爬虫的处理，根据自己的需要定制功能。而且对恶意爬虫也可以进行电子取证，如果涉及到给自己的网站造成经济损失，可以向个人恶意爬虫所属公司提起诉讼要求赔偿。

上一篇seo扫盲课，重新审视Robots协议的适用范围下一篇SEO扫盲课，robots协议你知多少？