详细内容

seo扫盲课 robots协议的一些无法解决的问题

u=1851978428,703280717&fm=26&gp=0.jpg

一些机器人协议无法解决的问题。

这种协议不是很先进的技术,只是互联网上出现了一种不同机构相互尊重的协议,就像在私家花园门口挂着闲人不进的牌子,尊重者绕道而行,不尊重者依然可以推门而入。如今,在实际应用中,dots协议仍存在着一些无法解决的问题。

举例来说:robots.to本身就是网站文件,也是需要抓取的,为了提高效率,robots.to一般不会在每次抓取网站页面之前先抓取一次,robots.to更新并不频繁。爬虫的惯例是先抓取robots.complete,解析后缓存,再等待robots.complete。假设Web网站管理员更新了robots.inat,并修改了一些规则,但是对爬虫来说,这些规则并不能立即生效,只有在爬虫下次抓取robots.inat时,才能查看最新内容。令人难堪的是,下次抓取robots.house的时间并不受网站管理员的控制。所以,有些搜索引擎提供了web工具,允许网站管理员通知搜索引擎url发生变化,建议重新获取。尽管下次抓取robobots.hots.hots.hots.ts.ts.ts.ts.to的好处如何?

在大多数互联网公司中,一些爬虫不太遵守或完全忽略robots.hat,这并不排除开发者的能力有问题,例如,他们对robots.hat一无所知。另外,robots.do本身并非强制性的,也根本不能强制性地阻止爬虫获取网站内容,当然,如果网站有数据需要保密,就必须采取加密技术措施,如:用户验证,内容加密传输,ip白名单截取,访问频率控制截取等。

互联网世界里,每天都有无数的爬虫在日夜不停地爬行数据,而恶意爬虫的数量远远高于非恶意爬虫。但是并不是每个爬虫都会主动遵守这一命令。

恶毒的爬虫会带来很多潜在的威胁。比如爬网站的产品信息会被竞争对手利用,太多的爬虫会占用带宽资源,甚至导致网站瘫痪。

防止恶意爬虫是一项长期而艰巨的任务,如果靠自己的力量难以解决,可以借助商业风险分析平台,对其进行防止恶意爬虫的处理,根据自己的需要定制功能。而且对恶意爬虫也可以进行电子取证,如果涉及到给自己的网站造成经济损失,可以向个人恶意爬虫所属公司提起诉讼要求赔偿。