seo扫盲课，重新审视Robots协议的适用范围

u=406996966,1709174766&fm=26&gp=0.png

第一，爬虫不仅仅是一种。

爬虫是互联网获取第三方网站信息和数据最常用的技术手段之一，通过编程自动实现目标网站和目标信息的批量获取。最早的爬虫实际上是搜索引擎。它可以在网络上爬取超链接。搜索网站的信息编制成索引，方便其他用户访问，省去了记住网站域名的麻烦。

虽然爬虫技术最早用于搜索引擎，但随着大数据应用的普及，人们对数据的需求越来越高，爬虫已经脱离了搜索场景，开始用于各种数据处理场景。互联网领域有一句流行的话:互联网上50%的流量都是爬虫创造的。虽然没有明确的证据支持，但很多从业者曾经说过，实际比例应该只有很多，可见爬虫的力量。

根据使用场景的不同，爬虫可分为通用网络爬虫(GeneralPurposeWebCrawler)和聚焦网络爬虫(FocusedWebCrawler)，前者是针对非特定网站进行数据和信息获取，爬虫对象从某些种子地址扩展到整个网络的链接，典型的是搜索引擎爬虫；后者是针对特定类别或单个网站进行数据爬取，通常聚焦爬虫也不是锁定目标后一股脑地将目标网站信息全部down下来，而是在目标网站上定向地获取特定内容(这类爬虫行业又称定向爬虫、主题爬虫)，如只爬虫用户评价信息、商品销售信息等。

因此，我们可以看到，聚焦爬虫只负责处理特定用途的数据，这些数据不像搜索爬虫那样方便所有网民访问入口，而是投入到特定的商业用途中，如洗稿、用户画像、数据镜像等。

Robots协议的起源及应用场景。

robots协议最早是由荷兰网络工程师MartinKoster于1994年3月6日提出的，在1994年6月30日举行的爬虫邮件组论坛(TheRobotsMailingList)上，搜索引擎代表和被搜索引擎抓取的站长代笔一起讨论，然后发布了一工作标准，即robots.txt协议。随后，该协议被最早的AltaVista、Infosek、谷歌、百度、360、搜狗等几乎所有搜索引擎遵守。

2012年11月1日，中国互联网协会制定发布了《互联网搜索引擎服务自律公约》约第七条直接规定:遵循国际通行的行业惯例和商业规则，遵守机器人协议(robots协议)。公约的发起单位包括百度、即时搜索、盘古搜索、奇虎360、隆重文学、搜狗、腾讯、网易、新浪、宜搜索、易搜索、中搜索。

Robots协议是一个技术声明文件，是网站设置的，以显示其对爬虫抓取自己内容的态度和限度。全名是网络爬虫排除协议(RobotsExclusionProtocol)。可见，这里的协议对应的英文protocol是计算机通信意义上的协议，而不是法律意义上的agreement。自然，这样的爬虫协议没有法律上的协议效力，是君子协议，供业内人士自觉遵守。

根据业界的共识，robots协议被放置在站点的根目录下，在站点域名中添加/robots.txt即可访问，因此爬虫访问某个站点时，理论上应该首先读取的文件是robots.txt文件，如果该文件不存在，爬虫可以访问站点上没有密码保护的所有页面

通过robots协议的语句，我们可以直观地看到，它的目标都是搜索引擎爬虫，比如淘宝的robots协议明确记载了百度，谷歌，必应和360搜索爬虫的访问权限。

可见，从robots协议的起源、行业惯例、具体语义等方面，可以看出robots协议与搜索引擎类型的通用网络爬虫一一对应，可以说是搜索引擎与网站主体之间的君子协议。

第三，Robots协议的法律属性。

历史上第一个关于爬虫协议的案件诞生于2000年。eBay把一个聚合价格信息的比价网站BE告上了法庭。eBay声称自己无法在爬虫协议中抓取和写入哪些信息，但BE违反了这个协议。但是BE抗辩eBay上的内容属于用户集体贡献，不属于用户。爬虫协议不能作为法律参考。最后，以易趣胜诉告终，以易趣协议为主要参考。

北京市第一中级人民法院在一起不正当竞争案件中指出：整个互联网行业对Robots协议都是认可和遵守的，它应该被认定为行业内的通行规则，应该被认定为搜索引擎行业内公认和应该遵守的商业道德。

很明显，现在司法已经把robots协议纳入查范围，并认为在爬虫访问网站时，robots协议是一个具有法律意义的文件，值得参考。

聚焦爬虫非诚勿扰

爬行协议有行业公约，也有典型的司法判例，因此我们发现，审查robots协议的内容似乎成为爬行第三方数据是否构成侵权的标准流程之一，此时就出现了一个新的问题，即如果爬行不是搜索类的通用网络爬行，而是关注爬行的情况，网站是否应该有针对性地进行robots协议？若无设置，是否按照以前的行业惯例认定，网站默认允许专注于爬虫定向获取自己的内容和数据？

通过对上述爬虫类型和robots协议原理的分析，我们可以发现，对于专注于爬虫的网站运营商来说，同样设置robots协议，表明对其定向获取数据的态度是不必要和合理的。

第一，如果说搜索引擎就像进入景区的游客一样，大多数商家都欢迎游客到自己的店里走走，那么搜索引擎爬虫访问网站(类似景区商家)的好处就是可以让网站获得访问流量(带来客源)。但是聚焦爬虫是完全不同的，它们相当于一个情报调查员，只识别一个网站(商家)而不去其他地方光顾，而且光顾的频率非常频繁，一般游客一天只来一两次，聚焦爬虫几百次，甚至导致一般游客的通道被挤出，这就是为什么前面提到的网络世界流行的说法是爬虫贡献了50%以上的流量。

对于网站来说，需要提供相当大的服务能力来应对关注爬虫的访问，如果访问量过大，服务器难以承受，那么普通用户就无法打开前台页面。为防止过度关注爬虫的访问，大量网站开始采取反爬虫措施，如用户验证、ip限制等，这样做的结果就是普通用户对网站的访问越来越困难，体验也越来越差，如果你在12306网站上订票，相信是有经验的。

因此，如果一个来访者一天到你的店里来一万次，进来后左右看就是不买东西，你的店员累得招架他一个人，这种情况下还需要你在店门口贴一个非诚勿扰的告示吗？

第二，排除访问量负荷的问题，专注于爬虫是真正意义上的数据搬运工，他们在获取数据后，并没有像搜索引擎那样对网站进行反馈，而是单方面的获取，这在大数据时代会造成更严重的问题，如果每个人都能如此轻松地获得数据资源，那么谁还愿意开发产品，投入运营和推广，然后吸引用户到平台上沉淀数据呢？说实在的，一定要考虑对数据贡献者的鼓励，否则大数据就会变成无源之水。

其三，有些人可能会说，不就是在robots协议中写一句话吗，有什么复杂的，但从法律上看，问题的角度应该是实施义务的合理性和必要性，这取决于义务本身是否容易实现。

上一篇SEO扫盲课之如何正确设置robots.txt协议文件下一篇seo扫盲课 robots协议的一些无法解决的问题