|
seo扫盲课,重新审视Robots协议的适用范围第一,爬虫不仅仅是一种。 爬虫是互联网获取第三方网站信息和数据最常用的技术手段之一,通过编程自动实现目标网站和目标信息的批量获取。最早的爬虫实际上是搜索引擎。它可以在网络上爬取超链接。搜索网站的信息编制成索引,方便其他用户访问,省去了记住网站域名的麻烦。 虽然爬虫技术最早用于搜索引擎,但随着大数据应用的普及,人们对数据的需求越来越高,爬虫已经脱离了搜索场景,开始用于各种数据处理场景。互联网领域有一句流行的话:互联网上50%的流量都是爬虫创造的。虽然没有明确的证据支持,但很多从业者曾经说过,实际比例应该只有很多,可见爬虫的力量。 根据使用场景的不同,爬虫可分为通用网络爬虫(GeneralPurposeWebCrawler)和聚焦网络爬虫(FocusedWebCrawler),前者是针对非特定网站进行数据和信息获取,爬虫对象从某些种子地址扩展到整个网络的链接,典型的是搜索引擎爬虫;后者是针对特定类别或单个网站进行数据爬取,通常聚焦爬虫也不是锁定目标后一股脑地将目标网站信息全部down下来,而是在目标网站上定向地获取特定内容(这类爬虫行业又称定向爬虫、主题爬虫),如只爬虫用户评价信息、商品销售信息等。 因此,我们可以看到,聚焦爬虫只负责处理特定用途的数据,这些数据不像搜索爬虫那样方便所有网民访问入口,而是投入到特定的商业用途中,如洗稿、用户画像、数据镜像等。 Robots协议的起源及应用场景。 robots协议最早是由荷兰网络工程师MartinKoster于1994年3月6日提出的,在1994年6月30日举行的爬虫邮件组论坛(TheRobotsMailingList)上,搜索引擎代表和被搜索引擎抓取的站长代笔一起讨论,然后发布了一工作标准,即robots.txt协议。随后,该协议被最早的AltaVista、Infosek、谷歌、百度、360、搜狗等几乎所有搜索引擎遵守。 2012年11月1日,中国互联网协会制定发布了《互联网搜索引擎服务自律公约》约第七条直接规定:遵循国际通行的行业惯例和商业规则,遵守机器人协议(robots协议)。公约的发起单位包括百度、即时搜索、盘古搜索、奇虎360、隆重文学、搜狗、腾讯、网易、新浪、宜搜索、易搜索、中搜索。 Robots协议是一个技术声明文件,是网站设置的,以显示其对爬虫抓取自己内容的态度和限度。全名是网络爬虫排除协议(RobotsExclusionProtocol)。可见,这里的协议对应的英文protocol是计算机通信意义上的协议,而不是法律意义上的agreement。自然,这样的爬虫协议没有法律上的协议效力,是君子协议,供业内人士自觉遵守。 根据业界的共识,robots协议被放置在站点的根目录下,在站点域名中添加/robots.txt即可访问,因此爬虫访问某个站点时,理论上应该首先读取的文件是robots.txt文件,如果该文件不存在,爬虫可以访问站点上没有密码保护的所有页面 通过robots协议的语句,我们可以直观地看到,它的目标都是搜索引擎爬虫,比如淘宝的robots协议明确记载了百度,谷歌,必应和360搜索爬虫的访问权限。 可见,从robots协议的起源、行业惯例、具体语义等方面,可以看出robots协议与搜索引擎类型的通用网络爬虫一一对应,可以说是搜索引擎与网站主体之间的君子协议。 第三,Robots协议的法律属性。 历史上第一个关于爬虫协议的案件诞生于2000年。eBay把一个聚合价格信息的比价网站BE告上了法庭。eBay声称自己无法在爬虫协议中抓取和写入哪些信息,但BE违反了这个协议。但是BE抗辩eBay上的内容属于用户集体贡献,不属于用户。爬虫协议不能作为法律参考。最后,以易趣胜诉告终,以易趣协议为主要参考。 北京市第一中级人民法院在一起不正当竞争案件中指出:整个互联网行业对Robots协议都是认可和遵守的,它应该被认定为行业内的通行规则,应该被认定为搜索引擎行业内公认和应该遵守的商业道德。 很明显,现在司法已经把robots协议纳入查范围,并认为在爬虫访问网站时,robots协议是一个具有法律意义的文件,值得参考。 聚焦爬虫非诚勿扰 爬行协议有行业公约,也有典型的司法判例,因此我们发现,审查robots协议的内容似乎成为爬行第三方数据是否构成侵权的标准流程之一,此时就出现了一个新的问题,即如果爬行不是搜索类的通用网络爬行,而是关注爬行的情况,网站是否应该有针对性地进行robots协议?若无设置,是否按照以前的行业惯例认定,网站默认允许专注于爬虫定向获取自己的内容和数据? 通过对上述爬虫类型和robots协议原理的分析,我们可以发现,对于专注于爬虫的网站运营商来说,同样设置robots协议,表明对其定向获取数据的态度是不必要和合理的。 第一,如果说搜索引擎就像进入景区的游客一样,大多数商家都欢迎游客到自己的店里走走,那么搜索引擎爬虫访问网站(类似景区商家)的好处就是可以让网站获得访问流量(带来客源)。但是聚焦爬虫是完全不同的,它们相当于一个情报调查员,只识别一个网站(商家)而不去其他地方光顾,而且光顾的频率非常频繁,一般游客一天只来一两次,聚焦爬虫几百次,甚至导致一般游客的通道被挤出,这就是为什么前面提到的网络世界流行的说法是爬虫贡献了50%以上的流量。 对于网站来说,需要提供相当大的服务能力来应对关注爬虫的访问,如果访问量过大,服务器难以承受,那么普通用户就无法打开前台页面。为防止过度关注爬虫的访问,大量网站开始采取反爬虫措施,如用户验证、ip限制等,这样做的结果就是普通用户对网站的访问越来越困难,体验也越来越差,如果你在12306网站上订票,相信是有经验的。 因此,如果一个来访者一天到你的店里来一万次,进来后左右看就是不买东西,你的店员累得招架他一个人,这种情况下还需要你在店门口贴一个非诚勿扰的告示吗? 第二,排除访问量负荷的问题,专注于爬虫是真正意义上的数据搬运工,他们在获取数据后,并没有像搜索引擎那样对网站进行反馈,而是单方面的获取,这在大数据时代会造成更严重的问题,如果每个人都能如此轻松地获得数据资源,那么谁还愿意开发产品,投入运营和推广,然后吸引用户到平台上沉淀数据呢?说实在的,一定要考虑对数据贡献者的鼓励,否则大数据就会变成无源之水。 其三,有些人可能会说,不就是在robots协议中写一句话吗,有什么复杂的,但从法律上看,问题的角度应该是实施义务的合理性和必要性,这取决于义务本身是否容易实现。 |