《反不正当竞争法》的一般条款及其适用/张平

《反不正当竞争法》的一般条款及其适用/张平(7)

三、爬虫协议与《反不正当竞争法》的一般条款

违反爬虫协议的行为在业界最受谴责，也最容易引起相关法律争议。

爬虫协议的概念，源自于英文的“robots.txt”，即网络机器人协议。robots协议官方网站（http：//www.robotstxt.org）对网络机器人（robots）所下的定义为：网络机器人（也叫网络游客、爬虫程序、蜘蛛程序），是一种自动爬行网络的程序。搜索引擎比如Google利用这一程序对网站内容建立索引，垃圾邮件商也利用网络机器人程序扫描邮件地址，网络机器人程序还有其他的用途。而爬虫协议即robots协议是指网站所有者利用robots文本文件指导他们的网站如何应对网络机器人，也叫做拒绝网络机器人协议。

爬虫协议的工作原理是：一个机器人程序想要访问一个网站url，如：http：//www.example.com/welcome.html，它会首先检查这个地址：http：//www.example.com/robots.txt，如果它检查后发现：User-agent：*或Disallow：/，“User-a-gent：*” 指这个部分适用于所有的机器人程序，“Disal-low：/” 则告诉机器人程序不应该访问这个网站的所有网页。[19]

（一）爬虫协议与商业道德

从行业内的基本实践以及法院的相关判决中我们可以看出，遵守爬虫协议已经成为互联网行业的基本行业规范，此次360搜索违反的爬虫协议实际上是搜索引擎行业所公认的行业规范。

从互联网行业的基本实践角度考察，1994年6月30日，在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后，正式发布了一份行业规范，即robots.txt协议。[20]在此之前，相关人员一直在起草这份文档，并在世界互联网技术邮件组发布后，这一协议被几乎所有的搜索引擎采用，包括最早的altavista，infoseek，后来的google，bing，以及中国的百度、搜搜、搜狗等公司也相继采用并严格遵循。在中国国内互联网行业，大型网站也基本都将爬虫协议当作一项行业基本准则。

从法院判例角度考察，在Copiepresse诉Google案中，Copiepresse （比利时一家报业集团）认为Google提供的“Google News Belgium”服务，是由计算机生成分类的每日新闻评论，Google在未经版权人许可的情况下复制并向公众提供其版权作品，侵犯了其著作权和报业特有的数据库。Google抗辩称，Copiepresse并未采取爬虫协议来告知其访问政策，构成对搜索引擎抓取其内容的默示许可。[21]最终比利时高级法院判定Google败诉，法官认为，版权属于排他性权利，未使用爬虫协议并不代表默示许可。换句话说，如果存在爬虫协议，那么搜索引擎就应当遵守。

总共11页 [1] [2] [3] [4] [5] [6] 7 [8] [9] [10] [11]
上一页下一页