公司是否隐含对我的网站进行爬网的权利?


30

我发现McAfee SiteAdvisor报告我的网站为“可能存在安全问题”

我不关心McAfee对我的网站的看法(我可以自己保护它,如果不能保护,那么McAfee绝对不是我要寻求帮助的公司,非常感谢。)不过,令我困扰的是,显然,他们未经我的许可就爬了我的网站。

需要说明的是:我的网站上几乎没有内容,只有一些占位符和一些文件供我个人使用。没有服务条款。

我的问题是:McAffee是否有权从我的网站下载内容/对我的网站进行爬网?我可以禁止他们这样做吗?我觉得应该有某种“我的城堡,我的规则”的原则,但是我基本上对所有法律知识一无所知。

更新:我可能应该提到我的服务器提供商定期向我发送有关SiteAdvisor调查结果的电子邮件-这就是我如何得知其“评价”的原因,这就是为什么我对此感到恼火。


78
您是否说人类有权浏览您的网站?如果是,为什么要歧视人类的机器人仆人?如果不是,为什么它首先是网站?
jwodder 2014年

47
您如何发现SiteAdvisor标记了您的网站?您没有查看他们的网站吗?如果是这样,什么给了您权利?
乔·斯尼德曼

17
顺便说一句,我不会轻易地拒绝SiteAdvisor报告,通常,当我看到类似的报告是合法的时。最常见的情况是通过一些自动脚本利用较旧/未打补丁的流行CMS(WordPress,Joomla,Drupal等)来放置恶意内容(用于垃圾邮件/网上诱骗的“蹦床”页面,托管链接的病毒)诈骗电子邮件,浏览器漏洞利用,请您命名);您可能不知道自己托管的是坏东西。另外,由于许多用户都依赖于此类工具,因此您通常希望保持干净的记录,因为此类警告会吓跑用户。
Matteo Italia

35
如果要锁定某些东西,请将其锁定。您建立了网站并配置了服务器以响应GET请求。您已经邀请了所有人-实际上是每个人。这不是“暗示的”权利,而是Web服务器的工作方式。如前所述,禁止robots.txt或IP限制,或仅限登录用户使用的内容。
mfinni 2014年

20
@RolazaroAzeveires:自动化的流程还可以,不是因为允许人类访问者隐含它,而是因为除非受到攻击,否则他们会很好地问:“我可以拥有这些文件吗?” 并且您已将您的网络服务器配置为响应:“当然!您来了。还需要其他吗?” 这不是未经您的许可就进行爬网,而是经过您的许可而进行爬网。
马克·托马斯

Answers:


49

这有法律先例。Field诉Google Inc.,诉诉书412F。2d 1106,(美国内华达州法院2006年)。Google赢得了基于多个因素的简易判决,其中最引人注目的是作者没有利用其网站上的metatags中的robots.txt文件,这将阻止Google抓取和缓存网站所有者不希望建立索引的页面。

裁定pdf

没有专门针对robots.txt文件的美国法律;但是,另一个法院案件开创了一些先例,最终可能导致robots.txt文件被视为绕过为保护内容而采取的有意电子措施。在卫生保健宣传中,INC与HARDING,EARLEY,FOLLMER&FRAILEY等相关。此外,Healthcare Advocates辩称,Harding等人实质上是在破坏Wayback Machine的功能,以便访问具有robots.txt文件的较新版本页面的缓存文件。尽管Healthcare Advocates败诉了,但地方法院指出问题不是Harding等人“选择了锁定”,而是由于Wayback Machine的服务器负载问题导致他们可以访问文件,因此他们可以访问文件。缓存文件的时间

法院裁决pdf

恕我直言,直到有人接受此裁决并将其转为反正只是时间问题:法院指出,robots.txt 一种锁,可以防止爬行和规避它 窃取该锁。

不幸的是,其中许多诉讼并不像“我试图告诉您的搜寻器不允许这样做,而您的搜寻器忽略了这些设置/命令”那样简单。在所有这些情况下,还有很多其他问题最终会对结果产生更大的影响,而不是根据美国DCMA法律是否应将robots.txt文件视为电子保护方法这一核心问题。

话虽这么说,这是美国的法律,中国的某人可以做自己想做的事情-不是因为法律问题,而是因为中国不会执行美国商标和版权保护,所以祝他们好运。

不是一个简短的答案,但是对于您的问题确实没有一个简短的简单答案!


1
谢谢,这是一个很好的答案。我对robots.txt的不满意之处在于,这不是一个实际的标准(法律要求的虚构标准)。这些公司可以简单地忽略它。我不喜欢他们告诉我“您应该放置robots.txt文件,也许我们不会抓取您的网站,但也许我们会,我们会做我们喜欢的事情”。如果有一个用于在网站的元数据中指定网站的ToS的标准,那就太好了。
kralyk 2014年

5
@jcanker这两个案例涉及版权侵权索赔。像Google和archive.org所操作的那样,缓存内容的爬网程序的行为完全具有版权问题的意义。但是McAfee SiteAdvisor实际上并没有从其访问的网站复制和存储内容(更不用说公开发布了),不是吗?尽管我不是律师,但我认为这种区别使我们有理由强烈怀疑,无论哪种情况都适用于SiteAdvisor之类的系统,无论它是否尊重robots.txt。
伊利亚·卡根

12
@kralyk-re“这些公司可以简单地忽略它。”。嗯,是。这就是互联网的工作方式。即使它在某种程度上更基础,对于爬虫来说,假装它是人类正在访问您的网页,这也是微不足道的,绝对是微不足道的。您正在要求技术上不可能的。确实,如果您通过所提出的问题进行思考,那么所寻求的是不合逻辑的,就没有任何意义。除非有法律上的区别。您唯一可能的保护措施是(1)将重要内容隐藏在用户登录身份验证后面,以及(2)法律保护,如本答案所述。
制造商史蒂夫

@ToolmakerSteve我知道完全禁止机器人在技术上是不可能的。但是,这是另一种情况-我不是在寻找技术解决方案,而是询问McAffee是否已通知我他们抓取了我的网站,所以我不需要检测它。
kralyk 2014年

另一种方法是有法律先例:ebay v bidder的优势
John

91

是的,他们有权这样做-您已经创建了一个公共网站,是什么让您认为他们没有呢?

您当然也有权阻止它们。你可以要求他们不要抓取你的网站的robots.txt或主动地防止它们像访问它的fail2ban

另外,也不必担心,继续您的生活。它没有任何伤害,而且绝对是互联网探测的良性一面。


4
> “是的,他们有权这样做-您已经创建了一个公共网站,是什么让您认为他们没有?” 好吧,如果从技术上讲是可行的,则不一定意味着它是合法的。例如,YouTube的ToS禁止下载视频,因此,尽管从技术上讲很简单,但仍然不允许这样做。如果我的提供商不是向我发送有关我的网站“可能有问题”的电子邮件的,我就不会担心SiteAdvisor ...
kralyk 2014年

16
@kralyk-如果您不希望公众(包括McAfee)关注它,请勿将其放在网络上。就这么简单。您控制您的网站。没有人会强迫您将它放到那里,如果您不希望别人看到它,那就不要将它放到那里。如果您打算将它放在那里,那么人们(包括想向您出售产品的人)看着它也就不会感到惊讶。不要试图将您的欲望变成别人的问题。
迈克尔·科恩

9
@kralyk:认真吗?您真的认为这里的问题是双重标准吗?McAfee的任何人都不知道也不关心您的网站。他们也不应该。期望任何人爬网阅读每个人的服务条款都是荒谬的。这就是发明robot.txt的原因。
制造商史蒂夫

3
@kralyk必须限制对所涉及资源的访问,以使ToS变得有意义。抓取您不受保护的页面的机器人与注册帐户,确认ToS然后将凭据提供给机器人的人完全不同。
安德鲁B

4
@kralyk- 您在网站上发现自己认为McAfee违反了(不尊重)哪种TOS
凯文·费根

11

这种行为是否符合道德尚不完全清楚。

爬网的行为本身并不是不道德的(除非您使用robots.txt或其他技术措施明确禁止它,并且它们正在规避它们)。

他们正在做的事情大致相当于冷酷地打电话给您,同时向全世界宣布您可能不安全。如果那损害了您的声誉并且不合理,那是不道德的;如果这样做,并且唯一的解决方案涉及您付款,那就是敲诈。但是,我不认为这是怎么回事。

另一次变得不道德的是有人爬网您的网站以适合您的内容或数据,然后将其表示为自己的内容。但是,那也不是怎么回事。

因此,我建议他们在这种情况下的行为是合乎道德的,您也很可能会忽略它。

如果您与他们没有关系并且不要求发送电子邮件,则他们相关的向您发送垃圾邮件的行为是不道德的,但是我怀疑他们正在取消订阅。


1
我不确定我Disallow会将robots.txt文件中的指令称为“禁止技术措施”。robots.txt只是出于礼貌,尽管行为良好的bot会遵守,但没有义务,也没有真正的安全性。实际上,表现欠佳的漫游器很可能会在robots.txt中输入一个条目来作为爬行该特定路径的邀请...
CVn 2014年

2
@MichaelKjörling,只有一半人同意。没有真正的安全,但有义务。这是一个禁止进入的标志,您的义务是禁止进入,因为您没有进入权限。
2014年

这是一个“不准锁”的标志。在家里尝试一下,看看小偷来电话后得到多少同情!(实际上,这是一个“保留”标志,明确列出了您希望人们远离的未锁定门窗。)
Randy Orrison 2014年

2

阻止某些人或公司访问您的网站的技术方法:

您可以阻止特定的IP地址或地址范围访问您的站点页面。该文件位于.htaccess文件中(如果您的站点在Apache Web Server上运行)。

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

让您的Web服务器记录从其访问的IP地址,并查找这些IP地址,以查找与McAfee相关的地址。如果您没有任何普通访客,现在可能很容易分辨。

当然,他们将来可能会更改IP地址。不过,如果您查找找到的IP地址,以查看谁拥有它们,则也许可以了解McAfee拥有的整个地址块,并将其全部阻止。


这样做的法律依据:

“网站所有者可以合法地阻止某些用户,根据法院的规定”

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(如果您的网站是个人网站,那么没有人会反对您阻止某些用户的权利。但是,如果这是一家公司的网站,则讨论的双方都有法律和道德方面的争论。您的公司越小,越容易它应受到法律保护-而且其他任何人都不会在乎的无论如何都会抱怨。)


您可能也对“拒绝引荐访问者”感兴趣。

“如果您曾经查看日志并发现流量出现了惊人的增长,但实际文件请求却没有增加,则可能是某人在捏内容(例如CSS文件)或试图黑客入侵您的网站(这可能只是在尝试查找非公开内容)。”

http://www.htaccess-guide.com/deny-visitors-by-referrer/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.