公司是否隐含对我的网站进行爬网的权利？

30

我发现McAfee SiteAdvisor报告我的网站为“可能存在安全问题”。

我不关心McAfee对我的网站的看法（我可以自己保护它，如果不能保护，那么McAfee绝对不是我要寻求帮助的公司，非常感谢。）不过，令我困扰的是，显然，他们未经我的许可就爬了我的网站。

需要说明的是：我的网站上几乎没有内容，只有一些占位符和一些文件供我个人使用。没有服务条款。

我的问题是：McAffee是否有权从我的网站下载内容/对我的网站进行爬网？我可以禁止他们这样做吗？我觉得应该有某种“我的城堡，我的规则”的原则，但是我基本上对所有法律知识一无所知。

更新：我可能应该提到我的服务器提供商定期向我发送有关SiteAdvisor调查结果的电子邮件-这就是我如何得知其“评价”的原因，这就是为什么我对此感到恼火。

web-crawler

— 克拉里克
source

78

您是否说人类有权浏览您的网站？如果是，为什么要歧视人类的机器人仆人？如果不是，为什么它首先是网站？

— jwodder 2014年

47

您如何发现SiteAdvisor标记了您的网站？您没有查看他们的网站吗？如果是这样，什么给了您权利？

— 乔·斯尼德曼

17

顺便说一句，我不会轻易地拒绝SiteAdvisor报告，通常，当我看到类似的报告是合法的时。最常见的情况是通过一些自动脚本利用较旧/未打补丁的流行CMS（WordPress，Joomla，Drupal等）来放置恶意内容（用于垃圾邮件/网上诱骗的“蹦床”页面，托管链接的病毒）诈骗电子邮件，浏览器漏洞利用，请您命名）；您可能不知道自己托管的是坏东西。另外，由于许多用户都依赖于此类工具，因此您通常希望保持干净的记录，因为此类警告会吓跑用户。

— Matteo Italia

35

如果要锁定某些东西，请将其锁定。您建立了网站并配置了服务器以响应GET请求。您已经邀请了所有人-实际上是每个人。这不是“暗示的”权利，而是Web服务器的工作方式。如前所述，禁止robots.txt或IP限制，或仅限登录用户使用的内容。

— mfinni 2014年

20

@RolazaroAzeveires：自动化的流程还可以，不是因为允许人类访问者隐含它，而是因为除非受到攻击，否则他们会很好地问：“我可以拥有这些文件吗？” 并且您已将您的网络服务器配置为响应：“当然！您来了。还需要其他吗？” 这不是未经您的许可就进行爬网，而是经过您的许可而进行爬网。

— 马克·托马斯

49

这有法律先例。Field诉Google Inc.，诉诉书412F。2d 1106，（美国内华达州法院2006年）。Google赢得了基于多个因素的简易判决，其中最引人注目的是作者没有利用其网站上的metatags中的robots.txt文件，这将阻止Google抓取和缓存网站所有者不希望建立索引的页面。

裁定pdf

没有专门针对robots.txt文件的美国法律；但是，另一个法院案件开创了一些先例，最终可能导致robots.txt文件被视为绕过为保护内容而采取的有意电子措施。在卫生保健宣传中，INC与HARDING，EARLEY，FOLLMER＆FRAILEY等相关。此外，Healthcare Advocates辩称，Harding等人实质上是在破坏Wayback Machine的功能，以便访问具有robots.txt文件的较新版本页面的缓存文件。尽管Healthcare Advocates败诉了，但地方法院指出问题不是Harding等人“选择了锁定”，而是由于Wayback Machine的服务器负载问题导致他们可以访问文件，因此他们可以访问文件。缓存文件的时间

法院裁决pdf

恕我直言，直到有人接受此裁决并将其转为反正只是时间问题：法院指出，robots.txt 是一种锁，可以防止爬行和规避它来窃取该锁。

不幸的是，其中许多诉讼并不像“我试图告诉您的搜寻器不允许这样做，而您的搜寻器忽略了这些设置/命令”那样简单。在所有这些情况下，还有很多其他问题最终会对结果产生更大的影响，而不是根据美国DCMA法律是否应将robots.txt文件视为电子保护方法这一核心问题。

话虽这么说，这是美国的法律，中国的某人可以做自己想做的事情-不是因为法律问题，而是因为中国不会执行美国商标和版权保护，所以祝他们好运。

不是一个简短的答案，但是对于您的问题确实没有一个简短的简单答案！

— 詹克
source

1

谢谢，这是一个很好的答案。我对robots.txt的不满意之处在于，这不是一个实际的标准（法律要求的虚构标准）。这些公司可以简单地忽略它。我不喜欢他们告诉我“您应该放置robots.txt文件，也许我们不会抓取您的网站，但也许我们会，我们会做我们喜欢的事情”。如果有一个用于在网站的元数据中指定网站的ToS的标准，那就太好了。

— kralyk 2014年

5

@jcanker这两个案例涉及版权侵权索赔。像Google和archive.org所操作的那样，缓存内容的爬网程序的行为完全具有版权问题的意义。但是McAfee SiteAdvisor实际上并没有从其访问的网站复制和存储内容（更不用说公开发布了），不是吗？尽管我不是律师，但我认为这种区别使我们有理由强烈怀疑，无论哪种情况都适用于SiteAdvisor之类的系统，无论它是否尊重robots.txt。

— 伊利亚·卡根

12

@kralyk-re“这些公司可以简单地忽略它。”。嗯，是。这就是互联网的工作方式。即使它在某种程度上更基础，对于爬虫来说，假装它是人类正在访问您的网页，这也是微不足道的，绝对是微不足道的。您正在要求技术上不可能的。确实，如果您通过所提出的问题进行思考，那么所寻求的是不合逻辑的，就没有任何意义。除非有法律上的区别。您唯一可能的保护措施是（1）将重要内容隐藏在用户登录身份验证后面，以及（2）法律保护，如本答案所述。

— 制造商史蒂夫

@ToolmakerSteve我知道完全禁止机器人在技术上是不可能的。但是，这是另一种情况-我不是在寻找技术解决方案，而是询问McAffee是否已通知我他们抓取了我的网站，所以我不需要检测它。

— kralyk 2014年

另一种方法是有法律先例：ebay v bidder的优势

— John

91

是的，他们有权这样做-您已经创建了一个公共网站，是什么让您认为他们没有呢？

您当然也有权阻止它们。你可以要求他们不要抓取你的网站的robots.txt或主动地防止它们像访问它的fail2ban。

另外，也不必担心，继续您的生活。它没有任何伤害，而且绝对是互联网探测的良性一面。

— 担
source

4

> “是的，他们有权这样做-您已经创建了一个公共网站，是什么让您认为他们没有？” 好吧，如果从技术上讲是可行的，则不一定意味着它是合法的。例如，YouTube的ToS禁止下载视频，因此，尽管从技术上讲很简单，但仍然不允许这样做。如果我的提供商不是向我发送有关我的网站“可能有问题”的电子邮件的，我就不会担心SiteAdvisor ...

— kralyk 2014年

16

@kralyk-如果您不希望公众（包括McAfee）关注它，请勿将其放在网络上。就这么简单。您控制您的网站。没有人会强迫您将它放到那里，如果您不希望别人看到它，那就不要将它放到那里。如果您打算将它放在那里，那么人们（包括想向您出售产品的人）看着它也就不会感到惊讶。不要试图将您的欲望变成别人的问题。

— 迈克尔·科恩

9

@kralyk：认真吗？您真的认为这里的问题是双重标准吗？McAfee的任何人都不知道也不关心您的网站。他们也不应该。期望任何人爬网阅读每个人的服务条款都是荒谬的。这就是发明robot.txt的原因。

— 制造商史蒂夫

3

@kralyk必须限制对所涉及资源的访问，以使ToS变得有意义。抓取您不受保护的页面的机器人与注册帐户，确认ToS然后将凭据提供给机器人的人完全不同。

— 安德鲁B

4

@kralyk- 您在网站上发现自己认为McAfee违反了（不尊重）哪种TOS？

— 凯文·费根

11

这种行为是否符合道德尚不完全清楚。

爬网的行为本身并不是不道德的（除非您使用robots.txt或其他技术措施明确禁止它，并且它们正在规避它们）。

他们正在做的事情大致相当于冷酷地打电话给您，同时向全世界宣布您可能不安全。如果那损害了您的声誉并且不合理，那是不道德的；如果这样做，并且唯一的解决方案涉及您付款，那就是敲诈。但是，我不认为这是怎么回事。

另一次变得不道德的是有人爬网您的网站以适合您的内容或数据，然后将其表示为自己的内容。但是，那也不是怎么回事。

因此，我建议他们在这种情况下的行为是合乎道德的，您也很可能会忽略它。

如果您与他们没有关系并且不要求发送电子邮件，则他们相关的向您发送垃圾邮件的行为是不道德的，但是我怀疑他们正在取消订阅。

— 猎鹰队
source

1

我不确定我Disallow会将robots.txt文件中的指令称为“禁止技术措施”。robots.txt只是出于礼貌，尽管行为良好的bot会遵守，但没有义务，也没有真正的安全性。实际上，表现欠佳的漫游器很可能会在robots.txt中输入一个条目来作为爬行该特定路径的邀请...

— CVn 2014年

2

@MichaelKjörling，只有一半人同意。没有真正的安全，但有义务。这是一个禁止进入的标志，您的义务是禁止进入，因为您没有进入权限。

— 2014年

这是一个“不准锁”的标志。在家里尝试一下，看看小偷来电话后得到多少同情！（实际上，这是一个“保留”标志，明确列出了您希望人们远离的未锁定门窗。）

— Randy Orrison 2014年

2

阻止某些人或公司访问您的网站的技术方法：

您可以阻止特定的IP地址或地址范围访问您的站点页面。该文件位于.htaccess文件中（如果您的站点在Apache Web Server上运行）。

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

让您的Web服务器记录从其访问的IP地址，并查找这些IP地址，以查找与McAfee相关的地址。如果您没有任何普通访客，现在可能很容易分辨。

当然，他们将来可能会更改IP地址。不过，如果您查找找到的IP地址，以查看谁拥有它们，则也许可以了解McAfee拥有的整个地址块，并将其全部阻止。

这样做的法律依据：

“网站所有者可以合法地阻止某些用户，根据法院的规定”

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

（如果您的网站是个人网站，那么没有人会反对您阻止某些用户的权利。但是，如果这是一家公司的网站，则讨论的双方都有法律和道德方面的争论。您的公司越小，越容易它应受到法律保护-而且其他任何人都不会在乎的无论如何都会抱怨。）

您可能也对“拒绝引荐访问者”感兴趣。

“如果您曾经查看日志并发现流量出现了惊人的增长，但实际文件请求却没有增加，则可能是某人在捏内容（例如CSS文件）或试图黑客入侵您的网站（这可能只是在尝试查找非公开内容）。”

http://www.htaccess-guide.com/deny-visitors-by-referrer/

— 工具制造商史蒂夫
source