服务器管理员 web-crawler

4

我发现McAfee SiteAdvisor报告我的网站为“可能存在安全问题”。我不关心McAfee对我的网站的看法（我可以自己保护它，如果不能保护，那么McAfee绝对不是我要寻求帮助的公司，非常感谢。）不过，令我困扰的是，显然，他们未经我的许可就爬了我的网站。需要说明的是：我的网站上几乎没有内容，只有一些占位符和一些文件供我个人使用。没有服务条款。我的问题是：McAffee是否有权从我的网站下载内容/对我的网站进行爬网？我可以禁止他们这样做吗？我觉得应该有某种“我的城堡，我的规则”的原则，但是我基本上对所有法律知识一无所知。更新：我可能应该提到我的服务器提供商定期向我发送有关SiteAdvisor调查结果的电子邮件-这就是我如何得知其“评价”的原因，这就是为什么我对此感到恼火。

30 web-crawler

3

网站如何检测代理或公司网络背后的漫游器

大型网站（例如Wikipedia）如何处理其他IP屏蔽程序背后的漫游器？例如，在我的大学里，每个人都在搜索Wikipedia，这给它带来了很大的负担。但是，据我所知，Wikipedia只能知道大学路由器的IP，因此，如果我设置了一个“释放”的bot（请求之间只有很小的延迟），Wikipedia可以在不禁止整个组织的情况下禁止我的bot吗？站点实际上可以禁止组织网络背后的IP吗？

12 web-crawler

4

查找属于特定ISP的所有IP范围

我遇到了某个人，他一直在积极地抓取我的网站；浪费带宽和CPU资源。我已经实现了一个系统，该系统可以跟踪我的Web服务器访问日志，将每个新IP添加到数据库中，跟踪该IP发出的请求数量，然后，如果同一IP超出了某个请求阈值，在某个时间段内，它通过iptables被阻止。听起来可能很复杂，但据我所知，尚无旨在将某个IP限制在一定数量的带宽/请求中的预制解决方案。这对于大多数爬虫来说都可以正常工作，但是一个非常执着的人每次被阻止时都会从其ISP池中获取新IP。我想完全阻止ISP，但是不知道如何解决。在几个示例IP上进行Whois，我可以看到它们共享相同的“ netname”，“ mnt-by”和“ origin / AS”。有没有一种方法可以使用相同的mnt-by / AS / netname在ARIN / RIPE数据库中查询所有子网？如果没有，我该如何获取属于该ISP的每个IP？谢谢。

10 ip isp whois web-crawler ip-blocking

5

这些“坏机器人”如何找到我关闭的网络服务器？

我已经安装了Apache一段时间，然后快速浏览一下access.log，发现各种各样的未知IP正在连接，大多数状态代码为403、404、400、408。我不知道它们是如何找到的我的IP，因为我仅将其用于个人用途，并添加了robots.txt，希望它可以使搜索引擎远离。我阻止索引，但没有什么真正重要的。这些机器人（或人们）如何找到服务器？发生这种情况是否常见？这些连接是否危险/我该怎么办？另外，许多IP来自各种国家，并且不解析主机名。这是一堆有关结果的示例：在一次大范围的扫描中，该机器人试图找到phpmyadmin： "GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu" "GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu" "GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" "ZmEu" "GET /admin/phpmyadmin/scripts/setup.php HTTP/1.1" 404 232 "-" "ZmEu" 我得到很多这些： "HEAD / HTTP/1.0" 403 - "-" "-" 很多“ proxyheader.php”，我在GET中使用http：//链接收到了很多请求 "GET http://www.tosunmail.com/proxyheader.php HTTP/1.1" 404 213 "-" "Mozilla/4.0 …

8 apache-2.2 web-crawler

Questions tagged «web-crawler»