Questions tagged «web-crawler»

4
公司是否隐含对我的网站进行爬网的权利?
我发现McAfee SiteAdvisor报告我的网站为“可能存在安全问题”。 我不关心McAfee对我的网站的看法(我可以自己保护它,如果不能保护,那么McAfee绝对不是我要寻求帮助的公司,非常感谢。)不过,令我困扰的是,显然,他们未经我的许可就爬了我的网站。 需要说明的是:我的网站上几乎没有内容,只有一些占位符和一些文件供我个人使用。没有服务条款。 我的问题是:McAffee是否有权从我的网站下载内容/对我的网站进行爬网?我可以禁止他们这样做吗?我觉得应该有某种“我的城堡,我的规则”的原则,但是我基本上对所有法律知识一无所知。 更新:我可能应该提到我的服务器提供商定期向我发送有关SiteAdvisor调查结果的电子邮件-这就是我如何得知其“评价”的原因,这就是为什么我对此感到恼火。

3
网站如何检测代理或公司网络背后的漫游器
大型网站(例如Wikipedia)如何处理其他IP屏蔽程序背后的漫游器?例如,在我的大学里,每个人都在搜索Wikipedia,这给它带来了很大的负担。但是,据我所知,Wikipedia只能知道大学路由器的IP,因此,如果我设置了一个“释放”的bot(请求之间只有很小的延迟),Wikipedia可以在不禁止整个组织的情况下禁止我的bot吗?站点实际上可以禁止组织网络背后的IP吗?

4
查找属于特定ISP的所有IP范围
我遇到了某个人,他一直在积极地抓取我的网站;浪费带宽和CPU资源。我已经实现了一个系统,该系统可以跟踪我的Web服务器访问日志,将每个新IP添加到数据库中,跟踪该IP发出的请求数量,然后,如果同一IP超出了某个请求阈值,在某个时间段内,它通过iptables被阻止。听起来可能很复杂,但据我所知,尚无旨在将某个IP限制在一定数量的带宽/请求中的预制解决方案。 这对于大多数爬虫来说都可以正常工作,但是一个非常执着的人每次被阻止时都会从其ISP池中获取新IP。我想完全阻止ISP,但是不知道如何解决。 在几个示例IP上进行Whois,我可以看到它们共享相同的“ netname”,“ mnt-by”和“ origin / AS”。有没有一种方法可以使用相同的mnt-by / AS / netname在ARIN / RIPE数据库中查询所有子网?如果没有,我该如何获取属于该ISP的每个IP? 谢谢。

5
这些“坏机器人”如何找到我关闭的网络服务器?
我已经安装了Apache一段时间,然后快速浏览一下access.log,发现各种各样的未知IP正在连接,大多数状态代码为403、404、400、408。我不知道它们是如何找到的我的IP,因为我仅将其用于个人用途,并添加了robots.txt,希望它可以使搜索引擎远离。我阻止索引,但没有什么真正重要的。 这些机器人(或人们)如何找到服务器?发生这种情况是否常见?这些连接是否危险/我该怎么办? 另外,许多IP来自各种国家,并且不解析主机名。 这是一堆有关结果的示例: 在一次大范围的扫描中,该机器人试图找到phpmyadmin: "GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu" "GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu" "GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" "ZmEu" "GET /admin/phpmyadmin/scripts/setup.php HTTP/1.1" 404 232 "-" "ZmEu" 我得到很多这些: "HEAD / HTTP/1.0" 403 - "-" "-" 很多“ proxyheader.php”,我在GET中使用http://链接收到了很多请求 "GET http://www.tosunmail.com/proxyheader.php HTTP/1.1" 404 213 "-" "Mozilla/4.0 …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.