网站如何检测代理或公司网络背后的漫游器


12

大型网站(例如Wikipedia)如何处理其他IP屏蔽程序背后的漫游器?例如,在我的大学里,每个人都在搜索Wikipedia,这给它带来了很大的负担。但是,据我所知,Wikipedia只能知道大学路由器的IP,因此,如果我设置了一个“释放”的bot(请求之间只有很小的延迟),Wikipedia可以在不禁止整个组织的情况下禁止我的bot吗?站点实际上可以禁止组织网络背后的IP吗?




更好地使您的机器人与合法用户无法区
分开

Answers:


21

不,他们将禁止公共IP,并且所有被该IP NAT禁止的人也将被禁止。

尽管如果至少我们认为我们将要禁止一所大学或类似的机构,我们将与他们的虐待联系,以使他们追踪罪犯并制止问题。


2
Zypher说了什么。作为曾经跟踪发送到abuse@unnamedacademicinstitution.edu的投诉的人,我们通常非常渴望找到负责人,以便他们解除对公共IP的封锁。(大学生分享音乐点对点RIAA喜欢它接触abuse@whatever.edu。)
凯瑟琳Villyard

…除非您的漫游器具有唯一可识别的特征,例如传递访问令牌或唯一的浏览器ID。
simpleuser 2016年

1
这没有回答有关这些网站如何检测机器人的实际标题问题。实际上,看来,如果您充分降低机器人的速度(不会太大),那么实际上与一大群大学生的有效用法是无法区分的。
通配符

1
扩展@KatherineVillyard的评论。如果在封锁之前没有人与我们联系,并且经常使用我们被封锁的资源,我们将正式监督机构的网络,我们将与他们联系以解决问题。通常,如果我们从头开始解决这个问题,他们会愿意解除我们的阻拦。这意味着寻找虐待的根源。作为维基百科,即使他们不与您的机构联系,一旦他们意识到自己已被列入黑名单,您的机构也可能会对其进行调查。这项看似无害的禁令很快就会被驱逐出境。
培根·布拉德

1
@Wildcard FWIW大多数地方都不会仅仅告诉您他们如何检测到机器人,因为这只会使他们抓捕到的机器人作者改变现状。也就是说,除了检测机器人的请求速度外,还有许多其他信号。但是,如果您玩的不错,不做一些卑鄙的事情或占用资源,那么大多数地方都不会在意。追逐那里的每个小机器人都是不值得的。
Zypher '16

1

站点不能直接禁止位于NAT之后的IP。它可以对通过非匿名HTTP代理传递的IP起作用-当此类代理转发请求时,通常会将其地址附加到X-Forwarded-For标头中,因此,如果您专用网络的访问实际上必须通过此类代理可能公开内部IP;但是,大多数网站(包括维基百科)无论如何都不信任该标头中的信息,因为很容易通过欺骗来暗示无辜的IP或逃避禁令。

但是,还有其他技术试图独立于IP地址来唯一标识用户。您可以查询网络浏览器,以获取有关其及其运行系统的许多信息,例如用户代理,屏幕分辨率,插件列表等。-请参见https://github.com/carlo/jquery-浏览器指纹在实践中作为一个例子。您可以使用此类指纹来控制访问,尽管根据站点设计,您可以在不参与指纹识别过程的情况下与它进行交互,即使您无法通过漫游器提供虚假的随机数据也可以避免这种情况。如果您知道这种保护措施到位,则使用一致的指纹。这种控制方法还存在误报的风险,尤其是在移动设备上,其中可能会有大量客户在相同的库存硬件上运行相同的库存客户端(大多数人在运行特定版本的iOS的特定型号的iPhone上) ,例如,可能会获得相同的指纹)。


1
一点也不没有;许多大学,以及至少一个国家/地区,代理​​Web连接并添加X-Forwarded-For。
迈克尔·汉普顿

有趣。如果一家公司配置其Web代理来做到这一点,我个人会感到惊讶,因为它会公开有关您内部网络的一些(公认的琐碎的)信息,但是我想这取决于组织。
Carcer

@Carcer,它不一定是真正的内部IP地址,而只是与代理的每个用户一致的东西。
伊恩·林罗斯

0

通常,IP地址不足以提供正确的禁令信息。因此,高级网络会占用较高的网络堆栈空间。

通常通过限制初始TCP连接设置的速率来处理拒绝服务(DoS)攻击(您担心会造成这种攻击)。这意味着愿意等待的合法用户将获得通过,而那些正试图消耗服务器资源的用户将被减慢到无害的程度。然后,DoS演变为分布式DoS(DDoS)攻击。

与服务器建立连接后,您可以根据需要发出任意数量的请求,Web服务器管理可以配置要处理的请求数量。

无论如何,Web服务器可能可以比本地网关处理更多的容量,这可能是用例中的限制因素。我敢打赌,您的大学网络管理员会比Wikipedia来敲门。

成为一个良好的Internet公民很重要,因此我将向机器人添加速率限制代码。

还应该指出的是,维基百科提供了数据转储,因此实际上并不需要拖网捕捞。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.