网站如何检测代理或公司网络背后的漫游器

大型网站（例如Wikipedia）如何处理其他IP屏蔽程序背后的漫游器？例如，在我的大学里，每个人都在搜索Wikipedia，这给它带来了很大的负担。但是，据我所知，Wikipedia只能知道大学路由器的IP，因此，如果我设置了一个“释放”的bot（请求之间只有很小的延迟），Wikipedia可以在不禁止整个组织的情况下禁止我的bot吗？站点实际上可以禁止组织网络背后的IP吗？

web-crawler

— 用户名
source

维基百科禁止卡塔尔的那天。

— isanae '16

@isanae相关信息：superuser.com/q/1013630/326546

— kasperd '16

更好地使您的机器人与合法用户无法区

— 分开

Answers:

不，他们将禁止公共IP，并且所有被该IP NAT禁止的人也将被禁止。

尽管如果至少我们认为我们将要禁止一所大学或类似的机构，我们将与他们的虐待联系，以使他们追踪罪犯并制止问题。

— Zypher
source

Zypher说了什么。作为曾经跟踪发送到abuse@unnamedacademicinstitution.edu的投诉的人，我们通常非常渴望找到负责人，以便他们解除对公共IP的封锁。（大学生爱分享音乐点对点RIAA喜欢它接触abuse@whatever.edu。）

— 凯瑟琳Villyard

…除非您的漫游器具有唯一可识别的特征，例如传递访问令牌或唯一的浏览器ID。

— simpleuser 2016年

这没有回答有关这些网站如何检测机器人的实际标题问题。实际上，看来，如果您充分降低机器人的速度（不会太大），那么实际上与一大群大学生的有效用法是无法区分的。

— 通配符

扩展@KatherineVillyard的评论。如果在封锁之前没有人与我们联系，并且经常使用我们被封锁的资源，我们将正式监督机构的网络，我们将与他们联系以解决问题。通常，如果我们从头开始解决这个问题，他们会愿意解除我们的阻拦。这意味着寻找虐待的根源。作为维基百科，即使他们不与您的机构联系，一旦他们意识到自己已被列入黑名单，您的机构也可能会对其进行调查。这项看似无害的禁令很快就会被驱逐出境。

— 培根·布拉德

@Wildcard FWIW大多数地方都不会仅仅告诉您他们如何检测到机器人，因为这只会使他们抓捕到的机器人作者改变现状。也就是说，除了检测机器人的请求速度外，还有许多其他信号。但是，如果您玩的不错，不做一些卑鄙的事情或占用资源，那么大多数地方都不会在意。追逐那里的每个小机器人都是不值得的。

— Zypher '16

站点不能直接禁止位于NAT之后的IP。它可以对通过非匿名HTTP代理传递的IP起作用-当此类代理转发请求时，通常会将其地址附加到X-Forwarded-For标头中，因此，如果您专用网络的访问实际上必须通过此类代理可能公开内部IP；但是，大多数网站（包括维基百科）无论如何都不信任该标头中的信息，因为很容易通过欺骗来暗示无辜的IP或逃避禁令。

但是，还有其他技术试图独立于IP地址来唯一标识用户。您可以查询网络浏览器，以获取有关其及其运行系统的许多信息，例如用户代理，屏幕分辨率，插件列表等。-请参见https://github.com/carlo/jquery-浏览器指纹在实践中作为一个例子。您可以使用此类指纹来控制访问，尽管根据站点设计，您可以在不参与指纹识别过程的情况下与它进行交互，即使您无法通过漫游器提供虚假的随机数据也可以避免这种情况。如果您知道这种保护措施到位，则使用一致的指纹。这种控制方法还存在误报的风险，尤其是在移动设备上，其中可能会有大量客户在相同的库存硬件上运行相同的库存客户端（大多数人在运行特定版本的iOS的特定型号的iPhone上），例如，可能会获得相同的指纹）。

— 守望者
source

一点也不没有；许多大学，以及至少一个国家/地区，代理Web连接并添加X-Forwarded-For。

— 迈克尔·汉普顿

有趣。如果一家公司配置其Web代理来做到这一点，我个人会感到惊讶，因为它会公开有关您内部网络的一些（公认的琐碎的）信息，但是我想这取决于组织。

— Carcer

@Carcer，它不一定是真正的内部IP地址，而只是与代理的每个用户一致的东西。

— 伊恩·林罗斯

通常，IP地址不足以提供正确的禁令信息。因此，高级网络会占用较高的网络堆栈空间。

通常通过限制初始TCP连接设置的速率来处理拒绝服务（DoS）攻击（您担心会造成这种攻击）。这意味着愿意等待的合法用户将获得通过，而那些正试图消耗服务器资源的用户将被减慢到无害的程度。然后，DoS演变为分布式DoS（DDoS）攻击。

与服务器建立连接后，您可以根据需要发出任意数量的请求，Web服务器管理可以配置要处理的请求数量。

无论如何，Web服务器可能可以比本地网关处理更多的容量，这可能是用例中的限制因素。我敢打赌，您的大学网络管理员会比Wikipedia来敲门。

成为一个良好的Internet公民很重要，因此我将向机器人添加速率限制代码。

还应该指出的是，维基百科提供了数据转储，因此实际上并不需要拖网捕捞。

— 菲尔·汉嫩
source