大型网站(例如Wikipedia)如何处理其他IP屏蔽程序背后的漫游器?例如,在我的大学里,每个人都在搜索Wikipedia,这给它带来了很大的负担。但是,据我所知,Wikipedia只能知道大学路由器的IP,因此,如果我设置了一个“释放”的bot(请求之间只有很小的延迟),Wikipedia可以在不禁止整个组织的情况下禁止我的bot吗?站点实际上可以禁止组织网络背后的IP吗?
大型网站(例如Wikipedia)如何处理其他IP屏蔽程序背后的漫游器?例如,在我的大学里,每个人都在搜索Wikipedia,这给它带来了很大的负担。但是,据我所知,Wikipedia只能知道大学路由器的IP,因此,如果我设置了一个“释放”的bot(请求之间只有很小的延迟),Wikipedia可以在不禁止整个组织的情况下禁止我的bot吗?站点实际上可以禁止组织网络背后的IP吗?
Answers:
不,他们将禁止公共IP,并且所有被该IP NAT禁止的人也将被禁止。
尽管如果至少我们认为我们将要禁止一所大学或类似的机构,我们将与他们的虐待联系,以使他们追踪罪犯并制止问题。
站点不能直接禁止位于NAT之后的IP。它可以对通过非匿名HTTP代理传递的IP起作用-当此类代理转发请求时,通常会将其地址附加到X-Forwarded-For标头中,因此,如果您专用网络的访问实际上必须通过此类代理可能公开内部IP;但是,大多数网站(包括维基百科)无论如何都不信任该标头中的信息,因为很容易通过欺骗来暗示无辜的IP或逃避禁令。
但是,还有其他技术试图独立于IP地址来唯一标识用户。您可以查询网络浏览器,以获取有关其及其运行系统的许多信息,例如用户代理,屏幕分辨率,插件列表等。-请参见https://github.com/carlo/jquery-浏览器指纹在实践中作为一个例子。您可以使用此类指纹来控制访问,尽管根据站点设计,您可以在不参与指纹识别过程的情况下与它进行交互,即使您无法通过漫游器提供虚假的随机数据也可以避免这种情况。如果您知道这种保护措施到位,则使用一致的指纹。这种控制方法还存在误报的风险,尤其是在移动设备上,其中可能会有大量客户在相同的库存硬件上运行相同的库存客户端(大多数人在运行特定版本的iOS的特定型号的iPhone上) ,例如,可能会获得相同的指纹)。
通常,IP地址不足以提供正确的禁令信息。因此,高级网络会占用较高的网络堆栈空间。
通常通过限制初始TCP连接设置的速率来处理拒绝服务(DoS)攻击(您担心会造成这种攻击)。这意味着愿意等待的合法用户将获得通过,而那些正试图消耗服务器资源的用户将被减慢到无害的程度。然后,DoS演变为分布式DoS(DDoS)攻击。
与服务器建立连接后,您可以根据需要发出任意数量的请求,Web服务器管理可以配置要处理的请求数量。
无论如何,Web服务器可能可以比本地网关处理更多的容量,这可能是用例中的限制因素。我敢打赌,您的大学网络管理员会比Wikipedia来敲门。
成为一个良好的Internet公民很重要,因此我将向机器人添加速率限制代码。
还应该指出的是,维基百科提供了数据转储,因此实际上并不需要拖网捕捞。