wget手册页提到的用于阻止“自动检索程序”的“ 2001年文章”是什么?


11

wget手册页指出这一点,下的部分--random-wait参数:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

我想获得此文章的副本以供阅读,并尝试在Internet上进行许多搜索以确定该文章。但是,通过这些搜索,我只能找到wget在不同网站上托管的手册页。和其他与该主题完全没有关系的研究论文。

有谁知道所指的是哪篇文章,以及在哪里可以得到副本?


我正在浏览wget邮件列表,发现了以下内容:lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u 2015年

Answers:


15

尽管没有直接回答,git blamegit log透露,此款是在犯推出2c41d783由一种叫做提交者hniksic,谁原来是赫尔沃耶尼克希奇。可以在wget的ChangeLog文件中找到他的电子邮件地址(出于明显的原因,我不会在此处发布它)。我建议直接问他,因为他可能是给出更充分答案的最佳人选。在此期间,您可以考虑问他是否愿意相应地更新联机帮助页。;)


4

我认为可能是这篇文章:

使用基本SAS从Web日志创建有意义的数据

有一段讨论了C类范围的阻塞:

一旦将IP地址分为各个组成部分,对IP地址范围的过滤就很简单。针对前两个八位位组(例如168.126.xx.xx)执行B类过滤器。在上面的代码示例中,此变量是Onetwo。C类范围更常见,因为它们以整个服务器为目标并使用四个八位字节中的三个,例如168.126.56.xx。在上面的代码示例中,该字段3假定Usrhost是Web日志的TCP / IP地址值。

wget在基于用户代理基于字符串的阻止中提到了一个:

我们用于用户代理字符串识别的首选方法是利用索引模式匹配功能。例如:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

这是2001年Google搜索中“日志分析wget”的第五个结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.