除了“ Disallow /”之外,还可以控制Internet存档吗?


13

是否有任何机制可以控制网站上Internet档案的存档?我知道禁止添加所有页面:

User-agent: ia_archiver
Disallow: /
  1. 我可以告诉机器人我希望他们每月或每年一次爬网我的网站吗?

  2. 我的网站/页面由于资产未被提取而无法/未正确存档。如果要抢占该网站,是否可以告诉Internet Archive bot它需要什么资产?


我对这个答案也很感兴趣。+1 :)
Tim Post

Answers:


8

注意:此答案越来越过时。

Internet档案馆网络收藏的最大贡献者是Alexa Internet。几个月后,Alexa出于其目的爬行的材料已捐赠给IA。添加问题中提到的禁止规则不会影响这些爬网,但是Wayback会“追溯地”兑现它们(拒绝访问,该材料仍将保留在存档中-如果您确实想保留您的材料,则应排除Alexa的机器人Internet存档)。

可能有几种方法可以影响Alexa的爬网,但是我对此并不熟悉。

自IA开发了自己的搜寻器(Heritrix)以来,他们就开始进行自己的搜寻,但是这些搜寻往往是针对性的搜寻(它们为美国国会图书馆进行选举搜寻,并且已经针对法国和澳大利亚进行了国家搜寻)。他们没有参与Google和Alexa进行的那种持续的世界范围爬网。IA的最大爬网是一个特殊的项目,用于爬网20亿页。

由于这些爬都在从项目的具体因素得出的时间表运行,可以在不影响他们经常访问您的网站或如果他们访问您的网站。

直接影响IA爬网的方式和时间的唯一方法是使用其Archive-It服务。该服务允许您指定自定义爬网。最终的数据将(最终)合并到IA的Web集合中。但是,这是一项付费订阅服务。


3
您对IA进行自己的爬网的评论在2011年是正确的,而在2016年则不再适用:现在,我们自己进行许多爬网。
格雷格·林达希尔

@GregLindahl,欢迎您为这个问题添加更新的答案
Stephen Ostermiller

2

大多数搜索引擎都支持“ Crawl-delay”指令,但是我不知道IA是否支持。您可以尝试:

User-agent: ia_archiver
Crawl-delay: 3600

这会将请求之间的延迟限制为3600秒(即1小时),或每月约700个请求。

我认为#2不可能-IA机器人会在认为合适的时候抢占资产。它可能有文件大小限制,以避免使用过多的存储空间。


@Kris:设置爬网延迟应该由代理来完成。如果您有30页,并且告诉抓取工具每天只点击一次,则每页可能大约每30天刷新一次。(显然,这不是保证。)
DisgruntledGoat 2010年

从理论上讲,是的,但是,如果您要进行档案爬网,则永远不会遵循这样的规则。每天在网站上爬网意味着您无法在特定的时间获得对网站的良好捕获。如果要尊重此属性,则在任何存档爬网中的上限为1-5分钟。
克里斯(Kris)

好的,我明白你的意思了。
DisgruntledGoat 2010年

我一直在查看最近发布的Heritrix 3,并且看到它们已经添加了对crawl-delay指令的处理,但是默认情况下,它最多仅遵守300秒(5分钟)的规定。
克里斯(Kris)2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.