是否有任何机制可以控制网站上Internet档案的存档?我知道禁止添加所有页面:
User-agent: ia_archiver
Disallow: /
我可以告诉机器人我希望他们每月或每年一次爬网我的网站吗?
我的网站/页面由于资产未被提取而无法/未正确存档。如果要抢占该网站,是否可以告诉Internet Archive bot它需要什么资产?
是否有任何机制可以控制网站上Internet档案的存档?我知道禁止添加所有页面:
User-agent: ia_archiver
Disallow: /
我可以告诉机器人我希望他们每月或每年一次爬网我的网站吗?
我的网站/页面由于资产未被提取而无法/未正确存档。如果要抢占该网站,是否可以告诉Internet Archive bot它需要什么资产?
Answers:
注意:此答案越来越过时。
Internet档案馆网络收藏的最大贡献者是Alexa Internet。几个月后,Alexa出于其目的爬行的材料已捐赠给IA。添加问题中提到的禁止规则不会影响这些爬网,但是Wayback会“追溯地”兑现它们(拒绝访问,该材料仍将保留在存档中-如果您确实想保留您的材料,则应排除Alexa的机器人Internet存档)。
可能有几种方法可以影响Alexa的爬网,但是我对此并不熟悉。
自IA开发了自己的搜寻器(Heritrix)以来,他们就开始进行自己的搜寻,但是这些搜寻往往是针对性的搜寻(它们为美国国会图书馆进行选举搜寻,并且已经针对法国和澳大利亚进行了国家搜寻)。他们没有参与Google和Alexa进行的那种持续的世界范围爬网。IA的最大爬网是一个特殊的项目,用于爬网20亿页。
由于这些爬都在从项目的具体因素得出的时间表运行,可以在不影响他们经常访问您的网站或如果他们访问您的网站。
直接影响IA爬网的方式和时间的唯一方法是使用其Archive-It服务。该服务允许您指定自定义爬网。最终的数据将(最终)合并到IA的Web集合中。但是,这是一项付费订阅服务。
大多数搜索引擎都支持“ Crawl-delay”指令,但是我不知道IA是否支持。您可以尝试:
User-agent: ia_archiver
Crawl-delay: 3600
这会将请求之间的延迟限制为3600秒(即1小时),或每月约700个请求。
我认为#2不可能-IA机器人会在认为合适的时候抢占资产。它可能有文件大小限制,以避免使用过多的存储空间。