如何正确(禁止)使用archive.org机器人?事情变了吗?


10

我有一个网站,我通常不希望被搜索引擎索引,但我希望将其永久保存在archive.org上。所以我robots.txt从这里开始:

User-agent: *
Disallow: /

今天,根据archive.org,我必须在其中添加以下内容robots.txt以允许其漫游器:

User-agent: ia_archiver
Disallow:

但是,至少在几年前,我已经完成了他们的指示,至少添加了以下内容:

User-agent: archive.org_bot
Disallow:

然后还有另一个消息来源声称您必须在Disallows上加上两个,再加上一个:

User-agent: ia_archiver-web.archive.org 
Disallow:

请注意,Disallow: /如果您希望漫游器存档您的网站,则需要输入。

IA bot发生了变化吗?如果是这样,什么时候?

推荐的方法是什么?我现在是否应该允许所有这三个名称,并希望IA将来不再更改其机器人名称?


我只知道ia_archiver。其他的给我一个惊喜。你有这个链接吗?我问的原因是archive.org仍然访问我的网站,所以我不得不按IP地址阻止它们。你还别说,你难道要允许archive.org但后来谈论阻止它。我只是想更清楚一点,这些链接可以为我们所有人提供帮助。提前致谢!
closetnoc 2014年

更新了问题。希望现在更清楚。微小的版本:我不希望这个网站上的搜索引擎机器人,我想要archive.org机器人。但是也许我应该扭转这个问题,因为那是大多数人想要的?
kqw 2014年

实际上,如果您不使用其中的任何一个,则表示您允许使用archive.org,前提是您没有使用总括语句进行阻塞。
closetnoc

仅使用“ ia_archiver”也应阻止“ ia_archiver-web.archive.org”,因此后者似乎是不必要的(前提是该机器人遵循标准)。
怀特先生2014年

您是否在访问日志中看到ia-archiver(或archive.org_bot)漫游器?
MrWhite 2014年

Answers:


9

更新:正如@KevinFegan在评论中指出的那样,其文档已更改。下半部分描述了Internet存档在过去(至少在2014年)是如何处理的。


他们的常见问题解答如何将我的网站页面排除在Wayback Machine之外?指的是从Wayback机器上删除文档,该文档称为其bot的文档ia_archiver

因此,此记录应允许其漫游器抓取您的整个网站:

User-agent: ia_archiver
Disallow:

组的顺序无关紧要。匹配的最具体(即最长)的用户代理是获胜的代理。*仅当没有其他组匹配时,该组才匹配。
怀特先生2014年

@ w3d:是的,我删除了这一部分。感谢您提供的信息:)
2014年

1
显然,这已经随着时间而改变。我在您提供的常见问题页面上以及从2017年4月25日开始在这个Archive.org博客页面上都找不到“ ia_archiver” ,马克·格雷厄姆说:Alexa Internet使用的是“ ia_archiver”用户代理,而不是Internet存档。
凯文·费根

@KevinFegan:感谢您的通知!我更新了答案,以链接到包含该名称的文档的存档版本。
Unor

我喜欢他们如何故意使事情变得复杂,这样他们才能摆脱困境!
Ultralisk

5

这里确实有两个问题:

  1. 请问robots.txt在您的网站不允许(块)抓取您的网站韦巴克。
  2. Wayback会抓取您的网站。

对于第1点:
正如其他人所说,robots.txt的正确条目是:

User-agent: ia_archiver
Disallow:

请记住,Wayback可能需要一段时间(可能要花很长时间),才能注意到您对robots.txt所做的任何更改。

要检查robots.txt您网站上的是否允许 Wayback抓取您的网站,请执行以下操作:

  1. 转到此URL:https : //archive.org/web/
  2. 在页面顶部的框中,输入您网站上页面的URL,然后单击"Browse History"按钮。
  3. 或者,在“立即保存页面”下的框中(当前在右侧底部附近),输入您网站上页面的URL,然后单击"Save Page"按钮。

此时,您应该看到3件事之一:

  1. 您会看到一条错误消息,表明Wayback由于“ robots.txt”而无法访问该网站上的页面。
  2. 您将在您的站点上看到历史保存点的“日历”。在这种情况下,您知道Wayback不会被阻止抓取您的网站。
  3. 或者,您将看到一条消息,指示Wayback没有该页面的存档,并且提供了单击链接以将该页面添加到Wayback的提议。同样,在这种情况下,您知道Wayback也不会被阻止抓取您的网站。


现在,对于第二点:

威尔韦巴克抓取您的网站?

仅仅因为您允许 Wayback爬网您的网站,并不意味着他们(曾经)会爬网您的网站。

根据Wayback常见问题解答(重点添加):

如何使我的网站包含在Wayback Machine中?

我们存档的大部分Web数据来自我们自己的爬网或Alexa Internet的爬网。两个组织都没有“立即抓取我的网站!” 提交过程。Internet档案库的爬网往往会找到与其他站点链接良好的站点。确保我们找到您的网站的最佳方法是确保它包含在联机目录中,并且类似/相关的网站链接到您。

Alexa Internet使用自己的方法来发现要爬网的站点。安装免费的Alexa工具栏并访问您要爬网的站点以确保他们知道它可能会有所帮助。

无论是谁爬网该网站,都应确保该网站的“ robots.txt”规则和页面内META机械手指令不会告诉爬网者避开您的网站。


更新:2017年5月9日

其他人则留下评论/答案,表明Archive.org不再尊重robots.txt。也许这是一个“进行中的工作”,最终将是这种情况,但是我还没有看到这种新行为。

这样做的情况下,似乎来自这篇文章:robots.txt是一个遗书:Robots.txt的通过archiveteam.org。尽管该页面上几乎没有什么好说的关于“ Robots.txt”的,但没有提到Archive.org将不再尊重robots.txt。

还要注意:该文章托管于archiveteam.org,这绝对不是archive.org,并且我不确定archive.org和之间是否存在任何(正式)关系archiveteam.org

实际上,关于Archive Team的此页面似乎声明了和之间的区别(添加了强调):archive.org archive.orgarchiveteam.org

档案小组(成立于2009年)(不要与archive.org Archive-It小组混为一谈)是一个流氓档案工作者团体,致力于为历史和数字遗产的目的保存快速死亡或删除的网站的副本。...

无论如何,我决定尝试一下,并且发现,至少在这个时候,Archive.org STILL仍然尊重robots.txt:

  1. 我在eBay上发现了一个随机物品:项目#:131795294232
  2. 点击查看出售的物品:

易趣物品出售

  1. 将打开“出售的物品”页面:http : //offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232将链接复制到剪贴板。
  2. 转到web.archive.org,然后粘贴来自eBay的链接。
  3. 您将看到archive.org指示“由于robots.txt而无法显示页面”。

Wayback / Archive.org“错误”消息

因此,在这个时候,我仍然不敢相信,但是我很想证明自己是错误的……如果这是真的,那将是很棒的。


用robots.txt锁定archive.org将不再起作用:
wortwart

@wortwart-如果是这样的话,那就太好了(请参阅我添加到答案中的更新)。您是否有指向此信息的链接?
凯文·费根

当然:blog.archive.org/2017/04/17/… ““几个月前,我们停止引用美国政府和军事网站上的robots.txt文件(...),我们现在正在寻求更广泛的用途。 ”
wortwart

4

更新2017

存档机器人现在不再关心您的robots.txt。

如果您确实要阻止它,请根据此页面向他们发送电子邮件,或通过htaccess阻止他们的IP地址。


2
见2017年5月更新我的答案:如何正确(DIS)允许archive.org机器人...? 。除政府网站外,Archive bot 仍然关心robots.txt文件。请注意,您提到的文章来自www.archiveteam.org,与Archive.org不相关。--->
Kevin Fegan

--->尽管该页面上几乎没有什么好说关于“ Robots.txt”的内容,但没有提到Archive.org将不再尊重robots.txt。相关的Archive.org文章是:用于搜索引擎的Robots.txt不适用于Web存档。“几个月前,我们不再引用美国政府和军事网站上的robots.txt文件(...),我们现在正在寻求更广泛的用途。”
凯文·菲根

是。现在,存档完全忽略了删除请求。
Ultralisk

3

robots.txt ia_archiver禁止输入(带有“ /”)应该可以满足您所描述的需求(“永久保存”,但尚未公开)。

我只是做了一个快速测试,对至少在过去十年中拥有它的网站注释掉ia_archiver Disallow条目。然后我在archive.org/web上查找了该站点,并显示了它在2007、2008、2009、2011、2012、2013、2014、2015、2016和2017年收集的抓斗!这意味着Archive.org在这些年来从未严格遵守别人认为是“请勿存档”的声明,而只是不公开存档的副本。


2
  1. “ia_archiver”现在是(AB)用Alexa使用的,有些来源说:12
  2. 现在(2018)Archive.org不再完全尊重“ robots.txt”。3不仅适用于mil / gov页面,而且适用于所有页面。从我自己的私人网站开始,该网站自2012年以来拥有并拥有ia(不包括ia)。现在我突然发现它已经被他们爬行并保存了多年,现在整个历史可见。一种被背叛的感觉。> :-(

1

我尝试了该robots.txt方法,但没有成功。因此,我通过他们的电子邮件info@archive.org与该网站联系:

你好,

您能从存档中删除我的个人网站dimitarnestorov.com吗?

谢谢!

迪米塔尔

我得到以下答案:

你好,

Internet档案库可以从Wayback Machine(web.archive.org)中排除网站,但是我们首先请您执行以下任何一项操作,请您帮助我们确认您是dimitarnestorov.com的网站所有者或内容作者:

(注意:这些选项中的某些选项可以参考先前Wayback Machine捕获中的内容和/或您可能与指定时间段有关的文档。)

  • 在网站的当前版本上发布您的请求(并向我们发送链接)。
  • 从网站上列出的主要电子邮件联系人发送您的请求,并向我们显示该请求的位置(如果存在)。
  • 从注册人的电子邮件(如果可以在WHOIS查找中公开查看,则可以将我们链接到)或网站上列出的网站站长的电子邮件中发送请求。
  • 向我们指出您的个人信息(姓名,联系方式,自我形象)在网站上的显示方式,以标识您是该网站的所有者或您希望排除的内容的作者-在这种情况下,我们要求通过扫描有效的带有照片的身份证件来验证您的身份(可以编辑敏感信息,例如出生日期,地址或电话号码)。
  • 将托管公司或注册商的通讯转发给我们,以域名所有者的身份写给您。

(注意:仅提及某人的名称/用户名和/或站点/页面/帐户之间的超链接/重定向本身通常不足以排除档案。)

如果您无法使用这些选项,请在回复此电子邮件时告知我们。

如果您能帮助我们保留尽可能多的档案,我们将不胜感激。因此,如果您只关心与您相关的特定URL或目录,请告知我们,以便我们将其余的归档文件保留为可用状态。

您可能知道,Internet档案馆是一个非营利性的数字图书馆,它试图通过Wayback Machine维护可免费访问的Internet历史记录。Internet存档未将存档中的材料用于商业利益。


互联网档案馆团队

我创建wayback-removal-request.html的内容如下(甚至不是有效的HTML):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

上载它,并使用提供该网页的URL回复给他们的电子邮件,后来我收到以下答复:

你好,

下面您的电子邮件中引用的网站/ URL已提交,以排除在Wayback Machine上,网址http://www.archive.org(与过去的所有记录有关):

dimitarnestorov.com

请留出最多一天的时间来执行流程的自动化部分,并使更改生效。


互联网档案馆团队

当我检查了几个小时后,我的网站被删除了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.