如何正确（禁止）使用archive.org机器人？事情变了吗？

10

我有一个网站，我通常不希望被搜索引擎索引，但我希望将其永久保存在archive.org上。所以我robots.txt从这里开始：

User-agent: *
Disallow: /

今天，根据archive.org，我必须在其中添加以下内容robots.txt以允许其漫游器：

User-agent: ia_archiver
Disallow:

但是，至少在几年前，我已经完成了他们的指示，至少添加了以下内容：

User-agent: archive.org_bot
Disallow:

然后还有另一个消息来源声称您必须在Disallows上加上两个，再加上一个：

User-agent: ia_archiver-web.archive.org 
Disallow:

请注意，Disallow: /如果您不希望漫游器存档您的网站，则需要输入。

IA bot发生了变化吗？如果是这样，什么时候？

推荐的方法是什么？我现在是否应该允许所有这三个名称，并希望IA将来不再更改其机器人名称？

web-crawlers robots.txt internet-archive

— q
source

我只知道ia_archiver。其他的给我一个惊喜。你有这个链接吗？我问的原因是archive.org仍然访问我的网站，所以我不得不按IP地址阻止它们。你还别说，你难道要允许archive.org但后来谈论阻止它。我只是想更清楚一点，这些链接可以为我们所有人提供帮助。提前致谢！

— closetnoc 2014年

更新了问题。希望现在更清楚。微小的版本：我不希望这个网站上的搜索引擎机器人，我想要archive.org机器人。但是也许我应该扭转这个问题，因为那是大多数人想要的？

— kqw 2014年

实际上，如果您不使用其中的任何一个，则表示您允许使用archive.org，前提是您没有使用总括语句进行阻塞。

— closetnoc

仅使用“ ia_archiver”也应阻止“ ia_archiver-web.archive.org”，因此后者似乎是不必要的（前提是该机器人遵循标准）。

— 怀特先生2014年

您是否在访问日志中看到ia-archiver（或archive.org_bot）漫游器？

— MrWhite 2014年

9

更新：正如@KevinFegan在评论中指出的那样，其文档已更改。下半部分描述了Internet存档在过去（至少在2014年）是如何处理的。

他们的常见问题解答如何将我的网站页面排除在Wayback Machine之外？指的是从Wayback机器上删除文档，该文档称为其bot的文档ia_archiver。

因此，此记录应允许其漫游器抓取您的整个网站：

User-agent: ia_archiver
Disallow:

— Unor
source

组的顺序无关紧要。匹配的最具体（即最长）的用户代理是获胜的代理。*仅当没有其他组匹配时，该组才匹配。

— 怀特先生2014年

@ w3d：是的，我删除了这一部分。感谢您提供的信息:)

— 2014年

1

显然，这已经随着时间而改变。我在您提供的常见问题页面上以及从2017年4月25日开始在这个Archive.org博客页面上都找不到“ ia_archiver” ，马克·格雷厄姆说：Alexa Internet使用的是“ ia_archiver”用户代理，而不是Internet存档。

— 凯文·费根

@KevinFegan：感谢您的通知！我更新了答案，以链接到包含该名称的文档的存档版本。

— Unor

我喜欢他们如何故意使事情变得复杂，这样他们才能摆脱困境！

— Ultralisk

5

这里确实有两个问题：

请问robots.txt在您的网站不允许（块）抓取您的网站韦巴克。
Wayback会抓取您的网站。

对于第1点：
正如其他人所说，robots.txt的正确条目是：

User-agent: ia_archiver
Disallow:

请记住，Wayback可能需要一段时间（可能要花很长时间），才能注意到您对robots.txt所做的任何更改。

要检查robots.txt您网站上的是否允许 Wayback抓取您的网站，请执行以下操作：

转到此URL：https : //archive.org/web/
在页面顶部的框中，输入您网站上页面的URL，然后单击"Browse History"按钮。
或者，在“立即保存页面”下的框中（当前在右侧底部附近），输入您网站上页面的URL，然后单击"Save Page"按钮。

此时，您应该看到3件事之一：

您会看到一条错误消息，表明Wayback由于“ robots.txt”而无法访问该网站上的页面。
您将在您的站点上看到历史保存点的“日历”。在这种情况下，您知道Wayback不会被阻止抓取您的网站。
或者，您将看到一条消息，指示Wayback没有该页面的存档，并且提供了单击链接以将该页面添加到Wayback的提议。同样，在这种情况下，您知道Wayback也不会被阻止抓取您的网站。

现在，对于第二点：

威尔韦巴克抓取您的网站？

仅仅因为您允许 Wayback爬网您的网站，并不意味着他们（曾经）会爬网您的网站。

根据Wayback常见问题解答（重点添加）：

如何使我的网站包含在Wayback Machine中？

我们存档的大部分Web数据来自我们自己的爬网或Alexa Internet的爬网。两个组织都没有“立即抓取我的网站！” 提交过程。Internet档案库的爬网往往会找到与其他站点链接良好的站点。确保我们找到您的网站的最佳方法是确保它包含在联机目录中，并且类似/相关的网站链接到您。

Alexa Internet使用自己的方法来发现要爬网的站点。安装免费的Alexa工具栏并访问您要爬网的站点以确保他们知道它可能会有所帮助。

无论是谁爬网该网站，都应确保该网站的“ robots.txt”规则和页面内META机械手指令不会告诉爬网者避开您的网站。

更新：2017年5月9日

其他人则留下评论/答案，表明Archive.org不再尊重robots.txt。也许这是一个“进行中的工作”，最终将是这种情况，但是我还没有看到这种新行为。

这样做的情况下，似乎来自这篇文章：robots.txt是一个遗书：Robots.txt的通过archiveteam.org。尽管该页面上几乎没有什么好说的关于“ Robots.txt”的，但没有提到Archive.org将不再尊重robots.txt。

还要注意：该文章托管于archiveteam.org，这绝对不是archive.org，并且我不确定archive.org和之间是否存在任何（正式）关系archiveteam.org。

实际上，关于Archive Team的此页面似乎声明了和之间的区别（添加了强调）：archive.org archive.orgarchiveteam.org

档案小组（成立于2009年）（不要与archive.org Archive-It小组混为一谈）是一个流氓档案工作者团体，致力于为历史和数字遗产的目的保存快速死亡或删除的网站的副本。...

无论如何，我决定尝试一下，并且发现，至少在这个时候，Archive.org STILL仍然尊重robots.txt：

我在eBay上发现了一个随机物品：项目＃：131795294232
点击查看出售的物品：

将打开“出售的物品”页面：http : //offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232将链接复制到剪贴板。
转到web.archive.org，然后粘贴来自eBay的链接。
您将看到archive.org指示“由于robots.txt而无法显示页面”。

因此，在这个时候，我仍然不敢相信，但是我很想证明自己是错误的……如果这是真的，那将是很棒的。

— 凯文·费根
source

用robots.txt锁定archive.org将不再起作用：

— wortwart

@wortwart-如果是这样的话，那就太好了（请参阅我添加到答案中的更新）。您是否有指向此信息的链接？

— 凯文·费根

当然：blog.archive.org/2017/04/17/… ““几个月前，我们停止引用美国政府和军事网站上的robots.txt文件（...），我们现在正在寻求更广泛的用途。 ”

— wortwart

4

更新2017

存档机器人现在不再关心您的robots.txt。

如果您确实要阻止它，请根据此页面向他们发送电子邮件，或通过htaccess阻止他们的IP地址。

— Goyllo
source

2

见2017年5月更新我的答案：如何正确（DIS）允许archive.org机器人...？。除政府网站外，Archive bot 仍然关心robots.txt文件。请注意，您提到的文章来自www.archiveteam.org，与Archive.org不相关。--->

— Kevin Fegan

--->尽管该页面上几乎没有什么好说关于“ Robots.txt”的内容，但没有提到Archive.org将不再尊重robots.txt。相关的Archive.org文章是：用于搜索引擎的Robots.txt不适用于Web存档。“几个月前，我们不再引用美国政府和军事网站上的robots.txt文件（...），我们现在正在寻求更广泛的用途。”

— 凯文·菲根

是。现在，存档完全忽略了删除请求。

— Ultralisk

3

robots.txt ia_archiver禁止输入（带有“ /”）应该可以满足您所描述的需求（“永久保存”，但尚未公开）。

我只是做了一个快速测试，对至少在过去十年中拥有它的网站注释掉ia_archiver Disallow条目。然后我在archive.org/web上查找了该站点，并显示了它在2007、2008、2009、2011、2012、2013、2014、2015、2016和2017年收集的抓斗！这意味着Archive.org在这些年来从未严格遵守别人认为是“请勿存档”的声明，而只是不公开存档的副本。

— 麦克风
source

2

“ia_archiver”现在是（AB）用Alexa使用的，有些来源说：1，2。
现在（2018）Archive.org不再完全尊重“ robots.txt”。3不仅适用于mil / gov页面，而且适用于所有页面。从我自己的私人网站开始，该网站自2012年以来拥有并拥有ia（不包括ia）。现在我突然发现它已经被他们爬行并保存了多年，现在整个历史可见。一种被背叛的感觉。> :-(

— 卡尔
source

1

我尝试了该robots.txt方法，但没有成功。因此，我通过他们的电子邮件info@archive.org与该网站联系：

你好，

您能从存档中删除我的个人网站dimitarnestorov.com吗？

谢谢！

迪米塔尔

我得到以下答案：

你好，

Internet档案库可以从Wayback Machine（web.archive.org）中排除网站，但是我们首先请您执行以下任何一项操作，请您帮助我们确认您是dimitarnestorov.com的网站所有者或内容作者：

（注意：这些选项中的某些选项可以参考先前Wayback Machine捕获中的内容和/或您可能与指定时间段有关的文档。）

在网站的当前版本上发布您的请求（并向我们发送链接）。

从网站上列出的主要电子邮件联系人发送您的请求，并向我们显示该请求的位置（如果存在）。

从注册人的电子邮件（如果可以在WHOIS查找中公开查看，则可以将我们链接到）或网站上列出的网站站长的电子邮件中发送请求。

向我们指出您的个人信息（姓名，联系方式，自我形象）在网站上的显示方式，以标识您是该网站的所有者或您希望排除的内容的作者-在这种情况下，我们要求通过扫描有效的带有照片的身份证件来验证您的身份（可以编辑敏感信息，例如出生日期，地址或电话号码）。

将托管公司或注册商的通讯转发给我们，以域名所有者的身份写给您。

（注意：仅提及某人的名称/用户名和/或站点/页面/帐户之间的超链接/重定向本身通常不足以排除档案。）

如果您无法使用这些选项，请在回复此电子邮件时告知我们。

如果您能帮助我们保留尽可能多的档案，我们将不胜感激。因此，如果您只关心与您相关的特定URL或目录，请告知我们，以便我们将其余的归档文件保留为可用状态。

您可能知道，Internet档案馆是一个非营利性的数字图书馆，它试图通过Wayback Machine维护可免费访问的Internet历史记录。Internet存档未将存档中的材料用于商业利益。

互联网档案馆团队

我创建wayback-removal-request.html的内容如下（甚至不是有效的HTML）：

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

上载它，并使用提供该网页的URL回复给他们的电子邮件，后来我收到以下答复：

你好，

下面您的电子邮件中引用的网站/ URL已提交，以排除在Wayback Machine上，网址为http://www.archive.org（与过去的所有记录有关）：

dimitarnestorov.com

请留出最多一天的时间来执行流程的自动化部分，并使更改生效。

互联网档案馆团队

当我检查了几个小时后，我的网站被删除了。

— 迪米塔尔·涅斯托罗夫（Dimitar Nestorov）
source