这里确实有两个问题:
- 请问
robots.txt
在您的网站不允许(块)抓取您的网站韦巴克。
- Wayback会抓取您的网站。
对于第1点:
正如其他人所说,robots.txt的正确条目是:
User-agent: ia_archiver
Disallow:
请记住,Wayback可能需要一段时间(可能要花很长时间),才能注意到您对robots.txt所做的任何更改。
要检查robots.txt
您网站上的是否允许 Wayback抓取您的网站,请执行以下操作:
- 转到此URL:https : //archive.org/web/
- 在页面顶部的框中,输入您网站上页面的URL,然后单击
"Browse History"
按钮。
- 或者,在“立即保存页面”下的框中(当前在右侧底部附近),输入您网站上页面的URL,然后单击
"Save Page"
按钮。
此时,您应该看到3件事之一:
- 您会看到一条错误消息,表明Wayback由于“ robots.txt”而无法访问该网站上的页面。
- 您将在您的站点上看到历史保存点的“日历”。在这种情况下,您知道Wayback不会被阻止抓取您的网站。
- 或者,您将看到一条消息,指示Wayback没有该页面的存档,并且提供了单击链接以将该页面添加到Wayback的提议。同样,在这种情况下,您知道Wayback也不会被阻止抓取您的网站。
现在,对于第二点:
威尔韦巴克抓取您的网站?
仅仅因为您允许 Wayback爬网您的网站,并不意味着他们(曾经)会爬网您的网站。
根据Wayback常见问题解答(重点添加):
我们存档的大部分Web数据来自我们自己的爬网或Alexa Internet的爬网。两个组织都没有“立即抓取我的网站!” 提交过程。Internet档案库的爬网往往会找到与其他站点链接良好的站点。确保我们找到您的网站的最佳方法是确保它包含在联机目录中,并且类似/相关的网站链接到您。
Alexa Internet使用自己的方法来发现要爬网的站点。安装免费的Alexa工具栏并访问您要爬网的站点以确保他们知道它可能会有所帮助。
无论是谁爬网该网站,都应确保该网站的“ robots.txt”规则和页面内META机械手指令不会告诉爬网者避开您的网站。
更新:2017年5月9日
其他人则留下评论/答案,表明Archive.org不再尊重robots.txt。也许这是一个“进行中的工作”,最终将是这种情况,但是我还没有看到这种新行为。
这样做的情况下,似乎来自这篇文章:robots.txt是一个遗书:Robots.txt的通过archiveteam.org
。尽管该页面上几乎没有什么好说的关于“ Robots.txt”的,但没有提到Archive.org将不再尊重robots.txt。
还要注意:该文章托管于archiveteam.org
,这绝对不是archive.org
,并且我不确定archive.org
和之间是否存在任何(正式)关系archiveteam.org
。
实际上,关于Archive Team的此页面似乎声明了和之间的区别(添加了强调):archive.org
archive.org
archiveteam.org
档案小组(成立于2009年)(不要与archive.org Archive-It小组混为一谈)是一个流氓档案工作者团体,致力于为历史和数字遗产的目的保存快速死亡或删除的网站的副本。...
无论如何,我决定尝试一下,并且发现,至少在这个时候,Archive.org STILL仍然尊重robots.txt:
- 我在eBay上发现了一个随机物品:项目#:131795294232
- 点击查看出售的物品:
- 将打开“出售的物品”页面:http : //offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232将链接复制到剪贴板。
- 转到web.archive.org,然后粘贴来自eBay的链接。
- 您将看到
archive.org
指示“由于robots.txt而无法显示页面”。
因此,在这个时候,我仍然不敢相信,但是我很想证明自己是错误的……如果这是真的,那将是很棒的。