8

我想拒绝archive.is访问我的网站。（未经我的同意，我不希望该网站缓存我的信息）。

你知道这有可能吗？

web-crawlers noarchive

— 某人2332
source

6

好的。到目前为止，这是一个新功能（至少对我而言），并且非常有趣。我不会因此而陷入困境。

当我写这篇文章的时候，我几乎没有睡眠。我错过了@unor友善指出的几件事，因此我必须调整自己的答案，并在应得的信贷额度上给予好评。谢谢@unor！

尽管我在46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]上，Archive.is已注册到Denis Petrov，该人正在使用Google网站托管帐户，其IP地址为104.196.7.222 [AS15169 GOOGLE-Google Inc.]，但我使用的是Google Webhost帐户。主机公司最近可能已更改。

今天的Archive.to也由Denis Petrov拥有，并且与Archive.is类似（如果不同）。出于此答案的目的，我将介绍Archive.is，您可以假定它适用于Today.Today。今天的Archive.to确实存在于另一个IP地址78.108.190.21 [AS62160 GM-AS Yes Networks Unlimited Ltd]上。请理解，丹尼斯·彼得罗夫（Denis Petrov）拥有70个域。如果不深入研究，可能有更多站点值得关注。我将为所有三个IP地址提供阻止代码。

Archive.is是用户指导的。假定您正在归档自己的页面。除了这种情况，Archive.is可以被视为内容爬虫垃圾邮件站点。

Archive.is走的很危险。它通过单页抓取使用其他网站的内容。最终，原始内容的搜索潜力至少被稀释了，并且有可能被完全篡改。更糟糕的是，原始站点未被引用为内容的创建者。Archive.is使用规范标签，但它是它自己的站点/页面。

例： <link rel="canonical" href="http://archive.is/Eo267"/>

再加上缺乏对谁提交网站以及他们是否有权访问该网站的控制权，缺乏清晰的删除信息，以及联系机制有些模糊和潜在的薄弱，Archive.is具有真正的潜力。麻烦。

您可以在此处找到更多IP地址信息：https : //www.robtex.com/#!dns=archive.is

如何按IP地址78.108.190.21进行阻止

使用思科防火墙。

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

**注意：您可以用您选择的ACL名称替换[提供的ACL名称]。

使用Nginx。

编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容：

deny 78.108.190.21/32;

使用Linux IPTables防火墙。**注意：请谨慎使用。

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

使用Microsoft IIS Web服务器

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

使用Apache .htaccess。

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

如何按IP地址46.17.100.191进行阻止。

使用思科防火墙。

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

**注意：您可以用您选择的ACL名称替换[提供的ACL名称]。

使用Nginx。

编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容：

deny 46.17.100.191/32;

使用Linux IPTables防火墙。**注意：请谨慎使用。

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

使用Microsoft IIS Web服务器

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

使用Apache .htaccess。

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

如何按IP地址104.196.7.222进行阻止。

使用思科防火墙。

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

**注意：您可以用您选择的ACL名称替换[提供的ACL名称]。

使用Nginx。

编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容：

deny 104.196.7.222/32;

使用Linux IPTables防火墙。**注意：请谨慎使用。

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

使用Microsoft IIS Web服务器

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

使用Apache .htaccess。

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

您可能需要从任何一组代码中阻止多个IP地址。这还不清楚。

— 壁橱
source

非常翔实！我100％同意您的意见，但恐怕该网站使用了更多IP地址。当您存档提供访问者IP的页面时（如wtfismyip.com/），您会注意到这一点。到目前为止，我发现：2a01：4f8：190：5388 :: 2：2，2a01：4f8：190：6388 :: 2：2，2a01：4f8：190：638c :: 2：2，46.17.100.191，78.46 .174.144、78.108.190.21、104.196.7.222

— someone2332 2015年

另一个：2a01：4f8：190：6396 :: 2：2。我想阻止所有以“ 2a01：4f8：190：”开头的IPv6地址。你知道我该怎么做吗？谢谢！

— someone2332

一年前，当我遇到这个问题时，我通过电子邮件将丹尼斯（Denis）的版权删除通知发送给了网站管理员存档点，并惊讶地发现第二天所有违规内容都被删除了。只是将其发布为另一个答案，但我检查了他的网站，发现我的内容已备份！我现在有确凿的证明，知道会故意侵犯版权。嗯，那就是IPTables。去年他在OVH工作，他们对过去的问题非常有帮助，尽管不确定他现在在哪里托管。

— 汤姆·布鲁斯曼

另外，请参阅去年1月超级用户的相关问答：superuser.com/a/868368（请注意随后使用的不同IP，因此这将需要不断监控和更新您的阻止列表以保持有效...）。

— 汤姆·布鲁斯曼

1

“类似的网站Archive.org已被多次起诉并败诉。”您指的是哪种情况？Google archive.org loses copyright lawsuit似乎没有找到有关裁决的相关文章。

— Damian Yerrick

3

`robots.txt`

Archive.is不会使用自动爬网页面的机器人（例如，通过跟随超链接），因此robots.txt不适用，因为它总是由用户发出命令来存档某个页面。

出于同样的原因，诸如Google的Feedfetcher（为什么Feedfetcher不遵循我的robots.txt文件？）和W3C的Validator（详细信息）之类的服务没有得到遵守robots.txt。

请参阅archive.is常见问题解答：为什么archive..is不遵守robots.txt？

`meta`- `robots`/`X-Robots-Tag`

我不确定archive.is是否应该（理想地）兑现- /中的noindex或noarchive值，或者这些技术是否也仅适用于自动程序。但是由于archive.is没有记录它，因此他们似乎目前不支持它。metarobotsX-Robots-Tag

（FWIW，每个存档页面似乎都有一个<meta name="robots" content="index,noarchive"/>。）

`User-Agent`

archive.is并未记录使用了某个特定文件User-Agent（它们可能无法识别自己，从而无法像普通浏览器一样查看页面），因此您不能使用它来阻止其在服务器级别的访问。

封锁他们的IP位址

所以既不robots.txt也不meta- robots/ X-Robots-Tag工作在这里，你可以不通过他们阻止他们User-Agent，你就必须阻止archive.is IP地址的访问。请参阅closetnoc有关IP阻止的答案，但请注意，这可能会超出预期的阻止范围，并且您可能永远无法捕获到它们的所有IP（和/或保持最新状态）。

旁注：报告功能

每个存档版本都链接到一个表单，您可以在其中报告可能的滥用情况（附加/abuse），例如，带有“ SEO问题”或“版权”的原因。但我不知道他们是否或如何处理这些案件。

— Unor
source

我正在努力工作或几乎没有睡眠，完全错过了一些您正确指出的事情。结果，我调整了答案。！我确实确实有些疯狂，有时我可以这么做。;-)哎呀！它仍然有点高。感谢您在这里的回答。我希望我可以投票给这个最佳答案。如果有人同意我的观点，我建议人们用鼠标投票给这个答案。

— closetnoc

1

为了阻止archive.is令人恶心的窃取行为（忽略robots.txt，覆盖链接规范，伪造的用户代理，无法执行站点范围内的删除），我想在上述解决方案中添加以下内容。

查找他们的IP地址

要查找他们的IP地址，请向他们提交一个由您控制的URL，以便您可以监视Web服务器日志以查看谁访问了该URL。只要Web服务器收到请求，该URL甚至都不必存在。（因此，最好使用不存在的空页面/ URL。）例如，使用如下URL：http : //example.com/fuck-you-archive.is

然后检查您的日志以查看谁访问了该URL。您可以使用grep进行检查：

grep "fuck-you-archive.is" web-server-log.txt

一旦有了IP地址，就可以使用其他答案中的解决方案将其阻止。然后再次重复该过程以查找他们使用的其他IP地址。您需要指定其他网址，以使它们再次执行HTTP请求，例如，只需将http://example.com/fuck-you-archive.is更改为http://example.com/fuck-you- archive.is?2等。

如果您不想在尝试查找其IP地址时完全不公开自己的网站，则可以使用以下便捷的HTTP请求网站：https ://requestb.in执行的步骤是：创建一个RequestBin>将“ BinURL”提交到Archive.is，并在BinURL后面附加“？SomeRandomNumber”>使用RequestBin的“？inpect”监视来自Archive.is的传入请求，并在“ Cf-Connecting-Ip”中查看其IP地址“ HTTP标头。（确保您没有将“？inspect” URL提交给Archive.is。）通过将“？SomeRandomNumber”更改为另一个数字来重复查找其他IP地址。

封锁他们的IP位址

请注意，使用IP表可以阻止使用

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

但通常会在接受HTTP流量的情况下将“ INPUT”链设置为“ DROP”策略。在这种情况下，您可能需要使用前置（插入）操作而不是附加操作，否则它不会被阻止：

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

但是，它们有很多IP地址，因此阻止完整的IP范围可能更容易。您可以使用IPTables（无需指定子网掩码）方便地执行以下操作：

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

这个范围（46.166.139.110-46.166.139.180）在很大程度上归他们所有，因为我看到过46.166.139.110和46.166.139.173之间的多个地址。

向他们的虚拟主机发送滥用投诉

他们当前正在使用NFOrce作为Web主机。有关如何对Archive.is进行投诉，请参阅https://www.nforce.com/abuse。提及：1）您的archive.is被盗的网页URL，2）提及archive.is包含被盗内容的URL，以及3）提及他们使用的IP地址。

另外，您可能想对Cloudflare（它们的CDN）投诉，出于性能原因，该CDN缓存了他们被盗的页面和图像。https://www.cloudflare.com/abuse/

— Devabc
source

1

如我们所见，archive.is正在使用DNS任意广播。

如果您使用其他名称服务器（例如，来自https://www.lifewire.com/free-and-public-dns-servers-2626062），则当前（2018-09-10）您将获得“ archive.is”的其他IP地址（挖@NAMESERVER archive.is A）

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

我使用了abuse-contacts.abusix.org（https://www.abusix.com/contactdb）来获取这些IP地址的滥用联系人：

abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru

如Cloudflare所报道，archive.is正在使用没有功能的DNS A记录来滥用其“服务”！

— 舒比杜亚
source

0

还可以考虑通过www.isnic.is（冰岛的域名注册机构）与注册商联系。isnic at isnic dot is

冰岛拥有版权法，并且书记官处对此予以承认。该注册管理机构自1980年代末以来一直存在，并且不在ICANN的管理之下。

— 尊重版权
source

拒绝访问Archive.is

如何按IP地址78.108.190.21进行阻止

如何按IP地址46.17.100.191进行阻止。

如何按IP地址104.196.7.222进行阻止。

robots.txt

meta- robots/X-Robots-Tag

User-Agent

封锁他们的IP位址

旁注：报告功能

查找他们的IP地址

封锁他们的IP位址

向他们的虚拟主机发送滥用投诉

`robots.txt`

`meta`- `robots`/`X-Robots-Tag`

`User-Agent`