拒绝访问Archive.is


8

我想拒绝archive.is访问我的网站。(未经我的同意,我不希望该网站缓存我的信息)。

你知道这有可能吗?

Answers:


6

好的。到目前为止,这是一个新功能(至少对我而言),并且非常有趣。我不会因此而陷入困境。

当我写这篇文章的时候,我几乎没有睡眠。我错过了@unor友善指出的几件事,因此我必须调整自己的答案,并在应得的信贷额度上给予好评。谢谢@unor!

尽管我在46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]上,Archive.is已注册到Denis Petrov,该人正在使用Google网站托管帐户,其IP地址为104.196.7.222 [AS15169 GOOGLE-Google Inc.],但我使用的是Google Webhost帐户。主机公司最近可能已更改。

今天的Archive.to也由Denis Petrov拥有,并且与Archive.is类似(如果不同)。出于此答案的目的,我将介绍Archive.is,您可以假定它适用于Today.Today。今天的Archive.to确实存在于另一个IP地址78.108.190.21 [AS62160 GM-AS Yes Networks Unlimited Ltd]上。请理解,丹尼斯·彼得罗夫(Denis Petrov)拥有70个域。如果不深入研究,可能有更多站点值得关注。我将为所有三个IP地址提供阻止代码。

Archive.is是用户指导的。假定您正在归档自己的页面。除了这种情况,Archive.is可以被视为内容爬虫垃圾邮件站点。

Archive.is走的很危险。它通过单页抓取使用其他网站的内容。最终,原始内容的搜索潜力至少被稀释了,并且有可能被完全篡改。更糟糕的是,原始站点未被引用为内容的创建者。Archive.is使用规范标签,但它是它自己的站点/页面。

例: <link rel="canonical" href="http://archive.is/Eo267"/>

再加上缺乏对谁提交网站以及他们是否有权访问该网站的控制权,缺乏清晰的删除信息,以及联系机制有些模糊和潜在的薄弱,Archive.is具有真正的潜力。麻烦。

您可以在此处找到更多IP地址信息:https : //www.robtex.com/#!dns=archive.is

如何按IP地址78.108.190.21进行阻止

使用思科防火墙。

access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any

**注意:您可以用您选择的ACL名称替换[提供的ACL名称]。

使用Nginx。

编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容:

deny 78.108.190.21/32;

使用Linux IPTables防火墙。**注意:请谨慎使用。

/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP

使用Microsoft IIS Web服务器

<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

使用Apache .htaccess。

RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]

如何按IP地址46.17.100.191进行阻止。

使用思科防火墙。

access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any

**注意:您可以用您选择的ACL名称替换[提供的ACL名称]。

使用Nginx。

编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容:

deny 46.17.100.191/32;

使用Linux IPTables防火墙。**注意:请谨慎使用。

/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP

使用Microsoft IIS Web服务器

<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

使用Apache .htaccess。

RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]

如何按IP地址104.196.7.222进行阻止。

使用思科防火墙。

access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any

**注意:您可以用您选择的ACL名称替换[提供的ACL名称]。

使用Nginx。

编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容:

deny 104.196.7.222/32;

使用Linux IPTables防火墙。**注意:请谨慎使用。

/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP

使用Microsoft IIS Web服务器

<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
 <match url=".*" />
  <conditions>
   <add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
  </conditions>
 <action type="AbortRequest" />
</rule>

使用Apache .htaccess。

RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]

您可能需要从任何一组代码中阻止多个IP地址。这还不清楚。


非常翔实!我100%同意您的意见,但恐怕该网站使用了更多IP地址。当您存档提供访问者IP的页面时(如wtfismyip.com/),您会注意到这一点。到目前为止,我发现:2a01:4f8:190:5388 :: 2:2,2a01:4f8:190:6388 :: 2:2,2a01:4f8:190:638c :: 2:2,46.17.100.191,78.46 .174.144、78.108.190.21、104.196.7.222
someone2332 2015年

另一个:2a01:4f8:190:6396 :: 2:2。我想阻止所有以“ 2a01:4f8:190:”开头的IPv6地址。你知道我该怎么做吗?谢谢!
someone2332

一年前,当我遇到这个问题时,我通过电子邮件将丹尼斯(Denis)的版权删除通知发送给了网站管理员存档点,并惊讶地发现第二天所有违规内容都被删除了。只是将其发布为另一个答案,但我检查了他的网站,发现我的内容已备份!我现在有确凿的证明,知道会故意侵犯版权。嗯,那就是IPTables。去年他在OVH工作,他们对过去的问题非常有帮助,尽管不确定他现在在哪里托管。
汤姆·布鲁斯曼

另外,请参阅去年1月超级用户的相关问答:superuser.com/a/868368(请注意随后使用的不同IP,因此这将需要不断监控和更新您的阻止列表以保持有效...)。
汤姆·布鲁斯曼

1
“类似的网站Archive.org已被多次起诉并败诉。”您指的是哪种情况?Google archive.org loses copyright lawsuit似乎没有找到有关裁决的相关文章。
Damian Yerrick

3

robots.txt

Archive.is不会使用自动爬网页面的机器人(例如,通过跟随超链接),因此robots.txt不适用,因为它总是由用户发出命令来存档某个页面。

出于同样的原因,诸如Google的Feedfetcher(为什么Feedfetcher不遵循我的robots.txt文件?)和W3C的Validator(详细信息)之类的服务没有得到遵守robots.txt

请参阅archive.is常见问题解答:为什么archive..is不遵守robots.txt?

meta- robots/X-Robots-Tag

我不确定archive.is是否应该(理想地)兑现- /中的noindexnoarchive值,或者这些技术是否也仅适用于自动程序。但是由于archive.is没有记录它,因此他们似乎目前不支持它。metarobotsX-Robots-Tag

(FWIW,每个存档页面似乎都有一个<meta name="robots" content="index,noarchive"/>。)

User-Agent

archive.is并未记录使用了某个特定文件User-Agent(它们可能无法识别自己,从而无法像普通浏览器一样查看页面),因此您不能使用它来阻止其在服务器级别的访问。

封锁他们的IP位址

所以既不robots.txt也不meta- robots/ X-Robots-Tag工作在这里,你可以不通过他们阻止他们User-Agent,你就必须阻止archive.is IP地址的访问。请参阅closetnoc有关IP阻止的答案,但请注意,这可能会超出预期的阻止范围,并且您可能永远无法捕获到它们的所有IP(和/或保持最新状态)。

旁注:报告功能

每个存档版本都链接到一个表单,您可以在其中报告可能的滥用情况(附加/abuse),例如,带有“ SEO问题”或“版权”的原因。但我不知道他们是否或如何处理这些案件。


我正在努力工作或几乎没有睡眠,完全错过了一些您正确指出的事情。结果,我调整了答案。!我确实确实有些疯狂,有时我可以这么做。;-)哎呀!它仍然有点高。感谢您在这里的回答。我希望我可以投票给这个最佳答案。如果有人同意我的观点,我建议人们用鼠标投票给这个答案。
closetnoc

1

为了阻止archive.is令人恶心的窃取行为(忽略robots.txt,覆盖链接规范,伪造的用户代理,无法执行站点范围内的删除),我想在上述解决方案中添加以下内容。

查找他们的IP地址

要查找他们的IP地址,请向他们提交一个由您控制的URL,以便您可以监视Web服务器日志以查看谁访问了该URL。只要Web服务器收到请求,该URL甚至都不必存在。(因此,最好使用不存在的空页面/ URL。)例如,使用如下URL:http : //example.com/fuck-you-archive.is

然后检查您的日志以查看谁访问了该URL。您可以使用grep进行检查:

grep "fuck-you-archive.is" web-server-log.txt

一旦有了IP地址,就可以使用其他答案中的解决方案将其阻止。然后再次重复该过程以查找他们使用的其他IP地址。您需要指定其他网址,以使它们再次执行HTTP请求,例如,只需将http://example.com/fuck-you-archive.is更改为http://example.com/fuck-you- archive.is?2等。

如果您不想在尝试查找其IP地址时完全不公开自己的网站,则可以使用以下便捷的HTTP请求网站:https ://requestb.in执行的步骤是:创建一个RequestBin>将“ BinURL”提交到Archive.is,并在BinURL后面附加“?SomeRandomNumber”>使用RequestBin的“?inpect”监视来自Archive.is的传入请求,并在“ Cf-Connecting-Ip”中查看其IP地址“ HTTP标头。(确保您没有将“?inspect” URL提交给Archive.is。)通过将“?SomeRandomNumber”更改为另一个数字来重复查找其他IP地址。

封锁他们的IP位址

请注意,使用IP表可以阻止使用

/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP

但通常会在接受HTTP流量的情况下将“ INPUT”链设置为“ DROP”策略。在这种情况下,您可能需要使用前置(插入)操作而不是附加操作,否则它不会被阻止:

/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP

但是,它们有很多IP地址,因此阻止完整的IP范围可能更容易。您可以使用IPTables(无需指定子网掩码)方便地执行以下操作:

iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP

这个范围(46.166.139.110-46.166.139.180)在很大程度上归他们所有,因为我看到过46.166.139.110和46.166.139.173之间的多个地址。

向他们的虚拟主机发送滥用投诉

他们当前正在使用NFOrce作为Web主机。有关如何对Archive.is进行投诉,请参阅https://www.nforce.com/abuse。提及:1)您的archive.is被盗的网页URL,2)提及archive.is包含被盗内容的URL,以及3)提及他们使用的IP地址。

另外,您可能想对Cloudflare(它们的CDN)投诉,出于性能原因,该CDN缓存了他们被盗的页面和图像。https://www.cloudflare.com/abuse/


1

如我们所见,archive.is正在使用DNS任意广播。

如果您使用其他名称服务器(例如,来自https://www.lifewire.com/free-and-public-dns-servers-2626062),则当前(2018-09-10)您将获得“ archive.is”的其他IP地址(挖@NAMESERVER archive.is A)

104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236

我使用了abuse-contacts.abusix.org(https://www.abusix.com/contactdb)来获取这些IP地址的滥用联系人:

abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru

如Cloudflare所报道,archive.is正在使用没有功能的DNS A记录来滥用其“服务”!


0

还可以考虑通过www.isnic.is(冰岛的域名注册机构)与注册商联系。isnic at isnic dot is

冰岛拥有版权法,并且书记官处对此予以承认。该注册管理机构自1980年代末以来一直存在,并且不在ICANN的管理之下。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.