Answers:
好的。到目前为止,这是一个新功能(至少对我而言),并且非常有趣。我不会因此而陷入困境。
当我写这篇文章的时候,我几乎没有睡眠。我错过了@unor友善指出的几件事,因此我必须调整自己的答案,并在应得的信贷额度上给予好评。谢谢@unor!
尽管我在46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY BV]上,Archive.is已注册到Denis Petrov,该人正在使用Google网站托管帐户,其IP地址为104.196.7.222 [AS15169 GOOGLE-Google Inc.],但我使用的是Google Webhost帐户。主机公司最近可能已更改。
今天的Archive.to也由Denis Petrov拥有,并且与Archive.is类似(如果不同)。出于此答案的目的,我将介绍Archive.is,您可以假定它适用于Today.Today。今天的Archive.to确实存在于另一个IP地址78.108.190.21 [AS62160 GM-AS Yes Networks Unlimited Ltd]上。请理解,丹尼斯·彼得罗夫(Denis Petrov)拥有70个域。如果不深入研究,可能有更多站点值得关注。我将为所有三个IP地址提供阻止代码。
Archive.is是用户指导的。假定您正在归档自己的页面。除了这种情况,Archive.is可以被视为内容爬虫垃圾邮件站点。
Archive.is走的很危险。它通过单页抓取使用其他网站的内容。最终,原始内容的搜索潜力至少被稀释了,并且有可能被完全篡改。更糟糕的是,原始站点未被引用为内容的创建者。Archive.is使用规范标签,但它是它自己的站点/页面。
例: <link rel="canonical" href="http://archive.is/Eo267"/>
再加上缺乏对谁提交网站以及他们是否有权访问该网站的控制权,缺乏清晰的删除信息,以及联系机制有些模糊和潜在的薄弱,Archive.is具有真正的潜力。麻烦。
您可以在此处找到更多IP地址信息:https : //www.robtex.com/#!dns=archive.is
使用思科防火墙。
access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any
**注意:您可以用您选择的ACL名称替换[提供的ACL名称]。
使用Nginx。
编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容:
deny 78.108.190.21/32;
使用Linux IPTables防火墙。**注意:请谨慎使用。
/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP
使用Microsoft IIS Web服务器
<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
</conditions>
<action type="AbortRequest" />
</rule>
使用Apache .htaccess。
RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]
使用思科防火墙。
access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any
**注意:您可以用您选择的ACL名称替换[提供的ACL名称]。
使用Nginx。
编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容:
deny 46.17.100.191/32;
使用Linux IPTables防火墙。**注意:请谨慎使用。
/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP
使用Microsoft IIS Web服务器
<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
</conditions>
<action type="AbortRequest" />
</rule>
使用Apache .htaccess。
RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]
使用思科防火墙。
access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any
**注意:您可以用您选择的ACL名称替换[提供的ACL名称]。
使用Nginx。
编辑nginx.conf并插入include blockips.conf; 如果不存在。编辑blockips.conf并添加以下内容:
deny 104.196.7.222/32;
使用Linux IPTables防火墙。**注意:请谨慎使用。
/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP
使用Microsoft IIS Web服务器
<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
</conditions>
<action type="AbortRequest" />
</rule>
使用Apache .htaccess。
RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]
您可能需要从任何一组代码中阻止多个IP地址。这还不清楚。
archive.org loses copyright lawsuit
似乎没有找到有关裁决的相关文章。
robots.txt
Archive.is不会使用自动爬网页面的机器人(例如,通过跟随超链接),因此robots.txt
不适用,因为它总是由用户发出命令来存档某个页面。
出于同样的原因,诸如Google的Feedfetcher(为什么Feedfetcher不遵循我的robots.txt文件?)和W3C的Validator(详细信息)之类的服务没有得到遵守robots.txt
。
请参阅archive.is常见问题解答:为什么archive..is不遵守robots.txt?
meta
- robots
/X-Robots-Tag
我不确定archive.is是否应该(理想地)兑现- /中的noindex
或noarchive
值,或者这些技术是否也仅适用于自动程序。但是由于archive.is没有记录它,因此他们似乎目前不支持它。meta
robots
X-Robots-Tag
(FWIW,每个存档页面似乎都有一个<meta name="robots" content="index,noarchive"/>
。)
User-Agent
archive.is并未记录使用了某个特定文件User-Agent
(它们可能无法识别自己,从而无法像普通浏览器一样查看页面),因此您不能使用它来阻止其在服务器级别的访问。
所以既不robots.txt
也不meta
- robots
/ X-Robots-Tag
工作在这里,你可以不通过他们阻止他们User-Agent
,你就必须阻止archive.is IP地址的访问。请参阅closetnoc有关IP阻止的答案,但请注意,这可能会超出预期的阻止范围,并且您可能永远无法捕获到它们的所有IP(和/或保持最新状态)。
每个存档版本都链接到一个表单,您可以在其中报告可能的滥用情况(附加/abuse
),例如,带有“ SEO问题”或“版权”的原因。但我不知道他们是否或如何处理这些案件。
为了阻止archive.is令人恶心的窃取行为(忽略robots.txt,覆盖链接规范,伪造的用户代理,无法执行站点范围内的删除),我想在上述解决方案中添加以下内容。
要查找他们的IP地址,请向他们提交一个由您控制的URL,以便您可以监视Web服务器日志以查看谁访问了该URL。只要Web服务器收到请求,该URL甚至都不必存在。(因此,最好使用不存在的空页面/ URL。)例如,使用如下URL:http : //example.com/fuck-you-archive.is
然后检查您的日志以查看谁访问了该URL。您可以使用grep进行检查:
grep "fuck-you-archive.is" web-server-log.txt
一旦有了IP地址,就可以使用其他答案中的解决方案将其阻止。然后再次重复该过程以查找他们使用的其他IP地址。您需要指定其他网址,以使它们再次执行HTTP请求,例如,只需将http://example.com/fuck-you-archive.is更改为http://example.com/fuck-you- archive.is?2等。
如果您不想在尝试查找其IP地址时完全不公开自己的网站,则可以使用以下便捷的HTTP请求网站:https ://requestb.in执行的步骤是:创建一个RequestBin>将“ BinURL”提交到Archive.is,并在BinURL后面附加“?SomeRandomNumber”>使用RequestBin的“?inpect”监视来自Archive.is的传入请求,并在“ Cf-Connecting-Ip”中查看其IP地址“ HTTP标头。(确保您没有将“?inspect” URL提交给Archive.is。)通过将“?SomeRandomNumber”更改为另一个数字来重复查找其他IP地址。
请注意,使用IP表可以阻止使用
/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP
但通常会在接受HTTP流量的情况下将“ INPUT”链设置为“ DROP”策略。在这种情况下,您可能需要使用前置(插入)操作而不是附加操作,否则它不会被阻止:
/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP
但是,它们有很多IP地址,因此阻止完整的IP范围可能更容易。您可以使用IPTables(无需指定子网掩码)方便地执行以下操作:
iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP
这个范围(46.166.139.110-46.166.139.180)在很大程度上归他们所有,因为我看到过46.166.139.110和46.166.139.173之间的多个地址。
他们当前正在使用NFOrce作为Web主机。有关如何对Archive.is进行投诉,请参阅https://www.nforce.com/abuse。提及:1)您的archive.is被盗的网页URL,2)提及archive.is包含被盗内容的URL,以及3)提及他们使用的IP地址。
另外,您可能想对Cloudflare(它们的CDN)投诉,出于性能原因,该CDN缓存了他们被盗的页面和图像。https://www.cloudflare.com/abuse/
如我们所见,archive.is正在使用DNS任意广播。
如果您使用其他名称服务器(例如,来自https://www.lifewire.com/free-and-public-dns-servers-2626062),则当前(2018-09-10)您将获得“ archive.is”的其他IP地址(挖@NAMESERVER archive.is A)
104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236
我使用了abuse-contacts.abusix.org(https://www.abusix.com/contactdb)来获取这些IP地址的滥用联系人:
abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru
如Cloudflare所报道,archive.is正在使用没有功能的DNS A记录来滥用其“服务”!