网站被黑客入侵,需要从Google删除所有以+开头的网址,使用robots.txt吗?


15

您能否让我知道如何阻止此类网址,robots.txt以便Googlebots停止编制索引?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

我的网站已被黑客入侵,现已恢复,但黑客在Google中索引了5000个URL,现在我在随机生成的链接上收到错误404,尤其是从/+上述链接开始。

我想知道是否有一种手动方法可以从Google网站站长工具中手动删除这些网址?

我们可以将其阻止robots.txt到以+sign 开头的URL 吗?


2
+URL路径中(加号)没有什么特别的,它只是一个与其他字符相同的字符。
MrWhite

您可以将Apache重定向(在.htaccess中)到robots.txt禁止机器人进行访问的文件或目录
Mawg说,请恢复Monica的状态

@Mawg这样做有什么意义?
MrWhite

为了让表现良好的机器人离开?
Mawg说恢复Monica

2
与URL问题无关
乔纳斯·谢弗

Answers:


30

我的网站遭到黑客入侵,现已恢复,但黑客在Google中索引了5000个网址,现在出现错误404

robots.txt如果您希望从搜索引擎(例如Google)中删除这些网址,则404可能比阻止更好。如果您阻止爬网,则该URL仍可以保持索引。(请注意,robots.txt主要是阻止爬网,而不是建立索引。)

如果要“加速”这些URL的索引编制,则可以使用“ 410消失”,而不是通常的“ 404未找到”。您可以在根.htaccess文件中使用mod_rewrite(Apache)执行以下操作:

RewriteEngine On
RewriteRule ^\+ - [G]

14

我要回答第二个问题。

我想知道除了从Google网站站长工具中手动删除这些网址之外,还有没有其他快速的方法?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google明确指出,通过Google Search Console(网站管理员工具的新名称)进行删除是最快的。

如果黑客创建了全新的,用户可见的URL,则可以使用Search Console中的“删除URL”功能,更快地将这些页面从Google搜索结果中删除。这是一个完全可选的步骤。如果您只是删除页面,然后将服务器配置为返回404状态代码,则随着时间的推移,这些页面自然会掉出Google的索引。

但是他们也知道在某些情况下这是不可行的:

使用“ URL删除”的决定可能取决于所创建的不需要的新页面的数量(太多页面可能不方便包含在“删除URL”中)以及这些页面可能对用户造成的潜在损害。为了使通过“ URL删除”提交的页面不出现在搜索结果中,请确保将页面也配置为针对不需要的/已删除的URL返回“ 404未找到文件”响应。

因此,尽管您可以在robots.txt中阻止这些页面-但您并未按照google的说明采取任何纠正措施。


4
User-Agent: *  
Disallow: /+

应该做你想做的。它将告诉漫游器不要请求以开头的所有URL +


2

如果您确实要使用robots.txt,这将是对您问题的简单答案。另外,我还提供了指向您可以在robots.txt上阅读规格的链接。

User-agent: *
Disallow: /+

了解有关robots.txt规范的信息

但是另一种替代方法可能是使用.htaccess制定重写规则(如果使用Apache等)来捕获它们,并可能告诉Google更好的返回HTTP代码,或者只是将流量重定向到其他页面。


2
*URL路径的末尾不需要(星号)。为了最大的蜘蛛兼容性,应将其删除。robots.txt已经是前缀匹配,因此/+*/+支持通配符的漫游器相同,对于不支持通配符的漫游器/+*将完全不匹配。
MrWhite

没错,我只是根据他关于Googlebot的问题写的。我对其进行了编辑,以反映对多个机器人的更好兼容性。
davidbl
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.