Google是否以维护模式抓取Drupal网站?


10

我正在使用Aegir以子域名(即test.mydomain.com)克隆我的网站的副本。这些副本处于维护模式,以防止垃圾邮件发送者和窥视者。然后,在将更改提交到我的主站点mydomain.com之前,我将使用这些副本进行测试和开发工作。

但是,这些克隆站点的存在会损害我的SEO吗?Google是否会抓取已进入维护模式的网站?拥有那么多死胡同的子域会惩罚我吗?


3
这个问题似乎离题,因为它是关于Google内部算法的,而不是与Drupal特别相关的东西,也不是我们可能以极大的信心水平知道的东西。
Mołot

7
@Mołot怎么不能成为话题?维护模式是Drupal的功能。有一些方法可以正确处理此方案。询问Drupal是否做正确的事对将来的读者有用。
mpdonadio

2
@MPD至少有一部分“它会因为拥有如此多的死端子域而对我造成惩罚”与Drupal完全无关。首先,Google可能会以维护模式定向到页面的方式与Drupal无关。
Mołot

Answers:


21

当您将Drupal站点置于维护模式时,非管理员将看到标准维护模式页面(假设您在这样做后清除了缓存)。如果检查响应,您将看到它以HTTP状态代码503发送回去,该状态代码从RFC 2616开始是:

503服务不可用
由于服务器暂时超载或维护,服务器当前无法处理该请求。这意味着这是一个暂时性状况,经过一段时间的延迟后会缓解。如果知道的话,延迟的长度可以在Retry-After头中指出。如果没有给出Retry-After,则客户端应该像处理500响应那样处理响应。

Google网站站长官方博客中

如果我的网站因维护原因而停机,我该如何告诉Googlebot稍后再访问,而不是将“维护停机”页面编入索引?
您应该将服务器配置为返回状态503(网络不可用)而不是200(成功)。这样一来,Googlebot就会知道稍后重试页面。

因此,有证据表明Drupal做得正确,并且Google在下次返回非5XX状态代码时将重新访问您的网站和索引页面。


2
用户登录页面将继续返回200 OK状态代码(并显示块,以至于在维护模式下通常不可见(#722434));但是,robots.txt在登录页面上具有Disallow:指令,因此行为良好的漫游器仍不会为其编制索引。
加勒特·奥尔布赖特

这是关于维护页面本身的一个好地方,503响应代码表示Google不会对该维护页面编制索引。
David Thomas

6

除非您执行了自定义操作以允许它执行,否则Google无法以维护模式抓取您的网站。

由于您需要登录才能查看,因此Googlebot会看到指定的维护页面。

有关Google的其他指南,请参见以下链接:


我认为重点是您不希望Google为维护页面编制索引。
Fuzzy76 '16

2

您的关注点:

如果您不知道维护模式是否100%(!)阻止了“您要阻止的所有内容”,但同时也非常担心“像google这样的人是否仍然可以访问它”。...那么维护模式可能首先是阻止您的开发站点的错误选择。

建议:

就个人而言,我建议仅向您的开发人员站点添加.htpasswd

即使在aegir部署内部,也很容易实现自动化。它永远不会妨碍您,因为您的浏览器和每个命令行工具都可以为您跳过它。您可以允许其他人进入。它完全阻止了Google等网站的访问。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.