Google仍在抓取我的旧虚拟测试页并将其编入索引,现在找不到404


19

我已经用示例页面和数据(lorem ipsum等)设置了我的网站,而Google已抓取了这些页面。我删除了所有这些页面,并实际上添加了真实内容,但是在网站管理员工具中,Google仍然尝试抓取这些页面时仍然遇到很多404错误。我将它们设置为“标记为已解决”,但某些页面仍返回404。

此外,当我在Google上搜索我的网站时,我仍然列出了许多示例页面。如何删除它们。我认为这些无关的网页正在损害我的评分。

我实际上是想删除所有这些页面,并开始将我的网站编入新的索引,但我无法阅读吗?(我已经提交了站点地图,并使用了“以Google身份获取”。)

Answers:


17

好的。首先是第一件事。不要将404标记为已修复。您实际上是在延长问题。在放弃之前,Google会尝试获取多次返回404的页面。这是因为404错误表示暂时的情况,其中410错误表示页面已消失。因此,每次将404标记为已修复时,实际上是在告诉Google重试,从而重新开始清除过程。

只需让这些页面404一段时间,Google就会停止寻找它们,并将其从索引中删除。这将花费一些时间,但是缺少410错误,这是最简单的方法。410错误会加快处理速度,但是很难显示410错误,而默认值404使其更容易,更自然。

如果您可以等待,删除的页面将在30至60天内消失。这取决于Google访问您的页面的频率。它可能需要更长的时间,但是一旦找到404,Google就会喜欢先对网站进行现场检查,然后根据其中有404的数量,可能会更积极地搜寻您的网站。

实际上,使用站点地图通常无法解决索引的任何问题。它只会使搜索引擎的工作变得更简单。它永远不会被视为任何网站拥有的所有页面的最终列表。如果搜索引擎读取了站点地图,但仍然找到该站点地图中未列出的页面,它将继续为这些页面建立索引。

一种可行的选择是在robots.txt文件中列出这些页面。如果数量太多(意味着您可以做些事情,并且robots.txt文件不会太长),那将是一个更快的解决方案。否则,我将等待并让404错误自行过期。

最后一句话。你会没事的。真。如果您有耐心的话,对您来说一切都会很好。


1
将404页添加到robots.txt听起来是错误的做法。这只会使搜寻器感到困惑,并且会占用很多完全不必要的内务处理。
Dorus 2014年

@Dorus一点也不。一个与另一个无关。将任何页面添加到robots.txt文件中都会很快将其从索引中删除。同样,搜索引擎将不会尝试访问文件,因此不会访问
404。– closetnoc

1
如您所说,如果将其添加到robots.txt中,搜索引擎将不会尝试访问该页面,但该页面仍然存在。因此,如果有一天您将其从机械手中删除,索引将返回。让404或410完成工作是一种更好的做法。

@closetnoc是什么意思it is harder to present a 410 error
叶夫根尼(Evgeniy)

@Evgeniy默认情况下会给出404错误(至少Apache和旧版IIS)。410错误必须是故意的,并且需要进行一些工作。从技术上讲,这不是一项艰巨的任务,但是它确实需要一些专业知识,尽管不是很多。干杯!!
closetnoc

8

发布页面后,Google将永远不会忘记它。我有15年前从中删除过网页的网站。Googlebot仍然返回并偶尔检查这些页面。

为防止网页显示在搜索引擎中,您会遇到404错误。Googlebot下次对其进行爬网后,可能需要一天的时间才能从索引中删除该页面。如果希望更快地将其删除,请返回“ 410消失”状态。Google会在抓取它们后立即删除410个页面,而无需等待一天。Google不会立即删除404页,以防止网站管理员按照Matt Cutts的描述射杀自己:

因此,对于404s,以及我认为是401s甚至是403s的用户,如果我们看到一个页面并得到404,我们将在抓取系统中保护该页面24小时,因此我们稍等片刻,然后说这也许是瞬态404,也许确实不是要找不到页面。

您可以考虑的另一种方法是重定向。301将旧页面重定向到替换页面将阻止它在Google网站站长工具中显示为错误。仅当每个旧页面都有一些新页面时,才有可能。将所有测试页重定向到您的主页都无济于事,因为Google认为重定向到主页是“软404”错误,该错误仍将显示在该报告中。

网站站长工具中出现404错误不会对您造成伤害。您的网站上出现一些404错误甚至可能对您有所帮助,因为它会向Googlebot显示您的网站配置正确。这是Google的John Mueller(致力于网站管理员工具和站点地图的人)对网站管理员工具中出现的404错误的评价

救命!我的网站有939个检索错误!1

我一周几次见到这种问题。您并不孤单-许多网站都有抓取错误。

  1. 无效URL上的404错误不会以任何方式损害您网站的索引或排名。不管是100还是1000万,它们都不会损害您网站的排名。http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. 在某些情况下,抓取错误可能来自网站或CMS中的合法结构性问题。你怎么说?仔细检查爬网错误的来源。如果您的网站上的静态HTML页面中的链接断开,则始终值得修复。(感谢+ Martino Mosna
  3. 那些“明显被破坏的”时髦的URL怎么样?当我们的算法喜欢您的网站时,它们可能会尝试在其中找到更多精彩的内容,例如,尝试通过JavaScript查找新的URL。如果我们尝试使用这些“ URL”并找到404,那就太好了,这是期望的。我们只是不想错过任何重要的事情(在这里插入过度连接的Googlebot meme)。http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. 您无需在网站站长工具中修复抓取错误。“标记为固定”功能仅在希望跟踪进度的情况下为您提供帮助;它不会改变我们的网络搜索渠道中的任何内容,因此如果您不需要它,可以随时忽略它。 http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. 我们根据优先级列出网站站长工具中的抓取错误,这是基于多个因素的。如果抓取错误的第一页显然无关紧要,则可能在其他页面上找不到重要的抓取错误。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. 无需“修复”您网站上的抓取错误。查找404错误是正常的,并且应该对一个健康,配置正确的网站有所帮助。如果您有一个等效的新URL,那么重定向到它是一个好习惯。否则,您不应该创建虚假内容,不应该重定向到您的首页,您也不应该robots.txt禁止这些网址-所有这些使我们更难以识别您的网站结构并对其进行正确处理。我们称这些“软404”错误。 http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. 显然-如果针对您关心的URL(例如Sitemap文件中的URL)显示这些抓取错误,那么您应该立即采取措施。如果Googlebot无法抓取您的重要网址,那么它们可能会从我们的搜索结果中删除,并且用户也可能无法访问它们。

1
那根本不是我的经验。Google需要一个新的索引并相当快地删除页面。我所看到的似乎与您所描述的相似,过去其他使用Google API的站点都不会刷新其数据,因此会引用您的较早著作。这些通常是垃圾/垃圾站点,并且这些引用可能会出现/保持/消失/重新出现。我看到这个问题的主要原因是因为Google API 过去很乱,不再是垃圾邮件数据了,因为很难获得较新的数据,特别是如果您过去曾发送过垃圾邮件,那么该垃圾邮件数据就更旧了。
closetnoc

1
Googlebot具有一种抓取模式,我称之为“我们在地下室发现了一个URL框”。在这种抓取模式下,它可能会连续从您的网站中抓取一千个URL,多年来您都没有使用过。URL通常没有入站链接,即使来自刮板站点也是如此。它们按长度顺序进行爬网,较短的URL首先被爬网。
Stephen Ostermiller

可能是这样。谷歌显然是大数据。任何大型数据库都有噪音。那是不可避免的。那可能就是您正在经历的。可能正在协调各种数据库。那讲得通。但我也警告您,如果使用旧链接和旧引用,垃圾网站只能出现2个小时。我每天都看到。他们主要在俄罗斯和波兰。这些网站用于玩本地搜索引擎,但会影响到任何网站的流量,并且可以由Google接收。每天我的数据库中大约有12个。通常,在任何时期内,只有12个站点中的1个保留。
closetnoc

939错误是什么?
格雷格·尼克洛洛夫

939是错误的数目,它不是错误的类型。
斯蒂芬·奥斯特米勒

5

Google可能会继续尝试长时间爬网这些页面。网站管理员会犯错误,或者由于任何原因无法访问网站,因此Google不会在404的第一个符号时删除内容。

另外,您也可以改用410 Gone。这是一个更强烈(即刻意)的信号,表明页面已从字面上“消失”并且没有回来。这可能会提示Google尽快从SERP中删除该页面。

我将它们设置为“标记为已解决”,但某些页面仍返回404。

只有将页面放回原处,它们才会“解决”。如果将其标记为已解决且页面不存在,则抓取错误将再次发生。如果该页面不存在,则保持原样。

正版404不会损害您的搜索排名。GWT中的404报告主要是为了您的利益,因此您可以查看何时出错了……何时找不到应该找到的页面!

这些SERP中不相关的页面可能对您的用户来说是一个小麻烦,但是,他们在寻找什么来找到您的lorem ipsum

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.