Answers:
好的。首先是第一件事。不要将404标记为已修复。您实际上是在延长问题。在放弃之前,Google会尝试获取多次返回404的页面。这是因为404错误表示暂时的情况,其中410错误表示页面已消失。因此,每次将404标记为已修复时,实际上是在告诉Google重试,从而重新开始清除过程。
只需让这些页面404一段时间,Google就会停止寻找它们,并将其从索引中删除。这将花费一些时间,但是缺少410错误,这是最简单的方法。410错误会加快处理速度,但是很难显示410错误,而默认值404使其更容易,更自然。
如果您可以等待,删除的页面将在30至60天内消失。这取决于Google访问您的页面的频率。它可能需要更长的时间,但是一旦找到404,Google就会喜欢先对网站进行现场检查,然后根据其中有404的数量,可能会更积极地搜寻您的网站。
实际上,使用站点地图通常无法解决索引的任何问题。它只会使搜索引擎的工作变得更简单。它永远不会被视为任何网站拥有的所有页面的最终列表。如果搜索引擎读取了站点地图,但仍然找到该站点地图中未列出的页面,它将继续为这些页面建立索引。
一种可行的选择是在robots.txt文件中列出这些页面。如果数量太多(意味着您可以做些事情,并且robots.txt文件不会太长),那将是一个更快的解决方案。否则,我将等待并让404错误自行过期。
最后一句话。你会没事的。真。如果您有耐心的话,对您来说一切都会很好。
it is harder to present a 410 error
?
发布页面后,Google将永远不会忘记它。我有15年前从中删除过网页的网站。Googlebot仍然返回并偶尔检查这些页面。
为防止网页显示在搜索引擎中,您会遇到404错误。Googlebot下次对其进行爬网后,可能需要一天的时间才能从索引中删除该页面。如果希望更快地将其删除,请返回“ 410消失”状态。Google会在抓取它们后立即删除410个页面,而无需等待一天。Google不会立即删除404页,以防止网站管理员按照Matt Cutts的描述射杀自己:
因此,对于404s,以及我认为是401s甚至是403s的用户,如果我们看到一个页面并得到404,我们将在抓取系统中保护该页面24小时,因此我们稍等片刻,然后说这也许是瞬态404,也许确实不是要找不到页面。
您可以考虑的另一种方法是重定向。301将旧页面重定向到替换页面将阻止它在Google网站站长工具中显示为错误。仅当每个旧页面都有一些新页面时,才有可能。将所有测试页重定向到您的主页都无济于事,因为Google认为重定向到主页是“软404”错误,该错误仍将显示在该报告中。
网站站长工具中出现404错误不会对您造成伤害。您的网站上出现一些404错误甚至可能对您有所帮助,因为它会向Googlebot显示您的网站配置正确。这是Google的John Mueller(致力于网站管理员工具和站点地图的人)对网站管理员工具中出现的404错误的评价:
救命!我的网站有939个检索错误!1
我一周几次见到这种问题。您并不孤单-许多网站都有抓取错误。
- 无效URL上的404错误不会以任何方式损害您网站的索引或排名。不管是100还是1000万,它们都不会损害您网站的排名。http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
- 在某些情况下,抓取错误可能来自网站或CMS中的合法结构性问题。你怎么说?仔细检查爬网错误的来源。如果您的网站上的静态HTML页面中的链接断开,则始终值得修复。(感谢+ Martino Mosna)
- 那些“明显被破坏的”时髦的URL怎么样?当我们的算法喜欢您的网站时,它们可能会尝试在其中找到更多精彩的内容,例如,尝试通过JavaScript查找新的URL。如果我们尝试使用这些“ URL”并找到404,那就太好了,这是期望的。我们只是不想错过任何重要的事情(在这里插入过度连接的Googlebot meme)。http://support.google.com/webmasters/bin/answer.py?answer=1154698
- 您无需在网站站长工具中修复抓取错误。“标记为固定”功能仅在希望跟踪进度的情况下为您提供帮助;它不会改变我们的网络搜索渠道中的任何内容,因此如果您不需要它,可以随时忽略它。 http://support.google.com/webmasters/bin/answer.py?answer=2467403
- 我们根据优先级列出网站站长工具中的抓取错误,这是基于多个因素的。如果抓取错误的第一页显然无关紧要,则可能在其他页面上找不到重要的抓取错误。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
- 无需“修复”您网站上的抓取错误。查找404错误是正常的,并且应该对一个健康,配置正确的网站有所帮助。如果您有一个等效的新URL,那么重定向到它是一个好习惯。否则,您不应该创建虚假内容,不应该重定向到您的首页,您也不应该robots.txt禁止这些网址-所有这些使我们更难以识别您的网站结构并对其进行正确处理。我们称这些“软404”错误。 http://support.google.com/webmasters/bin/answer.py?answer=181708
- 显然-如果针对您关心的URL(例如Sitemap文件中的URL)显示这些抓取错误,那么您应该立即采取措施。如果Googlebot无法抓取您的重要网址,那么它们可能会从我们的搜索结果中删除,并且用户也可能无法访问它们。
Google可能会继续尝试长时间爬网这些页面。网站管理员会犯错误,或者由于任何原因无法访问网站,因此Google不会在404的第一个符号时删除内容。
另外,您也可以改用410 Gone。这是一个更强烈(即刻意)的信号,表明页面已从字面上“消失”并且没有回来。这可能会提示Google尽快从SERP中删除该页面。
我将它们设置为“标记为已解决”,但某些页面仍返回404。
只有将页面放回原处,它们才会“解决”。如果将其标记为已解决且页面不存在,则抓取错误将再次发生。如果该页面不存在,则保持原样。
正版404不会损害您的搜索排名。GWT中的404报告主要是为了您的利益,因此您可以查看何时出错了……何时找不到应该找到的页面!
这些SERP中不相关的页面可能对您的用户来说是一个小麻烦,但是,他们在寻找什么来找到您的lorem ipsum?