如何阻止“无结果”页面堆积Soft 404错误?


9

最近,我注意到Google网站管理员工具中出现了越来越多的Soft 404错误列表。它们全部用于动态生成的报告“未找到匹配项”的搜索结果页面。

确实了解Google对Soft 404的含义以及为什么他们要为这些页面报告它。所以我添加<meta name="robots" content="noindex">到这些页面。

但是,对于使用noindex元标记的网页,Google仍报告新的Soft 404错误。

为什么Google 告诉我告诉他们不要建立索引的页面有任何错误?

问题在于,由于所有这些不必要的错误,我看不到是否有任何实际的问题需要修复。

有人说这些页面应该返回404状态代码。但这只是将问题转移到404错误标签上。此外,Google的“ 无结果”页面返回状态码200 。

我不想使用robots.txt阻止访问,因为我希望跟随这些页面上的链接,并且我希望Google查看noindex元标记。此外,没有可以用来阻止它们的模式。

Google首先找到了这些URL,因为这些内容曾经存在,但是已被删除。我无法返回410状态代码,因为我的PHP代码无法知道未找到结果的原因。

有什么我可以做的,以使发现实际问题更加容易?


Google如何找到这些搜索网址?您是从某个地方链接它们吗?
DisgruntledGoat


@DisgruntledGoat,我已经在许多网站上看到了这一点。Googlebot已具备搜索功能。我不太确定这是否真的是问题所在。但是我一直无法找到他们奇怪的搜索来源。
亚历克西斯威尔克

Answers:


7

您应防止Google抓取网站搜索页面。谷歌并不希望抓取您的网站搜索所有。这是Google的有关问题的Matt Cutts博客文章:Matt Cutts在2007年3月10日发表的 搜索结果中的搜索结果。Google现在积极惩罚那些允许其网站搜索结果被抓取并出现在Google SERP中的网站。通过允许Googlebot抓取搜索结果页面,您将承担所有 Google引荐流量的风险。Google评论者最喜欢的一个技巧是使用您的站点搜索来查找诸如“伟哥”之类的垃圾邮件。当他们看到结果为可检索页面时(即使该页面显示“未找到伟哥的结果”),他们也会对您作为垃圾邮件站点的站点施加人工罚款。

您应该将站点搜索放入robots.txt。只要确保Googlebot仍然可以抓取您的内容页面即可。然后,您将停止获取报告新的soft 404错误的信息。


大量404错误(甚至是软404错误)也不会损害您网站的排名。Google会在他们可以找到和抓取的任何页面上报告错误,无论您是否希望对其进行索引,甚至是否链接到该页面。他们这样做是因为错误报告仅是为了您的利益,并且他们认为您应该得到充分的通知。

以下是Google的John Mueller所说的话

  1. 无效URL上的404错误不会以任何方式损害您网站的索引或排名。不管是100还是1000万,它们都不会损害您网站的排名。http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. 在某些情况下,抓取错误可能来自网站或CMS中的合法结构性问题。你怎么说?仔细检查爬网错误的来源。如果您的网站上的静态HTML页面中的链接断开,则始终值得修复。(感谢+ Martino Mosna)
  3. 那么“明显损坏”的时髦URL呢?当我们的算法喜欢您的网站时,他们可能会尝试在网站上找到更多精彩的内容,例如,尝试在JavaScript中发现新的网址。如果我们尝试使用这些“ URL”并找到404,那就太好了,这是期望的。我们只是不想错过任何重要的事情(在此处插入过度连接的Googlebot meme)。http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. 您无需在网站站长工具中修复抓取错误。“标记为固定”功能仅在希望跟踪进度的情况下为您提供帮助;它不会改变我们的网络搜索渠道中的任何内容,因此,如果您不需要它,可以随时忽略它。 http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. 我们根据优先级列出网站站长工具中的抓取错误,这是基于几个因素的。如果抓取错误的第一页显然无关紧要,则可能在其他页面上找不到重要的抓取错误。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. 无需“修复”您网站上的抓取错误。查找404错误是正常的,并且应该对一个健康,配置正确的网站有所帮助。如果您有一个等效的新URL,那么重定向到它是一个好习惯。否则,您不应该创建虚假内容,不应该重定向到您的首页,您也不应该robots.txt禁止这些网址-所有这些使我们更难以识别您的网站结构并对其进行正确处理。我们称这些“软404”错误。 http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. 显然-如果针对您关心的URL(例如Sitemap文件中的URL)显示这些抓取错误,那么您应该立即采取措施。如果Googlebot无法抓取您的重要网址,则它们可能会从我们的搜索结果中删除,并且用户也可能无法访问它们。

避免对无用的搜索页面进行索引不是一个“技巧”。没有什么比在Google上搜索术语并获得搜索列表而不是任何实际结果更令人沮丧的了。因此,谷歌会惩罚这种行为。从用户的角度来看,很明显,暂时的搜索结果不应被索引,而内容页面本身也应被索引。这就是为什么您应该为索引器使用诸如站点地图之类的内容,而仅将动态搜索页面用作用户的快捷方式的原因。
JamesRyan

那么,为什么Google会对黄页结果进行索引等等?
toxalot 2013年

我不认为Google希望对大多数黄页网站建立索引,至少不会使其在搜索结果中脱颖而出。superpages.com的总部就在我附近。几年前,Google对其进行了全面的排名。我突然采访了他们的开发人员,我们正在寻找新的工作。
斯蒂芬·奥斯特米勒

2
@StephenOstermiller您是否提及Google所说的惩罚那些允许搜寻页面被抓取的网站?我什么都找不到。
alexp 2014年

1
关于伟哥,这对我不好。我的网站跟踪诉讼,对于与伟哥有关的专利有很多真正的法律争论。他们如何防止这些误报?
speedplane 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.