如何阻止“无结果”页面堆积Soft 404错误？

最近，我注意到Google网站管理员工具中出现了越来越多的Soft 404错误列表。它们全部用于动态生成的报告“未找到匹配项”的搜索结果页面。

我确实了解Google对Soft 404的含义以及为什么他们要为这些页面报告它。所以我添加<meta name="robots" content="noindex">到这些页面。

但是，对于使用noindex元标记的网页，Google仍报告新的Soft 404错误。

为什么Google 告诉我告诉他们不要建立索引的页面有任何错误？

问题在于，由于所有这些不必要的错误，我看不到是否有任何实际的问题需要修复。

有人说这些页面应该返回404状态代码。但这只是将问题转移到404错误标签上。此外，Google的“ 无结果”页面返回状态码200 。

我不想使用robots.txt阻止访问，因为我希望跟随这些页面上的链接，并且我希望Google查看noindex元标记。此外，没有可以用来阻止它们的模式。

Google首先找到了这些URL，因为这些内容曾经存在，但是已被删除。我无法返回410状态代码，因为我的PHP代码无法知道未找到结果的原因。

有什么我可以做的，以使发现实际问题更加容易？

google-search-console noindex soft-404

— 毒草素
source

Google如何找到这些搜索网址？您是从某个地方链接它们吗？

— DisgruntledGoat

请参阅后续问题：webmasters.stackexchange.com/q/55624/33777

— toxalot

@DisgruntledGoat，我已经在许多网站上看到了这一点。Googlebot已具备搜索功能。我不太确定这是否真的是问题所在。但是我一直无法找到他们奇怪的搜索来源。

— 亚历克西斯威尔克

您应防止Google抓取网站搜索页面。谷歌并不希望抓取您的网站搜索所有。这是Google的有关问题的Matt Cutts博客文章：Matt Cutts在2007年3月10日发表的搜索结果中的搜索结果。Google现在积极惩罚那些允许其网站搜索结果被抓取并出现在Google SERP中的网站。通过允许Googlebot抓取搜索结果页面，您将承担所有 Google引荐流量的风险。Google评论者最喜欢的一个技巧是使用您的站点搜索来查找诸如“伟哥”之类的垃圾邮件。当他们看到结果为可检索页面时（即使该页面显示“未找到伟哥的结果”），他们也会对您作为垃圾邮件站点的站点施加人工罚款。

您应该将站点搜索放入robots.txt。只要确保Googlebot仍然可以抓取您的内容页面即可。然后，您将停止获取报告新的soft 404错误的信息。

大量404错误（甚至是软404错误）也不会损害您网站的排名。Google会在他们可以找到和抓取的任何页面上报告错误，无论您是否希望对其进行索引，甚至是否链接到该页面。他们这样做是因为错误报告仅是为了您的利益，并且他们认为您应该得到充分的通知。

以下是Google的John Mueller所说的话：

无效URL上的404错误不会以任何方式损害您网站的索引或排名。不管是100还是1000万，它们都不会损害您网站的排名。http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html

在某些情况下，抓取错误可能来自网站或CMS中的合法结构性问题。你怎么说？仔细检查爬网错误的来源。如果您的网站上的静态HTML页面中的链接断开，则始终值得修复。（感谢+ Martino Mosna）

那么“明显损坏”的时髦URL呢？当我们的算法喜欢您的网站时，他们可能会尝试在网站上找到更多精彩的内容，例如，尝试在JavaScript中发现新的网址。如果我们尝试使用这些“ URL”并找到404，那就太好了，这是期望的。我们只是不想错过任何重要的事情（在此处插入过度连接的Googlebot meme）。http://support.google.com/webmasters/bin/answer.py?answer=1154698

您无需在网站站长工具中修复抓取错误。“标记为固定”功能仅在希望跟踪进度的情况下为您提供帮助；它不会改变我们的网络搜索渠道中的任何内容，因此，如果您不需要它，可以随时忽略它。 http://support.google.com/webmasters/bin/answer.py?answer=2467403

我们根据优先级列出网站站长工具中的抓取错误，这是基于几个因素的。如果抓取错误的第一页显然无关紧要，则可能在其他页面上找不到重要的抓取错误。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html

无需“修复”您网站上的抓取错误。查找404错误是正常的，并且应该对一个健康，配置正确的网站有所帮助。如果您有一个等效的新URL，那么重定向到它是一个好习惯。否则，您不应该创建虚假内容，不应该重定向到您的首页，您也不应该robots.txt禁止这些网址-所有这些使我们更难以识别您的网站结构并对其进行正确处理。我们称这些“软404”错误。 http://support.google.com/webmasters/bin/answer.py?answer=181708

显然-如果针对您关心的URL（例如Sitemap文件中的URL）显示这些抓取错误，那么您应该立即采取措施。如果Googlebot无法抓取您的重要网址，则它们可能会从我们的搜索结果中删除，并且用户也可能无法访问它们。

— 斯蒂芬·奥斯特米勒
source

避免对无用的搜索页面进行索引不是一个“技巧”。没有什么比在Google上搜索术语并获得搜索列表而不是任何实际结果更令人沮丧的了。因此，谷歌会惩罚这种行为。从用户的角度来看，很明显，暂时的搜索结果不应被索引，而内容页面本身也应被索引。这就是为什么您应该为索引器使用诸如站点地图之类的内容，而仅将动态搜索页面用作用户的快捷方式的原因。

— JamesRyan

那么，为什么Google会对黄页结果进行索引等等？

— toxalot 2013年

我不认为Google希望对大多数黄页网站建立索引，至少不会使其在搜索结果中脱颖而出。superpages.com的总部就在我附近。几年前，Google对其进行了全面的排名。我突然采访了他们的开发人员，我们正在寻找新的工作。

— 斯蒂芬·奥斯特米勒

@StephenOstermiller您是否提及Google所说的惩罚那些允许搜寻页面被抓取的网站？我什么都找不到。

— alexp 2014年

关于伟哥，这对我不好。我的网站跟踪诉讼，对于与伟哥有关的专利有很多真正的法律争论。他们如何防止这些误报？

— speedplane 2015年