为什么Google网站管理员工具会抓取无效的URL并显示500个错误?


11

Google网站管理员工具报告了12k + 500错误。eek!

这些URL均无效-它们都包含www.youtube.com。首先,如果这些URL不存在,为什么Google会对其进行爬网?我提供了一个站点地图,它们当然不在站点地图中。

我没有robots.txt阻止任何内容。我检查了无效的重定向-无,并检查了未关闭的标签或无意中将www.youtube.com扔进URL的东西-没有。

在每个“链接自”中,引荐URL也是无效的URL,其中包含www.youtube.com。Google工具未报告任何恶意软件,并且由于主机无法授予我访问权限,因此我无法检查服务器日志。

真的卡住了!任何想法表示赞赏!


你能发表一些例子吗?
ionFish 2012年

您的网站是Wordpress还是其他Blog平台?
Ubique 2012年

3
如果你看到HTTP无效的URL 500错误(服务器错误),你可能在你的设置问题-无效的URL应该返回404或410
约翰·米勒

Answers:


8

在网站站长工具中,至少有两个常见原因会导致奇怪和被破坏的网址显示为爬网错误。

第一种可能性是有人复制了您的页面(或链接到您的页面的其他页面)并在此过程中破坏了链接。这种情况比您想像的更多。请参阅此Google网站站长博客文章中的第六个问题。

另一种可能性是Googlebot本身正在尝试遵循其认为是JavaScript链接的方式,并弄乱了它。通常,您可以通过以下两种方式来区分这两种情况:访问引荐页(如果Google设法对其进行爬网,则引荐页应该存在并且可以访问),并在其来源中查找目标页的名称。

无论哪种方式,您基本上都可以做两件事:要么只是忽略链接,要么想出一些重写规则来尝试将损坏的URL映射为可用的URL。如果您可以在网址中看到明显的模式,并且熟悉正则表达式,那么我建议您采用后一种方法-它可以清理抓取错误列表,甚至可以使您获得一个虽然小巧但实际的页面排名提升。

第三种选择是,如果发现有人未经允许复制了您的内容,请尝试将其从名单中删除。如果您认为合理的话,甚至可以向其托管服务提供商发送投诉(和/或正式的移除请求)。当然,因为他们显然链接到你的网站,你可能不一定会发现值得的。


0

Google不会立即将网站索引到所有页面。

Google将网页编入索引的最高级别。然后几天后,Google尝试对更深的索引进行索引-第二级页面(这些页面是Google在第一级页面上找到链接的页面),依此类推。Google以这种方式尝试索引网站上的每个页面。因此,Google创建了层次结构的链接树,并且Google知道将哪些页面链接到每个页面。

一段时间之后,Google进入了每个被索引的页面,并检查页面上的内容是否已更改。每个页面和每个站点的索引编制间隔基于许多因素。

因此,如果您删除了某个页面并在所有其他页面上更新了指向该页面的所有链接-Google不会立即知道该页面,它会尝试为已删除的页面建立索引,因为它计划在其计划中为该页面建立索引。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.