Google为什么停止从我们的sitemap.xml中索引页面?


18

我们发现我们的网站中存在一些网页,sitemap.xml但Google的公共搜索索引莫名其妙地缺少了这些网页。

您无法下载/superuser//sitemap.xml,因为过去存在问题,因此我们会保护此文件,但googlebot可以。我们已经通过Google网站管理员工具验证了该sitemap.xml文件今天已被拉下,并且等级为“正常”,没有错误(绿色复选标记)。

替代文字

其中sitemap.xml包含我们网站上最近提出的50,000个问题的列表。例如,这个问题...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

...存在于sitemap.xml...中

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

搜索“如何查看一长串符号链接的末尾”仅给questionhub.com提供一个结果,该结果正在抓取我们的数据(一个完全不同的问题)。

您可以增加问题计数的数目,并精确搜索问题标题,您将看到此模式仍然存在。

这些网址位于 sitemap.xml中,但未显示在Google的索引中-但仍显示在抓取我们的创作共用数据的网站上。为什么会这样呢?


5
您可以随时在Google网站站长中心论坛中提问。google.com/support/forum/p/Webmasters?hl=en
亚历黑色

肯定有问题。该问题已在Google中建立索引,但超级用户STILL上的链接问题未出现在索引中。
Michael Pryor 2010年

杰夫可能会想问问马特·卡茨(Matt Cutts)。我已经看到他们在Twitter上互相交谈了几次。他通常很乐意提供帮助。
Virtuosi Media

3
FWIW我们目前在某些站点上发现新内容索引编制方面的问题。我们的帮助论坛中有一个主题位于google.com/support/forum/p/Webmasters/…。您提到的URL似乎受到了影响。我想这会很快解决,但是没有可用的修复时间表。谢谢你的耐心。
约翰·穆勒

1
看来现在已解决:-)。我尝试了网站上的一些新问题,并将它们全部编入索引。!
约翰·穆勒

Answers:


10

它看起来像谷歌在本周有一些技术问题爬行,那声音非常像我们正经历:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

似乎没有人能避免Google索引问题的困扰,许多网站所有者对此感到困惑。不论大小,博客和网站的索引编制速度都不会像通常那样快-如果要进行索引编制的话。

...

Google的John回答了网站站长论坛中的主题:

需要明确的是,我已详细审查了该线程中的问题,这并不是由于我们政策的更改或算法的更改;它们是由于我们这方面的技术问题而可以尽快解决的(尽管可能需要几天的时间才能在所有网站上看到)


7

Google不会提供任何报价,也不保证将站点地图中的页面编入索引。

我的经验是必须链接到某个页面(来自某个权限的页面)才能显示该页面。该页面/问题是否通过具有一定权限的页面直接/间接链接到?

例如,如果superuser.com主页(可能具有许多inlinks)直接链接至此问题,或者通过许多其他页面间接链接至该问题,则可以期望将其编入索引。

来自谷歌:

Google不保证我们会检索或索引您的所有URL。但是,我们将使用您站点地图中的数据来了解您站点的结构,这将使我们能够改进爬网程序的日程安排,并在将来更好地抓取您的站点。在大多数情况下,网站管理员可以从提交站点地图中受益,在任何情况下您都不会受到惩罚。

http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156184


4
超级用户应具有足够的链接和PR,以使有或没有站点地图的那些页面都被索引。次要页面会一直列出。实际上,它们构成了索引的大部分。我怀疑还有其他原因。
约翰·孔德

同意,该网站有很多PR和链接。但是,有问题的页面有没有链接的机会吗?如果superuser.com(偶然)没有链接到该页面,那么那对Google意味着什么?它说页面不重要。
亚历克斯·布莱克

2
该页面肯定是从首页链接的,并且继续通过许多其他页面链接。SE网站的交叉链接非常繁重。
凯文·蒙特罗斯

1
昨天某个时候,我遇到的一个测试问题命中之一是superuser.com主页-目标URL可见,即使在Google缓存中也是如此!但是问题本身没有被索引。很奇怪。
Jeff Atwood

2
绝对-单击主页上的HOT选项卡,或者单击WEEKLY或MONTHLY选项卡。就在那..
杰夫·阿特伍德

3

我认为Google可能很难索引您的网页,其中有50.000个。所以我的建议是将您的站点地图分解成这样

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

如果您将其细分,则可以更好地为这些50.000个URL编制索引。

Sitemaps.org对问题的解释

您可以提供多个Sitemaps文件,但是您提供的每个Sitemaps文件都不得超过50,000个URL,并且不得超过10MB(10,485,760字节)。如果愿意,可以使用gzip压缩Sitemap文件,以减少带宽需求;但是,一旦解压后,站点地图文件不得大于10MB。如果要列出50,000个以上的URL,则必须创建多个Sitemap文件。

如果确实提供了多个Sitemap,则应在Sitemap索引文件中列出每个Sitemap文件。Sitemap索引文件列出的Sitemap数量不得超过50,000个,并且不得超过10MB(10,485,760字节),并且可以压缩。您可以有多个Sitemap索引文件。Sitemap索引文件的XML格式与Sitemap文件的XML格式非常相似。

http://sitemaps.org/protocol.php


2
具有50,000页的站点地图非常常见。实际上,最近有人从他们的网站管理员帐户中发布了一个屏幕截图,显示Google已将几乎所有50,000个页面编入索引。而且我怀疑超级用户比其他站点更受欢迎(例如,链接流行度更高)。
约翰·孔德

1
“您要列出的网址超过50,000个。这是一个Sitemap最多可以包含的网址。” sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Jeff Atwood 2010年

1
如果您每天都有一个站点地图,那么一天结束后这些站点就永远不会改变,这样就不必再次对站点地图进行访问,他们就可以抓取已经为更改编入索引的链接,从而使Google不必陷入困境每天有50,000个网址,可以查看哪些是旧的,哪些是新的。
塞基(Sevki)2010年

@sevki到ACTIVITY DATE最早的50,001个问题(此日期之前有新答案,新内容等)将不在站点地图中。请记住,超级用户总共只有55k个问题。
杰夫·阿特伍德

@Jeff,但SO.com的站点地图中没有1,014,782和964,782,因此google或bing不知道它们的最后修改时间..这不会增加您的爬网。无论如何,我不想只是为了提供帮助而烦恼,我给您发送了一封包含更多详细信息的电子邮件。
塞夫基

2

看来,谷歌指出,46514个提交链接在索引中。网页排名是否会成为问题(我不想这么说)?刮刮站点可能在交联等方面做得更好,并且排名更高。只是一个想法。

这个搜索site:superuser.com如何查看一长串符号链接的末尾似乎也可以正确地获取sitemap.xml,尽管它没有返回预期的结果。


该抓取网站将superuser.com的属性指定为原始作者(尽管可以对其进行更明确的说明),因此Google应该知道他们是该内容的原始作者,并赋予它们优先于抓取网站的权限。
约翰·孔德

@john正确的,我们要求注明出处,并注明
Jeff Atwood 2010年

缓存的站点地图是“它于2010年10月17日格林尼治标准时间(GMT)出现”,就在我撰写本文时的4天前,因此它没有太多内容。我在缓存的sitemap.xml中检查了一些URL,它们在Google中也作为问题页面存在。
杰夫·阿特伍德

@john您可以举一个例子,说明他们如何给出归因。Thx
Greg B 2010年

@Greg,只需要查找超级用户徽标
John Conde

2

这类事情有很多潜在的答案。

我首先要问您实际有多少页。(您向50,000个URL提交了一个快速的网站:superuser.com,显示有125,000个索引,您是否认为只有5万个URL并且正在提交所有URL,但Google却发现每页有2-3个副本?或者您有100万个URL而只有12.5个URL %正在编制索引)了解全局有助于确定在哪里查找问题。

如果第一步似乎没有什么问题,我将继续研究内容,看来QH的页面上有很多内容,并且链接了许多其他“资源”,尽管事实上所有内容都已被删除,但Google可能会认为页面更有用,因为它们为用户提供了更多资源/信息。如果他们被认为是权威,并且您的所有内容与他们的内容相同,那么即使您是原始人,Google也可能不会为您编制索引。

如果您确信这不是问题的根源,则可以建立一些高质量的链接,可以在一些受欢迎的员工博客上写此问题,或请一些朋友就此问题写博客,也许如果您有运行受欢迎的博客的SEO朋友,他们会写一个案例研究等

如果您有很多强大的链接,但仍未建立索引,则出于某些原因,可能会受到处罚(在大多数情况下,这不是问题,但检查不会有任何麻烦)。

如果这些都不起作用,那么十分之九的问题就是被忽略的简单技术问题(机器人排除或类似问题)。

如果您在完成此操作后仍然没有答案,请询问Google,希望他们能为您提供答案。


0

这个问题是昨天才问的-给googlebot一个机会,您不是Internet上唯一要爬网的网站,您知道的:)

如果通常在一天左右的时间内将问题编入索引,并且一周过去又仍然没有对问题进行索引,那么我可能会担心。但肯定不会在1天后。


1
它们通常在一小时内出现。所以我同意,我应该给它一点时间,但是相对于它通常的频率...我有。
Michael Pryor 2010年

@michael确保您正在将苹果与苹果进行比较-Google似乎为stackoverflow.com编制索引的速度比我们其他网站高得多。
Jeff Atwood
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.