什么会导致新GWT中“已发现-当前未建立索引”


18

新的GWT显示了分为新类别的站点地图链接。让我感到困惑的两个问题:1.发现-当前未编入索引2.抓取-当前未编入索引

造成这种情况的可能原因是什么?对整个站点有何影响?这是Google的标志,我应该考虑删除这些标志?

在此处输入图片说明

Answers:


11

这只是过程的一部分。在您真正遇到错误之前,您无需执行任何操作

要了解类别,您需要了解索引是如何工作的,这几乎是连续完成的:

  • Googlebot会获取一个页面,这意味着将其内容下载到Google服务器上。发生这种情况时,将对页面进行爬网
  • 稍后它将下载的页面的内容放入索引。这意味着页面已被索引
  • 搜寻页面时,它会找到喜欢的页面并将其放入队列中。这些链接被发现

所以:

  • 发现未建立索引意味着链接已添加到Googlebot 最终可能爬网的事物队列中。由于网络实际上是无限的,并且存在优先级,因此它可能永远无法到达那里。
  • 目前未建立索引已爬网,表示该页面已下载到Google服务器上,但其内容尚未插入索引中。

1
我要补充一点,Google根据PageRank决定要抓取的内容。链接到页面的频率更高或更突出(甚至在内部),可以使Googlebot对其进行爬网。
Stephen Ostermiller

3
我认为“当前未编入索引”也可能意味着Google选择不对其进行索引。它可以重复或看起来质量低劣。它可能没有足够的Pagerank。Google可能会认为搜索量不足。
Stephen Ostermiller

这就是我对优先级的暗示。可能是重复的链接会发生这种情况(有时是因为它们仅在一个参数上不同或与另一个规范匹配)。
Itai

页面掉入和移出“当前未检索的已编入索引”,而没有任何我的注意。信息也令人怀疑。范例:经过检查的网址会产生一条消息,指出该网址已被索引,但没有在任何站点地图中……该页面已在站点地图中存在多年。最近的算法更新使此报告一发不可收拾。
GLCoder

3

Google可能会发现并抓取您的页面,但这并不意味着它将对它们进行索引。

Google可能无法为页面编制索引的原因有很多。也许它发现重复的内容。也许它没有为任何特定的搜索查询提供足够的价值。Google可能在您的网页上找到了不受欢迎的内容。

无论是什么原因,Google都还没有决定对它在您的网站上发现并爬网的某些页面建立索引。您的某些页面不被索引是很正常的。尽管我网站上的某些页面的内容比许多被索引的页面更好,并且具有大量的内部链接,但这些页面并未被索引。Google的索引系统是一种机器学习算法。因此,有时出于各种未知原因,它可能决定不对某些页面进行索引。


1
“也许找到了重复的内容”>我想补充一下,尽管如此,由于该消息是“已发现-当前未建立索引”,因此它表示该页面甚至尚未被提取(否则将被“抓取” -当前未编入索引”)。因此,此时他们对其内容一无所知。因此,我认为在此阶段确定优先级取决于URL本身,链接到它的页面数以及可能的其他情况。
Niavlys

2

Googlebot根据不同的参数有自己的队列。这是关于那些URL甚至已排队的消息。

在此处输入图片说明

Aj Cohn对于此消息的含义有一种有趣的看法

已发现-当前未编入索引似乎表明他们在您的站点地图中看到了它,但是基于其他内容的外观,他们甚至都不会去抓取它。从本质上讲,“太丑了!”或者,也许这只是爬行效率差的代表。

坦白说,由于该状态下的许多示例URL的上次爬网日期都是不确定的,因此我并不完全确定Discovered的定义是否正确。这似乎与所提供的定义相矛盾。


2
我删除了“阅读手册”位。那没有帮助。特别是因为Google的文档非常差。
斯蒂芬·奥斯特米勒

0

即使Google发现了该URL,它仍然认为花时间进行爬网并不重要。如果您希望此页面获得自然搜索流量,请考虑从您自己的网站内链接到该页面。确保将这些内容推广给其他人,希望您可以从外部网站获得反向链接。指向您内容的外部链接向Google发出信号,表明页面很有价值并且被认为是值得信任的,这增加了将其编入索引的可能性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.