如何查找Google首次为URL编制索引的时间?


16

如何确定Google何时首次为特定网址建立索引?我更喜欢即使我不拥有竞争对手的URL也可以使用的解决方案。


1
答案很可能是“否”。Google甚至可能不会存储此信息(因为没有特别的原因,他们必须这样做),或者即使这样做,也可能不会将其公开给第三方。
Ilmari Karonen 2014年

1
就像其他人提到的那样,您无法获得此信息。如果您有权访问服务器日志,则可以看到它第一次被爬网的时间,但这并不意味着它随后被索引了。
约翰·穆勒

Answers:


15

要了解URL的年龄,您可以通过以下链接来替换www.example.com所需的URL:

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

例如,这是Google针对Stack Overflow的Meta网站的结果在此处输入图片说明

否则,Wayback机器也是一个很好的解决方案,但是根据我的经验,它不够精确。


3
Google的功能也可以英语提供吗?您已链接到法语版本。
斯蒂芬Ostermiller

1
@StephenOstermiller只需将tld从更改为.fr即可.com
MDMoore313

2
@Zistoloen +1为您解答,但我对您的查询有疑问。就像您说的那样,使用示例查询搜索了www.stackexchange.com,但未显示任何结果。我www此时也删除了搜索,它显示的是日期的结果,该日期Dec 1, 2014是最近的日期,不能是URL的使用期限。我搜索不正确吗?或缺少任何东西?
Sathiya Kumar

2
我“偷”了这个答案,并将其添加到我的答案中,并提供了更好的解释。Zistoloen,这是一个很棒的技巧。
Stephen Ostermiller

6
@Stephen&Zistoloen:通常不是 Google首次将该页面编入索引的日期。根据一些测试,通过此方法显示的日期似乎是从页面内容中拉出的(如果Google认为看到的日期看起来像是“发布日期”或“最后修改日期”),或者如果没有,根据Google上次看到页面更改(实质性?)的日期在内容中找到日期。当然,如果页面在首次发布后从未更改过,则该日期可能恰好与发布日期相同,但不能保证这一点。
Ilmari Karonen 2014年

8

Zistoloen找到了一种方法,让Google在首次索引页面内容时显示日期。我也将其添加到我的答案中,因为我认为我可以更清楚地解释它。

  1. 在Google中搜索可以调出所需页面的内容
  2. 使用“搜索工具”
  3. 从“任何时间”下拉列表中选择“自定义范围...”
  4. 放入较大的日期范围,例如1/1/1900至1/1/2020

然后,Google会在搜索结果中显示其发现内容的日期。

首先索引

如果页面使用新内容更新,则Google也会更新该日期。因此,它更像是“首先对该内容建立索引”日期,而不是“首先将该内容建立索引”日期。


页面的Google缓存显示页面的最后索引时间。您可以看到Stack Exchange主页在今天被最后索引:

在此处输入图片说明


另一种选择是使用Internet Archive的Wayback机。这样可以显示过去的页面外观。您可以弄清楚何时首次发布页面。首次发布后不久,Google和Internet存档都会抓取并使用该页面。


1
您的第一选择会为所有网址提供准确的结果吗?我按照您的解释搜索了bing.com,但没有获得的第一个索引日期bing.com。对不起,如果我错了?
Sathiya Kumar

1
只要页面上的内容没有更改,它似乎就是准确的。如果网页进行了大修,Google可能会重置该日期。 我的主页被列为2002年2月1日,即使内部页面被列为2001年2月1日。该页面在那时也进行了重新设计,而内部页面自2001
。– Stephen Ostermiller

@SathiyaKumar Bing.com使用此方法为我提供了2014年3月19日的日期。请注意,任何通过google编制索引的内容(通过robots.txt或其他方式)显然不会通过这种方式显示。
Thebluefish 2014年

4

可能没有任何方式发现当任意网页最早是由谷歌索引-当然,我不知道有什么办法做下去。Google可能根本不存储该信息,因为没有真正的理由需要它们。此外,即使他们确实存储了此信息,他们也确实没有特别的理由让第三方免费使用。

(如果这是您自己的页面,并且您可以访问旧的Web服务器访问日志,则很简单-只需搜索日志即可找到Googlebot对该页面的首次访问。但是,否则可能无法确定。)


无论如何,由Zistoloen和Stephen Ostermiller在他们的答案中描述的方法通常不会揭示Google首次为特定网址建立索引的日期。相反,它显示了Google 认为 URL上的内容被发布或最后更新的日期,并且通常基于Google或多或少可靠的从页面内容本身“嗅探”日期的尝试。

此视频中,Google的Matt Cutts简要介绍了如何选择这些日期。为了方便起见,我在下面录制了视频的相关片段(大约从2:09到2:22):

“ ...当我们推断日期时,或者当我们第一次看到它时,无论何时我们爬行该页面,或者如果我们可以在页面上的某个位置找到它,并且我们可以提取该日期,您通常都会看到该日期,我会在摘要的开头看到这一点。”

对于博客文章,Wiki页面或Stack Exchange问​​题之类的页面,其中软件运行站点会在页面本身上自动报告准确的创建/修改日期,而Google报告的日期很可能与之匹配。但是,对于其他类型的页面,Google的日期嗅探器必须更努力地工作,而且它并不总是正确的(在这种情况下,“正确”可能意味着什么)。

特别是,这些日期对于确定页面被索引多久基本上没有用这有两个原因:

  • 如果某个页面最近被修改,并且修改日期在页面上突出显示,则即使修改完全是微不足道的,Google也会将其作为页面的“日期”。

    例如,这个相当古老的Wiki页面(archive.org 于2003年首次建立索引)目前已由Google 标记为2014年11月10日(即该页面的最新编辑日期),如页面底部所示。那天发生的变化?只需从页面底部删除单个链接即可。

  • 相反,如果Google在页面上找到了很旧的“发布日期”,即使是在启动Internet之前发布日期,谷歌似乎也很乐意接受。

    例如,关于旧编程竞赛的这一页,Google的日期是1986年9月15日,实际上是该页上描述的事件的日期。同样,此页面记录了1970年的一次学生罢工,其日期由Google日期为1970年5月10日(该页面上扫描的文档之一的日期),更荒谬的是,此Linux手册页面的日期为Google 11月4日。 ,1989年(页面上使用的随机示例日期)。

    通过使用Stephen和Zistoloen描述的自定义日期范围搜索,但将范围的上限设置为1991年8月6日,可以找到更多此类示例。


好吧,在您的回答中,您主要反对Stephen和Zistoloen的回答,但是对于OP的问题“我如何找到Google首次为URL编制索引时如何找到?”,我找不到任何适当的答案。在你的回答!
Sathiya Kumar

可能没有任何答案,其他的说:“你不能”或“没有人知道怎样”。但是您说得对,让我将其编辑为我的答案。
Ilmari Karonen 2014年

@llmariKaronen +1用于编辑和添加OP实际问题的答案。
Sathiya Kumar 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.