Google如何识别帖子的发布日期


17

当我在Google中搜索内容时,有时会在下面看到该帖子/文章的发布日期。我还搜索了自己的文章,这些文章在我的Wordpress支持的网站上都有,而Google也会识别其发布日期。

当我打开网站的源代码时,我看不到任何特殊标签或任何指示发布日期的内容。它仅在常规div中编写,没有特殊标记,不会告诉SE它是发布日期(页面周围也可以有其他日期的其他日期)。

那么,是将WordPress的发布日期在DOM树中的确切位置硬编码到Google中,还是我遗漏了什么?

我正在使用自己的CMS建立一个新网站,并且试图找出如何实现日期发布识别。


2
您肯定会缺少一些东西:您只看过HTML,但是也有HTTP标头,指出页面被修改的时间。他们报告您的文章的永久链接是什么?我猜想Google会将其与页面更改量的自己的记录结合使用,但是我没有实际证据-因此是评论而不是答案。
彼得·泰勒

是的,我的尝试是“粗糙的”尝试。我将像其他人一样研究非HTML元素/标题和站点地图
CanPoyrazoğlu2011年

@Peter毫无疑问,HTTP标头(特别是Last-Modified标头)是SE使用的度量标准。但是,我怀疑它在确定文章的“发布日期”中起很大作用-至少不是Google显示的发布日期。(其他SE似乎没有显示“发布日期”?)文章的发布日期可能不是文档的最后修改日期。动态网站上的大多数页面(甚至包括wordpress帖子)似乎都返回到当前日期/时间附近。IMO的Last-Modified标头主要用于缓存。
怀特先生(MrWhite)2011年

我认为这与站点地图有关。
Poyrazoğlu能否在2011年

HTTP上次修改的stackoverflow.com/questions/204010/…或一些半标准的HTML元数据:stackoverflow.com/questions/4575967/…还有其他可能性,但是我不确定Google是否真的使用它们。
Ciro Santilli新疆改造中心法轮功六四事件

Answers:


4

您应该浏览xml网站地图或RSS feed版本,以通过主要搜索引擎(例如Google,Yahoo和MSN)索引您的发布数据。为您的网站生成XML网站地图,并将其提交到Web主工具中以进行索引。


7

我只是遇到一个问题,就是我的所有主要页面都显示为4年前进行了更新,即使Google 知道那不是真的,因为这些页面已经被索引了那么长时间,并且每个月都有很大的变化。经过真正的困惑,然后真正的烦恼,然后再次困惑,我终于找到了问题所在。我们的法律条款在隐藏的div中显示为“最新更新:2007年10月30日”,并且div几乎已加载到我们的所有页面上。(因为它会在注册时弹出),所以我删除了它,现在我假设日期将消失或被更合理地更正。

一个警告性的故事和更多的证据表明,他们比技术细节或自己的索引历史记录更能检查站点的语义。


您是否在页面,RSS提要或XML站点地图上的其他任何位置包括页面的上次修改日期?
怀特先生2012年

我不是,因为该网站不是新闻网站,所以我不想强调它。理想情况下,我的主页没有日期。另外,我想他们可能会在lastmod上撒上一大粒盐,我知道如果我是他们的话。
mmdanziger 2012年

7

我非常怀疑帖子或文章的发布日期是基于<lastmod>XML站点地图中的条目(正如其他人所建议的那样)还是基于Last-Modified HTTP标头。XML Sitemap只是建议性的,不是权威性的。文档的最后修改日期可能与文章的(原始)发布日期不同。而且,正如我在页面顶部我的评论中提到,一个文件的最后修改日期可能是缓存和更重要的也许是确定抓取率。动态生成页面的Last-Modified HTTP标头通常非常接近实际日期/时间(对于WordPress博客而言)。

另一方面,RSS / Atom提要确实包含此特定信息。确实,在内容中不包含发布日期的Wordpress网站上,发布日期仍会出现在Google的搜索结果中。据我所知,这与RSS Feed中的日期匹配。

编辑#1:但是,RSS提要不一定包含所有页面。在大多数情况下,它应仅包含最新或最近更新的页面。但是,没有理由让Google忘记已经阅读的内容,并且只要该页面的内容没有改变,那么最后修改的日期也不会改变。

如果没有RSS供稿,我认为Google足够聪明来分析页面内容。特别是如果在微格式的帮助下“日期”标记了日期。Google将以下内容视为包含在其中的文章的权威发布日期是完全可行的:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google当然可以读取微格式 -hCard,hReview等。

只是要补充一点,除非谷歌能够找到暗示这一点的权威性信息,否则我认为它不会说出发布日期。不会在推测性数据上推断出“发布日期”,因为不正确的“发布日期”对任何人都没有用,而Google会为此坚持到底!

仅作记录(如果@Tom表示其他建议:),我认为帖子/文章应具有可见的发布日期。许多人没有,这可能会使读者感到沮丧,尤其是在研究技术问题时,您会发现阅读本文的一半已经过时了!

编辑#2:此后,我经历了@mmdanziger在他的回答中详述的类似烦恼。在我的一个旧站点中,每页的顶部都有 “ Site Last Updated Sun 2012年6月17日”文本(未用任何特殊方式标记)(使用JavaScript写入该页面!)。这同一日期已被谷歌拿起和现在看来,出现在SERP中的几个一起(但不是全部)的页面-这肯定不是网页的发布日期。似乎Google只是在页面上抓取了“最后更新(datestring)” 形式的字符串(已经处理了JavaScript!)。该特定站点没有RSS feed。该站点确实有一个Sitemap.xml文件,但是日期不同。

我在其他网站上也注意到了类似的行为。


如何从中识别出正确的日期?<div class="footer"> <div class="links"> April 24, 2011 | <a href=...这是引用我帖子的发布日期的唯一位置,Google会找到它并在搜索结果中正确显示
CanPoyrazoğlu2011年

紧随其后的锚中有什么具体内容吗?再说一次,可能不是。您是否还有RSS feed(链接到文档的META标签中)?
MrWhite 2011年

我在寻找答案“ Google如何确定日期?” 但是注意到了同样的事情!Google会尝试在页面本身中找到一个时间字符串,而不是标题的last-modified或Sitemap.xml <lastmod>!感谢您确认我的想法!
evilReiko 2014年

5

我认为Google使用Sitemap和RSS feed来识别发布日期。您可以通过根据Standards创建xml网站地图,在CMS中实现此功能。

<lastmod>2011-08-18</lastmod>

2

根据Google的Jonh Mueller的说法:

我们使用各种信号来确定要显示哪个日期,或者根本不显示一个日期;它并不局限于一个特定的属性。

约翰·穆勒(John Mueller)-Twitter

但是,我发现Google最有可能在以下位置查找网页上的日期:

  • 在页面上一目了然,使用机器学习
  • Schema.org结构化的数据,尤其是如果也可以在页面上清楚地找到数据的情况下

1

我认为它会智能地在页面上查找任何日期,并且在确信它是相关日期时会使用它。

有时会有些困难,因为我认为这可能会对SERP可点击性产生负面影响,我想如果这是近期的文章/帖子,可能会产生暂时的积极影响,但是我敢肯定,没有它,我的网站会更好(不过,如果没有它,谷歌搜索者可能会更好!)

没有任何方法可以通过Google来控制它,只能使用您自己的方法。您可以:

  • 用动态生成的图像替换日期,以试图阻止Google发现它,但这会导致其他问题,例如视觉对齐/字体显示一致/可访问性等。
  • 删除页面上的所有日期(如果您有相关信息,当访问者/用户想要发现来源的年龄时,这可能再次使他们感到沮丧)。

由于这些原因,我只是忽略它。


我并不想删除我试图日期:) 添加日期功能到一个新的网站,我要建..
灿Poyrazoğlu
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.